EKSAMEN I TMA4255 ANVENDT STATISTIKK

Like dokumenter
EKSAMEN I TMA4255 ANVENDT STATISTIKK

EKSAMEN I TMA4255 ANVENDT STATISTIKK

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i TMA4255 Anvendt statistikk

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i TMA4255 Anvendt statistikk

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Eksamensoppgave i TMA4240 Statistikk

TMA4245 Statistikk Eksamen desember 2016

UNIVERSITETET I OSLO

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

HØGSKOLEN I STAVANGER

Eksamensoppgåve i TMA4255 Anvendt statistikk

Eksamensoppgåve i TMA4255 Anvendt statistikk

EKSAMEN I TMA4240 Statistikk

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

TMA4240 Statistikk Høst 2009

Eksamensoppgåve i TMA4255 Anvendt statistikk

UNIVERSITETET I OSLO

Eksamensoppgåve i TMA4255 Anvendt statistikk

Eksamensoppgave i TMA4267 Lineære statistiske modeller

TMA4240 Statistikk Eksamen desember 2015

TMA4245 Statistikk Eksamen desember 2016

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4245 Statistikk

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Eksamensoppgåve i TMA4240 Statistikk

UNIVERSITETET I OSLO

HØGSKOLEN I STAVANGER

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

UNIVERSITETET I OSLO

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Eksamensoppgave i TMA4240 Statistikk

ECON240 VÅR / 2016 BOKMÅL

TMA4240 Statistikk Høst 2007

10.1 Enkel lineær regresjon Multippel regresjon

TMA4240 Statistikk 2014

i x i

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Eksamensoppgave i TMA4267 Lineære statistiske modeller

TMA4240 Statistikk H2010

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2016

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

TMA4245 Statistikk Eksamen august 2014

Fasit for tilleggsoppgaver

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Fasit og løsningsforslag STK 1110

Eksamensoppgåve i TMA4255 Anvendt statistikk

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2009

ST0202 Statistikk for samfunnsvitere

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

UNIVERSITETET I OSLO

TMA4240 Statistikk Eksamen desember 2015

Tilleggsoppgaver for STK1110 Høst 2015

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Oppgave N(0, 1) under H 0. S t n 3

EKSAMENSOPPGAVE KLH3004 Medisinsk statistikk (Medical statistics) KLMED8004 Medisinsk statistikk, del I (Medical Statistics, Part I)

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Løsningsforslag eksamen 25. november 2003

Eksamensoppgave i TMA4240 Statistikk

i=1 x i = og 9 x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x

UNIVERSITETET I OSLO

Eksamensoppgave i ST0103 Brukerkurs i statistikk

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Lørdag 4. juni 2005 Tid: 09:00 13:00

EKSAMENSOPPGAVE STA-1001.

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

UNIVERSITETET I OSLO

EKSAMENSOPPGAVER STAT100 Vår 2011

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

UNIVERSITETET I OSLO

Transkript:

Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 7 Faglig kontakt under eksamen: Mette Langaas (988 47 649) BOKMÅL EKSAMEN I TMA4255 ANVENDT STATISTIKK Fredag 25. mai 2012 Tid: 9:00 13:00 Antall studiepoeng: 7.5. Tillatte hjelpemidler: Alle trykte og håndskrevne hjelpemidler. Spesiell kalkulator. Sensurfrist: 18. juni 2012. Eksamensresultatene annonseres fra http://studweb.ntnu.no/. Merk deg følgende: Signifikansnivå 5% skal brukes hvis ikke annet er spesifisert. Alle svar må begrunnes.

TMA4255 Anvendt statistikk Side 2 av 7 Oppgave 1 Vitamin C I en medisinsk studie på marsvin ble det benyttet to ulike kilder til vitamin C-inntak. Disse var appelsinjuice (tilskudd 1) og syntetisk askorbinsyre (tilskudd 2). Responsmålet som ble brukt var lengden til odontoblastceller i fortennene til marsvinene. Forskerne hadde som mål å finne ut om det var en forskjell i dette responsmålet for de to tilskuddene. X 1, X 2,..., X n1 angir odontoblastlengdene til et tilfeldig utvalg av n 1 marsvin som fikk tilskudd 1 og Y 1, Y 2,..., Y n2 angir odontoblastlengdene til et tilfeldig utvalg av n 2 marsvin som fikk tilskudd 2. Vi antar at E(X i ) = µ, Var(X i ) = σ 2, E(Y j ) = η og Var(Y j ) = τ 2 for i = 1, 2,..., n 1 og j = 1, 2,..., n 2, og at de to tilfeldige utvalgene er uavhengige. Totalt fikk n 1 = 10 marsvin tilskudd 1 og n 2 = 10 marsvin tilskudd 2. Datasettet finner du (sortert) i tabellen under. Lengdene er i mikrometer (10 6 meter). Tilskudd Observasjoner Tilskudd 1: Appelsinjuice 8.2 9.4 9.6 9.7 10.0 14.5 15.2 16.1 17.6 21.5 Tilskudd 2: Askorbinsyre 4.2 5.2 5.8 6.4 7.0 7.3 10.1 11.2 11.3 11.5 Deskriptive mål for datasettet er x = 1 1 10 9 i=1(x i x) 2 = 4.44, og s y = 1 9 10 10 i=1 x i = 13.18, ȳ = 1 10 10 j=1 y j = 8.00, s x = 10 j=1(y j ȳ) 2 = 2.77. a) Skriv ned nullhypotesen og den alternative hypotesen som forskerne ønsker å teste. Hvilke antagelser må du gjøre for å kunne bruke en to-utvalgs t-test? Er det fornuftig å anta at variansene σ 2 og τ 2 er like? Her kan du bruke signifikansnivå α = 0.02 hvis du velger å utføre en test for å undersøke om variansene er ulike. Utfør en t-test. Vil du konkludere med at det er forskjell i lengden til odontoblastcellene i en populasjon som bruker tilskudd 1 og en populasjon som bruker tilskudd 2? b) Et alternativ til en to-utvalgs t-test er Wilcoxon rang-sum-test (også kalt Mann-Whitney test). Hvilke antagelser bygger Wilcoxon rang-sum-testen på? Når bør du bruke Wilcoxon rang-sum-test istedenfor to-utvalgs t-test? Utfør Wilcoxon rang-sum-testen for dataene i tabellen over. Vil du konkludere med at det er forskjell i lengden til odontoblastcellene i en populasjon som bruker tilskudd 1 og en populasjon som bruker tilskudd 2?

TMA4255 Anvendt statistikk Side 3 av 7 Oppgave 2 Kjemisk produkt Vi skal studere en kjemisk prosess og lage en statistisk modell som relaterer mengden kjemisk produkt til temperatur og trykk for den kjemiske prosessen. Vi bruker følgende notasjon. y, produkt. Mengden produkt fra den kjemiske prosessen. x 1, temperatur. Temperaturen som ble brukt under prosessen. x 2, trykk. Trykket som ble brukt under prosessen. Den kjemiske prosessen ble kjørt for n = 21 ulike kombinasjoner av temperatur og trykk, og mengden produkt ble målt. En multippel lineær regresjonsmodell kan brukes til å analysere dataene. La (y i, x 1i, x 2i ) være målingene gjort ved ite kjøring av prosessen. Modell A y i = β 0 + β 1 x 1i + β 2 x 2i + β 3 x 1i x 2i + ε i Her er ε i u.i.f. N(0, σ 2 ) for i = 1,..., n. Spredningsplott (scatter plots) finner du på side 4 (øvre og midtre rad). Modell A ble tilpasset til dataene, og resultatet finner du på side 5. Plott av studentiserte residualer er på side 4 (nedre rad). a) Skriv ned den tilpassede regresjonsmodellen. Hva er estimatet for σ 2? Det er gitt en p-verdi i raden for x2 i resultatene. Forklar med ord hva denne p-verdien betyr. Basert på plottene og regresjonsresultatene, vil du si at modell A er en god modell for dataene? Du må spesifisere hvilke egenskaper til plottene og regresjonsresultatene du bruker for å komme frem til svaret ditt.

TMA4255 Anvendt statistikk Side 4 av 7 100 120 140 160 180 200 450 500 550 600 650 700 750 800 x1 y 1000 1200 1400 1600 1800 2000 450 500 550 600 650 700 750 800 x2 y 150000 200000 250000 300000 450 500 550 600 650 700 750 800 x1 * x2 y 100 120 140 160 180 200 1000 1200 1400 1600 1800 2000 x1 x2 450 500 550 600 650 700 750 1 0 1 2 3 Fitted values Studentized residuals 2 1 0 1 2 1 0 1 2 3 Normal Q Q Plot Theoretical Quantiles Sample Quantiles

TMA4255 Anvendt statistikk Side 5 av 7 Regression analysis Predictor Coef SE Coef T P Constant 181.8 156.6 1.16 0.262 x1 2.146 1.018 2.11 0.050 x2-0.0440 0.1043-0.42 0.678 x1*x2 0.0007774 0.0006942 1.12 0.278 S = 27.2502 R-Sq = 93.8% R-Sq(adj) = 92.7% Analysis of Variance Source DF SS MS F P Regression 3 190830 63610 85.66 1.825e-10 Residual Error 17 12624 743 Total 20 203454 Anta at et konstantledd, β 0, er med i regresjonsmodellen. Vi skal nå se på ulike regresjonsmodeller, der vi har med ulike kombinasjoner av forklaringsvariablene x 1, x 2 og x 1 x 2. Resultater fra tilpasningen av modellene er presentert i tabellen under. Hver rad i tabellen svarer til en modell. Antallet forklaringsvariabler inkludert i hver modell finner du i kolonnen med navn par (ikke medregnet konstantleddet). I kolonnen med navn MSE finner du gjennomsnittlig kvadratavvik (mean squared error) til regresjonen. ˆβ 0 ˆβ1 ˆβ2 ˆβ3 par MSE R2 R2.adj C p 1 151 3.067 1 1179 89.0 88.4 13.2 2 641-0.020 1 10667 0.4-4.9 255.9 3 315 0.001 1 5093 52.4 49.9 113.3 4 15 3.263 0.071 2 753 93.3 92.6 3.3 5 117 2.563 0.0005 2 709 93.7 93.0 2.2 6 505-0.258 0.002 2 885 92.2 91.3? 7 182 2.146-0.044 0.001 3 743 93.8 92.7 4.0 b) I kolonnen helt til høyre i tabellen finner du Mallow s C p. Ett av tallene i denne kolonnen er erstattet med et spørsmålstegn. Skriv ned definisjonen av C p og regn ut den manglende C p -verdien. Forklar hvordan du kan bruke C p til å sammenlignen de ulike regresjonsmodellene. Hvilken av disse 7 regresjonsmodellene mener du er den «beste» for dette datasettet?

TMA4255 Anvendt statistikk Side 6 av 7 Oppgave 3 Behandling av tennisalbue Uttrykket tennisalbue brukes om en betennelsestilstand i albuen, som forårsaker smerter. Tilstanden er vanlig hos personer som driver med racketsport, men enhver aktivitet som involverer gjentatt vriding av håndleddet (som ved å bruke et skrujern) kan forårsake denne tilstanden. Tilstanden kan også skyldes konstant bruk av tastatur eller mus. I en randomisert klinisk studie ønsket man å sammenligne tre ulike behandlingsmåter for tennisalbue, A: fysioterapi, B: injeksjon med steroider og C: vent-og-se (pasientene i vent-og-se gruppen fikk ikke noen behandling, men ble bedt om å belaste albuen så lite som mulig). Vi skal se på korttidseffekt av behandling ved å se på målinger etter 6 uker. Alle deltakerne i studien hadde bare en arm med tilstanden tennisalbue. Flere responsmål ble registrert i studien, og vi vil i det følgende se på to ulike responsmål. a) Behandlingen ble regnet som en suksess hvis pasienten vurderte at hun/han var blitt mye bedre eller helt bra (en standardisert forbedringsskala ble brukt). Antallet suksesser og fiaskoer etter 6 ukers behandling finner du i tabellen under. Behandling Fiasko Suksess Totalt A (fysioterapi) 22 41 63 B (injeksjon) 14 51 65 C (vent-og-se) 44 16 60 Totalt 80 108 188 Vil vil undersøke om suksessraten er ulik for behandlingene. Skriv ned nullhypotesen og den alternative hypotesen og utfør en hypotesetest på grunnlag av informasjonen i tabellen over. For å forenkle beregningsbyrden kan det oppgis at χ 2 -testobservatoren blir 36.6, og du trenger bare å vise hvordan du regner ut ett av de 6 leddene i summen. Hvilke antagelser må du gjøre for å bruke denne testen? Hva er din konklusjon basert på denne testen? Vi skal nå se på et responsmål som kalles smertefri gripestyrke. Dette ble målt med et digitalt dynamometer og normalisert til gripestyrken i den friske armen. En smertefri gripestyrke på 100 betyr at den affiserte armen og den ikke-affiserte armen fungerer like godt. Deskriptive mål for hver av behandlingsgruppene er presentert i tabellen på toppen av side 7.

TMA4255 Anvendt statistikk Side 7 av 7 Behandling Utvalgsstørrelse Gjennomsnitt Standardavvik A (fysioterapi) 63 70.2 25.4 B (injeksjon) 65 83.6 22.9 C (vent-og-se) 60 51.8 23.0 Totalt 188 69.0 b) Vi ønsker å undersøke om den forventede smertefrie gripestyrken varierer mellom behandlingsgruppene. Skriv ned nullhypotesen og den alternative hypotesen og utfør en hypotesetest basert på de deskriptive målene i tabellen over. Hvilke antagelser må du gjøre for å kunne bruke denne testen? Hva er din konklusjon basert på denne testen? c) Vi ønsker å parvist sammenligne den forventede smertefrie gripestyrken for alle behandlingsgruppene. Anta nå at utvalgsstørrelsene for alle behandlingene er n A = n B = n C = 63 og at gjennomsnitt og empirisk standardavvik for hver behandlingsgruppe er som gitt i tabellen over. Utfør sammenligningene ved å konstruere simultane konfidensintervall for den forventede differansen i smertefri gripestyrke mellom alle par av behandlinger ved å bruke Tukeys metode. Bruk et overordnet konfidensnivå på 95% for alle sammenligningene. Hvilke antagelser må du gjøre? Finn det felles individuelle konfidensnivået som er brukt for hver av sammenligningene. d) La µ A angi den forventede smertefrie gripestyrken i en populasjon der fysioterapi blir brukt for behandling av tennisalbue, og la µ C angi den forventede smertefrie gripestyrken i en populasjon der vent-og-se brukes. Definer den relative differansen mellom disse to forventningsverdiene som γ = µ A µ C µ C. Dette kan fortolkes som den forventede relative økningen i smertefri gripestyrke når fysioterapi brukes istedenfor vent-og-se behandling. Foreslå en estimator, ˆγ, for γ basert på to uavhengige utvalg av størrelse n A og n C fra fysioterapi og vent-og-se-behandlingsgruppene. Bruk tilnærmede metoder til å finne forventningsverdi og varians til denne estimatoren, E(ˆγ) og Var(ˆγ). Bruk utvalgsstørrelsene, gjennomsnittene og de empiriske standardavvikene for fysioterapi og vent-og-se behandlingsgruppene som er presentert i tabellen på toppen av denne siden til å regne ut numerisk verdi for ˆγ og estimere numeriske verdier for E(ˆγ) og Var(ˆγ). Hvis du fikk vite at de to utvalgene ikke var uavhengige, hvordan ville det påvirke approksimasjonen du har funnet for E(ˆγ) og Var(ˆγ)?