UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: ST 301 Statistiske metoder og anvendelser. Eksamensdag: Torsdag, 2. juni, 1994. Tid for eksamen: 09.00 14.00. Oppgavesettet er på 7 sider. Vedlegg: Tillatte hjelpemidler: Tabeller over t-, F- og normalfordelingen. Alle trykte og skrevne samt regneutstyr. Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Merknader (i) Det er mange spørsmål, og det forventes at mange av eksamenskandidatene ikke vil rekke over alle. (ii) Noen av spørsmålene kan besvares på flere måter, og ikke alle har entydige svar. Oppgave 1. To forskjellige behandlinger mot astma skal sammenlignes. Effekten av behandlingene vurderes ved å måle pasientenes PEF (peak expiratory flow). PEF måles i liter pr. minutt. En høy verdi angir god lungefunksjon. 18 pasienter (9 i hver behandlingsgruppe) deltar i forsøket. Pasientenes lungefunksjon måles annenhver dag i 3 uker. Vi har altså 11 observasjoner for hver pasient. De er plottet i Figur 1.1. Heltrukne og stiplede linjer er benyttet for å skille mellom de to behandlingsgruppene. (Fortsettes side 2.)
Eksamen i ST 301, Torsdag, 2. juni, 1994. Side 2 Figur 1.1. a) Studer figur 1.1. Forsøk å gi en innledende vurdering av mulige behandlingsforskjeller. Er det andre vesentlige trekk ved dataene? Tabell 1.1 nedenfor gir forskjellig deskriptiv statistikk som du vil ha nytte av videre i oppgaven. Pas. nr. Tabell 1.1. Mean Median â i se(â i ) ˆbi se(ˆb i ) Residual varians Behandling 1 485.5 500.0 485.45 8.61 2.454 0.678 202.4 1 2 372.7 360.0 275.48 13.49 8.841 1.063 497.5 1 3 321.8 340.0 245.82 29.05 6.909 2.290 2306.7 1 4 291.8 290.0 270.32 7.22 1.954 0.569 142.5 1 5 414.5 390.0 382.05 28.11 2.954 2.215 2159.1 1 6 508.6 510.0 490.14 7.16 1.682 0.564 140.0 1 7 358.6 360.0 350.14 8.17 0.773 0.644 182.4 1 8 459.5 460.0 443.55 5.11 1.454 0.403 71.3 1 9 366.4 360.0 335.36 11.69 2.818 0.921 373.3 1 10 456.0 450.0 464.80 22.67 0.800 1.786 1404.3 0 11 322.7 320.0 306.73 11.91 1.454 0.938 387.5 0 12 570.5 570.0 563.95 8.95 0.591 0.705 218.8 0 13 581.8 580.0 570.32 12.24 1.046 0.964 409.2 0 14 396.4 400.0 393.86 10.34 0.227 0.815 292.4 0 15 422.7 410.0 409.73 13.07 1.182 1.030 467.1 0 16 610.0 610.0 589.00 10.66 1.909 0.840 310.7 0 17 462.7 465.0 452.23 6.89 0.955 0.543 129.7 0 18 405.5 410.0 405.45 8.73 0.000 0.688 208.1 0 (Fortsettes side 3.)
Eksamen i ST 301, Torsdag, 2. juni, 1994. Side 3 Her gir kolonne 2 og 3 gjennomsnitt og median over de 3 ukene, mens kolonne 4 8 angir beregninger etter å ha tilpasset regresjonslinjen y it = a i + b i t + ε it, t = 1,..., 11 for hver pasient. b) Bruk en t-test på mean-kolonnen. Finner du signifikant forskjell mellom de to behandlingsgruppene? c) Bruk â i -kolonnen og ˆb i -kolonnen til å teste om det er signifikant forskjell mellom gruppene nå. d) Hva er grunnen til at konklusjonen i b) og c) ble forskjellig? Den metoden vi her har brukt til å analysere repeterte målinger er bare en av mange mulige. e) Beskriv kort andre fremgangsmåter. Oppgave 2. Det skal produseres en ny type tabletter, og en er interessert i hvordan mengden legemiddel og hjelpestoffene stearat og stivelse påvirker tablettykkelsen (cm 10 2 ). Det blir utført et flerfaktorforsøk med hver faktor på 2 nivåer, et høyt og et lavt nivå. For hver faktorkombinasjon gjøres 2 replikasjoner. Data er gitt i Tabell 2.1 nedenfor. a b c y 0 0 0 47.5 0 0 0 46.6 1 0 0 48.7 1 0 0 46.6 0 1 0 44.1 0 1 0 44.9 1 1 0 44.6 1 1 0 45.1 0 0 1 51.1 0 0 1 52.2 1 0 1 53.6 1 0 1 54.5 0 1 1 47.2 0 1 1 49.7 1 1 1 52.1 1 1 1 52.6 Tabell 2.1: Lavt nivå av en faktor er kodet 0, høyt nivå er kodet 1. Faktor A er stearat, hhv 0.5mg og 1.5mg. Faktor B er legemiddel, hhv 60mg og 120mg. Faktor C er stivelse, hhv 30mg og 50mg. (Fortsettes side 4.)
Eksamen i ST 301, Torsdag, 2. juni, 1994. Side 4 a) Hvorfor gjennomføres ofte flerfaktor forsøk ved å variere faktorer simultant? Figur 2.1: Gjennomsnittseffekt av stivelse på tablettykkelse ved høyt (O) og lavt (*) nivå av stearat. Stiplede linjer er trukket mellom observasjonene for å gjøre figuren tydeligere. b) Figur 2.1 viser gjennomsnittseffekt av stivelse på tablettykkelse ved høyt og lavt nivå av stearat. Ser det ut til å vre en interaksjonseffekt? Forklar hva som menes med interaksjon. c) Benytt ANOVA-tabellen nedenfor til å vurdere hvorvidt hovedeffekter og interaksjoner er statistisk signifikante. Anova Table Source df SS MS A 1 13.14 13.141 B 1 26.27 26.266 C 1 126.0 126.00 A*B 1 0.391 0.3906 A*C 1 7.156 7.1556 B*C 1 0.051 0.0506 A*B*C 1 0.766 0.7656 Residual 8 7.315 0.9144 Total 15 181.1 (Fortsettes side 5.)
Eksamen i ST 301, Torsdag, 2. juni, 1994. Side 5 Anta at man ønsker å lage en prediksjonsmodell for tabelltykkelse (y) ut fra andre nivåer av stearat, legemiddel og stivelse enn de som er brukt under forsøket. Dersom x 1, x 2, x 3 er stearat, legemiddel og stivelsesnivå henholdsvis, er en mulig prediksjonsmodell y pred = µ + a(x 1 1) + b(x 2 90) + c(x 3 40), der µ, a, b, c er koeffisienter og der 1, 90 og 40 er gjennomsnittsnivåene i eksperimentet (for eksempel er stearat på nivåene 0.5 og 1.5 mg slik at gjennomsnittet er 1). Prediksjonsmodellen over bruker faktorene linert. Dersom vi tar med samspillsledd som i ANOVA-tabellen blir prediktoren y pred = µ + a(x 1 1) + b(x 2 90) + c(x 3 40) +(a b)(x 1 1)(x 2 90) + (a c)(x 1 1)(x 3 40) + (b c)(x 2 90)(x 3 40) +(a b c)(x 1 1)(x 2 90)(x 3 40), der (a b), (a c) o.s.v. er koeffisienter for interaksjonsleddene. d) Gi en begrunnelse for at det kan vre rimelig å ta med de tre linere leddene samt samspillsleddet mellom a og c i prediksjonsmodellen. Dataene ga følgende estimater for parametrene for modellen i d): ˆµ = 48.82 (0.24) â = 1.81 (0.478) ˆb = 0.043 (0.0080) ĉ = 0.281 (0.024) (â c) = 0.134 (0.0478) Standardfeilene er gitt i parentes. Alle estimatene kan oppfattes som stokastisk uavhengige. e) Anslå forventet tabelltykkelse når x 1 = 0.8, x 2 = 90 og x 3 = 45. Bestem også anslagets standardfeil. Oppgave 3. Ved utprøvning av et anestesimiddel (narkosemiddel) var en interessert i bivirkningsfrekvens og om denne kunne knyttes til andre variable. I analysen nedenfor er responsvariabelen y en binr variabel; bivirkning eller ikke. Vi skjelner altså ikke mellom forskjellige typer bivirkninger. Kovariatene var: (Fortsettes side 6.)
Eksamen i ST 301, Torsdag, 2. juni, 1994. Side 6 X 1 =AGE alder i år kontinuerlig X 2 =SEX 0=mann binr 1=kvinne X 3 =WEIGHT vekt i kg kontinuerlig X 4 =TREAT infusjonshastighet kontinuerlig i 100 ml/t X 5 =ASAGRAD klassifikasjon kontinuerlig av sykelighet (1,2,3) Studien omfattet 551 individer. 45 av dem hadde opplevd bivirkninger og 506 ikke. a) Hvorfor er logistisk regresjon egnet til å analysere slike data? Skriv opp en logistisk regresjonsmodell der du bare tar med hovedeffekter av forklaringsvariablene. Vi skal først studere forklaringsvariablene enkeltvis. Tabellen nedenfor viser estimat, standardfeil, antall ukjente parametre i modellen og modellens log likelihood. Modellen CONSTANT uttrykker at ingen av forklaringsvariablene var med under tilpasningen, mens AGE betyr at bare alder var med, SEX at bare kjønn var med osv. Variabel Estimat SE Ant.param. Log likelihood CONSTANT 2420 0.156 1 155.839 AGE 0.010 0.011 2 155.436 SEX 0.018 0.374 2 155.837 WEIGHT 0.004 0.013 2 155.838 TREAT 0.039 0.042 2 155.407 ASAGRAD 0.832 0.344 2 153.224 b) Du legger merke til at log likelihood for CONSTANT er mindre enn for de øvrige modellene. Hvorfor er dette ingen tilfeldighet? c) Foreta en (innledende) vurdering av variablenes betydning ut fra to forskjellige signifikanstester. Gi en kort konklusjon. Nedenfor finner du resultatet av å tilpasse modellen med alle forklaringsvariablene. Variabel Estimat SE CONSTANT 3633 1.30 AGE 0.003 0.011 SEX 0.062 0.430 WEIGHT 0.053 0.015 TREAT 0.056 0.044 ASAGRAD 0.903 0.366 Antall parametre i modellen er 6. Log likelihood = 152.296. (Fortsettes side 7.)
Eksamen i ST 301, Torsdag, 2. juni, 1994. Side 7 Dersom du ønsker det, kan du i diskusjonen nedenfor også trekke inn variablenes korrelasjonsmatrise: AGE SEX WEIGHT TREAT ASAGRAD AGE 1 SEX 0.061 1 WEIGHT 0.062 0.478 1 TREAT 0.128 0.043 0.084 1 ASAGRAD 0.251 0.031 0.105 0.226 1 d) Gjenta vurderingen av variablenes betydning. e) Se spesielt på variabelen WEIGHT og legg merke til endringen i tforholdet (estimat dividert med standard feil) fra den første analysen i c). Gi en begrunnelse (ved å sammenligne log likelihood) for at denne endringen kanskje ikke representerer noe reelt. (Hint: Legg merke til hvor liten forskjell det er på log likelihood når alle variablene er med og når bare ASAGRAD er med.) f) Estimer odds ratio for to nivåer av ASAGRAD. Gi også et (tilnrmet) 95% konfidensintervall. g) Hvilken betydning har valg av modell for beregningene i f)? SLUTT