EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir forlag) OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt. Oppgave 1 Vi vil i denne oppgaven analysere kolesterolnivå før og etter diett. I tabellen under er kolesterolnivået målt for 9 menn før og etter diett. Person nr. 1 2 3 4 5 6 7 8 9 Før diett 9.65 5.17 6.28 7.58 6.50 6.39 5.75 7.99 5.63 Etter diett 2.39 5.40 4.05 2.31 5.79 4.34 5.74 5.48 6.01 Differanse -7.26 0.23-2.23-5.27-0.71-2.05-0.01-2.51 0.38 Gjennomsnitt Standardavvik Før diett 6.77 1.41 Etter diett 4.61 1.44 Differanse -2.16 2.62 a) Hvorfor bør en her bruke parvise sammenligninger? Formuler og utfør en hypotesetest for å teste om kolesterolnivået har endret seg etter dietten. Gjør rede for de antakelser du må gjøre for å gjennomføre testen. 1
Oppgave 2 I denne oppgaven skal vi se på data fra et eksperiment med peanøtt-avlinger. Du skal hjelpe en landbruksforskningsinstitusjon med å finne ut hvilken av 3 ulike peanøtt-typer som gir størst avling. De har gjort et eksperiment med 12 ulike jevnstore åkerlapper som blir (tilfeldig) tildelt en av de tre peanøtt-typene. Resultatet for avlingsmengdene er gitt nedenfor. Vi kaller avlingsmengden på en åkerlapp for Y ij, det er 3 typer peanøtter (i = 1, 2, 3) og 4 forsøk for hver type (j = 1, 2, 3, 4). Vi lar forventet avling for de tre peanøtt typene betegnes med µ 1, µ 2 og µ 3. Type 1 Type 2 Type 3 193.3 203.0 195.5 192.3 195.9 189.0 191.7 202.7 199.5 182.4 197.6 198.0 Deler av en variansanalysetabell (ANOVA) for dataene er gitt under: SAMMENDRAG Grupper Antall Sum Gjennomsnitt Varians Type 1 4 759.7 189.9 25.6 Type 2 4 799.2 199.8 12.9 Type 3 4 782.0 195.5 21.5 Total 12 2341.2 195.1 34.2 VARIANSANALYSE Variasjonskilde SK (SS) fg (df) GK (MS) F p-verdi Type (Mellom grupper) 196.12 (SSA) 2 98.06 4.90 Feil (Innenfor grupper) 180.01 (SSE) 9 20.00 Totalt 376.12 (SST) 11 De engelske forkortelsene er satt i parantes. a) Sett opp en modell for dette forsøket. Hva er det kolonnen SK (SS) måler (forklar oppdelingen av SK med ord). Sett opp og utfør en test for om forventet avling for de tre peanøtt-typene er ulik. b) Forklar hvorfor du kan sette opp modellen i forrige punkt som Y ij = µ + α i + E ij, i = 1, 2, 3 j = 1, 2, 3, 4 og finn estimater på µ og alle α i. Finn også et estimat for variansen til E ij. 2
Ved en tilfeldighet får du vite at forsøkene faktisk er gjort på to ulike geografiske områder. Fordi institusjonen ikke hadde nok areal fikk de en annen institusjon til å gjøre halvparten av forsøkene. Dersom vi innfører en områdevariabel kan vi framstille dataene slik: Type 1 Type 2 Type 3 Område 1 193.3 203.0 195.5 192.3 195.9 189.0 Område 2 191.7 202.7 199.5 182.4 197.6 198.0 Dette betyr altså at forsøk 1 og 2 med hver type var gjort på område 1, mens 3 og 4 var gjort på område 2. Deler av en variansanalysetabell (ANOVA) for dataene er gitt under (Enkelte tall er blitt erstatt av "?". Om du trenger ett eller flere av disse må de altså regnes ut.): Variasjonskilde SK (SS) fg (df) GK (MS) F p-verdi Område 0.70 1 0.70 0.04 0.847 Type 196.12 2 98.06?? Interaksjon 75.10 2 37.55 2.16 0.196 Feil (Innenfor grupper) 104.21 6 17.37 Totalt 376.12 11 De engelske forkortelsene er satt i parantes. c) Sett opp modell for denne situasjonen (toveis variansanalyse). d) Bruk variansanalysetabellen til å teste på 5% signifikansnivå: 1. Om der er samspill mellom område og type 2. Om type har betydning for mengde avling 3. Om område har betydning for mengde avling 3
Oppgave 3 Lungefunksjonen er målt på 105 medisinstudenter ved hjelp av PEF (Peak Expiratory Flow Rate) som måles i liter luft per minutt. Samtidig ble kjønn, høyde, vekt og alder registrert. Vi skal i første omgang se på PEF versus høyde. Et dataprogram (Excel) brukes til å gjøre regresjonsanalysen av PEF som avhengig variabel med høyde som forklaringsvariabel. Følgende utskrift ble produsert: Regression Statistics R-kvadrat 0.4800 Justert R-kvadrat 0.4749 Standardfeil 84.028 Observasjoner 105 ANOVA fg (df) SK (SS) GK (MS) F p-verdi Regresjon 1 671200.57 671200.57 95.06 0.0000 Residualer 103 727261.01 7060.79 Totalt 104 1398461.58 Koeff. Standardfeil t p-verdi Nedre 95% Øvre 95% Konstant -1174.90 173.41-6.78 0.000-1518.82-830.97 Høyde (x 1 ) 9.61.99 9.75 0.000 7.66 11.57 a) Still opp en regresjonsmodell for denne situasjonen og forklar hvilke antakelser som gjøres. Sett opp en hypotesetest om hvorvidt parameteren tilhørene høyde er forskjellig fra null. Bruk utskriften til å gjennomføre testen på 5% signifikansnivå. 4
I figuren under er det lagt inn konfidenskurver og prediksjonskurver for regresjonsmodellen. For eksempel, for en gitt høyde på 170 cm, har PEF nivået et 95% konfidensintervall (439.09, 478.51) og et 95% prediskjonsintervall (291.01, 626.59). PEF 200 400 600 800 1000 160 170 180 190 200 Høyde (cm) PEF observasjoner Regresjonslinje 95% Konfidenskurve 95% Prediksjonskurve b) Hva uttrykker konfidenskurven og prediksjonskurven? Utled uttrykk for konfidens og prediksjonsintervallet for PEF for høyde x 0. Regn ut intervallene numerisk når høyden er 180 cm. Inspirerende resultat fra forelesning: x = 175.695 S xx = 7264.248 µ Y x0 µ Y x0 { 1 S 2 n + (x 0 x) 2 } S xx t(n 2) 5
Vi har for PEF-dataene i tillegg til registrering av høyde for hver person også registrering av vekt, kjønn og alder - variable som kan tenkes å ha betydning for PEF. Variabelen for kjønn (x 4 ) er definert som 1 for kvinner og 0 for menn. Et dataprogram (Excel) brukes til å gjøre en multippel regresjonsanalyse av PEF som avhengig variabel med høyde, vekt, kjønn og alder som forklaringsvariable. Følgende utskrift ble produsert: Regression Statistics R-kvadrat 0.6468 Justert R-kvadrat 0.6327 Standardfeil 70.28 Observasjoner 105 ANOVA fg (df) SK (SS) GK (MS) F p-verdi Regresjon 4 904536.33 226134.08 45.78 0.0000 Residualer 100 493925.25 4939.25 Totalt 104 1398461.58 Koeff. Standardfeil t p-verdi Nedre 95% Øvre 95% Konstant -18.00 244.45-0.07 0.941-502.99 466.98 Høyde (x 1 ) 2.28 1.57 1.45 0.150-0.84 5.40 Vekt (x 2 ) 2.13 1.31 1.63 0.106-0.46 4.73 Alder (x 3 ) 2.16 1.91 1.13 0.263-1.64 5.95 Kjønn (x 4 ) -120.31 21.62-5.56 0.000-163.21-77.41 c) Still opp en multippel regresjonsmodell for denne situasjonen. Skriv også ned den estimerte regresjonsmodellen og estimer forventet PEF for en kvinnelig student med høyde 180 cm, vekt 50 kg og alder 20. Hva er tolkningen av den estimerte parameteren for alder? Hva er tolkningen av den estimerte parameteren for kjønn? d) Har forklaringsvariablene i modellen samlet sett innflytelse på PEF? Formuler dette som en hypotesetest og utfør testen på 5% signifikansnivå. Forklar hva en p-verdi generelt uttrykker. e) Hvordan er residualene definert for den multivariate regresjonsmodellen? Regn ut residualet for en kvinnelig student med høyde 180 cm, vekt 50 kg, alder 20 og observert PEF nivå 410. Hvilke plott bør en lage av residualene og hvilke antakelser kan en da sjekke? 6