Bokmal UNIVERSITETET I BERGEN Det matematisk naturvitenskapelige fakultet STAT111 Statistiske metoder Eksamen 28. mai 2015, 0900-1300 Tillatt hjelpemiddel: Kalkulator i henhold til fakultetets regler, dvs CASIO FX-82ES PLUS Denne eksamensoppgaven er pa 4 sider + 8 sider tabeller Oppgave 1 En gruppe yrkesaktive har deltatt i et forsksprogram der formalet har vrt a ke konsentrasjon og jobbtrivsel. Disse to variablene males og settes for hver person sammen til en jobbindeks, som er en stokastisk variabel X. En nsker i frste omgang a underske hvilken innvirkning de tre faktorene yoga, trening i treningsstudio og lett mosjon har pa indeksen. Det er ogsa en kontrollgruppe som ikke driver med noen av disse 3 aktivitetene. I en pilotutgave av eksperimentet (beskrevet i punkt b)) er det 4 personer innen hver av disse aktivitetene og 4 i gruppen som ikke driver noen form for aktivitet. En nsker a underske om aktivitetene har noen innvirkning pa jobbindeksen, dvs om signikante forskjeller kan registreres. I senere bruk nsker en a ha ere personer i hver aktivitet og at det kan vre et ulikt antall deltagere i hver aktivitet, og vi vil derfor frst i punkt a) kort se pa en generell en-veis variansanalyse modell: a) Forklar hva de ulike leddene i en generell en-veis variansanalyse modell star for, samt forutsetninger for feileddet " ij, X ij = + i + " ij ; i = 1; : : : ; 4; j = 1; : : : ; n i : Her er X ij jobbindeks for aktivitet i og person j. Vi lar i = 1; 2; 3; 4 svare til yoga, trening, ingen aktivitet, lett mosjon. Skriv opp estimatorer for og i ved hjelp av Xi: og X::. Vis at de er forventningsrette. b) I det flgende lar vi n i = 4, dvs 4 personer pa hver aktivitet. Vi har flgende observasjoner for X ij i passende enheter: Aktivitet n Person 1 2 3 4 Xi: Yoga 64.1 71.5 66.6 60.2 65.6 Trening 81.4 76.3 60.8 83.5 75.5 Ingen aktivitet 63.0 70.2 58.1 67.5 64.7 Lett mosjon 71.1 64.0 72.5 68.4 69.0 X :j 69.9 70.5 64.5 69.9
Flgende kvadratsummer oppgis (X ij Xi: ) 2 = 509:32 ( Xi: X:: ) 2 = 287:76: Test om de ulike aktivitetene har forskjellig virkning. Finn ogsa numeriske verdier for estimater av i og. c) En nsker ogsa a underske om yrket til personene inuerer pa resultatet. Det gjennomfres derfor et nytt eksperiment der det tas med yrkesaktive fra 4 forskjellige yrker, nemlig kroppsarbeider, funksjonr, yver og lrer. Flgende data foreligger for dette eksperimentet: Aktivitet n Yrke Kroppsarbeider Funksjonr Flyver Lrer Xi: Yoga 62.2 65.1 73.2 70.3 67.7 Trening 75.0 81.3 79.5 80.2 79.0 Ingen aktivitet 64.1 72.2 73.4 69.1 69.7 Lett mosjon 67.9 71.8 75.5 68.0 70.8 X :j 67.3 72.6 75.4 71.9 Det opplyses videre at og ( Xi: X:: ) 2 = 296:24 ( X:j X:: ) 2 = 135:44 (X ij Xi: X:j + X:: ) 2 = 52:56: Disse dataene skal analyseres med en to-veis variansanalyse modell X ij = + i + j + " ij : Sett opp nullhypotese og alternativ hypotese for a teste om det er forskjell pa yrke og om det er forskjell pa aktivitet. Utfr deretter disse testene og konkluder. d) De to eksperimentene som er beskrevet overfor, kan vre for sma til at det kan gjres eektiv bruk av resultatene. Det gjennomfres derfor et nytt eksperiment der det er 8 personer innenfor hver yrke/aktivitet kategori. Det er da ogsa anledning til a teste for samspill mellom yrke og aktivitet. Vi lar X ijk vre jobbindeksen for person nummer k innen aktivitet i og yrke j. Flgende kvadratsummer oppgis 8X ( Xi:: X::: ) 2 = 357:9 k=1 og 8X ( Xij: Xi:: X:j: + X::: ) 2 = 416:3 k=1 8X ( X:j: X::: ) 2 = 224:4 k=1 8X (X ijk Xij: ) 2 = 2585:5 k=1 Still opp en modell som har samspill inkludert. Videre test for aktivitetseekt, yrkeseekt og for samspill mellom dem. Endelig hva blir et estimat for 2 = var(" ijk ) i denne situasjonen?
Oppgave 2 En nsker a gjennomfre tester med elever i videregaende skole for a underske deres tidsforbruk pa YouTube. For n1 = 12 elever ved yrkesfaglig videregaende skole ble tiden x i i timer pr uke tilbrakt ved YouTube registrert: x i : 3:1; 7:5; 2:9; 4:4; 5:6; 10:6; 1:1; 8:5; 0; 5:4; 7:2; 4:6 a) Dersom du antar at dataene er normalfordelt med varians 2 = 9 og ukjent forventning, test nullhypotesen H0 : = 7 mot H1 : < 7 med bruk av et signikansniva pa 0.05. Finn styrkefunksjonen for testen og nn styrken mot alternativet = 5. Hvor mange observasjoner ma tas for at styrken mot dette alternativet skal bli 0.90? b) Anta at en nsker dataene pa en annen skala representert ved V i = i. Dersom X i er normalfordelt med = 7 og 2 = 9, bruk transformasjonsformelen til a nne fordelingen for V i. Sjekk svaret ved a regne ut E(V i ) og var(v i ). Anta na at x i -dataene ikke er normalfordelt. c) Utfr en ett-utvalg Wilcoxon test av H0 : m = 7 mot H1 : m < 7, der m er medianen til X i. Det oppgis at under nullhypotesen er var(w ) = n 1(n1 + 1)(2n1 + 1) : 6 Dersom Wilcoxon testen i stedet hadde blitt utfrt pa de transformerte v i -dataene nevnt under punkt b), ville det kunne gi forskjellig resultat? d) Det er nskelig a sammenlikne med tidsforbruk y i pa YouTube blant elever pa allmennfaglig videregaende skole. For n2 = 7 elever pa allmennfag fant en: y i : 11:1; 3:3; 5:1; 2:0; 3:1; 1:5; 4:7 Utfr en to-utvalg Wilcoxon test for a teste nullhypotesen om likt tidsbruk mot alternativhypotesen at det er mindre tidsbruk pa elever som tar allmennfag. Det opplyses at testvariablen for Wilcoxontesten under nullhypotesen i dette tilfelle har E(W y ) = n 2(n1 + n2 + 1) 2 ; var(w y ) = n 1n2(n1 + n2 + 1) : 12 Oppgave 3 Ettersprselen etter en reservedel ved et bilrma antas a vre tilfeldig i tid. Dette betyr at antall X av denne reservedelen som ettersprres pr dag er Poisson fordelt. I gjennomsnitt ettersprres det 3 av denne reservedelen pr dag. En har frt statistikk over 200 dager med resultat som i flgende tabell: Ettersprsel 0 1 2 3 4 5 6 minst 7 Antall dager 13 25 53 41 33 15 10 10 For eksempel er det 53 dager der det ettersprres akkurat 2 av denne reservedelen. Test nullhypotesen om at ettersprselen er tilfeldig i tid mot en alternativ hypotese at den ikke er det.
Oppgave 4 En nsker a se pa variasjon i oljepris og utsalgspris av bensin pa en bestemt bensinstasjon. La Y i vre gjennomsnittlig bensinpris i maned i og x i tilhrende gjennomsnittlige oljepris i denne maneden. En setter opp modellen Y i = + (x i x) + " i ; i = 1; : : : ; n: (1) a) Hvilke forutsetninger gjres om " i? For en tidsperiode pa ett ar, dvs n = 12, oppgis at ^ = 0:07 og videre at P 12 i=1(x i x) 2 = 1600:3 og s 2 = 10 1 P 12 i=1(y i ^ ^(xi x)) 2 = 1:52. Test for dette tidsrommet H0 : = 0 mot H1 : > 0. b) Det oppgis videre at ^ = 13:44 og x = 67:6 for dette tidsrommet. Pa grunnlag av de oppgitte strrelsene i dette og det forrige punktet nn en prognose av forventet bensinpris for en oljepris pa 80. Finn et tilhrende 95% kondensintervall for forventet bensinpris og diskuter paliteligheten av dette. c) Modellen (1) bygger egentlig pa deterministiske verdier av x i, mens det er klart at disse i dette tilfellet er stokastiske. Bruk regresjonsmodellen men na pa formen Y i = + X i + " i ; (2) der X i er stokastisk, til a utlede at korrelasjonskoesienten = XY X Y er gitt ved formelen = X Y, der XY = E(X X )(Y Y ) og X = SD(X), Y = SD(Y ). Videre estimer fra denne formelen nar det oppgis at P 12 i=1(y i Y ) 2 = 36:8. Hva er estimert forklaringsgrad? Dag Tjstheim
Fasit for eksamen Stat111 varen 15 (Forbehold om feil!) Oppgave 1: 1a) : totalt middel, i : aktivitetseekt, ij : feil. Forutsetninger: ( P i n i i = 0), ij N (0; ) og uavhengige. b = y ::, b i = y i: y ::, Estimatene ^ og ^ i er normalfordelte som linere kombinasjoner av normalfordelte variable. y :: = + ::, og derfor E(y :: ) =. b i = + i + i: :: = i + i: ::, og derfor E(b i ) = i 1b) Vi har ^ = 1 4 (65:6 + 75:5 + 64:7 + 69:0) = 68:7. Videre ^ 1 = 65:6 68:7 = 3:1, ^2 = 75:5 68:7 = 6:8, ^3 = 64:7 68:7 = 4:0, ^4 = 69:0 68:7 = 0:3. Nullhypotesen om ingen virkning blir H0 : 1 = 2 = 3 = 4 = 0, H1 : Minst en forskjellig fra null. F = dvs ikke forkast H0. 1c) P P ( Xi: X:: ) 2 =(m 1) P P (Xij Xi: ) 2 =(n m) = 287:76=3 = 2:26 < 3:49 509:32=12 Aktivitet: H0 : 1 = 2 = 3 = 4 = 0 H1 : Minst en forskjellig fra null F akt = P P ( Xi: X:: ) 2 =(a 1) P P (Xij Xi: X:j + X:: ) 2 =(a 1)(b 1) = 296:4=3 = 16:90 > 3:86 52:56=9 dvs. klar forkastning av H0 pa 5% niva. Yrke: H0 : 1 = 2 = 3 = 4 = 0 H1: Minst en forskjellig fra null. F yrke = P P ( X:j X:: ) 2 =(b 1) P P (yij Xi: X:j + X:: ) 2 =(a 1)(b 1) = 135:44=3 = 7:72 > 3:86 52:56=9 dvs. klar forkastning av H0 pa 5% niva. 1d: Modell der samspill er inkudert: X ij = + i + j + ij + " ijk ; i = 1; : : : ; a; j = 1; : : : ; k = 1; : : : c Tester: Aktivitet: H0 : i = 0; i = 1; : : : ; 4 Mot H1 at minst en er ulik null. F akt = k=1( Xi:: X::: ) 2 =(a 1 k=1( Xij: X::: ) 2 7ab(c 1) = 357:9=3 2585:5=112 = 5:17 > f 3;1 = 2:60
slik at vi far klar forkastning. Yrke: H0 : j = 0; j = 1; : : : ; 4 mot H1 at minst en j er ulik null. F yrke = k=1( X:j: X::: ) 2 =3 k=1( Xij: X::: ) 2 =112 = 224:4=3 slik at vi igjen far forkastning 2585:5=112 = 3:23 > f 3;1 = 2:60 Samspill: H0 : ij = 0; i = 1; : : : ; 4; j = 1; : : : ; 4 mot H1 at minst en ij er ulik null. Fsam = k=1( Xij: X::: ) 2 =112 k=1(x ijk Xi:: X:j: + X::: ) 2 =9 = 416:3=9 2585:5=112 = 2:00: Her er f9;60 = 2:04 mens f9;120 = 1:96 slik at tabellen ikke er god nok til en skrasikker konklusjon. Det ligger pa grensen, men mest sannsynlig med forkastning siden 112 er ganske nr 120. Variansestimatet er gitt ved Oppgave 2: 2a) Testvariabel er ^ 2 = P a i=1 P b j=1 P c i=1( Xij: X::: ) 2 (c 1)ab = 2585:5 7 4 4 = 23:08: z = x 0 = p n = 5:075 7 3= p = 2:22 < 1; 645; 12 dvs forkast pa 5% niva. Styrkefunksjon blir X () = P (ForkasteH0) = P ( 0 X = p n 1:645) = P = p n 0 = p n 1:645 Innsatt = 5 og 0 = 7 gir dette (5) = P (Z 7 p5 3= 12 1:645) = P (Z 0:66) = 0:7454. For a fa en styrke pa 0.9 bruker vi at P (Z 1:282) = 0:9 og far da likningen 7 p 5 1:645 = 1:282 som har lsning n = 19:28 dvs n = 20 er tilstrekkelig. 3= n 2b Transformasjonsformelen gir med x(v) = 1 4 v, f V (v) = f X (x(v))jv 0 (x)j = 1 p 23 exp 1 2 ( 4 1 v 7)2 9 1 4 = 1 p exp 212 1 2 (v 28) 2 36 which shows that V N (28; 144). Som sjekk E(V i ) = 4E(X i ) = 28, var(v i ) = 16var(X i ) = 144. 2c Vi har x i 7 : 3:7; 0:5; 4:1; 2:6; 1:4; 3:6; 5:9; 1:5; 7:0; 0:6; 0:2; 2:4. De tilhrende ranger blir 8; 2; 10; 7; 4; 9: 11; 5; 12; 3; 1; 6 med rangsum W = 48 med tilhrende testvariabel z = 48 + 1 0 p 12 13 25=6 = 1:84 < 1:645 = P Z 0 = p n 1:645 :
dvs forkast. Resultatet ville bli det samme pa v-skalaen, siden innbyrdes rangering ikke forandres. 2d Ved a stille sammen x-er og y-er, nnes at x-ene har rangsum (merk: velger x-er i stedet for y-er, samme resultat) W x = 1+2+5+6:5+9+10+13+14+15+16+17+18 = 126:5 Vi far da en z-variabel pa z = 126:5 0:5 12(12 + 7 + 1)=2 p 12 7(12 + 7 + 1)=12 = 0:51 < 1:645 slik at vi ikke far forkasting. almennfaglig skole. Vi kan ikke slutte at det er mindre YouTube bruk pa Oppgave 3: Ved a bruke Poisson tabell med = 3 fas sannsynligheter for x = 0, x = 1 og sa videre. De forventede frekvenser fas ved a multiplisere disse sannsynlighetene med 200. Dette resulterer i forventede frekvenser np0 = 200 0:050 = 10, np1 = 200 0:199 = 29:8, np2 = 44:8, np3 = 44:8, np4 = 33:6, np5 = 20:2, np6 = 10, np7 = 6:8. Forskjell mellom observerte og forventede frekvenser blir: Q = (13 10) 2 (29:8 25)2 (53 44:8)2 (41 44:8)2 33 33:6)2 (20:2 15)2 (10 10)2 (10 6:8)2 + + + + + + + 10 29:8 44:8 44:8 33:6 20:2 10 6:8 = 0:9 + 0:77 + 1:50 + 0:32 + 0:01 + 1:34 + 0 + 1:51 = 6:35 < 12:59 slik at nullhypotesen om tilfeldighet i tid og dermed Poisson fordeling ikke forkastes. Her er brukt kritisk verdi for 2 -fordelingen med 6 frihetsgrader, det vil si en ekstra frihetsgrad for estimert parameter er trukket fra. Resultatet blir det samme ved bruk av 7 frihetsgrader. Oppgave 4: 4a Her er "-ene normalfordelt N (0; 2 ) og uavhengige. Fora teste H0 : = 0 mot H1 : > 0 brukes t = slik at H0 forkastes pa 5% niva. ^ 0 s= p P n i=1(x i x) 2 = 0:07 p 1:52= p 1600:3 = 2:27 > 1:812 4b Prognose for bensinpris for x = x0 er gitt ved ^Y = ^ + ^(x 0 x) = 13:44 + 0:07(80 67:6) = 14:31. feilen er gitt ved s s 1 s n + x0 x) P 2 n i=1(x i x) 2 = p 1 (80 67:6)2 1:52 + = 0:52 12 1600:3 og et 95% prosent kondensintervall er gitt ved [14:31 2:228 0:52; 14:31 + 2:228 0:52] dvs [13.15,15.47] som synes litt vidt. Flere innvendinger kan ogsa reises mot modellen. Det er klart at x-ene i virkeligheten er stokastiske og ikke deterministiske, og modellen er videre neppe liner. 4c Fra Y = + X + " fas Y = X. Herav ved a trekke fra denne siste likningen og multiplisere med (X X ) fas (X x )(Y Y ) = (X X ) 2 + (X X )"
og veda ta forventning og bruke uavhengighet av X og ", flger det at XY = 2, hvorav X = X Y. Ved a sette inn estimater ^ = p p1600:3 36:8 0:07 = 0:46. Estimert forklaringsgrad er da gitt ved ^ 2 = 0:46 2 = 0:21, sa temmelig lav forklaringsgrad.