Oppgave 1. a) Anlysetype: enveis variansanalyse (ANOVA). Modell for y ij = ekspedisjonstid nr. j for skrankeansatt nr. i:

MOT310 tatistiske metoder 1 Løsningsforslag til eksamen høst 010, s 1 Oppgave 1 a) Anlysetype: enveis variansanalyse (ANOVA) Modell for y ij ekspedisjonstid nr j for skrankeansatt nr i: Y ij µ i + ε ij, i 1,, 6, j 1,, n i der µ i er forventet ekspedisjonstid til skrankeansatt nr i, og ε ij variasjon) er feilleddet (tilfeldig Antakelser: ε ij 'ene er uavhengige og identisk normalfordelte, N (0, σ ) Vi kjenner ikke til hvor mange målinger det er i hver gruppe (for hver ansatt, n 1,, n 6 ), men vi kan gjøre analysen likevel Modellen kan også uttrykkes: Y ij µ + α i + ε ij, der ε ij der α 1 + α 6 0 Vil teste H 0 : µ 1 µ 6 mot H 1 : minst én ulik H 0 : Forventet ekspedisjonstid er den samme for alle seks ansatte H 1 : Forventet ekspedisjonstid er ikke den samme for alle seks ansatte Teststørrelse og test; Vi innfører følgende kvadratsummer: A k n i (Y i Y ) og E k j1(y ij Y i ), der Y i 1 n i j1 Y ij er gjennomsnitt i gruppe nr i, og Y 1 N i6 j1 Y ij er gjennomsnitt av alle Y ij 'ene (N n 1 + + n 6 140 totalt antall målinger) Teststørrelse: F A/(k 1) E/(N k) MA ME Test: Vi forkaster H 0 dersom forskjellene i gjennomsnittsverdi i hver gruppe er stor i forhold til den tilfeldige feilen, mer presist dersom: F MA ME f α,k 1,N k f 005,5,134, hvor k 6 er antall grupper Forkastngsområdet er [f 005,5,134, ) I tabellen nner vi bare f 005,5,10 9 og f 005,5, 1; f 005,5,134 er imellom disse to verdiene Men vi har informasjon nok fra ANOVA-tabellen til å konkludere Vi kan se at p verdien er 01914, og vi kan da konkludere med behold H 0 det er ikke grunnleg for å hevde at det er ulik forventet ekspedisjonstid for de seks ansatte

MOT310 tatistiske metoder 1 Løsningsforslag til eksamen høst 010, s b) La Y ij, Y i, Y, k og n i være denert som i punkt a) Vi denerer da: T k j1(y ij Y ), A k n i (Y i Y ) og E k j1(y ij Y i ), og vi har sammenhengen: T A + E E måler spredning innen gruppene og således et mål på variasjon forårsaket av tilfeldigheter/støy A måler spredning mellom gruppene og således et mål på variasjon forårsaket av eventuelle ulike forventede verdier i ulike grupper T måler total spredning i datasettet (som om dataene ikke tilhørte ulike grupper) Oppgave a) Modell: Y i α + βx i + ε i Modell med lineær sammenheng mellom vekt av bil (x) og forventet drivstoforbruk (forventet verdi av Y ) antas Videre antar vi at ε 1,, ε n uif (uavhengige, identisk fordelte) N (0, σ ) Estimert regresjonslinje er a + bx, der a og b er estimert verdi av parametrene α og β, hhv Dvs: estimert regresjonslinje er i dette tilfellet: ŷ 4874 81x b) Plottet av y i mot x i indikerer tydelig sammenheng Dette kan besvares ved å teste: H 0 : β 0 mot H 1 : β 0 H 0 : β 0 betyr at det ikke er sammenheng, mens H 1 : β 0 betyr at det ER sammenheng Vi har at oppgaven) Vi bruker da β β n (x i x) t n, der β er minstekvadratersestimatoren for β (denert i T β (x i x) som teststørrelse Vi har at T er t(n )-fordelt under H 0 Test: Forkast H 0 dersom T t α/,n eller T t α/,n Fra tabell: t 005,48 t 005,50 009

MOT310 tatistiske metoder 1 Løsningsforslag til eksamen høst 010, s 3 Utfallet T (lest av utskrift): -119; opplagt mindre enn t 005,48, og konklusjonen blir forkast H 0 ; det er sammenheng mellom vekt og forbruk Vi kan også lese p-verdien av utskriften: '00000', dvs mindre enn 000005 som betry klar forkastning av H 0 c) Vi har at β (x i x)(y i Y ) (x i x) (x i x)y i (x i x), siden n (x i x)(y i Y ) n (x i x)y i n (x i x)y og n (x i x)y 0 ( E( β) n ) (x E i x)y i (x i x) (x i x)e(y i ) (x i x)(x i x) (x i x)(α + βx i ) (x i x)x i x n (x i x) α n (x i x) + β n (x i x)x i (x i x)x i x n (x i x) (iden: β n n n n n n (x i x) x i x x i nx x i x i 0) Dvs β er forventingsrett for β ( Var( β) n ) ( ) (x Var i x)y i 1 (x i x) Var( (x i x) uavh ( ) 1 n (x i x) σ (x i x) (x i x) Var(Y i ) ( n (x i x)y i ) ) 1 (x i x) n (x i x) σ d) Det er en tendens til mønster i residualplottet som indkert i guren til høyre Dette indikerer at det er avvik fra lineær sammenheng mellom x- og Y -størrelsene Utskriften er resultat når et polynom av andre orden er tilpasset dataene Da er modellen: Y i β 0 + β 1 x i + β x i + ε i Hvorvidt det er staistiske grunner for å bruke en andreordensmodell kan vurderes ved å teste: H 0 : β 0 mot H 1 : β 0 H 0 : β 0 betyr at det ikke er statistisk grunnlag for å bruke andreordensledd (x i ), mens H 1 : β 0 betyr at det ER statistisk grunnlag for dette

MOT310 tatistiske metoder 1 Løsningsforslag til eksamen høst 010, s 4 Av utskriften kan vi lese at p-verdien for testen er 0019, og vi kan derfor konkludere forkast H 0, det er statistisk grunnlag for å bruke andreordensledd Vi ser også av utskriften at 95% kondensintervallet for β ikke inneholder 0 Oppgave 3 a) Vi lar X i være resultat for student nr i fra CPMP, i 1,, n X 31, og vi lar Y i være resultat for student nr i fra tradisjonelt opplegg, i 1,, 65 Vi antar at X 1,, X nx er uif med E(X i ) µ X og Var(X i ) σx og at Y 1,, Y ny er uif med E(Y i ) µ Y og Var(Y i ) σy (Vi antar selvsagt også at X i 'ene er uavhengige av Y i 'ene) Det er eventuell forskjell i forventingene, µ X og µ Y, som er av interesse for oss For å svare på spørsmålet i oppgaven, kan vi teste: H 0 : µ X µ Y 0 (ikke forskjell mellom gruppene i forventet skåre) mot H 1 : µ X µ Y 0 (forskjell) iden vi har så mange målinger, kan vi bruke følgende teststørrelse: Z X Y X nx + Y Denne er tilnærmet N(0, 1) under H 0 (altså: nullfordelingen er N(0, 1)) Her er X 1 nx n X X i, og X 1 nx n X 1 (X i X) og tilsvarende for Y i -målingene (Merk at vi trenger ikke anta at X i 'ene eller Y i 'ene er normalfordelte, og at vi heller ikke trenger anta like varianser Men det er også greit om man antar like varianser i denne situasjonen) Test: forkast H 0 dersom Z z α/ eller dersom Z z α/ 90 384 Utfall av teststørrelse: 188 + 645 Konklusjonen blir forkast H 0 siden < 16 31 65 645 < z α/ 196 (dersom vi bruker 5% signkansnivå) Dvs vi konkluderer med at det er forskjell i algebratestskåre mellom gruppene b) 1 Framgangsmåte: Test: forkast H 0 dersom 0 ikke er inneholdt i et (tilnærmet) 95% kondensintervall for µ X µ Y Gjennomføring: Et (tilnæmret) 95% kondensintervall for µ X µ Y er gitt ved: ) X (X Y z α/ nx + Y X, X Y + z α/ nx + Y Utregnet intervall: (-13, -65) iden 0 ikke er inkludert i intervallet, er konlusjonen: forkast H 0

MOT310 tatistiske metoder 1 Løsningsforslag til eksamen høst 010, s 5 Ekvivalens: Vi viser at det å konkludere med 'behold H 0 ' med testen i punkt a) er ekvivalent med (det samme som) at 0 er inkluldert i intervallet i b) I a) beholder vi H 0 dersom: z α/ X Y X nx + Y z α/ Denne ulikheten er ekvivalent med: z X α/ + Y X Y z X α/ + Y, n X n X som igjen er ekvivalent med: (X Y ) z X α/ + Y 0 (X Y ) + z X α/ + Y n X n X Dette siste er det samme som: (X Y ) z X α/ + Y 0 (X Y ) + z X α/ + Y n X n X Her er uttrykkene til venstre og til høyre de samme som nedre- og øvre grense i kondensintervallet for µ X µ Y, og derfor betyr den siste ulikheten at 0 er inkludert i kondensinitervallet Vi har altså vist: Behold H 0 med testen i a) null er inkludert i kondensintervallet i b) z α/ X Y z α/ X n X + Y X (X Y ) z α/ + Y X 0 (X Y ) + z α/ + Y n X n X (Dette betyr jo også at det å forkaste H 0 i a) er ekvivalent med at null ikke er inkludert i intervallet i b))