TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2009 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer b5 Løsningsskisse Oppgave 1 Vi ønsker å finne ut om et nytt serum kan stanse leukemi. 5 mus får serumet, 4 mus får ikke, og levetiden til alle 9 musene noteres. Hypotesen vi ønsker å teste er om serumet har effekt, det vil si om forventet levetid til musene som har fått serumet er lenger enn forventet levetid til de som ikke fikk serumet. Nullhypotesen blir at serumet ikke har effekt, altså at forventet levetid er den samme. H 0 : µ 1 µ 2 = 0 H 1 : µ 1 µ 2 > 0 µ 1 betegner forventet levetid for mus som har fått serumet, mens µ 2 er forventet levetid for mus som ikke har fått serumet. Siden vi kan anta (fra oppgaveteksten) at fordelingene er normalfordelte og at variansene er like, men ukjente kan vi bruke en pooled t-test (t-test for to utvalg). Testobservatoren er: der t = ( x 1 x 2 ) (µ 1 µ 2 ) s p 1/n1 + 1/n 2 s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2 Vi har en ensidig test og forkaster H 0 hvis t > t α,n1 +n 2 2. Fra dataene i oppgaven finner vi x 1 = 2.86, x 2 = 2.075, s 2 1 = 3.883, s2 2 = 1.3625 and s2 p = 2.80. Dermed får vi t = 2.86 2.075 2.80 1/5 + 1/4 = 0.70 Siden t = 0.70 < t 0.05,7 = 1.895, forkaster vi ikke H 0. Oppgave 2 I denne oppgaven ønsker vi å teste om den gjennomsnittlige absolutte tidsdifferansen er mindre etter utmatting enn før. Dersom vi definerer µ 1 som forventet absolutt tidsdifferanse ovingb5-lsf-b 25. november 2009 Side 1

før utmatting og µ 2 er forventet absolutt tidsdifferanse etter utmatting kan vi sette opp hypotesene: H 0 : µ 1 µ 2 = 0 H 1 : µ 1 µ 2 > 0 Dette er en situasjon hvor vi har parvise observasjoner. Vi tar da hensyn til forskjeller mellom personene som kunne ha påvirket resultatet. Testobservatoren er T = D µ D S D / n Vi forkaster H 0 dersom t > t α,n 1. Fra dataene i oppgaven regner vi ut d = 54.13 og s d = 83.002, og dermed blir 54.13 t = 83.022/ 15 = 2.53 Det er ikke oppgitt noe signifikansnivå i oppgaven, men vi ser f.eks. at for α = 0.05 er t 0.05,14 = 1.761, dermed vil vi forkaste H 0 på dette nivået. En annen mulighet er å finne p-verdien, fra tabellen ser vi at den må ligge mellom 0.010 og 0.015 slik at vi forkaster H 0 hvis vi har et signifikansnivå minst lik 0.015. Oppgave 3 Det blir påstått at at omtrent 40% av pastaelskere foretrekker lasagne. Er denne påstanden rimelig dersom 9 av 20 pastaelskere velger lasagne? Med andre ord er hypotesen vi ønsker å teste: H 0 : p = 0.40 H 1 : p > 0.40 Siden vi bare har 20 observasjoner er det best å beregne p-verdien direkte. Vi definerer X: Antall personer som foretrekker lasagne. X blir da binomisk fordelt. p = P(X 9 p = 0.40) = 1 P(X 8 p = 0.40) = 1 8 x=0 ( ) 20 0.4 x 0.6 20 x = 0.404 x Siden p-verdien er større enn ethvert rimelig signifikansnivå forkaster vi ikke H 0. Oppgave 4 Vi ønsker å teste om forekomsten av brystkreft er høyere i urbane strøk enn i et landlig område i nærheten, det vil si at vi ønsker å teste hypotesene H 0 : p U = p R Forkastningsområdet bestemmes av H 1 : p U > p R z = ˆp U ˆp R ˆp(1 ˆp)(1/nU + 1/n R )

der ˆp U = x U nu = 20 200, ˆp R = x R nr = 10 150 og ˆp = x U+x R n U +n R. Vi forkaster hvis z > z α. Setter inn tall og får z = (20/200) (10/150) (0.085714)(0.0914286)(1/200 + 1/150) = 1.10. z 0.05 = 1.645 og dermed forkaster vi ikke H 0, vi har ikke grunnlag for å påstå at forekomsten er høyere i urbane strøk. Oppgave 5 En brusdispenser er ute av kontroll hvis variansen til innholdet er større enn 1.15 dl. Vi har et tilfeldig utvalg på 25 porsjoner som har samplevarians 2.03 dl, og vi vil undersøke om vi kan påstå at dispenseren er ute av kontroll. H 0 : σ 2 = 1.15 H 1 : σ 2 > 1.15 Hvis vi antar at innholdet er tilnærmet normalfordelt vil vi forkaste H 0 dersom χ 2 > χ 2 α,n 1 der χ 2 (n 1)s2 24 2.03 = σ 2 = = 42.37 1.15 Siden χ 2 = 42.37 > χ 0.05,24 = 36.415 forkaster vi H 0, vi har grunnlag for å påstå at σ > 1.15. Oppgave 6 a) X 1,...,X 16 er u.i.f. N(80,18 2 ). Setter Y = X. i) P(X 1 > 90) = P( X 1 80 18 > 90 80 18 ) = P(Z > 0.555) = 0.288 ii) E(Y ) = E( X) = E(X i ) = 16 80 = 1280 iii) Var(Y ) = Var( X) uavh. = Var(X i ) = 16 18 2 = 5184 iv) P(Y > 16 90) = P( Y 16 80 5184 > 16 90 16 80 18 16 ) = P(Z > 2.22) = 0.013 Anta kun normalfordelte data: i) og ii) er riktige uten å anta uavhengighet. iii) holder ikke fordi vi får med Cov(X i,x j ) - ledd. iv) holder ikke fordi vi ikke kjenner Var(Y ). Anta kun uavhengighet: i) holder ikke. Vi bruker fordelingen i regnestykket. ii) og iii) er riktige uten å anta normalfodelingen. iv) holder ikke uten å anta normalfordling for Y. Det kan vi gjøre for store n selv om X i -ene ikke er normalfordelte (sentralgrenseteoremet). Her er n = 16 (som er noe lavt) slik at denne er litt tvilsom...

b) Bruker standard estimatorene ˆµ = X, S 2 = 1 n 1 (Xi X) 2. Tallene gir følgende estimat. ˆµ = 79.55 s 2 = 192.5 La nå T = µ ˆµ S. Da er T t n 1. P(ˆµ t α 2,n 1 P( t α 2,n 1 T t α S n µ ˆµ + t α 2,n 1 2,n 1 ) = 1 α S ) = 1 α n Fra tabell har vi t 0.05,19 = 1.73, ˆµ = 79.55, s = 192.5. Et 90% konfidensintervall for µ er gitt ved [74.2, 84.9] c) Her bruker vi at (n 1)s2 σ 2 = 1 σ 2 n i=1 (X i X) 2 χ 2 n 1. Vi skal teste H 0 : σ 15 2 mot H 1 : σ 2 < 15 2. Vi forkaster H 0 dersom s 2 < k for en passende verdi k. k velges slik at P(s 2 < k H 0 riktig) = α. P(s 2 < k H 0 ) = P ( ) (n 1)s 2 k(n 1) σ 2 < σ 2 H 0 = α Vi vet at (n 1)s2 χ 2 σ0 2 n 1 under H 0 slik at (n 1) k = z σ0 2 1 α,n 1. Her er z 1 α,n 1 gitt som 1 α-kvantilen for en χ 2 n 1 - fordelt variabel. Vi velger k = 152 7.63 19 = 90.4 ettersom σ 0 = 15, α = 1%, n = 20, z 0.99,19 = 7.63. Ettersom s 2 = 192.5 vil vi ikke forkaste H 0. Oppgave 7 Eksamen november 2001, oppgave 2 av 3 a) Merk fra Venn diagram at I ikke overlapper F eller R.

P(R F) P(R F) = = 0.3 P(F) 0.5 = 0.6 P(R I ) = P(R I ) P(I ) b) Generelle forutsetninger for binomisk fordeling i) Forsøksrekken består av n enkeltforsøk. ii) Det registreres kun suksess eller ikke suksess. iii) Sannsynligheten for suksess er lik i alle forsøk. iv) Enkeltforsøkene er uavhengige. = P(R) 1 P(I) = 0.4 1 0.05 = 0.421 For X har vi i) Det er valgt ut n kamper. ii) Vi registrerer kun om den som får første målet vinner(suksess) eller ikke. iii) Sannsynligheten for suksess er p og er antatt å være konstant. iv) Vi antar at kampene er uavhengige. Dette er rimelige antakelser. Sentralgrenseteoremet sier: Dersom Z 1,Z 2,...,Z n er uavhengig identisk fordelte fra sannsynlighetsfordelingen f Z (z), hvor E(Z) = µ og V ar(z) = σ 2, så vil n Z µ σ konvergere mot en normalfordeling med forventning 0 og varians 1. Der Z = 1 n n i=1 Z i. For en binomisk forsøksrekke, definer Z i slik at: Z i = 1 hvis suksess, og Z i = 0 ellers. Med andre ord: { p hvis z = 1 P(Z i = z) = 1 p hvis z = 0 Slik at E(Z i ) = p og V ar(z i ) = p(1 p). Siden enkeltforsøkene er uavhengige så er Z i ene også uavhengige. Av sentralgrenseteoremet følger at n ˆp p konvergerer mot en normalfordeling med forventning 0 p(1 p) og varians 1. Der ˆp = 1 n n i=1 Z i. c) H 0 : p 0.8 mot H 1 : p < 0.8 Eventuelt: H 0 : p = 0.8 mot H 1 : p < 0.8 Vi ønsker å forkaste dersom ˆp < k, hvor k bestemmes slik at Vi benytter at Z = n ˆp p 0 p0 (1 p 0 ) 1 under H 0. Da har vi fra ligningen over: P(Z < P(ˆp < k) = α = 0.05 er tilnærmet normalfordelt med forventing 0 og varians n(k p0 ) p0 (1 p 0 ) ) = 0.05 n(k p0 ) p0 (1 p 0 ) = Z 0.05

p Dette gir k = p 0 Z 0 (1 p 0 ) 0.05 n. Vi forkaster H 0 dersom: ˆp < p 0 Z 0.05 p0 (1 p 0 ) n = 0.8 0.658 1 n For n = 24 og X = n i=1 Z i = 17 får vi ˆp = 0.71, k = 0.67. Vi forkaster ikke H 0. Vi kan ikke pastå at ekspertkommentatoren tar feil på 5 prosent nivå. d) Vi ønsker at styrken på testen i alternativet p = 0.7 skal være minst 0.9. Dvs P(ˆp < 0.8 0.658 1 n p = 0.7) = 0.9 Vi benytter at Z = n ˆp 0.7 0.7 0.3 er tilnærmet normalfordelt med forventing 0 og varians 1 under alternativet med p = 0.7. Innsatt i kravet fra ligningen over gir dette: P(Z < 0.8 0.7 n 0.658 ) = 0.9 0.7 0.3 0.7 0.3 0.1 percentilen i normalfordelingen er lik Z 0.1 = 1.28. Kravet som n må oppfylle blir dermed: 0.1 n 0.658 = 1.28 0.7 0.3 0.7 0.3 Løsningen blir n = 155.1 kamper. Dvs at vi må se minst 156 kamper for å oppnå den ønskede styrken på testen. Oppgave 8 Vinkorker Eksamen desember 2007, oppgave 3 av 3 a) Vi definerer X = Kraften som skal til for trekke ut en kork (8.1) ( 300 µ P(300 < X < 310) = P < X µ < 310 µ ) σ σ σ ( ) 300 310 310 310 = P < Z < 36 36 = P( 10/36 < Z < 0) = P(Z < 0) P(Z < 10/36) = 0.5 0.3906 = 0.1094 P(X > 360 X > 330) P(X > 360 X > 330) = P(X > 330) P(X > 330 X > 360)P(X > 360) = P(X > 330) P(X > 360) = P(X > 330) = 0.285 (8.2) (8.3)

Vi lar X = 1/8 8 i=1 X i. Vi har at E( X) = 310, og V ar( X) = 36 2 /8. ( ) X P( X 310 > 320) = P 36/ 320 310 > 8 36/ 8 = P(Z > 0.786) = 0.216 b) H 0 : µ = 310 mot H 1 : µ 310 Under H 0 er Y = X 310 σ/ (n) (8.4) (8.5) standard normalfordelt. Vi vil forkaste hvis Y > k eller Y < k. Vi bestemmer k ved å kreve siknifikansniv α, altså at Og dermed må og dermed må k = z α/2 = z 0.005 = 2.58. P(forkastning H 0 ) = α (8.6) P( k < Y < k µ = 310) = 1 α (8.7) 259.64 310 y = 36/ = 3.96 (8.8) 8 Vi forkaster H 0. Sannsynligheten for åforkaste H 0 hvis µ = 250 blir og P(Y > z alpha/2 Y < z α/2 µ = 250) = 1 P( z α/2 < Y < z α/2 µ = 250) (8.9) 310 250 P( z α/2 < Y < z α/2 µ = 250) = P( z α/2 + 36/ 310 250 < Y + 8 36/ < z α/2 + 8 = P( 2.58 + 4.71 < Z < 2.58 + 4.71) = P(2.13 < Z < 7.29) = 0.016 Sannsynligheten for forkastning er 1 0.016 = 0.984. c) Under H 0 er 310 250 36/ 8 ) (8.10) V = 7S2 36 2 (8.11) χ 2 -fordelt med 7 frihetsgrader. Vi forkaster H 0 hvis V > k og bestemmer verdien av k ved å kreve P(V > k σ = 36) = α (8.12) Vi ser at da må k = χ 2 7,α. Med α = 0.05 har vi k = 14.07. Med dataene i oppgaven blir v = 7 3754.223 36 2 = 20.278 (8.13) og H 0 forkastes. p-verdien er definert som minste siknifikansnivå som gir forkastning av H 0. Dette kan ses på som sannsynligheten for å få en like ekstrem eller mer ekstrem indikasjon mot H 0 gitt at H 0 er sann. p = P(V > 20.278) = 0.005 (8.14)