TMA4245 Statistikk Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Øvig ummer b4 Løsigsskisse Oppgave 1 Vi øsker å fie ut om et ytt serum ka stase leukemi. 5 mus får serumet, 4 mus får ikke, og levetide til alle 9 musee oteres. Hypotese vi øsker å teste er om serumet har effekt, det vil si om forvetet levetid til musee som har fått serumet er leger e forvetet levetid til de som ikke fikk serumet. Nullhypotese blir at serumet ikke har effekt, altså at forvetet levetid er de samme. H 0 : µ 1 µ 2 = 0 H 1 : µ 1 µ 2 > 0 µ 1 beteger forvetet levetid for mus som har fått serumet, mes µ 2 er forvetet levetid for mus som ikke har fått serumet. Side vi ka ata (fra oppgavetekste) at fordeligee er ormalfordelte og at variasee er like, me ukjete ka vi bruke e pooled t-test (t-test for to utvalg). Testobservatore er: der t = ( x 1 x 2 ) (µ 1 µ 2 ) s p 1/1 + 1/ 2 s 2 p = s2 1 ( 1 1) + s 2 2 ( 2 1) 1 + 2 2 Vi har e esidig test og forkaster H 0 hvis t > t α,1 + 2 2. Fra dataee i oppgave fier vi x 1 = 2.86, x 2 = 2.075, s 2 1 = 3.883, s2 2 = 1.3625 ad s2 p = 2.80. Dermed får vi t = 2.86 2.075 2.80 1/5 + 1/4 = 0.70 Side t = 0.70 < t 0.05,7 = 1.895, forkaster vi ikke H 0. Oppgave 2 I dee oppgave øsker vi å teste om de gjeomsittlige absolutte tidsdifferase er midre etter utmattig e før. Dersom vi defierer µ 1 som forvetet absolutt tidsdifferase ovigb4-lsf-b 30. mars 2009 Side 1
før utmattig og µ 2 er forvetet absolutt tidsdifferase etter utmattig ka vi sette opp hypotesee: H 0 : µ 1 µ 2 = 0 H 1 : µ 1 µ 2 > 0 Dette er e situasjo hvor vi har parvise observasjoer. Vi tar da hesy til forskjeller mellom persoee som kue ha påvirket resultatet. Testobservatore er T = D µ D S D / Vi forkaster H 0 dersom t > t α, 1. Fra dataee i oppgave reger vi ut d = 54.13 og s d = 83.002, og dermed blir 54.13 t = 83.022/ 15 = 2.53 Det er ikke oppgitt oe sigifikasivå i oppgave, me vi ser f.eks. at for α = 0.05 er t 0.05,14 = 1.761, dermed vil vi forkaste H 0 på dette ivået. E ae mulighet er å fie p-verdie, fra tabelle ser vi at de må ligge mellom 0.010 og 0.015 slik at vi forkaster H 0 hvis vi har et sigifikasivå mist lik 0.015. Oppgave 3 Det blir påstått at at omtret 40% av pastaelskere foretrekker lasage. Er dee påstade rimelig dersom 9 av 20 pastaelskere velger lasage? Med adre ord er hypotese vi øsker å teste: H 0 : p = 0.40 H 1 : p > 0.40 Side vi bare har 20 observasjoer er det best å berege p-verdie direkte. Vi defierer X: Atall persoer som foretrekker lasage. X blir da biomisk fordelt. p = P (X 9 p = 0.40) = 1 P (X 8 p = 0.40) = 1 8 x=0 ( ) 20 0.4 x 0.6 20 x = 0.404 x Side p-verdie er større e ethvert rimelig sigifikasivå forkaster vi ikke H 0. Oppgave 4 Vi øsker å teste om forekomste av brystkreft er høyere i urbae strøk e i et ladlig område i ærhete, det vil si at vi øsker å teste hypotesee H 0 : p U = p R Forkastigsområdet bestemmes av H 1 : p U > p R z = ˆp U ˆp R ˆp(1 ˆp)(1/U + 1/ R )
der ˆp U = x U U = 20 200, ˆp R = x R R = 10 150 og ˆp = x U +x R U + R. Vi forkaster hvis z > z α. Setter i tall og får z = (20/200) (10/150) (0.085714)(0.0914286)(1/200 + 1/150) = 1.10. z 0.05 = 1.645 og dermed forkaster vi ikke H 0, vi har ikke grulag for å påstå at forekomste er høyere i urbae strøk. Oppgave 5 E brusdispeser er ute av kotroll hvis variase til iholdet er større e 1.15 dl. Vi har et tilfeldig utvalg på 25 porsjoer som har samplevarias 2.03 dl, og vi vil udersøke om vi ka påstå at dispesere er ute av kotroll. H 0 : σ 2 = 1.15 H 1 : σ 2 > 1.15 Hvis vi atar at iholdet er tilærmet ormalfordelt vil vi forkaste H 0 dersom χ 2 > χ 2 α, 1 der χ 2 ( 1)s2 24 2.03 = σ 2 = = 42.37 1.15 Side χ 2 = 42.37 > χ 0.05,24 = 36.415 forkaster vi H 0, vi har grulag for å påstå at σ > 1.15. Oppgave 6 a) X 1,..., X 16 er u.i.f. N(80, 18 2 ). Setter Y = X. i) P (X 1 > 90) = P ( X 1 80 18 > 90 80 18 ) = P (Z > 0.555) = 0.288 ii) E(Y ) = E( X) = E(X i ) = 16 80 = 1280 iii) Var(Y ) = Var( X) uavh. = Var(X i ) = 16 18 2 = 5184 iv) P (Y > 16 90) = P ( Y 16 80 5184 > 16 90 16 80 18 16 ) = P (Z > 2.22) = 0.013 Ata ku ormalfordelte data: i) og ii) er riktige ute å ata uavhegighet. iii) holder ikke fordi vi får med Cov(X i, X j ) - ledd. iv) holder ikke fordi vi ikke kjeer Var(Y ). Ata ku uavhegighet: i) holder ikke. Vi bruker fordelige i regestykket. ii) og iii) er riktige ute å ata ormalfodelige. iv) holder ikke ute å ata ormalfordlig for Y. Det ka vi gjøre for store selv om X i -ee ikke er ormalfordelte (setralgreseteoremet). Her er = 16 (som er oe lavt) slik at dee er litt tvilsom...
b) Bruker stadard estimatoree ˆµ = X, S 2 = 1 1 (Xi X) 2. Tallee gir følgede estimat. ˆµ = 79.55 s 2 = 192.5 La å T = µ ˆµ S. Da er T t 1. P (ˆµ t α 2, 1 P ( t α 2, 1 T t α S µ ˆµ + t α 2, 1 2, 1 ) = 1 α S ) = 1 α Fra tabell har vi t 0.05,19 = 1.73, ˆµ = 79.55, s = 192.5. Et 90% kofidesitervall for µ er gitt ved [74.2, 84.9] c) Her bruker vi at ( 1)s2 σ 2 = 1 σ 2 i=1 (X i X) 2 χ 2 1. Vi skal teste H 0 : σ 15 2 mot H 1 : σ 2 < 15 2. Vi forkaster H 0 dersom s 2 < k for e passede verdi k. k velges slik at P (s 2 < k H 0 riktig) = α. P (s 2 < k H 0 ) = P ( ) ( 1)s 2 k( 1) σ 2 < σ 2 H 0 = α Vi vet at ( 1)s2 χ 2 σ0 2 1 uder H 0 slik at ( 1) k = z σ0 2 1 α, 1. Her er z 1 α, 1 gitt som 1 α-kvatile for e χ 2 1 - fordelt variabel. Vi velger k = 152 7.63 19 = 90.4 ettersom σ 0 = 15, α = 1%, = 20, z 0.99,19 = 7.63. Ettersom s 2 = 192.5 vil vi ikke forkaste H 0. Oppgave 7 Eksame ovember 2001, oppgave 2 av 3 a) Merk fra Ve diagram at I ikke overlapper F eller R.
P (R F ) = P (R F ) = 0.3 P (F ) 0.5 = 0.6 P (R I ) = P (R I ) P (I ) b) Geerelle forutsetiger for biomisk fordelig i) Forsøksrekke består av ekeltforsøk. ii) Det registreres ku suksess eller ikke suksess. iii) Sasylighete for suksess er lik i alle forsøk. iv) Ekeltforsøkee er uavhegige. = P (R) 1 P (I) = 0.4 1 0.05 = 0.421 For X har vi i) Det er valgt ut kamper. ii) Vi registrerer ku om de som får første målet vier(suksess) eller ikke. iii) Sasylighete for suksess er p og er atatt å være kostat. iv) Vi atar at kampee er uavhegige. Dette er rimelige atakelser. Setralgreseteoremet sier: Dersom Z 1, Z 2,..., Z er uavhegig idetisk fordelte fra sasylighetsfordelige f Z (z), hvor E(Z) = µ og V ar(z) = σ 2, så vil Z µ σ kovergere mot e ormalfordelig med forvetig 0 og varias 1. Der Z = 1 i=1 Z i. For e biomisk forsøksrekke, defier Z i slik at: Z i = 1 hvis suksess, og Z i = 0 ellers. Med adre ord: { p hvis z = 1 P (Z i = z) = 1 p hvis z = 0 Slik at E(Z i ) = p og V ar(z i ) = p(1 p). Side ekeltforsøkee er uavhegige så er Z i ee også uavhegige. Av setralgreseteoremet følger at ˆp p kovergerer mot e ormalfordelig med forvetig 0 p(1 p) og varias 1. Der ˆp = 1 i=1 Z i. c) H 0 : p 0.8 mot H 1 : p < 0.8 Evetuelt: H 0 : p = 0.8 mot H 1 : p < 0.8 Vi øsker å forkaste dersom ˆp < k, hvor k bestemmes slik at Vi beytter at Z = ˆp p 0 p0 (1 p 0 ) 1 uder H 0. Da har vi fra ligige over: P (Z < P (ˆp < k) = α = 0.05 er tilærmet ormalfordelt med forvetig 0 og varias (k p0 ) p0 (1 p 0 ) ) = 0.05 (k p0 ) p0 (1 p 0 ) = Z 0.05
p Dette gir k = p 0 Z 0 (1 p 0 ) 0.05. Vi forkaster H 0 dersom: ˆp < p 0 Z 0.05 p0 (1 p 0 ) = 0.8 0.658 1 For = 24 og X = i=1 Z i = 17 får vi ˆp = 0.71, k = 0.67. Vi forkaster ikke H 0. Vi ka ikke pastå at ekspertkommetatore tar feil på 5 proset ivå. d) Vi øsker at styrke på teste i alterativet p = 0.7 skal være mist 0.9. Dvs P (ˆp < 0.8 0.658 1 p = 0.7) = 0.9 Vi beytter at Z = ˆp 0.7 0.7 0.3 er tilærmet ormalfordelt med forvetig 0 og varias 1 uder alterativet med p = 0.7. Isatt i kravet fra ligige over gir dette: P (Z < 0.8 0.7 0.658 ) = 0.9 0.7 0.3 0.7 0.3 0.1 percetile i ormalfordelige er lik Z 0.1 = 1.28. Kravet som må oppfylle blir dermed: 0.1 0.658 = 1.28 0.7 0.3 0.7 0.3 Løsige blir = 155.1 kamper. Dvs at vi må se mist 156 kamper for å oppå de øskede styrke på teste. Oppgave 8 Atle, du lyver! a) For å rege ut P (L A 2 ) beytter vi regele for sasylighet for komplemetære hedelser: P (L A 2 ) + P (L A 2 ) = 1 P (L A 2 ) = = 1 P (L A 2 ) = 1 0.2 = 0.8 For å rege ut P (L) bruker vi setige om total sasylighet. Vi vet at A 1, A 2, A 3 er e partisjo av utfallsrommet (det ser vi lett av vediagrammet). P (L) = P (L A 1 ) + P (L A 2 ) + P (L A 3 ) = P (L A 1 ) P (A 1 ) + P (L A 2 ) P (A 2 ) + P (L A 3 ) P (A 3 ) = 0.05 0.1 + 0.2 0.4 + 0.6 0.5 = 0.385 b) Betigelser for at X er biomisk fordelt: Vi spør persoer. For hver perso registerer vi om persoe lyver eller ikke lyver (to komplmetære hedelser).
Sasylighete for at e tilfeldig valgt perso lyver er p, og dee er de samme for alle de persoee vi spør. De persoee vi spør svarer uavhegig av hveradre ( uavhegige forsøk). Uder disse 4 betigelsee er X= atall persoer som lyver biomisk fordelt med parametere og p. Dermed er sasylighetsfordelige til X gitt ved puktsasylighete f(x), ( ) f(x) = p x (1 p) x, x = 0, 1,..., x Vi vet at da er forvetige til X E(X) = p og variase Var(X) = p(1 p). Videre: vi har at p = 0.2, og = 20. P (X = 4) fier vi ved å sette i X = 4 i puktsasylighete f(x) over. ( ) 20 P (X = 4) = f(4) = 0.2 4 (1 0.2) 20 4 = 0.218 4 Det er også mulig å fie P (X = 4) ved tabelloppslag (s 17 i formelsamlige), P (X = 4) = P (X 4) P (X 3) = 0.630 0.411 = 0.219 Sasylighete P [(X 2) (X > 5)] fier vi eklest ved tabelloppslag (s 17 i formelsamlige), P [(X 2) (X > 5) = P (X 2) + P (X > 5) = (X 2) + 1 P (X 5) c) Nå er p ukjet. Først forvetig: E(ˆp) = E( X ) = 1 E(X) = 1 p = p E(p X ) = E( 1 ) = 1 1 E(X) = 1 1 p = = 0.206 + 1 0.804 = 0.402 1 p Vi ser videre på varias: Var(ˆp) = Var( X ) = 1 2 Var(X) = 1 p(1 p) p(1 p) = 2 Var(p X ) = Var( 1 ) = 1 ( 1) 2 Var(X) = 1 p(1 p) p(1 p) = ( 1) 2 ( 1) 2 E god estimator ˆp er e estimator som er forvetigsrett, dvs. E( ˆp) = p, og har lite varias, dvs. Var( ˆp) er lite.
Vi liker veldig godt hvis variase miker år atall observasjoer som estimatore er basert på øker. Sammeliger vi to estimatorer som begge er forvetigsrette velger vi estimatore med mist varias. Sammeliger vi to estimatorer der ku de ee er forvetigsrett, velger vi gjere de estimatore som er forvetigsrett (ofte sjekker vi også at det ikke er veldig stor forskjell på variasee). For å velge mellom ˆp og p ser vi på uttrykkee for forvetig og varias til begge estimatoree. Vi ser at ˆp er forvetigsrett, me det er ikke p. I prisippet ka vi stoppe her og kokluere med at vi foretrekker de forvetigsrette estimatore ˆp. Me, det ka være fit å sjekke at det ikke er stor forskjell på variase til de to estimatoree (hva hvis de ee hadde hatt to gager så stor varias?). Vi ser at Var(ˆp) = ( ( 1) )2 Var(p ), dvs. Var(ˆp) < Var(p ) med e faktor ( 1 )2 i forskjell. For = 20 er dee faktore ( 19 20 )2 = 0.95 2 = 0.9, dvs. Var(ˆp) = 0.9 Var(p ). Dermed har estimatore Var( ˆp) både mist varias og er forvetigsrett. Vi velger derfor estimatore ˆp. Kommetarer: Asymptotisk (år ) vil de to estimatoree være like gode. Vi har i vårt pesum ikke sakket om begrepet kosistete estimatorer, me begge disse estimatoree er kosistete. d) Vi velger de koservative og hittil gjeldee atakelse om at p = 0.2 som ullhypotese og hypotese som vi øsker å teste, p > 0.2 som alterativ hypotese. H 0 : p = 0.2 vs. H 1 : p > 0.2 Vi bruker ˆp som estimator for p og vi vil forkaste H 0 år ˆp er stor. Det betyr at vi forkaster H 0 år Z 0 = er større e e kostat k. Vi skriver Forkast H 0 år Z 0 k. ˆp 0.2 q p(1 p) Videre bestemmer vi k slik at P (type I feil) = P (forkaste H 0 H 0 er sa) α. Isatt Z 0 k for hedelse forkaste H 0 og p = 0.2 for hedelse H 0 sa : Her er ˆp 0.2 q 0.2(1 0.2) P (forkaste H 0 H 0 er sa) α P ( P (Z 0 k p = 0.2) = α ˆp 0.2 k p = 0.2) = α 0.2(1 0.2) tilærmet stadard ormalfordelt uder H 0 og tallet k som har areal α til høyre i stadard ormalfordelige er kvatile z α, dvs. k = z α. i) Dvs. vi forkaster H 0 år ˆp 0.2 0.2(1 0.2) z α
ii) Alterativt ka vi løse ut forkastigsområdet over som ˆp 0.2 + z α 0.2(1 0.2) For α = 0.01 er z 0.01 = 2.326. Videre har vi = 200 og x = 55. Vi ka bruke begge måtee for å skrive opp forkastigsområdet: i) ˆp 0.2 q 0.2(1 0.2) = 2.65 som er større e 2.326, og gir forkastig. ii) ˆp = 55 200 = 0.275 og forkastigsområdet ˆp 0.2 + 2.326 0.2(1 0.2) 200 = 0.27. Her er 0.275 > 0.27 og vi forkaster H 0. Koklusjoe er at det vi har observert (eller oe verre) er lite sasylig (midre sasylig e 0.01) år H 0 er sa, og vi forkaster dermed H 0 og kokluderer med at p er større e 0.2. P verdie agir sasylighete for det vi har observert eller oe verre gitt at H 0 er sa (der verre hespeiler på de alterative hypotese). Vi har forkastet H 0 med sigifikasivå 0.01, det betyr at det vi har observert eller oe verre har midre sasylighet e 0.01 år H 0 er sa. Det betyr at p-verdie til teste vil være midre e 0.01. Vi ka raskt rege ut p-verdie (me det er ikke krevd i oppgave). Vi har observert at z 0 = = 2.65. Uder H 0 er det mer ekstremt hvis dee verdie hadde vært ˆp 0.2 q 0.2(1 0.2) eda større. P (det vi har observert eller oe verre H 0 er sa) = P (Z 0 2.65 p = 0.2) = 1 Φ(2.65) = 1 0.9960 = 0.004