Kap. 9: Inferens om én populasjon

2 ST0202 Statistikk for samfusvitere Bo Lidqvist Istitutt for matematiske fag Ka. 9: Iferes om é oulasjo Hvis σ er ukjet bytter vi ut σ med s i Ny observator blir t = x μ s/ z = x μ σ/ der s = Σx 2 (Σx) 2 / 1 t kalles for Studets t-observator Fordelige til t kalles t-fordelige og er avhegig av utvalgsstørrelse via atall frihetsgrader som er df = 1 (df = degrees of freedom ). 1. t-fordelige har e form som avheger av atall df (som er 1). 2. t-fordelige ærmer seg stadard ormalfordelige år df øker 3. t-fordelige har lavere to og tykkere haler e stadard ormalfordelig 4 Tabell 6: Kritiske verdier for t-fordelige t(df,α) er t-verdie slik at areal α ligger til høyre, dvs. P(t > t(df,α)) = α der t er t-fordelt med df frihetsgrader.

5 6 Iferes om μ år σ er ukjet (9.2) Kofidesitervall for μ år σ er ukjet Et 1 α kofidesitervall for μ år σ er ukjet er gitt ved Atagelse: x er tilærmet ormalfordelt, dvs. oulasjoe er ormalfordelt eller er stor. Vi bruker at t = x μ s/ er t-fordelt med df = 1 frihetsgrader. x ± t( 1,α/2) s Til sammeligig har vi følgede itervall år σ er kjet: x ± z(α/2) σ For å gå fra kjet til ukjet σ bytter vi altså ut σ med s z(α/2) med (det alltid oe større) t( 1,α/2) 8 Ogave: Jeg har trukket 10 tall fra e oulasjo som er ormalfordelt med gjeomsitt μ og stadardavvik σ. Tallee ble 105.74 116.95 137.09 98.98 115.83 98.74 106.18 110.35 133.29 104.11 med utvalgsgjeomsitt x = 112.73 og utvalgsstadardavvik s = 13.33 Fi et uktestimat for oulasjosarametere μ Fi et itervallestimat for oulasjosarametere μ. Bruk 90% kofidesivå. Hyotesetestig om μ (σ ukjet) (9.2) Eksemel: Sråktest for ugdomsskoleelever. Vil teste H 0 : μ = 125 mot H a : μ>125, der utvalget å består av = 22 elever og σ atas ukjet. Har observert x = 128.5. Vi skal gjeomføre e hyotesetest der sigifikasivået settes til 5%, me å altså med ukjet σ. Vi må da rege ut utvalgsstadardavviket s som viser seg å bli s = 15.2.

Vi bruker testobservatore t = x 125 s/ Store verdier av t tyder å at H a gjelder. Poeget med å bruke t er at år H 0 er riktig, er t t-fordelt med atall frihetsgrader df = 22 1 = 21. Vi ka derfor forkaste H 0 hvis de beregede verdi for t er så stor at de er urimelig for e t-fordelig med df = 21. Her blir t = 128.5 125 15.2/ 22 = 1.08 10 Metode med -verdi med ukjet σ Vi fier fra Tabell 7 i koloe med df = 21 P(t > 1.08) er mellom 0.142 og 0.164 og ka bereges til 0.15. Da dette er større e sigifikasivået α = 0.05, forkaster vi ikke H 0. De beregede sasylighet P(t > 1.08) ka geerelt skrives P(t > t ) og er å -verdie for teste. så sørsmålet er om dette er for høyt til rimeligvis å kue komme fra e t-fordelig med df = 21. 11 Klassisk metode med ukjet σ Situasjoe er som før og vi bruker samme testobservator, emlig t = x 125 s/ Å velge sigifikasivå α betyr at vi krever P(forkaste H 0 )=α hvis H 0 er sa Dette får vi til ved å forkaste H 0 hvis t > t( 1,α), der t(df,α) er de kritiske verdi) og fies i Tabell 6. Vi forkaster da H 0 dersom t = x 125 s/ > t( 1,α) Med α = 0.05 og = 22 får vi fra Tabell 6: t(21, 0.05) =1.72 mes vi bereger t 128.5 125 = 15.2/ = 1.08 < 1.72 22 så vi forkaster ikke H 0 med sigifikasivå α = 0.05.

Ogave (forts.): Se igje å de 10 tallee som er trukket fra e oulasjo som er ormalfordelt med gjeomsitt μ og stadardavvik σ. Tallee var 105.74 116.95 137.09 98.98 115.83 98.74 106.18 110.35 133.29 104.11 med utvalgsgjeomsitt x = 112.73 og utvalgsstadardavvik s = 13.33 Jeg åstår at μ = 100 for oulasjoe. Ta stillig til dette utsaget med e hyotesetest. Bruk sigifikasivå α = 0.1. Hva blir de kritiske verdier? Fi også -verdie. Løsig: H 0 : μ = 100 mot H a : μ 100, σ ukjet. Har å: = 10, x = 112.73, s = 13.33, α = 0.10 Vi forkaster å H 0 dersom t < t( 1,α/2) eller t > t( 1,α/2). Da er fra Tabell 6: t( 1, α/2) =t(9, 0.05) =2.26. Vi får t 112.73 100 = 13.33/ = 3.02 > 2.26 10 så vi forkaster H 0 med sigifikasivå 0.10. -verdie er sasylighete for at vår testobservator t får e verdi som er lik de vi har fått eller e som er mer ekstrem (i retig av de alterative hyotese) år ullhyotese gjelder. Vi bruker da Tabell 7 til å fie (tilærmet, med iterolasjo å øyemål) -verdi = P(t < 3.02 eller t > 3.02) = 2 P(t > 3.02) = 2 0.008 = 0.016 som er midre e α = 0.10, så vi forkaster H 0 med sigifikasivå α = 0.10 (me for eksemel ikke med sigifikasivå 0.01. 16 Biomisk sasylighetsfordelig E tilfeldig variabel x er biomisk fordelt (ka. 5.5) hvis: det er uavhegige forsøk sasylighet for suksess og sasylighet q for fiasko i hvert forsøk x er atall suksess i de forsøk. Da er forvetig for x lik μ x = og stadardavvik for x er σ x = q. Har også fra tidligere (ka. 6.6): Hvis 5ogq 5 ka vi rege som om x er ormalfordelt slik at z edefor er stadard ormalfordelt: z = x q

17 Iferes om de biomiske sasylighet for suksess (9.3) 18 Forvetig μ og stadardfeil σ for : fortolkes som adele med egeskae suksess i oulasjoe, slik at er sasylighete for å trekke e ehet med suksess. Utvalget består i å gjøre forsøk, dvs. tilfeldige trekiger fra oulasjoe, og registrere atallet x med suksess. Adel med suksess i utvalget er da = x som ka kalles utvalgs-suksess-sasylighete ( samle biomial robability ). er uktestimatet for basert å vårt utvalg. 19 Utvalgsfordelig for Hvis et utvalg av størrelse trekkes fra e oulasjo med = P( suksess ), så vil utvalgsfordelige for ha: 1. forvetig μ = (dvs. uktestimatet er forvetigsrett) 2. stadardfeil (dvs. stadardavvik for uktestimatet) q σ = Statistisk iferes om ka derfor bygges å de (tilærmet) stadard ormalfordelte ( z = = x ) Hvorfor? q q Merk aalogie med z = x μ σ slik at i trasformasjoe for er σ blitt til q 3. tilærmet ormalfordelig (hvis og q er større e 5)

Et kofidesitervall for med kofidesivå 1 α ville da kue se ut som ( ) q q z(α/2), + z(α/2) som er aalogt med ( x z(α/2) σ, x + z(α/2) σ ) Ogave: Jeg har utført et biomisk forsøk med = 1000. Det ble x = 871 suksesser. Fi et uktestimat for Fi et kofidesitervall for med kofidesivå 0.90. MEN side kofidesitervallet for ovefor ieholder de ukjete (og q), vil vi bruke kofidesitervallet: ( ) z(α/2), + z(α/2) der q = 1 er utvalgs-fiasko-sasylighete. 23 Utvalgsstørrelse 1 α-kofidesitervallet for suksess-sasylighete i oulasjoe er altså defiert ved ( ) z(α/2), + z(α/2) der maksimal feil for estimatet er E = z(α/2) Hvor stor må vi velge for å få e bestemt maksimal feil E? = [z(α/2)]2 q E 2 der og q er foreløige verdier for og q som brukes uder laleggige. 24 Utvalgsstørrelse (forts.) Formel: = [z(α/2)]2 q E 2 Det viser seg at i formele blir størst hvis og q begge er 0.5. Så hvis vi ikke har forhådskjeska til, og øsker å være å de sikre side, reger vi ut med = q = 0.5.

Eksemel: Hva må være for at feile E skal være midre e eller lik 0.01 med kofidesivå 0.95? Hvis vi ikke har forhådsvite om : = [z(α/2)]2 q E 2 = [z(0.025)]2 0.5 0.5 0.01 2 = 1.962 0.25 = 9604 0.0001 Hvis vi har forhådsvite om at er i størrelesorde 0.15, setter vi = 0.15 og q = 0.85 og får = 1.962 0.15 0.85 0.0001 = 4898 27 Hyotesetestig med (bok s. 502) Eksemel: Det har vært atatt at 60% av studetee å et uiversitet har deltidsjobb uteom studiee. Etter at Kvalitetsreforme har virket e stud, tror studieledelse at tallet er lavere og øsker å udersøke dette ved å sørre et utvalg å = 500 studeter. Det viser seg at x = 260 av disse har deltidsjobb. Et uktestimat for er da = 260/500 = 0.52. Et kofidesitervall for med kofidesivå 0.90 er ( ) 0.52 0.48 0.52 0.48 0.52 1.65, 0.52 + 1.65 500 500 dvs. (0.483,0.557) Me ma øsker først og fremst å teste hyotese H 0 : = 0.60 mot H a : < 0.60 28 Testobservator for e adel z = med = x q For å teste H 0 : = 0.60 mot H a : < 0.60 bruker vi dermed z = 0.60 0.60 0.40 500 som hvis H 0 gjelder er stadard ormalfordelt, og som i vårt eksemel blir lik z = 0.52 0.60 0.60 0.40 500 = 3.65

-verdi blir dermed (som for testee om μ) verdi = P(z < 3.65) =P(z > 3.65) =0.0001 fra Tabell 5 (som vi ikke har brukt til å). Dette er svært lavt, og fører til forkastig av H 0 for f.eks. α =0.01 eller 0.05. Klassisk metode er også som for testee om μ: H 0 skal forkastes med sigifikasivå α hvis z < z(α). Med α = 0.01 blir det å forkaste om z < z(0.01) = 2.33 dvs. vi forkaster H 0. 30 Merkad om kofidesitervall og testig av hyoteser om Ata vi skal teste ullhyotese H 0 : = 0 der 0 er et gitt tall, f.eks. 0.60 i vårt eksemel. I testobservatore brukes da 0 og q 0 = 1 0 i uttrykket for stadardfeile til i evere z = 0 med = x 0 q 0 Til sammeligig, i et (1 α) kofidesitervall for basert å, dvs. ( ) z(α/2), + z(α/2) brukes uttrykket for å reresetere stadardfeile for 31 Iferes om varias og stadardavvik (9.4) Rød kurve χ 2 -fordelig med df=1 frihetsgrad Grø kurve χ 2 -fordelig med df=4 frihetsgrader Blå kurve χ 2 -fordelig med df=10 frihetsgrader Lilla kurve χ 2 -fordelig med df=20 frihetsgrader Iferes om variase til e ormalfordelt oulasjo bruker kjikvadrat-fordelige ( chi-square distributio ) (der kji er de greske bokstave χ. Fordelige ka også skrives χ 2 -fordelige.) 1. χ 2 er ositiv 2. χ 2 er ikke symmetrisk, me skjev mot høyre. 3. E bestemt χ 2 -fordelig idetifiseres ved e arameter df som kalles atall frihetsgrader ( degrees of freedom ). 4. Forvetig μ = df 5. Varias σ 2 = 2df f(x) 0.0 0.1 0.2 0.3 0.4 0 10 20 30 40 x

33 Eksemel: Fi χ 2 (20, 0.05) Notasjo og Tabell 8 χ 2 (df,α) er χ 2 -verdie slik at areal α ligger til høyre, dvs P(χ 2 >χ 2 (df,α)) = α der χ 2 er χ 2 -fordelt med df frihetsgrader. Bruk Tabell 8 α 0.05. df 20 31.4. 35 Iferes om σ Atagelse: Utvalget er trukket fra e oulasjo som er ormalfordelt. Hvorda ka vi teste hyoteser om σ? (Boka sier igetig om kofidesitervaller). Vi bruker testobservatore χ 2 = ( 1)s2 σ 2 Eksemel: Jeg har trukket 10 tall fra e oulasjo som er ormalfordelt med forvetig μ og stadardavvik σ. Tallee ble 52.61 49.36 48.47 55.39 48.49 52.19 48.15 47.30 52.13 52.47 med s=2.64. Fi et uktestimat for σ Jeg sier at σ = 4 for oulasjoe. Ta stillig til utsaget gjeom e hyotesetest. Bruk sigifikasivå α = 0.1. Fi -verdie. som ka vises å være χ 2 -fordelt med df=-1 frihetsgrader.

Puktestimat for σ er s = 2.64. Nullhyoteste H 0 er at σ = 4 mes alterativ hyotese H a er at σ 4. Testobservatore blir da χ 2 = ( 1)s2 ( 1)s2 σ 2 = 4 2 som er χ 2 -fordelt med df=-1=9 frihetsgrader uder ullhyotese. Her blir χ 2 ( 1)s2 (10 1)2.642 = σ 2 = 4 2 = 3.92 Sørsmålet er om dette er e urimelig størrelse for e variabel som er kjikvadrat-fordelt med df = 9. Vi vil forkaste H 0 hvis testobservatore χ 2 blir ete for lite eller for stor. Klassisk metode: Fi kritiske verdier slik at vi forkaster hvis χ 2 ligger utefor et setralt område av kjikvadratfordelige. Vi har at P(χ 2 <χ 2 (df, 1 α/2)) = α/2 P(χ 2 >χ 2 (df,α/2)) = α/2 I eksemel, med α = 0.10, blir disse kritiske verdiee χ 2 (9, 0.95) = 3.33 χ 2 (9, 0.05) = 16.9 dvs. at for e χ 2 som er kjikvadratfordelt med 9 frihetsgrader, er P(3.33 <χ 2 < 16.9) =0.95 dvs. H 0 forkastes ikke side vi bereget testobservatore χ 2 = 3.92. Metode med -verdi: Bereger først P(χ 2 9 < 3.92) =1 P(χ2 9 > 3.92) =1 0.92 = 0.08 Her har vi først brukt Tabell 8 til å fie P(χ 2 9 > 3.33) =0.95 og P(χ 2 9 > 4.17) =0.90. Side 3.92 er ærmere 4.17 e 3.33 bereger vi P(χ 2 9 > 3.92) =0.92 (som vi også ville få ved iterolasjo). Ogave: Jeg har trukket 10 tall fra e oulasjo som er ormalfordelt med forvetig μ og stadardavvik σ. Tallee ble 51.18 49.62 48.84 51.22 48.29 46.93 51.84 50.96 47.70 48.18 med s=1.73. Side alterativ hyotese er at σ 4er-verdie lik arealet av begge halee, dvs -verdi=2 0.08 = 0.16. Side -verdi>α=0.1 ka vi ikke forkaste ullhyotese. (σ for oulasjoe som jeg trakk fra var σ = 2, med adre ord beholdt vi feilaktig ullhyotese, dvs. gjorde e feil av tye II.) La H 0 være at σ = 4 for oulasjoe, mes H a er at σ<4. Fi -verdie og bruk dee til å velge mellom hyotesee år sigifikasivå α = 0.1. Det er ogitt at χ 2 (9, 0.992) =1.678