Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

2 Inferens om varians og standardavvik for ett normalfordelt utvalg (9.4) Inferens om variansen til en normalfordelt populasjon bruker kjikvadrat-fordelingen ( chi-square distribution ) (der kji er den greske bokstaven χ. Fordelingen kan også skrives χ 2 -fordelingen.) ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 1. χ 2 er positiv 2. χ 2 er ikke symmetrisk, men skjev mot høyre. 3. En bestemt χ 2 -fordeling identifiseres ved en parameter df som kalles antall frihetsgrader ( degrees of freedom ). 4. Forventning μ = df 5. Varians σ 2 = 2df Rød kurve χ 2 -fordeling med df=1 frihetsgrad Grønn kurve χ 2 -fordeling med df=4 frihetsgrader Blå kurve χ 2 -fordeling med df=10 frihetsgrader Lilla kurve χ 2 -fordeling med df=20 frihetsgrader 4 Notasjon og Tabell 8 χ 2 (df,α) er χ 2 -verdien slik at areal α ligger til høyre, dvs P(χ 2 >χ 2 (df,α)) = α f(x) 0.0 0.1 0.2 0.3 0.4 der χ 2 er χ 2 -fordelt med df frihetsgrader. 0 10 20 30 40 x

Eksempel: Finn χ 2 (20, 0.05) Bruk Tabell 8 α 0.05. df 20 31.4. 6 Inferens om σ Antagelse: Utvalget er trukket fra en populasjon som er normalfordelt. Vi skal teste hypoteser om σ. (Punktestimat er s). Vi bruker testobservatoren χ 2 = (n 1)s2 σ 2 som kan vises å være χ 2 -fordelt med df=n-1 frihetsgrader. Merk: Dette er analogt med at vi ved inferens om μ har brukt observatorer z = x μ σ/ x μ og t = n s/ som har kjente, tabellerte n fordelinger. Eksempel: Jeg har trukket 10 tall fra en populasjon som er normalfordelt med forventning μ og standardavvik σ. Tallene ble 52.61 49.36 48.47 55.39 48.49 52.19 48.15 47.30 52.13 52.47 med s=2.64. Finn et punktestimat for σ Jeg sier at σ = 4 for populasjonen. Ta stilling til utsagnet gjennom en hypotesetest. Bruk signifikansnivå α = 0.1. Finn p-verdien. Punktestimat for σ er s = 2.64. Nullhypotesten H 0 er at σ = 4 mens alternativ hypotese H a er at σ 4. Testobservatoren blir da χ 2 = (n 1)s2 (n 1)s2 σ 2 = 4 2 som er χ 2 -fordelt med df=n-1=9 frihetsgrader under nullhypotesen. Her blir χ 2 (n 1)s2 (10 1)2.642 = σ 2 = 4 2 = 3.92 Spørsmålet er om dette er en urimelig størrelse for en variabel som er kjikvadrat-fordelt med df = 9. Vi vil forkaste H 0 hvis testobservatoren χ 2 blir enten for liten eller for stor.

Metode med p-verdi: Beregner først Klassisk metode: Finn kritiske verdier slik at vi forkaster hvis χ 2 ligger utenfor et sentralt område av kjikvadratfordelingen. Vi har at P(χ 2 <χ 2 (df, 1 α/2)) = α/2 P(χ 2 >χ 2 (df,α/2)) = α/2 P(χ 2 9 < 3.92) =1 P(χ2 9 > 3.92) =1 0.92 = 0.08 Her har vi først brukt Tabell 8 til å finne P(χ 2 9 > 3.33) =0.95 og P(χ 2 9 > 4.17) =0.90. Siden 3.92 er nærmere 4.17 enn 3.33 beregner vi P(χ 2 9 > 3.92) =0.92 (som vi også ville få ved interpolasjon). I eksempel, med α = 0.10, blir disse kritiske verdiene (Tabell 8) χ 2 (9, 0.95) = 3.33 χ 2 (9, 0.05) = 16.9 dvs. vi skal forkaste hvis χ 2 < 3.33 eller χ 2 > 16.9. Dermed forkaster vi ikke H 0, siden vi beregnet testobservatoren χ 2 = 3.92. Siden alternativ hypotese er at σ 4erp-verdien lik arealet av begge halene, dvs p-verdi=2 0.08 = 0.16. Siden p-verdi>α=0.1 kan vi ikke forkaste nullhypotesen. (σ for populasjonen som jeg trakk fra var σ = 2, med andre ord beholdt vi feilaktig nullhypotesen, dvs. gjorde en feil av type II.) Oppgave: Jeg har trukket 10 tall fra en populasjon som er normalfordelt med forventning μ og standardavvik σ. Tallene ble 51.18 49.62 48.84 51.22 48.29 46.93 51.84 50.96 47.70 48.18 med s=1.73. La H 0 være at σ = 4 for populasjonen, mens H a er at σ<4. Finn p-verdien og bruk denne til å velge mellom hypotesene når signifikansnivå α = 0.1. Det er oppgitt at χ 2 (9, 0.992) =1.678 12 Inferens om forholdet mellom varianser ved to uavhengige utvalg (10.6) Ser på to normalfordelte populasjoner med standardavvik henholdsvis σ 1 og σ 2. Ønsker å teste: σ2 2 σ2 2 > 1 som er det samme som H 0 : σ 1 = 1motH a : σ 1 > 1 σ 2 σ 2 og det samme som H 0 : σ 1 = σ 2 mot H a : σ 1 >σ 2 Kan selvsagt også ha < og i H a

13 F-fordelingen Blå kurve F-fordeling med df 1 = 20, df 2 = 20 frihetsgrader Rød kurve F-fordeling med df 1 = 10, df 2 = 10 frihetsgrad Grønn kurve F-fordeling med df 1 = 4, df 2 = 4 frihetsgrader Egenskaper til F-fordelingen: 1. F er aldri negativ, den er 0 eller positiv. 2. F er ikke symmetrisk, men såkalt skjev mot høyre (som kjikvadrat-fordelingen) 3. F bestemmes ved de såkalte frihetsgradene df 1 og df 2. f(x) 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 x 15 Tabell 9A, 9B, 9C for F -fordelingen I samsvar med notasjon introdusert før vil F (df 1, df 2,α) betegne F -verdien slik at et areal α er til høyre: 16 Testobservator og test (kalt F -test ) > 1 Antagelser: begge populasjonene er normalfordelte utvalgene blir trukket uavhengige av hverandre Bruker testobservatoren f = s2 1 s 2 2 F (10, 10, 0.05) =2.98 Oppgave: Hva er F (10, 10, 1)? som hvis H 0 gjelder er F -fordelt med df 1 = n 1 1ogdf 2 = n 2 1 frihetsgrader.

Eksempel 10.17 i boka: Sammenligning av standardavvik for påfylt mengde for to tappemaskiner for brus. La σ 1 være standardavvik for ny maskin, mens σ 2 er standardavvik for nåværende maskin. Vil teste > 1 med signifikansnivå 5%. De relevante dataene er: Beregner Utvalg n s 2 Ny maskin (1) 25 0.0018 Nåværende maskin (2) 22 0.0008 f = s2 1 s 2 2 = 0.0018 0.0008 = 2.25 Er dette for stort til å kunne komme fra F -fordelingen med (24,21) frihetsgrader? Klassisk metode: Forkast H 0 hvis f > F (24, 21, 0.05) =2.05 dvs. H 0 forkastes siden vi har observert f = 2.25. Vi bruker her Tabell 9A, i kolonnen med 24 og linjen med 21. Husk at numerator betyr teller, og denominator betyr nevner Metode med p-verdi: p-verdi = P(f > 2.25) når f er F -fordelt med 24 og 21 frihetsgrader. Vi kan ikke finne denne i tabellene, men bruk av 9A gir at P(f > 2.25) < 0.05 mens 9B gir at P(f > 2.25) > 0.025, dvs. p-verdi er mellom 0.025 og 0.05. Anta at vi isteden skal teste σ2 2 Dette er det samme som H 0 : σ2 2 σ 2 1 = 1motH a : σ2 2 σ 2 1 < 1 > 1 dvs. vi kan ganske enkelt bytte om rollene til de to utvalgene (og populasjonene). Bruker da testobservatoren f = s2 2 s 2 1 som hvis H 0 gjelder er F -fordelt med df 1 = n 2 1ogdf 2 = n 1 1 frihetsgrader. (Merk at frihetsgradene df 1 alltid gjelder telleren, mens df 2 gjelder nevneren.) Tosidig test om likhet av varianser Anta at vi skal teste 1 med signifikansnivå α. Med testobservatoren f = s2 1 skal vi s2 2 forkaste H 0 både hvis den blir for liten (under 1) eller stor (større enn 1). Siden våre tabeller bare gjelder store verdier av f (høyre hale), foreslår boka følgende metode i Example 10.19 side 598: 1. Beregn s 2 1 og s2 2 2. Beregn f som forholdet mellom disse, med den største i telleren (slik at vi garantert får f > 1) 3. Klassisk metode: Forkast H 0 hvis f > F (df 1, df 2,α/2), hvor df 1 og df 2 er frihetsgrader til henholdsvis telleren og nevneren. 4. Metode med p-verdi: p-verdi er 2 P(f > f ) der f er F -fordelt med df 1 og df 2 frihetsgrader

Oppgave: Gitt utvalgsinformasjonen n 1 = 10, n 2 = 8, s 1 = 5.4, s 2 = 3.8, skal du teste med signifikansnivå α = 0.05 1 22 Oppsummering: Testing av varianser og standardavvik i normalfordelte populasjoner Ett utvalg med populasjonsstandardavvik σ (kap. 9.4): Tester hypoteser av formen H 0 : σ = σ 0 mot H a : σ σ 0 (evt. > eller <) for en gitt verdi av σ 0. Bruker testobservatoren χ 2 = (n 1)s2 σ 2 0 som er χ 2 -fordelt med df=n-1 frihetsgrader når H 0 gjelder. Kritiske verdier finnes i Tabell 8. To utvalg med populasjonsstandardavvik σ 1 og σ 2 (kap. 10.6) Tester hypoteser av formen σ2 2 (evt. > eller <) Bruker testobservatoren f = s2 1 s 2 2 1 som er F -fordelt med df 1 = n 1 1ogdf 2 = n 2 1 frihetsgrader når H 0 gjelder. Kritiske verdier finnes i Tabell 9.