ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag

2 Kap. 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to populasjoner med populasjonsgjennomsnitt henholdsvis µ 1 og µ 2. Vi trekker da ett utvalg fra hver populasjon. To muligheter: Vi kan ha avhengige eller uavhengige utvalg. Avhengige utvalg: De samme kilder (person, gjenstand, etc.) brukes for å få data fra de to populasjonene. Uavhengige utvalg: Det trekkes ett utvalg fra hver populasjon, og kildene for dataene fra de to populasjonene har ingen sammenheng med hverandre.

3 Eksempel Undersøk om et nytt treningsprogram påvirker det fysiske nivået til elevene ved en videregående skole. Populasjon 1: Alle elevene før de gjennomgår programmet. Populasjon 2: Alle elevene etter at de har gjennomgått programmet. Spørsmål: Er populasjon 2 i bedre form enn populasjon 1?

Uavhengige utvalg: Trekk 6 elever som ennå ikke har gjennomgått treningsprogrammet og test dem. Trekk 6 elever som har gjennomgått treningsprogrammet og test dem. Elevene i de to utvalgene er forskjellige. Dataene er et sett med 6 verdier for hvert utvalg. Avhengige utvalg: Trekk 6 elever. Test dem før de gjennomgår treningsprogrammet, la dem så gjennomgå programmet og test de samme elevene etterpå. Elevene i de to utvalgene er de samme. Dataene er to verdier for hver av de 6 elevene (såkalte pardata - paired data )

5 Eksempel med avhengige utvalg Sammenligner to typer dekk A og B med hensyn på dekkslitasje. På 6 biler monteres ett bildekk av hver type på forhjulene. Dekkslitasje etter kjøring en viss lengde måles: Bil 1 2 3 4 5 6 Dekk A (x 1 ) 125 64 94 38 90 106 Dekk B (x 2 ) 133 65 103 37 102 115 Pardifferanse (d = x 1 x 2 ) 8 1 9-1 12 9 Vil basere analysen på differansene d. Fordel: x-ene varierer mye, da de er påvirket av mange faktorer: Bilens tyngde, type kjøring, førerens kjørevaner etc. Slike effekter elimineres i høy grad ved å basere analysen på d-ene. Dette er essensen i bruk av avhengige utvalg.

6 Inferens om forskjell i forventning ved å bruke to avhengige utvalg (10.3) Har nå pardata, x 1 og x 2, for hvert av n utvalgte par. Vi ønsker å finne ut om det er forskjell på forventningsverdiene µ 1 og µ 2 i de to populasjonene. For dette ser vi på: Pardifferanse ( paired difference ): d = x 1 x 2 beregnet for hvert av de n parene Antagelse om fordeling for d: Antar at de to populasjonene er normalfordelte og at de n forsøksenhetene er tilfeldig trukket ut. Da danner de beregnede d et tilfeldig utvalg fra en normalfordeling med forventning og standardavvik som vi kaller µ d og σ d. Her er µ d = µ 1 µ 2 forskjellen i forventet verdi mellom de to populasjonene, mens σ d kan estimeres fra utvalget av d.

Tilbake til dekk-eksemplet: På 6 biler monteres ett bildekk av hver type på forhjulene. Dekkslitasje etter kjøring en viss lengde måles: Bil 1 2 3 4 5 6 Dekk A (x 1 ) 125 64 94 38 90 106 Dekk B (x 2 ) 133 65 103 37 102 115 Pardifferanse (d = x 1 x 2 ) 8 1 9-1 12 9 Beregninger: d = 6.3 (punktestimat for µ d ), s d = 5.1 (utvalgsstandardavvik for d-ene; punktestimat for σ d ) For statistisk inferens om µ d sitter vi dermed med kun ett utvalg (av d-er), og vi er dermed tilbake til situasjonen i kap. 9.

8 Konfidensintervall og tester for forventet forskjell µ d ved avhengige utvalg Konfidensintervall og testing er basert på t = d µ d s d / n, som er t-fordelt med df = n 1 frihetsgrader. Et 1 α konfidensintervall for µ d er gitt ved d ± t(n 1, α/2) s d n Mest aktuelle nullhypotese er: H 0 : µ d = 0 (hvorfor?) mot ulike alternativer for µ d Testobservator er da: t = d s d / n

Oppgave: Finn et 90% konfidensintervall for µ d i dekk-eksemplet. Test H 0 : µ d = 0 mot H a : µ d > 0 med 5% signifikansnivå. Beskriv med ord hva vi ønsker å finne ut med denne testen.

10 Inferens om forskjell i forventning ved å bruke to uavhengige utvalg (10.4) Populasjon 1: Populasjon 2 µ 1 forventning µ 2 forventning (populasjonsgjennomsnitt) (populasjonsgjennomsnitt) σ 1 populasjonsstandardavvik σ 2 populasjonsstandardavvik n 1 observasjoner n 2 observasjoner x 1 observert variabel x 2 observert variabel x 1 utvalgsgjennomsnitt x 2 utvalgsgjennomsnitt s 1 utvalgsstandardavvik s 2 utvalgsstandardavvik Vi er nå interessert i µ 1 µ 2, som har punktestimat x 1 x 2

11 Utvalgsfordeling for x 1 x 2 Antagelse: Uavhengige utvalg av størrelse n 1 og n 2 trekkes tilfeldig fra normalfordelte populasjoner. Da er x 1 x 2 normalfordelt med 1. forventning 2. standardfeil σ x1 x 2 = µ x1 x 2 = µ 1 µ 2 ) ( σ 2 1 n 1 + ( σ 2 2 n 2 )

Dette betyr at z = x 1 x 2 (µ 1 µ 2 ) (σ ) ( ) 2 1 σ 2 n 1 + 2 n 2 er standard normalfordelt og kan brukes til inferens om µ 1 µ 2 hvis σ 1 og σ 2 er kjente. Hvis σ 1 og σ 2 er ukjente, erstattes disse med s 1 og s 2, og inferens baseres på t = x 1 x 2 (µ 1 µ 2 ) ( ) ( ) s 2 1 s 2 n 1 + 2 n 2 som er tilnærmet t-fordelt med df frihetsgrader (se neste side).

Det korrekte antall frihetsgrader for t er df = {( ) ( )} s 2 1 s 2 2 n 1 + 2 n 2 (s1 2/n 1) 2 n 1 1 + (s2 2 /n 2) 2 n 2 1 (1) (avrundet nedover til nærmeste hele tall). Dette brukes i kalkulatorer og dataprogrammer, men for å gjøre analyser enklere vil vi bruke som df for t: df = det minste av n 1 1 og n 2 1 (2) (Det kan vises at formelen (1) alltid gir en df mellom (2) og n 1 + n 2 2). Men: Ved å bruke (2) gjør vi inferensen konservativ i den forstand at vi får lengre konfidensintervall og høyere kritiske verdier for tester enn ved å bruke formelen (1).

14 Konfidensintervall for forventet forskjell ved uavhengige utvalg Et 1 α konfidensintervall for µ 1 µ 2 er gitt ved ) ( ) x 1 x 2 ± t(df, α/2) ( s 2 1 s 2 + 2 n 1 n 2 der df er lik det minste av n 1 1 og n 2 1, eller eventuelt gitt ved formelen på forrige side,

Fra eksamen 24. mai 2003 Oppgave 1 Vekta (i kilogram) til forsvarsspillerne, x, og til angrepsspillerne, y, i Molde Fotballklubbs A-stall (MFK) er slik: x 79 83 88 89 78 84 y 80 80 77 78 72 Det oppgis at x = 501, x 2 = 41935, y = 387 og y 2 = 29997. a) Finn utvalgsmiddelverdiene og utvalgsstandardavvikene for de to utvalgene. Anta at vi kan betrakte forsvarsspillerne og angrepsspillerne i MFK som uavhengige tilfeldige utvalg fra henholdsvis populasjonen av alle forsvarsspillere og populasjonen av alle angrepsspillere på høyt nivå. b) Foreslå en testmetode for å undersøke om det er noen forskjell i gjennomsnittsvekta til forsvarsspillere og angrepsspillere på høyt nivå. Gjør greie for antakelsene for testmetoden. c) Utfør testen med signifikansnivå α = 0,10.

Løsning: Skriver x 1 for x, x 2 for y µ 1 er forventet vekt for forsvarsspiller µ 2 er forventet vekt for angrepsspiller a) x 1 = 501/6 = 83.5, x 2 = 387/5 = 77.4 s 1 = s 2 = Σx 2 1 (Σx 1) 2 /n 1 n 1 1 Σx 2 2 (Σx 2) 2 /n 2 n 2 1 = = 41935 (501) 2 /6 = 4.5 6 1 29997 (387) 2 /5 = 3.3 5 1

b) Bruker t-test for to uavhengige utvalg ( to-utvalgs t-test ). Utvalgene må være uavhengige og tilfeldige, fra normalfordelte populasjoner (viser seg rimelig for vekt). Tester H 0 : µ 1 µ 2 = 0 mot H 1 : µ 1 µ 2 0 c) Testobservator t x = 1 x 2 ( ) ( ) = s 2 1 s 2 n 1 + 2 n 2 83.5 77.3 ) + ( 4.5 2 6 ( 3.3 2 5 ) = 2.59 Hvis H 0 gjelder er t tilnærmet t-fordelt med df = 4 (minimum av 6-1 og 5-1). Klassisk metode: Forkast H 0 hvis t < t(4, 0.10/2) = t(4, 0.05) = 2.13 (tabell 6), eller hvis t > t(4, 0.05) = 2.13. Vi forkaster altså H 0 og påstår H a siden 2.59 > 2.13.

Metode med p-verdi: p-verdi er gitt ved sannsynligheten for å få det vi har fått eller noe mer ekstremt i forhold til nullhypotesen, dvs. her P(t < 2.59) + P(t > 2.59) = 2 P(t > 2.59) når t er t-fordelt med 4 frihetsgrader. Tabell 7 gir at P(t > 2.6) = 0.03, så p-verdien blir ca 2 0.03 = 0.06, som altså er mindre enn signifikansnivået på 0.10. Vi forkaster altså H 0. Det er tidligere bemerket at dette er en konservativ metode. Det korrekte antall frihetsgrader er muligens større enn 4, noe som ville ha gitt en mindre p-verdi, og lavere kritisk verdi. Men sålenge vi forkaster, har dette ingen betydning for konklusjonen. (Formelen (1) for df ville gitt 8.7, dvs vi kunne ha brukt 8 frihetsgrader. Kritiske verdier ville da ha blitt ±1.86 istedenfor ±2.13, mens p-verdi ville blitt 0.032 istedenfor 0.060.)

Oppgave: Jeg har trukket 10 tall fra populasjon 1 som er normalfordelt med forventning µ 1 og standardavvik σ 1 : 46.1 49.1 64.8 35.6 36.5 42.8 42.2 55.4 37.1 60.2 med utvalgsgjennomsnitt x 1 = 47.0 og utvalgsstandardavvik s 1 = 10.3. Dessuten har jeg trukket 10 tall fra en populasjon 2 som er normalfordelt med forventning µ 2 og standardavvik σ 2 : 31.5 37.6 39.8 38.4 27.4 29.6 23.2 39.3 30.7 31.4 med utvalgsgjennomsnitt x 2 = 32.9 og utvalgsstandardavvik s 2 = 5.6 Finn punktestimat for µ 1 µ 2 Finn 90% konfidensintervall for µ 1 µ 2. Er µ 1 = µ 2? Bruk 5% signifikansnivå.

Fordelinger som dataene er trukket fra: Populasjon 1: Normalfordeling med µ 1 = 50, σ 1 = 10 Populasjon 2: Normalfordeling med µ 2 = 35, σ 2 = 5

23 Inferens om forskjell mellom andeler i to populasjoner basert på uavhengige utvalg (10.5) p 1 andel suksesser i populasjon 1 p 2 andel suksesser i populasjon 2 x 1 antall suksesser i utvalg 1 x 2 antall suksesser i utvalg 2 p 1 = x 1 n 1 andel suksesser i utvalg 1 p 2 = x 2 n 2 andel suksesser i utvalg 2 Vil gjøre inferens om p 1 p 2 ved hjelp av p 1 p 2.

Repetisjon: Binomisk situasjon med ett utvalg Andel med suksess i utvalget er p = x n Utvalgsfordelingen: µ p = p så σ p = pq n z = p p pq n er tilnærmet standard normalfordelt

25 Binomisk situasjon med to utvalg Hvis uavhengige utvalg på n 1 og n 2 trekkes tilfeldig fra store populasjoner med suksess-sannsynligheter p 1 og p 2, vil utvalgsfordelingen for p 1 p 2 ha egenskapene: 1. forventning: 2. standardfeil: µ p 1 p 2 = p 1 p 2 σ p 1 p 2 = p1 q 1 n 1 + p 2q 2 n 2 3. tilnærmet normalfordelt når n 1 og n 2 er store

Dermed er z = p 1 p 2 (p 1 p 2 ) p1 q 1 n 1 + p 2q 2 n 2 tilnærmet standard normalfordelt når n 1 og n 2 er store. Et tilnærmet (1 α)-konfidensintervall for p 1 p 2 er gitt ved Altså som vanlig: p 1 p 2 ± z(α/2) p 1 q 1 n 1 + p 2 q 2 n 2 punktestimat ± z(α/2) standardfeil

Hypotesetesting om p 1 p 2. Vanlig å teste H 0 : p 1 p 2 = 0 som er det samme som H 0 : p 1 = p 2 Tar utgangspunkt i den standard normalfordelte og lager testobservatoren z = p 1 p 2 (p 1 p 2 ) p1 q 1 n 1 + p 2q 2 n 2 z = p 1 p 2 p p q p n 1 + p pq p n 2 der p p er et punktestimat for verdien av p 1 = p 2 når H 0 er sann. Et naturlig estimat er p p = x 1 + x 2 n 1 + n 2 Da er z tilnærmet standard normalfordelt når H 0 gjelder og vi kan basere testen på den.

Fra! " #! " $ eksamen 5. desember 2005 + " ', -.% %& " $! '($) " " $ *p 718 40, /3 B p 0#6$ T pt 45 /0)$ 12 /3/ H0 : pb = pt Ha : pb >

Løsning 9::;<=>? <@ABCDEFCBGHIDEGBJBGz = p B p T (p B p T ) = p p (1 p p) + p p(1 p p) n1 n2 p B p T p p (1 p p) + p p(1 p p) n1 n2 CKLBJJMNOPQEDBCBJBGIDp B = p TRp B = 251 366 = 0.6858 p T = 201 366 = 0.5492 V@WKJCDBCKXJKYUIJCJKHSCEZXKGTEGUICDJKJXFNKGp[HBGLKBJ\ 251 + 201 p p = 366 + 366 = 0.6175 z 0.6858 0.5492 0R = = 3.80 0.6175 (1 0.6175) + 0.6175 (1 0.6175) 366 36 z(α) = z(0.05) = 1.65 < 3.80CSHKTEGUICDBGH p[hbglk= P(z > z ) = P(z > 3.80) = 0.0001

Oppgave: Jeg har utført et binomisk forsøk med n 1 = 1000, x 1 = 757 og n 2 = 500, x 2 = 367 suksesser. Finn et punktesimat for p 1 p 2 Finn et 90% konfidensintervall for p 1 p 2 Test hypotesen H 0 : p 1 = p 2 mot H a : p 1 p 2 med signifikansnivå 5% (Dataene er simulert med p 1 = 0.75, p 2 = 0.7

31 Inferens om varians og standardavvik for ett normalfordelt utvalg (9.4) Inferens om variansen til en normalfordelt populasjon bruker kjikvadrat-fordelingen ( chi-square distribution ) (der kji er den greske bokstaven χ. Fordelingen kan også skrives χ 2 -fordelingen.) 1. χ 2 er positiv 2. χ 2 er ikke symmetrisk, men skjev mot høyre. 3. En bestemt χ 2 -fordeling identifiseres ved en parameter df som kalles antall frihetsgrader ( degrees of freedom ). 4. Forventning µ = df 5. Varians σ 2 = 2df

Rød kurve χ 2 -fordeling med df=1 frihetsgrad Grønn kurve χ 2 -fordeling med df=4 frihetsgrader Blå kurve χ 2 -fordeling med df=10 frihetsgrader Lilla kurve χ 2 -fordeling med df=20 frihetsgrader f(x) 0.0 0.1 0.2 0.3 0.4 0 10 20 30 40 x

33 Notasjon og Tabell 8 χ 2 (df, α) er χ 2 -verdien slik at areal α ligger til høyre, dvs P(χ 2 > χ 2 (df, α)) = α der χ 2 er χ 2 -fordelt med df frihetsgrader.

Eksempel: Finn χ 2 (20, 0.05) Bruk Tabell 8 α 0.05. df 20 31.4.

35 Inferens om σ Antagelse: Utvalget er trukket fra en populasjon som er normalfordelt. Vi skal teste hypoteser om σ. (Punktestimat er s). Vi bruker testobservatoren χ 2 = (n 1)s2 σ 2 som kan vises å være χ 2 -fordelt med df=n-1 frihetsgrader når σ har den korrekte verdien. Merk: Dette er analogt med at vi ved inferens om µ har brukt observatorer z = x µ σ/ x µ og t = n s/ som har kjente, tabellerte n fordelinger.

Eksempel: Jeg har trukket 10 tall fra en populasjon som er normalfordelt med forventning µ og standardavvik σ. Tallene ble 52.61 49.36 48.47 55.39 48.49 52.19 48.15 47.30 52.13 52.47 med s=2.64. Finn et punktestimat for σ Jeg sier at σ = 4 for populasjonen. Ta stilling til utsagnet gjennom en hypotesetest. Bruk signifikansnivå α = 0.1. Finn p-verdien.

Punktestimat for σ er s = 2.64. Nullhypotesten H 0 er at σ = 4 mens alternativ hypotese H a er at σ 4. Testobservatoren blir da χ 2 = (n 1)s2 (n 1)s2 σ 2 = 4 2 som er χ 2 -fordelt med df=n-1=9 frihetsgrader under nullhypotesen. Her blir χ 2 (n 1)s2 (10 1)2.642 = σ 2 = 4 2 = 3.92 Spørsmålet er om dette er en urimelig størrelse for en variabel som er kjikvadrat-fordelt med df = 9. Vi vil forkaste H 0 hvis testobservatoren χ 2 blir enten for liten eller for stor.

Klassisk metode: Finn kritiske verdier slik at vi forkaster hvis χ 2 ligger utenfor et sentralt område av kjikvadratfordelingen. Vi har at P(χ 2 < χ 2 (df, 1 α/2)) = α/2 P(χ 2 > χ 2 (df, α/2)) = α/2 I eksempel, med α = 0.10, blir disse kritiske verdiene (Tabell 8) χ 2 (9, 0.95) = 3.33 χ 2 (9, 0.05) = 16.9 dvs. vi skal forkaste hvis χ 2 < 3.33 eller χ 2 > 16.9. Dermed forkaster vi ikke H 0, siden vi beregnet testobservatoren χ 2 = 3.92.

Metode med p-verdi: Beregner først P(χ 2 9 < 3.92) = 1 P(χ2 9 > 3.92) = 1 0.92 = 0.08 Her har vi først brukt Tabell 8 til å finne P(χ 2 9 > 3.33) = 0.95 og P(χ 2 9 > 4.17) = 0.90. Dermed vet vi at P(χ2 9 > 3.92) er mellom 0.90 og 0.95. På øyemål har vi da anslått at P(χ 2 9 > 3.92) = 0.92 (som vi også ville få ved formell interpolasjon). Siden alternativ hypotese er at σ 4 er p-verdien lik arealet av begge halene, dvs p-verdi=2 0.08 = 0.16. Siden p-verdi>α=0.1 kan vi ikke forkaste nullhypotesen. (σ for populasjonen som jeg trakk fra var σ = 2, med andre ord beholdt vi feilaktig nullhypotesen, dvs. gjorde en feil av type II.)

Oppgave: Jeg har trukket 10 tall fra en populasjon som er normalfordelt med forventning µ og standardavvik σ. Tallene ble 51.18 49.62 48.84 51.22 48.29 46.93 51.84 50.96 47.70 48.18 med s=1.73. La H 0 være at σ = 4 for populasjonen, mens H a er at σ < 4. Finn p-verdien og bruk denne til å velge mellom hypotesene når signifikansnivå α = 0.1. Det er oppgitt at χ 2 (9, 0.992) = 1.678

41 Inferens om forholdet mellom varianser ved to uavhengige utvalg (10.6) Ser på to normalfordelte populasjoner med standardavvik henholdsvis σ 1 og σ 2. Ønsker å teste: H 0 : σ2 1 σ 2 2 som er det samme som og det samme som = 1 mot H a : σ2 1 σ 2 2 > 1 H 0 : σ 1 σ 2 = 1 mot H a : σ 1 σ 2 > 1 H 0 : σ 1 = σ 2 mot H a : σ 1 > σ 2 Kan selvsagt også ha < og i H a

42 F-fordelingen Egenskaper til F-fordelingen: 1. F er aldri negativ, den er 0 eller positiv. 2. F er ikke symmetrisk, men såkalt skjev mot høyre (som kjikvadrat-fordelingen) 3. F bestemmes ved de såkalte frihetsgradene df 1 og df 2.

Blå kurve F-fordeling med df 1 = 20, df 2 = 20 frihetsgrader Rød kurve F-fordeling med df 1 = 10, df 2 = 10 frihetsgrad Grønn kurve F-fordeling med df 1 = 4, df 2 = 4 frihetsgrader f(x) 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 x

44 Tabell 9A, 9B, 9C for F -fordelingen I samsvar med notasjon introdusert før vil F(df 1, df 2, α) betegne F -verdien slik at et areal α er til høyre: F(10, 10, 0.05) = 2.98 Oppgave: Hva er F(10, 10, 1)?

45 Testobservator og test (kalt F -test ) Antagelser: H 0 : σ2 1 σ 2 2 = 1 mot H a : σ2 1 σ 2 2 begge populasjonene er normalfordelte > 1 utvalgene blir trukket uavhengige av hverandre Bruker testobservatoren f = s2 1 s 2 2 som hvis H 0 gjelder er F -fordelt med df 1 = n 1 1 og df 2 = n 2 1 frihetsgrader.

Eksempel 10.17 i boka: Sammenligning av standardavvik for påfylt mengde for to tappemaskiner for brus. La σ 1 være standardavvik for ny maskin, mens σ 2 er standardavvik for nåværende maskin. Vil teste H 0 : σ2 1 σ 2 2 = 1 mot H a : σ2 1 σ 2 2 > 1 med signifikansnivå 5%. De relevante dataene er: Beregner Utvalg n s 2 Ny maskin (1) 25 0.0018 Nåværende maskin (2) 22 0.0008 f = s2 1 s 2 2 = 0.0018 0.0008 = 2.25 Er dette for stort til å kunne komme fra F -fordelingen med (24,21) frihetsgrader?

Klassisk metode: Forkast H 0 hvis f > F(24, 21, 0.05) = 2.05 dvs. H 0 forkastes siden vi har observert f = 2.25. Vi bruker her Tabell 9A, i kolonnen med 24 og linjen med 21. Husk at numerator betyr teller, og denominator betyr nevner Metode med p-verdi: p-verdi = P(f > 2.25) når f er F -fordelt med 24 og 21 frihetsgrader. Vi kan ikke finne denne i tabellene, men bruk av 9A gir at P(f > 2.25) < 0.05 mens 9B gir at P(f > 2.25) > 0.025, dvs. p-verdi er mellom 0.025 og 0.05.

Anta at vi isteden skal teste H 0 : σ2 1 σ 2 2 Dette er det samme som H 0 : σ2 2 σ 2 1 = 1 mot H a : σ2 1 σ 2 2 = 1 mot H a : σ2 2 σ 2 1 < 1 > 1 dvs. vi kan ganske enkelt bytte om rollene til de to utvalgene (og populasjonene). Bruker da testobservatoren f = s2 2 s 2 1 som hvis H 0 gjelder er F -fordelt med df 1 = n 2 1 og df 2 = n 1 1 frihetsgrader. (Merk at frihetsgradene df 1 alltid gjelder telleren, mens df 2 gjelder nevneren.)

Tosidig test om likhet av varianser Anta at vi skal teste H 0 : σ2 1 σ 2 2 = 1 mot H a : σ2 1 σ 2 2 1 med signifikansnivå α. Med testobservatoren f = s2 1 skal vi s2 2 forkaste H 0 både hvis den blir for liten (under 1) eller stor (større enn 1). Siden våre tabeller bare gjelder store verdier av f (høyre hale), foreslår boka følgende metode i Example 10.19 side 598: 1. Beregn s 2 1 og s2 2 2. Beregn f som forholdet mellom disse, med den største i telleren (slik at vi garantert får f > 1) 3. Klassisk metode: Forkast H 0 hvis f > F(df 1, df 2, α/2), hvor df 1 og df 2 er frihetsgrader til henholdsvis telleren og nevneren. 4. Metode med p-verdi: p-verdi er 2 P(f > f ) der f er F -fordelt med df 1 og df 2 frihetsgrader

Oppgave: Gitt utvalgsinformasjonen n 1 = 10, n 2 = 8, s 1 = 5.4, s 2 = 3.8, skal du teste H 0 : σ2 1 σ 2 2 med signifikansnivå α = 0.05 = 1 mot H a : σ2 1 σ 2 2 1

51 Oppsummering: Testing av varianser og standardavvik i normalfordelte populasjoner Ett utvalg med populasjonsstandardavvik σ (kap. 9.4): Tester hypoteser av formen H 0 : σ = σ 0 mot H a : σ σ 0 (evt. > eller <) for en gitt verdi av σ 0. Bruker testobservatoren χ 2 = (n 1)s2 σ 2 0 som er χ 2 -fordelt med df=n-1 frihetsgrader når H 0 gjelder. Kritiske verdier finnes i Tabell 8.

To utvalg med populasjonsstandardavvik σ 1 og σ 2 (kap. 10.6) Tester hypoteser av formen H 0 : σ2 1 σ2 2 (evt. > eller <) Bruker testobservatoren f = s2 1 s 2 2 = 1 mot H a : σ2 1 σ 2 2 1 som er F -fordelt med df 1 = n 1 1 og df 2 = n 2 1 frihetsgrader når H 0 gjelder. Kritiske verdier finnes i Tabell 9.