ST0202 Statistikk for samfunnsvitere

Like dokumenter
Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Kap. 10: Inferens om to populasjoner. Inferens om forskjell i forventning ved å bruke to avhengige utvalg (10.3) ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Testobservator for kjikvadrattester

TMA4240 Statistikk H2010 (20)

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Testobservator for kjikvadrattester

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

Fra første forelesning:

TMA4240 Statistikk Høst 2016

Fasit for tilleggsoppgaver

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

TMA4240 Statistikk Høst 2007

ECON240 VÅR / 2016 BOKMÅL

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Inferens i fordelinger

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

i x i

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Binomisk sannsynlighetsfunksjon

TMA4240 Statistikk Høst 2009

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Statistikk og dataanalyse

Hypotesetesting. mot. mot. mot. ˆ x

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

TMA4245 Statistikk Eksamen desember 2016

Kap. 12: Variansanalyse

ST0202 Statistikk for samfunnsvitere

Kapittel 3: Studieopplegg

TMA4245 Statistikk Eksamen august 2014

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4240 Statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Kapittel 9 og 10: Hypotesetesting

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

TMA4240 Statistikk H2010

LØSNINGSFORSLAG ) = Dvs

Kapittel 7: Inferens for forventningerukjent standardavvik

TMA4240 Statistikk H2010 (22)

EKSAMENSOPPGAVER STAT100 Vår 2011

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

ÅMA110 Sannsynlighetsregning med statistikk, våren

TMA4240 Statistikk Høst 2015

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

7.2 Sammenligning av to forventinger

Hypotesetest: generell fremgangsmåte

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

ST0202 Statistikk for samfunnsvitere Kapittel 8: Introduksjon til statistisk inferens

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

HØGSKOLEN I STAVANGER

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

Hypotesetesting av λ og p. p verdi.

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

Eksamensoppgave i TMA4240 Statistikk

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Introduksjon til inferens

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

TMA4240 Statistikk H2010 (19)

TMA4240 Statistikk H2010

Verdens statistikk-dag.

Norske hoppdommere og Janne Ahonen

HØGSKOLEN I STAVANGER

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Løsning eksamen desember 2017

TMA4240 Statistikk 2014

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

Kapittel 9 og 10: Hypotesetesting

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Econ 2130 uke 16 (HG)

Løsning eksamen desember 2016

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Eksamensoppgave i TMA4240 Statistikk

Transkript:

ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag

2 Kap. 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to populasjoner med populasjonsgjennomsnitt henholdsvis µ 1 og µ 2. Vi trekker da ett utvalg fra hver populasjon. To muligheter: Vi kan ha avhengige eller uavhengige utvalg. Avhengige utvalg: De samme kilder (person, gjenstand, etc.) brukes for å få data fra de to populasjonene. Uavhengige utvalg: Det trekkes ett utvalg fra hver populasjon, og kildene for dataene fra de to populasjonene har ingen sammenheng med hverandre.

3 Eksempel Undersøk om et nytt treningsprogram påvirker det fysiske nivået til elevene ved en videregående skole. Populasjon 1: Alle elevene før de gjennomgår programmet. Populasjon 2: Alle elevene etter at de har gjennomgått programmet. Spørsmål: Er populasjon 2 i bedre form enn populasjon 1?

Uavhengige utvalg: Trekk 6 elever som ennå ikke har gjennomgått treningsprogrammet og test dem. Trekk 6 elever som har gjennomgått treningsprogrammet og test dem. Elevene i de to utvalgene er forskjellige. Dataene er et sett med 6 verdier for hvert utvalg. Avhengige utvalg: Trekk 6 elever. Test dem før de gjennomgår treningsprogrammet, la dem så gjennomgå programmet og test de samme elevene etterpå. Elevene i de to utvalgene er de samme. Dataene er to verdier for hver av de 6 elevene (såkalte pardata - paired data )

5 Eksempel med avhengige utvalg Sammenligner to typer dekk A og B med hensyn på dekkslitasje. På 6 biler monteres ett bildekk av hver type på forhjulene. Dekkslitasje etter kjøring en viss lengde måles: Bil 1 2 3 4 5 6 Dekk A (x 1 ) 125 64 94 38 90 106 Dekk B (x 2 ) 133 65 103 37 102 115 Pardifferanse (d = x 1 x 2 ) 8 1 9-1 12 9 Vil basere analysen på differansene d. Fordel: x-ene varierer mye, da de er påvirket av mange faktorer: Bilens tyngde, type kjøring, førerens kjørevaner etc. Slike effekter elimineres i høy grad ved å basere analysen på d-ene. Dette er essensen i bruk av avhengige utvalg.

6 Inferens om forskjell i forventning ved å bruke to avhengige utvalg (10.3) Har nå pardata, x 1 og x 2, for hvert av n utvalgte par. Vi ønsker å finne ut om det er forskjell på forventningsverdiene µ 1 og µ 2 i de to populasjonene. For dette ser vi på: Pardifferanse ( paired difference ): d = x 1 x 2 beregnet for hvert av de n parene Antagelse om fordeling for d: Antar at de to populasjonene er normalfordelte og at de n forsøksenhetene er tilfeldig trukket ut. Da danner de beregnede d et tilfeldig utvalg fra en normalfordeling med forventning og standardavvik som vi kaller µ d og σ d. Her er µ d = µ 1 µ 2 forskjellen i forventet verdi mellom de to populasjonene, mens σ d kan estimeres fra utvalget av d.

Tilbake til dekk-eksemplet: På 6 biler monteres ett bildekk av hver type på forhjulene. Dekkslitasje etter kjøring en viss lengde måles: Bil 1 2 3 4 5 6 Dekk A (x 1 ) 125 64 94 38 90 106 Dekk B (x 2 ) 133 65 103 37 102 115 Pardifferanse (d = x 1 x 2 ) 8 1 9-1 12 9 Beregninger: d = 6.3 (punktestimat for µ d ), s d = 5.1 (utvalgsstandardavvik for d-ene; punktestimat for σ d ) For statistisk inferens om µ d sitter vi dermed med kun ett utvalg (av d-er), og vi er dermed tilbake til situasjonen i kap. 9.

8 Konfidensintervall og tester for forventet forskjell µ d ved avhengige utvalg Konfidensintervall og testing er basert på t = d µ d s d / n, som er t-fordelt med df = n 1 frihetsgrader. Et 1 α konfidensintervall for µ d er gitt ved d ± t(n 1, α/2) s d n Mest aktuelle nullhypotese er: H 0 : µ d = 0 (hvorfor?) mot ulike alternativer for µ d Testobservator er da: t = d s d / n

Oppgave: Finn et 90% konfidensintervall for µ d i dekk-eksemplet. Test H 0 : µ d = 0 mot H a : µ d > 0 med 5% signifikansnivå. Beskriv med ord hva vi ønsker å finne ut med denne testen.

10 Inferens om forskjell i forventning ved å bruke to uavhengige utvalg (10.4) Populasjon 1: Populasjon 2 µ 1 forventning µ 2 forventning (populasjonsgjennomsnitt) (populasjonsgjennomsnitt) σ 1 populasjonsstandardavvik σ 2 populasjonsstandardavvik n 1 observasjoner n 2 observasjoner x 1 observert variabel x 2 observert variabel x 1 utvalgsgjennomsnitt x 2 utvalgsgjennomsnitt s 1 utvalgsstandardavvik s 2 utvalgsstandardavvik Vi er nå interessert i µ 1 µ 2, som har punktestimat x 1 x 2

11 Utvalgsfordeling for x 1 x 2 Antagelse: Uavhengige utvalg av størrelse n 1 og n 2 trekkes tilfeldig fra normalfordelte populasjoner. Da er x 1 x 2 normalfordelt med 1. forventning 2. standardfeil σ x1 x 2 = µ x1 x 2 = µ 1 µ 2 ) ( σ 2 1 n 1 + ( σ 2 2 n 2 )

Dette betyr at z = x 1 x 2 (µ 1 µ 2 ) (σ ) ( ) 2 1 σ 2 n 1 + 2 n 2 er standard normalfordelt og kan brukes til inferens om µ 1 µ 2 hvis σ 1 og σ 2 er kjente. Hvis σ 1 og σ 2 er ukjente, erstattes disse med s 1 og s 2, og inferens baseres på t = x 1 x 2 (µ 1 µ 2 ) ( ) ( ) s 2 1 s 2 n 1 + 2 n 2 som er tilnærmet t-fordelt med df frihetsgrader (se neste side).

Det korrekte antall frihetsgrader for t er df = {( ) ( )} s 2 1 s 2 2 n 1 + 2 n 2 (s1 2/n 1) 2 n 1 1 + (s2 2 /n 2) 2 n 2 1 (1) (avrundet nedover til nærmeste hele tall). Dette brukes i kalkulatorer og dataprogrammer, men for å gjøre analyser enklere vil vi bruke som df for t: df = det minste av n 1 1 og n 2 1 (2) (Det kan vises at formelen (1) alltid gir en df mellom (2) og n 1 + n 2 2). Men: Ved å bruke (2) gjør vi inferensen konservativ i den forstand at vi får lengre konfidensintervall og høyere kritiske verdier for tester enn ved å bruke formelen (1).

14 Konfidensintervall for forventet forskjell ved uavhengige utvalg Et 1 α konfidensintervall for µ 1 µ 2 er gitt ved ) ( ) x 1 x 2 ± t(df, α/2) ( s 2 1 s 2 + 2 n 1 n 2 der df er lik det minste av n 1 1 og n 2 1, eller eventuelt gitt ved formelen på forrige side,

Fra eksamen 24. mai 2003 Oppgave 1 Vekta (i kilogram) til forsvarsspillerne, x, og til angrepsspillerne, y, i Molde Fotballklubbs A-stall (MFK) er slik: x 79 83 88 89 78 84 y 80 80 77 78 72 Det oppgis at x = 501, x 2 = 41935, y = 387 og y 2 = 29997. a) Finn utvalgsmiddelverdiene og utvalgsstandardavvikene for de to utvalgene. Anta at vi kan betrakte forsvarsspillerne og angrepsspillerne i MFK som uavhengige tilfeldige utvalg fra henholdsvis populasjonen av alle forsvarsspillere og populasjonen av alle angrepsspillere på høyt nivå. b) Foreslå en testmetode for å undersøke om det er noen forskjell i gjennomsnittsvekta til forsvarsspillere og angrepsspillere på høyt nivå. Gjør greie for antakelsene for testmetoden. c) Utfør testen med signifikansnivå α = 0,10.

Løsning: Skriver x 1 for x, x 2 for y µ 1 er forventet vekt for forsvarsspiller µ 2 er forventet vekt for angrepsspiller a) x 1 = 501/6 = 83.5, x 2 = 387/5 = 77.4 s 1 = s 2 = Σx 2 1 (Σx 1) 2 /n 1 n 1 1 Σx 2 2 (Σx 2) 2 /n 2 n 2 1 = = 41935 (501) 2 /6 = 4.5 6 1 29997 (387) 2 /5 = 3.3 5 1

b) Bruker t-test for to uavhengige utvalg ( to-utvalgs t-test ). Utvalgene må være uavhengige og tilfeldige, fra normalfordelte populasjoner (viser seg rimelig for vekt). Tester H 0 : µ 1 µ 2 = 0 mot H 1 : µ 1 µ 2 0 c) Testobservator t x = 1 x 2 ( ) ( ) = s 2 1 s 2 n 1 + 2 n 2 83.5 77.3 ) + ( 4.5 2 6 ( 3.3 2 5 ) = 2.59 Hvis H 0 gjelder er t tilnærmet t-fordelt med df = 4 (minimum av 6-1 og 5-1). Klassisk metode: Forkast H 0 hvis t < t(4, 0.10/2) = t(4, 0.05) = 2.13 (tabell 6), eller hvis t > t(4, 0.05) = 2.13. Vi forkaster altså H 0 og påstår H a siden 2.59 > 2.13.

Metode med p-verdi: p-verdi er gitt ved sannsynligheten for å få det vi har fått eller noe mer ekstremt i forhold til nullhypotesen, dvs. her P(t < 2.59) + P(t > 2.59) = 2 P(t > 2.59) når t er t-fordelt med 4 frihetsgrader. Tabell 7 gir at P(t > 2.6) = 0.03, så p-verdien blir ca 2 0.03 = 0.06, som altså er mindre enn signifikansnivået på 0.10. Vi forkaster altså H 0. Det er tidligere bemerket at dette er en konservativ metode. Det korrekte antall frihetsgrader er muligens større enn 4, noe som ville ha gitt en mindre p-verdi, og lavere kritisk verdi. Men sålenge vi forkaster, har dette ingen betydning for konklusjonen. (Formelen (1) for df ville gitt 8.7, dvs vi kunne ha brukt 8 frihetsgrader. Kritiske verdier ville da ha blitt ±1.86 istedenfor ±2.13, mens p-verdi ville blitt 0.032 istedenfor 0.060.)

Oppgave: Jeg har trukket 10 tall fra populasjon 1 som er normalfordelt med forventning µ 1 og standardavvik σ 1 : 46.1 49.1 64.8 35.6 36.5 42.8 42.2 55.4 37.1 60.2 med utvalgsgjennomsnitt x 1 = 47.0 og utvalgsstandardavvik s 1 = 10.3. Dessuten har jeg trukket 10 tall fra en populasjon 2 som er normalfordelt med forventning µ 2 og standardavvik σ 2 : 31.5 37.6 39.8 38.4 27.4 29.6 23.2 39.3 30.7 31.4 med utvalgsgjennomsnitt x 2 = 32.9 og utvalgsstandardavvik s 2 = 5.6 Finn punktestimat for µ 1 µ 2 Finn 90% konfidensintervall for µ 1 µ 2. Er µ 1 = µ 2? Bruk 5% signifikansnivå.

Fordelinger som dataene er trukket fra: Populasjon 1: Normalfordeling med µ 1 = 50, σ 1 = 10 Populasjon 2: Normalfordeling med µ 2 = 35, σ 2 = 5

23 Inferens om forskjell mellom andeler i to populasjoner basert på uavhengige utvalg (10.5) p 1 andel suksesser i populasjon 1 p 2 andel suksesser i populasjon 2 x 1 antall suksesser i utvalg 1 x 2 antall suksesser i utvalg 2 p 1 = x 1 n 1 andel suksesser i utvalg 1 p 2 = x 2 n 2 andel suksesser i utvalg 2 Vil gjøre inferens om p 1 p 2 ved hjelp av p 1 p 2.

Repetisjon: Binomisk situasjon med ett utvalg Andel med suksess i utvalget er p = x n Utvalgsfordelingen: µ p = p så σ p = pq n z = p p pq n er tilnærmet standard normalfordelt

25 Binomisk situasjon med to utvalg Hvis uavhengige utvalg på n 1 og n 2 trekkes tilfeldig fra store populasjoner med suksess-sannsynligheter p 1 og p 2, vil utvalgsfordelingen for p 1 p 2 ha egenskapene: 1. forventning: 2. standardfeil: µ p 1 p 2 = p 1 p 2 σ p 1 p 2 = p1 q 1 n 1 + p 2q 2 n 2 3. tilnærmet normalfordelt når n 1 og n 2 er store

Dermed er z = p 1 p 2 (p 1 p 2 ) p1 q 1 n 1 + p 2q 2 n 2 tilnærmet standard normalfordelt når n 1 og n 2 er store. Et tilnærmet (1 α)-konfidensintervall for p 1 p 2 er gitt ved Altså som vanlig: p 1 p 2 ± z(α/2) p 1 q 1 n 1 + p 2 q 2 n 2 punktestimat ± z(α/2) standardfeil

Hypotesetesting om p 1 p 2. Vanlig å teste H 0 : p 1 p 2 = 0 som er det samme som H 0 : p 1 = p 2 Tar utgangspunkt i den standard normalfordelte og lager testobservatoren z = p 1 p 2 (p 1 p 2 ) p1 q 1 n 1 + p 2q 2 n 2 z = p 1 p 2 p p q p n 1 + p pq p n 2 der p p er et punktestimat for verdien av p 1 = p 2 når H 0 er sann. Et naturlig estimat er p p = x 1 + x 2 n 1 + n 2 Da er z tilnærmet standard normalfordelt når H 0 gjelder og vi kan basere testen på den.

Fra! " #! " $ eksamen 5. desember 2005 + " ', -.% %& " $! '($) " " $ *p 718 40, /3 B p 0#6$ T pt 45 /0)$ 12 /3/ H0 : pb = pt Ha : pb >

Løsning 9::;<=>? <@ABCDEFCBGHIDEGBJBGz = p B p T (p B p T ) = p p (1 p p) + p p(1 p p) n1 n2 p B p T p p (1 p p) + p p(1 p p) n1 n2 CKLBJJMNOPQEDBCBJBGIDp B = p TRp B = 251 366 = 0.6858 p T = 201 366 = 0.5492 V@WKJCDBCKXJKYUIJCJKHSCEZXKGTEGUICDJKJXFNKGp[HBGLKBJ\ 251 + 201 p p = 366 + 366 = 0.6175 z 0.6858 0.5492 0R = = 3.80 0.6175 (1 0.6175) + 0.6175 (1 0.6175) 366 36 z(α) = z(0.05) = 1.65 < 3.80CSHKTEGUICDBGH p[hbglk= P(z > z ) = P(z > 3.80) = 0.0001

Oppgave: Jeg har utført et binomisk forsøk med n 1 = 1000, x 1 = 757 og n 2 = 500, x 2 = 367 suksesser. Finn et punktesimat for p 1 p 2 Finn et 90% konfidensintervall for p 1 p 2 Test hypotesen H 0 : p 1 = p 2 mot H a : p 1 p 2 med signifikansnivå 5% (Dataene er simulert med p 1 = 0.75, p 2 = 0.7

31 Inferens om varians og standardavvik for ett normalfordelt utvalg (9.4) Inferens om variansen til en normalfordelt populasjon bruker kjikvadrat-fordelingen ( chi-square distribution ) (der kji er den greske bokstaven χ. Fordelingen kan også skrives χ 2 -fordelingen.) 1. χ 2 er positiv 2. χ 2 er ikke symmetrisk, men skjev mot høyre. 3. En bestemt χ 2 -fordeling identifiseres ved en parameter df som kalles antall frihetsgrader ( degrees of freedom ). 4. Forventning µ = df 5. Varians σ 2 = 2df

Rød kurve χ 2 -fordeling med df=1 frihetsgrad Grønn kurve χ 2 -fordeling med df=4 frihetsgrader Blå kurve χ 2 -fordeling med df=10 frihetsgrader Lilla kurve χ 2 -fordeling med df=20 frihetsgrader f(x) 0.0 0.1 0.2 0.3 0.4 0 10 20 30 40 x

33 Notasjon og Tabell 8 χ 2 (df, α) er χ 2 -verdien slik at areal α ligger til høyre, dvs P(χ 2 > χ 2 (df, α)) = α der χ 2 er χ 2 -fordelt med df frihetsgrader.

Eksempel: Finn χ 2 (20, 0.05) Bruk Tabell 8 α 0.05. df 20 31.4.

35 Inferens om σ Antagelse: Utvalget er trukket fra en populasjon som er normalfordelt. Vi skal teste hypoteser om σ. (Punktestimat er s). Vi bruker testobservatoren χ 2 = (n 1)s2 σ 2 som kan vises å være χ 2 -fordelt med df=n-1 frihetsgrader når σ har den korrekte verdien. Merk: Dette er analogt med at vi ved inferens om µ har brukt observatorer z = x µ σ/ x µ og t = n s/ som har kjente, tabellerte n fordelinger.

Eksempel: Jeg har trukket 10 tall fra en populasjon som er normalfordelt med forventning µ og standardavvik σ. Tallene ble 52.61 49.36 48.47 55.39 48.49 52.19 48.15 47.30 52.13 52.47 med s=2.64. Finn et punktestimat for σ Jeg sier at σ = 4 for populasjonen. Ta stilling til utsagnet gjennom en hypotesetest. Bruk signifikansnivå α = 0.1. Finn p-verdien.

Punktestimat for σ er s = 2.64. Nullhypotesten H 0 er at σ = 4 mens alternativ hypotese H a er at σ 4. Testobservatoren blir da χ 2 = (n 1)s2 (n 1)s2 σ 2 = 4 2 som er χ 2 -fordelt med df=n-1=9 frihetsgrader under nullhypotesen. Her blir χ 2 (n 1)s2 (10 1)2.642 = σ 2 = 4 2 = 3.92 Spørsmålet er om dette er en urimelig størrelse for en variabel som er kjikvadrat-fordelt med df = 9. Vi vil forkaste H 0 hvis testobservatoren χ 2 blir enten for liten eller for stor.

Klassisk metode: Finn kritiske verdier slik at vi forkaster hvis χ 2 ligger utenfor et sentralt område av kjikvadratfordelingen. Vi har at P(χ 2 < χ 2 (df, 1 α/2)) = α/2 P(χ 2 > χ 2 (df, α/2)) = α/2 I eksempel, med α = 0.10, blir disse kritiske verdiene (Tabell 8) χ 2 (9, 0.95) = 3.33 χ 2 (9, 0.05) = 16.9 dvs. vi skal forkaste hvis χ 2 < 3.33 eller χ 2 > 16.9. Dermed forkaster vi ikke H 0, siden vi beregnet testobservatoren χ 2 = 3.92.

Metode med p-verdi: Beregner først P(χ 2 9 < 3.92) = 1 P(χ2 9 > 3.92) = 1 0.92 = 0.08 Her har vi først brukt Tabell 8 til å finne P(χ 2 9 > 3.33) = 0.95 og P(χ 2 9 > 4.17) = 0.90. Dermed vet vi at P(χ2 9 > 3.92) er mellom 0.90 og 0.95. På øyemål har vi da anslått at P(χ 2 9 > 3.92) = 0.92 (som vi også ville få ved formell interpolasjon). Siden alternativ hypotese er at σ 4 er p-verdien lik arealet av begge halene, dvs p-verdi=2 0.08 = 0.16. Siden p-verdi>α=0.1 kan vi ikke forkaste nullhypotesen. (σ for populasjonen som jeg trakk fra var σ = 2, med andre ord beholdt vi feilaktig nullhypotesen, dvs. gjorde en feil av type II.)

Oppgave: Jeg har trukket 10 tall fra en populasjon som er normalfordelt med forventning µ og standardavvik σ. Tallene ble 51.18 49.62 48.84 51.22 48.29 46.93 51.84 50.96 47.70 48.18 med s=1.73. La H 0 være at σ = 4 for populasjonen, mens H a er at σ < 4. Finn p-verdien og bruk denne til å velge mellom hypotesene når signifikansnivå α = 0.1. Det er oppgitt at χ 2 (9, 0.992) = 1.678

41 Inferens om forholdet mellom varianser ved to uavhengige utvalg (10.6) Ser på to normalfordelte populasjoner med standardavvik henholdsvis σ 1 og σ 2. Ønsker å teste: H 0 : σ2 1 σ 2 2 som er det samme som og det samme som = 1 mot H a : σ2 1 σ 2 2 > 1 H 0 : σ 1 σ 2 = 1 mot H a : σ 1 σ 2 > 1 H 0 : σ 1 = σ 2 mot H a : σ 1 > σ 2 Kan selvsagt også ha < og i H a

42 F-fordelingen Egenskaper til F-fordelingen: 1. F er aldri negativ, den er 0 eller positiv. 2. F er ikke symmetrisk, men såkalt skjev mot høyre (som kjikvadrat-fordelingen) 3. F bestemmes ved de såkalte frihetsgradene df 1 og df 2.

Blå kurve F-fordeling med df 1 = 20, df 2 = 20 frihetsgrader Rød kurve F-fordeling med df 1 = 10, df 2 = 10 frihetsgrad Grønn kurve F-fordeling med df 1 = 4, df 2 = 4 frihetsgrader f(x) 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 x

44 Tabell 9A, 9B, 9C for F -fordelingen I samsvar med notasjon introdusert før vil F(df 1, df 2, α) betegne F -verdien slik at et areal α er til høyre: F(10, 10, 0.05) = 2.98 Oppgave: Hva er F(10, 10, 1)?

45 Testobservator og test (kalt F -test ) Antagelser: H 0 : σ2 1 σ 2 2 = 1 mot H a : σ2 1 σ 2 2 begge populasjonene er normalfordelte > 1 utvalgene blir trukket uavhengige av hverandre Bruker testobservatoren f = s2 1 s 2 2 som hvis H 0 gjelder er F -fordelt med df 1 = n 1 1 og df 2 = n 2 1 frihetsgrader.

Eksempel 10.17 i boka: Sammenligning av standardavvik for påfylt mengde for to tappemaskiner for brus. La σ 1 være standardavvik for ny maskin, mens σ 2 er standardavvik for nåværende maskin. Vil teste H 0 : σ2 1 σ 2 2 = 1 mot H a : σ2 1 σ 2 2 > 1 med signifikansnivå 5%. De relevante dataene er: Beregner Utvalg n s 2 Ny maskin (1) 25 0.0018 Nåværende maskin (2) 22 0.0008 f = s2 1 s 2 2 = 0.0018 0.0008 = 2.25 Er dette for stort til å kunne komme fra F -fordelingen med (24,21) frihetsgrader?

Klassisk metode: Forkast H 0 hvis f > F(24, 21, 0.05) = 2.05 dvs. H 0 forkastes siden vi har observert f = 2.25. Vi bruker her Tabell 9A, i kolonnen med 24 og linjen med 21. Husk at numerator betyr teller, og denominator betyr nevner Metode med p-verdi: p-verdi = P(f > 2.25) når f er F -fordelt med 24 og 21 frihetsgrader. Vi kan ikke finne denne i tabellene, men bruk av 9A gir at P(f > 2.25) < 0.05 mens 9B gir at P(f > 2.25) > 0.025, dvs. p-verdi er mellom 0.025 og 0.05.

Anta at vi isteden skal teste H 0 : σ2 1 σ 2 2 Dette er det samme som H 0 : σ2 2 σ 2 1 = 1 mot H a : σ2 1 σ 2 2 = 1 mot H a : σ2 2 σ 2 1 < 1 > 1 dvs. vi kan ganske enkelt bytte om rollene til de to utvalgene (og populasjonene). Bruker da testobservatoren f = s2 2 s 2 1 som hvis H 0 gjelder er F -fordelt med df 1 = n 2 1 og df 2 = n 1 1 frihetsgrader. (Merk at frihetsgradene df 1 alltid gjelder telleren, mens df 2 gjelder nevneren.)

Tosidig test om likhet av varianser Anta at vi skal teste H 0 : σ2 1 σ 2 2 = 1 mot H a : σ2 1 σ 2 2 1 med signifikansnivå α. Med testobservatoren f = s2 1 skal vi s2 2 forkaste H 0 både hvis den blir for liten (under 1) eller stor (større enn 1). Siden våre tabeller bare gjelder store verdier av f (høyre hale), foreslår boka følgende metode i Example 10.19 side 598: 1. Beregn s 2 1 og s2 2 2. Beregn f som forholdet mellom disse, med den største i telleren (slik at vi garantert får f > 1) 3. Klassisk metode: Forkast H 0 hvis f > F(df 1, df 2, α/2), hvor df 1 og df 2 er frihetsgrader til henholdsvis telleren og nevneren. 4. Metode med p-verdi: p-verdi er 2 P(f > f ) der f er F -fordelt med df 1 og df 2 frihetsgrader

Oppgave: Gitt utvalgsinformasjonen n 1 = 10, n 2 = 8, s 1 = 5.4, s 2 = 3.8, skal du teste H 0 : σ2 1 σ 2 2 med signifikansnivå α = 0.05 = 1 mot H a : σ2 1 σ 2 2 1

51 Oppsummering: Testing av varianser og standardavvik i normalfordelte populasjoner Ett utvalg med populasjonsstandardavvik σ (kap. 9.4): Tester hypoteser av formen H 0 : σ = σ 0 mot H a : σ σ 0 (evt. > eller <) for en gitt verdi av σ 0. Bruker testobservatoren χ 2 = (n 1)s2 σ 2 0 som er χ 2 -fordelt med df=n-1 frihetsgrader når H 0 gjelder. Kritiske verdier finnes i Tabell 8.

To utvalg med populasjonsstandardavvik σ 1 og σ 2 (kap. 10.6) Tester hypoteser av formen H 0 : σ2 1 σ2 2 (evt. > eller <) Bruker testobservatoren f = s2 1 s 2 2 = 1 mot H a : σ2 1 σ 2 2 1 som er F -fordelt med df 1 = n 1 1 og df 2 = n 2 1 frihetsgrader når H 0 gjelder. Kritiske verdier finnes i Tabell 9.