Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Like dokumenter
ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Kap. 10: Inferens om to populasjoner. Inferens om forskjell i forventning ved å bruke to avhengige utvalg (10.3) ST0202 Statistikk for samfunnsvitere

7.2 Sammenligning av to forventinger

Testobservator for kjikvadrattester

ST0202 Statistikk for samfunnsvitere

Testobservator for kjikvadrattester

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

TMA4240 Statistikk H2010 (20)

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Fra første forelesning:

Hypotesetesting. mot. mot. mot. ˆ x

TMA4240 Statistikk Høst 2016

Inferens i fordelinger

Statistikk og dataanalyse

ST0202 Statistikk for samfunnsvitere

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

ECON240 VÅR / 2016 BOKMÅL

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver : Sammenligne gjennomsnitt for to relaterte stikkprøver

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Kapittel 7: Inferens for forventningerukjent standardavvik

i x i

Kapittel 3: Studieopplegg

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

ST0202 Statistikk for samfunnsvitere

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Fasit for tilleggsoppgaver

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

TMA4240 Statistikk Høst 2007

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

EKSAMENSOPPGAVER STAT100 Vår 2011

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

TMA4240 Statistikk Høst 2015

6.2 Signifikanstester

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4245 Statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

ST0202 Statistikk for samfunnsvitere Kapittel 9-10 (oversikt): Inferens om én og to populasjoner

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

TMA4245 Statistikk Eksamen desember 2016

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 26. mai SENSURFRIST: 16. juni KLASSE: HIS TID: kl

HØGSKOLEN I STAVANGER

EKSAMEN. EMNEANSVARLIG: Terje Bokalrud og Hans Petter Hornæs. TILLATTE HJELPEMIDLER: Kalkulator og alle trykte og skrevne hjelpemidler.

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

Kap. 12: Variansanalyse

ST0202 Statistikk for samfunnsvitere

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

ST0202 Statistikk for samfunnsvitere

Kapittel 9 og 10: Hypotesetesting

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Kapittel 9 og 10: Hypotesetesting

TMA4245 Statistikk Eksamen august 2014

ÅMA110 Sannsynlighetsregning med statistikk, våren

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

ST0202 Statistikk for samfunnsvitere Kapittel 8: Introduksjon til statistisk inferens

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

Kap. 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

TMA4240 Statistikk Høst 2009

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Binomisk sannsynlighetsfunksjon

Hypotesetest: generell fremgangsmåte

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Løsningsforslag til obligatorisk innlevering 3.

Kapittel 7: Inferens for forventningerukjent standardavvik

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Hypotesetesting av λ og p. p verdi.

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Kapittel 10: Hypotesetesting

1 8-1: Oversikt : Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

Transkript:

Kap. 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to populasjoner med populasjonsgjennomsnitt henholdsvis μ 1 og μ. Vi trekker da ett utvalg fra hver populasjon. ST00 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag To muligheter: Vi kan ha avhengige eller uavhengige utvalg. Avhengige utvalg: De samme kilder (person, gjenstand, etc.) brukes for å få data fra de to populasjonene. Uavhengige utvalg: Det trekkes ett utvalg fra hver populasjon, og kildene for dataene fra de to populasjonene har ingen sammenheng med hverandre. 3 Eksempel Undersøk om et nytt treningsprogram påvirker det fysiske nivået til elevene ved en videregående skole. Populasjo: Alle elevene før de gjennomgår programmet. Populasjon : Alle elevene etter at de har gjennomgått programmet. Spørsmål: Er populasjon i bedre form enn populasjo? Uavhengige utvalg: Trekk 6 elever som ennå ikke har gjennomgått treningsprogrammet og test dem. Trekk 6 elever som har gjennomgått treningsprogrammet og test dem. Elevene i de to utvalgene er forskjellige. Dataene er et sett med 6 verdier for hvert utvalg. Avhengige utvalg: Trekk 6 elever. Test dem før de gjennomgår treningsprogrammet, la dem så gjennomgå programmet og test de samme elevene etterpå. Elevene i de to utvalgene er de samme. Dataene er to verdier for hver av de 6 elevene (såkalte pardata - paired data )

5 Eksempel med avhengige utvalg Sammenligner to typer dekk A og B med hensyn på dekkslitasje. På 6 biler monteres ett bildekk av hver type på forhjulene. Dekkslitasje etter kjøring en viss lengde måles: Bil 1 3 4 5 6 Dekk A (x 1 ) 15 64 94 38 90 106 Dekk B (x ) 133 65 103 37 10 115 Pardifferanse (d = x 1 x ) 8 1 9-1 1 9 Vil basere analysen på differansene d. Fordel: x-ene varierer mye, da de er påvirket av mange faktorer: Bilens tyngde, type kjøring, førerens kjørevaner etc. Slike effekter elimineres i høy grad ved å basere analysen på d-ene. Dette er essensen i bruk av avhengige utvalg. 6 Inferens om forskjell i forventning ved å bruke to avhengige utvalg (10.3) Har nå pardata, x 1 og x, for hvert av n utvalgte par. Vi ønsker å finne ut om det er forskjell på forventningsverdiene μ 1 og μ i de to populasjonene. For dette ser vi på: Pardifferanse ( paired difference ): d = x 1 x beregnet for hvert av de n parene Antagelse om fordeling for d: Antar at de to populasjonene er normalfordelte og at de n forsøksenhetene er tilfeldig trukket ut. Da danner de beregnede d et tilfeldig utvalg fra en normalfordeling med forventning og standardavvik som vi kaller μ d og σ d. Her er μ d = μ 1 μ forskjellen i forventet verdi mellom de to populasjonene, mens σ d kan estimeres fra utvalget av d. Tilbake til dekk-eksemplet: På 6 biler monteres ett bildekk av hver type på forhjulene. Dekkslitasje etter kjøring en viss lengde måles: Bil 1 3 4 5 6 Dekk A (x 1 ) 15 64 94 38 90 106 Dekk B (x ) 133 65 103 37 10 115 Pardifferanse (d = x 1 x ) 8 1 9-1 1 9 Beregninger: d = 6.3 (punktestimat for μ d ), s d = 5.1 (utvalgsstandardavvik for d-ene; punktestimat for σ d ) For statistisk inferens om μ d sitter vi dermed med kun ett utvalg (av d-er), og vi er dermed tilbake til situasjonen i kap. 9. 8 Konfidensintervall og tester for forventet forskjell μ d ved avhengige utvalg Konfidensintervall og testing er basert på t = d μ d s d / n, som er t-fordelt med df = n 1 frihetsgrader. Et 1 α konfidensintervall for μ d er gitt ved d ± t(n 1,α/) s d n Mest aktuelle nullhypotese er: H 0 : μ d = 0 (hvorfor?) mot ulike alternativer for μ d Testobservator er da: t = d s d / n

Oppgave: Finn et 90% konfidensintervall for μ d i dekk-eksemplet. Test H 0 : μ d = 0motH a : μ d > 0med5% signifikansnivå. Beskriv med ord hva vi ønsker å finne ut med denne testen. 10 Inferens om forskjell i forventning ved å bruke to uavhengige utvalg (10.4) Populasjo: Populasjon μ 1 forventning μ forventning (populasjonsgjennomsnitt) (populasjonsgjennomsnitt) σ 1 populasjonsstandardavvik σ populasjonsstandardavvik observasjoner n observasjoner x 1 observert variabel x observert variabel x 1 utvalgsgjennomsnitt x utvalgsgjennomsnitt s 1 utvalgsstandardavvik s utvalgsstandardavvik Vi er nå interessert i μ 1 μ, som har punktestimat x 1 x 11 Utvalgsfordeling for x 1 x Antagelse: Uavhengige utvalg av størrelse og n trekkes tilfeldig fra normalfordelte populasjoner. Da er x 1 x normalfordelt med 1. forventning. standardfeil σ x1 x = μ x1 x = μ 1 μ ) ( σ 1 + ( σ n ) Dette betyr at z = x 1 x (μ 1 μ ) ( ) ( ) σ 1 σ + n er standard normalfordelt og kan brukes til inferens om μ 1 μ hvis σ 1 og σ er kjente. Hvis σ 1 og σ er ukjente, erstattes disse med s 1 og s, og inferens baseres på t = x 1 x (μ 1 μ ) ( ) ( ) s 1 s + n som er tilnærmet t-fordelt med df frihetsgrader (se neste side).

Det korrekte antall frihetsgrader for t er df = {( ) ( )} s 1 s + n (s1 /) 1 + (s /n ) n 1 (1) 14 Konfidensintervall for forventet forskjell ved uavhengige utvalg (avrundet nedover til nærmeste hele tall). Dette brukes i kalkulatorer og dataprogrammer, men for å gjøre analyser enklere vil vi bruke som df for t: df = det minste av 1 og n 1 () (Det kan vises at formelen (1) alltid gir en df mellom () og + n ). Et 1 α konfidensintervall for μ 1 μ er gitt ved ) ( ) x 1 x ± t(df,α/) ( s 1 s + n der df er lik det minste av 1ogn 1, eller eventuelt gitt ved formelen på forrige side, Men: Ved å bruke () gjør vi inferensen konservativ i den forstand at vi får lengre konfidensintervall og høyere kritiske verdier for tester enn ved å bruke formelen (1).

Fra eksamen 4. mai 003 Oppgave 1 Vekta (i kilogram) til forsvarsspillerne, x, og til angrepsspillerne, y, i Molde Fotballklubbs A-stall (MFK) er slik: Det oppgis at x = 501, x 79 83 88 89 78 84 y 80 80 77 78 7 x =41935, y = 387 og y = 9997. a) Finn utvalgsmiddelverdiene og utvalgsstandardavvikene for de to utvalgene. Anta at vi kan betrakte forsvarsspillerne og angrepsspillerne i MFK som uavhengige tilfeldige utvalg fra henholdsvis populasjonen av alle forsvarsspillere og populasjonen av alle angrepsspillere på høyt nivå. b) Foreslå en testmetode for å undersøke om det er noen forskjell i gjennomsnittsvekta til forsvarsspillere og angrepsspillere på høyt nivå. Gjør greie for antakelsene for testmetoden. Løsning: Skriver x 1 for x, x for y μ 1 er forventet vekt for forsvarsspiller μ er forventet vekt for angrepsspiller a) x 1 = 501/6 = 83.5, x = 387/5 = 77.4 s 1 = s = Σx 1 (Σx 1) / 1 Σx (Σx ) /n n 1 = = 41935 (501) /6 = 4.5 6 1 9997 (387) /5 = 3.3 5 1 c) Utfør testen med signifikansnivå α = 0,10. b) Bruker t-test for to uavhengige utvalg ( to-utvalgs t-test ). Utvalgene må være uavhengige og tilfeldige, fra normalfordelte populasjoner (viser seg rimelig for vekt). Tester H 0 : μ 1 μ = 0motH 1 : μ 1 μ 0 c) Testobservator t x = 1 x ( ) ( ) = s 1 s + n 83.5 77.3 ) + ( 4.5 6 ( 3.3 5 ) =.59 Hvis H 0 gjelder er t tilnærmet t-fordelt med df = 4 (minimum av 6-1 og 5-1). Klassisk metode: Forkast H 0 hvis t < t(4, 0.10/) = t(4, 0.05) =.13 (tabell 6), eller hvis t > t(4, 0.05) =.13. Vi forkaster altså H 0 og påstår H a siden.59 >.13. Metode med p-verdi: p-verdi er gitt ved sannsynligheten for å få det vi har fått eller noe mer ekstremt i forhold til nullhypotesen, dvs. her P(t <.59)+P(t >.59) = P(t >.59) når t er t-fordelt med 4 frihetsgrader. Tabell 7 gir at P(t >.6) =0.03, så p-verdien blir ca 0.03 = 0.06, som altså er mindre enn signifikansnivået på 0.10. Vi forkaster altså H 0. Det er tidligere bemerket at dette er en konservativ metode. Det korrekte antall frihetsgrader er muligens større enn 4, noe som ville ha gitt en mindre p-verdi, og lavere kritisk verdi. Men sålenge vi forkaster, har dette ingen betydning for konklusjonen. (Formelen (1) for df ville gitt 8.7, dvs vi kunne ha brukt 8 frihetsgrader. Kritiske verdier ville da ha blitt ±1.86 istedenfor ±.13, mens p-verdi ville blitt 0.03 istedenfor 0.060.)

Oppgave: Jeg har trukket 10 tall fra populasjo som er normalfordelt med forventning μ 1 og standardavvik σ 1 : 46.1 49.1 64.8 35.6 36.5 4.8 4. 55.4 37.1 60. med utvalgsgjennomsnitt x 1 = 47.0 og utvalgsstandardavvik s 1 = 10.3. Dessuten har jeg trukket 10 tall fra en populasjon som er normalfordelt med forventning μ og standardavvik σ : 31.5 37.6 39.8 38.4 7.4 9.6 3. 39.3 30.7 31.4 Fordelinger som dataene er trukket fra: Populasjo: Normalfordeling med μ 1 = 50,σ 1 = 10 Populasjon : Normalfordeling med μ = 35,σ = 5 med utvalgsgjennomsnitt x = 3.9 og utvalgsstandardavvik s = 5.6 Finn punktestimat for μ 1 μ Finn 90% konfidensintervall for μ 1 μ. Er μ 1 = μ? Bruk 5% signifikansnivå. 3 Inferens om forskjell mellom andeler i to populasjoner basert på uavhengige utvalg (10.5) p 1 andel suksesser i populasjo p andel suksesser i populasjon x 1 antall suksesser i utvalg 1 x antall suksesser i utvalg p 1 = x 1 andel suksesser i utvalg 1 p = x n andel suksesser i utvalg Vil gjøre inferens om p 1 p ved hjelp av p 1 p. Repetisjon: Binomisk situasjon med ett utvalg Andel med suksess i utvalget er Utvalgsfordelingen: så p = x n μ p = p pq σ p = n z = p p pq n er tilnærmet standard normalfordelt

$ " ', -.. % + / 0 ) $ $ ) 5 Binomisk situasjon med to utvalg Hvis uavhengige utvalg på og n trekkes tilfeldig fra store populasjoner med suksess-sannsynligheter p 1 og p,vil utvalgsfordelingen for p 1 p ha egenskapene: 1. forventning:. standardfeil: μ p 1 p = p 1 p σ p 1 p = p1 q 1 + p q n 3. tilnærmet normalfordelt når og n er store Dermed er z = p 1 p (p 1 p ) p1 q 1 + p q n tilnærmet standard normalfordelt når og n er store. Et tilnærmet (1 α)-konfidensintervall for p 1 p er gitt ved Altså som vanlig: p 1 p ± z(α/) p 1 q 1 + p q n punktestimat ± z(α/) standardfeil Hypotesetesting om p 1 p. Vanlig å teste H 0 : p 1 p = 0 som er det samme som H 0 : p 1 = p Tar utgangspunkt i den standard normalfordelte z = p 1 p (p 1 p ) p1 q 1 + p q n og lager testobservatoren z = p 1 p p p q p + p pq p n der p p er et punktestimat for verdien av p 1 = p når H 0 er sann. Et naturlig estimat er p p = x 1 + x + n Da er z tilnærmet standard normalfordelt når H 0 gjelder og vi kan basere testen på den. Fra eksamen 5. desember 005! " #! " $ & "! ' ( % $ * p B p " " T $ 1 / / 3 H 4 5 6 0 : p B = p T H a : p B >p T # 0 7 1 8 4 0, / 3

z(α) =z(0.05) = 1.65 < 3.80 C S H K T E G U I C D B G H 0R Løsning 9 : : ; < = >? < @ A B C D E F C B G H I D E G B J B G C K L B J J M N N O P Q E D B C B J B G I D z = p B p T (p B p T ) p B = p T p p (1 p p ) + p p (1 p p ) p p (1 p p ) n + p p (1 p p ) n R p B = p T p B = 51 366 =0.6858 p T = 01 366 =0.549 51 + 01 p p = 366 + 366 =0.6175 z = 0.6858 0.549 =3.80 0.6175 (1 0.6175) + 0.6175 (1 0.6175) 366 36 Oppgave: Jeg har utført et binomisk forsøk med = 1000, x 1 = 757 og n = 500, x = 367 suksesser. Finn et punktesimat for p 1 p Finn et 90% konfidensintervall for p 1 p Test hypotesen H 0 : p 1 = p mot H a : p 1 p med signifikansnivå 5% (Dataene er simulert med p 1 = 0.75, p = 0.7 @ W K J C D B C K X J K Y U I J C J K H S C E Z X K G T E G U I C D J K J X F N K G V H B G L K B J \ p[ H B G L K = P (z >z )=P (z >3.80) = 0.0001 p[ 31 Inferens om varians og standardavvik for ett normalfordelt utvalg (9.4) Rød kurve χ -fordeling med df=1 frihetsgrad Grønn kurve χ -fordeling med df=4 frihetsgrader Blå kurve χ -fordeling med df=10 frihetsgrader Lilla kurve χ -fordeling med df=0 frihetsgrader Inferens om variansen til en normalfordelt populasjon bruker kjikvadrat-fordelingen ( chi-square distribution ) (der kji er den greske bokstaven χ. Fordelingen kan også skrives χ -fordelingen.) 1. χ er positiv. χ er ikke symmetrisk, men skjev mot høyre. 3. En bestemt χ -fordeling identifiseres ved en parameter df som kalles antall frihetsgrader ( degrees of freedom ). 4. Forventning μ = df 5. Varians σ = df f(x) 0.0 0.1 0. 0.3 0.4 0 10 0 30 40 x

33 Notasjon og Tabell 8 χ (df,α) er χ -verdien slik at areal α ligger til høyre, dvs P(χ >χ (df,α)) = α der χ er χ -fordelt med df frihetsgrader. Eksempel: Finn χ (0, 0.05) Bruk Tabell 8 α 0.05. df 0 31.4. 35 Inferens om σ Antagelse: Utvalget er trukket fra en populasjon som er normalfordelt. Vi skal teste hypoteser om σ. (Punktestimat er s). Vi bruker testobservatoren χ = (n 1)s σ som kan vises å være χ -fordelt med df=n-1 frihetsgrader når σ har den korrekte verdien. Merk: Dette er analogt med at vi ved inferens om μ har brukt observatorer z = x μ σ/ x μ og t = n s/ som har kjente, tabellerte n fordelinger. Eksempel: Jeg har trukket 10 tall fra en populasjon som er normalfordelt med forventning μ og standardavvik σ. Tallene ble 5.61 49.36 48.47 55.39 48.49 5.19 48.15 47.30 5.13 5.47 med s=.64. Finn et punktestimat for σ Jeg sier at σ = 4 for populasjonen. Ta stilling til utsagnet gjennom en hypotesetest. Bruk signifikansnivå α = 0.1. Finn p-verdien.

Punktestimat for σ er s =.64. Nullhypotesten H 0 er at σ = 4 mens alternativ hypotese H a er at σ 4. Testobservatoren blir da χ = (n 1)s (n 1)s σ = 4 som er χ -fordelt med df=n-1=9 frihetsgrader under nullhypotesen. Her blir χ (n 1)s (10 1).64 = σ = 4 = 3.9 Spørsmålet er om dette er en urimelig størrelse for en variabel som er kjikvadrat-fordelt med df = 9. Vi vil forkaste H 0 hvis testobservatoren χ blir enten for liten eller for stor. Klassisk metode: Finn kritiske verdier slik at vi forkaster hvis χ ligger utenfor et sentralt område av kjikvadratfordelingen. Vi har at P(χ <χ (df, 1 α/)) = α/ P(χ >χ (df,α/)) = α/ I eksempel, med α = 0.10, blir disse kritiske verdiene (Tabell 8) χ (9, 0.95) = 3.33 χ (9, 0.05) = 16.9 dvs. vi skal forkaste hvis χ < 3.33 eller χ > 16.9. Dermed forkaster vi ikke H 0, siden vi beregnet testobservatoren χ = 3.9. Metode med p-verdi: Beregner først P(χ 9 < 3.9) =1 P(χ 9 > 3.9) =1 0.9 = 0.08 Her har vi først brukt Tabell 8 til å finne P(χ 9 > 3.33) =0.95 og P(χ 9 > 4.17) =0.90. Dermed vet vi at P(χ 9 > 3.9) er mellom 0.90 og 0.95. På øyemål har vi da anslått at P(χ 9 > 3.9) =0.9 (som vi også ville få ved formell interpolasjon). Oppgave: Jeg har trukket 10 tall fra en populasjon som er normalfordelt med forventning μ og standardavvik σ. Tallene ble 51.18 49.6 48.84 51. 48.9 46.93 51.84 50.96 47.70 48.18 med s=1.73. Siden alternativ hypotese er at σ 4erp-verdien lik arealet av begge halene, dvs p-verdi= 0.08 = 0.16. Siden p-verdi>α=0.1 kan vi ikke forkaste nullhypotesen. (σ for populasjonen som jeg trakk fra var σ =, med andre ord beholdt vi feilaktig nullhypotesen, dvs. gjorde en feil av type II.) La H 0 være at σ = 4 for populasjonen, mens H a er at σ<4. Finn p-verdien og bruk denne til å velge mellom hypotesene når signifikansnivå α = 0.1. Det er oppgitt at χ (9, 0.99) =1.678

41 Inferens om forholdet mellom varianser ved to uavhengige utvalg (10.6) Ser på to normalfordelte populasjoner med standardavvik henholdsvis σ 1 og σ. Ønsker å teste: H 0 : σ 1 σ = 1motH a : σ 1 σ > 1 som er det samme som H 0 : σ 1 = 1motH a : σ 1 > 1 σ σ og det samme som 4 F-fordelingen Egenskaper til F-fordelingen: 1. F er aldri negativ, den er 0 eller positiv.. F er ikke symmetrisk, men såkalt skjev mot høyre (som kjikvadrat-fordelingen) 3. F bestemmes ved de såkalte frihetsgradene df 1 og df. H 0 : σ 1 = σ mot H a : σ 1 >σ Kan selvsagt også ha < og i H a Blå kurve F-fordeling med df 1 = 0, df = 0 frihetsgrader Rød kurve F-fordeling med df 1 = 10, df = 10 frihetsgrad Grønn kurve F-fordeling med df 1 = 4, df = 4 frihetsgrader 44 Tabell 9A, 9B, 9C for F -fordelingen I samsvar med notasjon introdusert før vil F (df 1, df,α) betegne F -verdien slik at et areal α er til høyre: f(x) 0.0 0. 0.4 0.6 0.8 1.0 0 1 3 4 5 x F (10, 10, 0.05) =.98 Oppgave: Hva er F (10, 10, 1)?

45 Testobservator og test (kalt F -test ) Antagelser: H 0 : σ 1 σ = 1motH a : σ 1 σ > 1 begge populasjonene er normalfordelte utvalgene blir trukket uavhengige av hverandre Bruker testobservatoren f = s 1 s som hvis H 0 gjelder er F -fordelt med df 1 = 1ogdf = n 1 frihetsgrader. Eksempel 10.17 i boka: Sammenligning av standardavvik for påfylt mengde for to tappemaskiner for brus. La σ 1 være standardavvik for ny maskin, mens σ er standardavvik for nåværende maskin. Vil teste H 0 : σ 1 σ = 1motH a : σ 1 σ > 1 med signifikansnivå 5%. De relevante dataene er: Beregner Utvalg n s Ny maskin (1) 5 0.0018 Nåværende maskin () 0.0008 f = s 1 s = 0.0018 0.0008 =.5 Er dette for stort til å kunne komme fra F -fordelingen med (4,1) frihetsgrader? Klassisk metode: Forkast H 0 hvis f > F (4, 1, 0.05) =.05 Anta at vi isteden skal teste H 0 : σ 1 σ Dette er det samme som = 1motH a : σ 1 σ < 1 dvs. H 0 forkastes siden vi har observert f =.5. Vi bruker her Tabell 9A, i kolonnen med 4 og linjen med 1. Husk at numerator betyr teller, og denominator betyr nevner Metode med p-verdi: p-verdi = P(f >.5) når f er F -fordelt med 4 og 1 frihetsgrader. Vi kan ikke finne denne i tabellene, men bruk av 9A gir at P(f >.5) < 0.05 mens 9B gir at P(f >.5) > 0.05, dvs. p-verdi er mellom 0.05 og 0.05. H 0 : σ σ 1 = 1motH a : σ σ 1 > 1 dvs. vi kan ganske enkelt bytte om rollene til de to utvalgene (og populasjonene). Bruker da testobservatoren f = s s 1 som hvis H 0 gjelder er F -fordelt med df 1 = n 1ogdf = 1 frihetsgrader. (Merk at frihetsgradene df 1 alltid gjelder telleren, mens df gjelder nevneren.)

Tosidig test om likhet av varianser Anta at vi skal teste H 0 : σ 1 σ = 1motH a : σ 1 σ 1 med signifikansnivå α. Med testobservatoren f = s 1 skal vi s forkaste H 0 både hvis den blir for liten (under 1) eller stor (større en). Siden våre tabeller bare gjelder store verdier av f (høyre hale), foreslår boka følgende metode i Example 10.19 side 598: 1. Beregn s 1 og s. Beregn f som forholdet mellom disse, med den største i telleren (slik at vi garantert får f > 1) 3. Klassisk metode: Forkast H 0 hvis f > F (df 1, df,α/), hvor df 1 og df er frihetsgrader til henholdsvis telleren og nevneren. 4. Metode med p-verdi: p-verdi er P(f > f ) der f er F -fordelt med df 1 og df frihetsgrader Oppgave: Gitt utvalgsinformasjonen = 10, n = 8, s 1 = 5.4, s = 3.8, skal du teste H 0 : σ 1 σ med signifikansnivå α = 0.05 = 1motH a : σ 1 σ 1 51 Oppsummering: Testing av varianser og standardavvik i normalfordelte populasjoner Ett utvalg med populasjonsstandardavvik σ (kap. 9.4): Tester hypoteser av formen H 0 : σ = σ 0 mot H a : σ σ 0 (evt. > eller <) for en gitt verdi av σ 0. Bruker testobservatoren χ = (n 1)s σ 0 To utvalg med populasjonsstandardavvik σ 1 og σ (kap. 10.6) Tester hypoteser av formen H 0 : σ 1 σ (evt. > eller <) Bruker testobservatoren f = s 1 s = 1motH a : σ 1 σ 1 som er F -fordelt med df 1 = 1ogdf = n 1 frihetsgrader når H 0 gjelder. Kritiske verdier finnes i Tabell 9. som er χ -fordelt med df=n-1 frihetsgrader når H 0 gjelder. Kritiske verdier finnes i Tabell 8.