ST0202 Statistikk for samfunnsvitere

Like dokumenter
ST0202 Statistikk for samfunnsvitere

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Kap. 10: Inferens om to populasjoner. Inferens om forskjell i forventning ved å bruke to avhengige utvalg (10.3) ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Testobservator for kjikvadrattester

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

ST0202 Statistikk for samfunnsvitere

Fra første forelesning:

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk H2010 (20)

TMA4240 Statistikk Høst 2007

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

i x i

ST0202 Statistikk for samfunnsvitere

Testobservator for kjikvadrattester

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Kap. 12: Variansanalyse

ST0202 Statistikk for samfunnsvitere

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

TMA4240 Statistikk Høst 2009

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

ST0202 Statistikk for samfunnsvitere Kapittel 8: Introduksjon til statistisk inferens

TMA4240 Statistikk H2010

Fasit for tilleggsoppgaver

ST0202 Statistikk for samfunnsvitere Kapittel 9-10 (oversikt): Inferens om én og to populasjoner

EKSAMENSOPPGAVER STAT100 Vår 2011

Binomisk sannsynlighetsfunksjon

Eksamensoppgave i TMA4240 Statistikk

ECON240 VÅR / 2016 BOKMÅL

Kapittel 3: Studieopplegg

Kapittel 7: Inferens for forventningerukjent standardavvik

Kapittel 9 og 10: Hypotesetesting

Hypotesetesting. mot. mot. mot. ˆ x

TMA4240 Statistikk H2010 (22)

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Hypotesetesting av λ og p. p verdi.

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Eksamensoppgave i ST0103 Brukerkurs i statistikk

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Hypotesetest: generell fremgangsmåte

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

TMA4245 Statistikk Eksamen desember 2016

ÅMA 110 SANNSYNLIGHETSREGNING MED STATISTIKK Løsningsforslag til regneøving nr. 12 (s. 34)

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

LØSNINGSFORSLAG ) = Dvs

Inferens i fordelinger

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk H2010 (19)

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

TMA4240 Statistikk Høst 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

HØGSKOLEN I STAVANGER

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Statistikk og dataanalyse

Econ 2130 uke 16 (HG)

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Introduksjon til inferens

TMA4245 Statistikk Eksamen august 2014

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Forkaste H 0 "Stikkprøven er unormal" Akseptere H 0 "Stikkprøven er innafor normalen" k kritisk verdi. Utgangspunkt for H 0

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

ST0202 Statistikk for samfunnsvitere

7.2 Sammenligning av to forventinger

Løsning eksamen desember 2016

STK1100 våren 2019 Mere om konfidensintevaller

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

TMA4240 Statistikk 2014

Verdens statistikk-dag.

ÅMA110 Sannsynlighetsregning med statistikk, våren

TMA4240 Statistikk H2010

Kapittel 9 og 10: Hypotesetesting

Norske hoppdommere og Janne Ahonen

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Kapittel 10: Hypotesetesting

Løsning eksamen desember 2017

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

UNIVERSITETET I OSLO

HØGSKOLEN I STAVANGER

Eksamensoppgave i TMA4240 Statistikk

Transkript:

ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag

2 Kap. 10: Inferens om to populasjoner Situasjon: Det er to populasjoner som vi ønsker å sammenligne. Vi trekker da et utvalg fra hver populasjon. Vi kan ha avhengige eller uavhengige utvalg. Avhengige utvalg: Det er en sammenheng mellom utvalgene Uavhengige utvalg: Det er ingen sammenheng mellom utvalgene Eksempel: Undersøk om et nytt treningsprogram påvirker det fysiske nivået til elevene ved en videregående skole. Populasjon 1: Alle elevene før de gjennomgår programmet. Populasjon 2: Alle elevene etter at de har gjennomgått programmet. Spørsmål: Er populasjon 2 i bedre form enn populasjon 1?

Uavhengige utvalg: Trekk 6 elever som ennå ikke har gjennomgått treningsprogrammet og test dem. Trekk 6 elever som har gjennomgått treningsprogrammet og test dem. Elevene i de to utvalgene er forskjellige. Dataene er ett sett med verdier for hvert utvalg. Avhengige utvalg: Trekk 6 elever. Test dem før de gjennomgår treningsprogrammet, la dem så gjennomgå programmet og test de samme elevene etterpå. Elevene i de to utvalgene er de samme. Dataene er to verdier for hver elev (såkalte pardata - paired data )

4 Inferens om forskjell i forventning ved å bruke to avhengige utvalg (10.3) Har nå pardata, x 1 og x 2, for hvert av n utvalgte par (for eksempel resultater før og etter å ha gjennomgått et treningsprogram for hver elev). Vi ønsker å finne ut om det er forskjell på forventningsverdiene i de to populasjonene. For dette ser vi på: Pardifferanse ( paired difference ): d = x 1 x 2 beregnet for hvert av de n parene Antagelse om fordeling for d: Antar at de to populasjonene er normalfordelte og at forsøksenheter er tilfeldig trukket ut. De n beregnede verdier av differansene d kan da antas å være et tilfeldig utvalg fra en normalfordeling med forventning µ d og standardavvik σ d. Her representerer µ d forskjellen i forventet verdi mellom de to populasjonene.

Eksempel: Sammenligner to typer dekk A og B med hensyn på dekkslitasje. På 6 biler monteres ett bildekk av hver type (tilfeldig side) på forhjulene. Dekkslitasje etter kjøring en viss lengde måles: Bil 1 2 3 4 5 6 Dekk A (x 1 ) 125 64 94 38 90 106 Dekk B (x 2 ) 133 65 103 37 102 115 Pardifferanse (d = x 1 x 2 ) 8 1 9-1 12 9 d = 6.3, s d = 5.1 (vanlig utvalgsstandardavvik for d-ene) Ide: x-ene varierer mye, da de er påvirket av mange faktorer: Bilens tyngde, type kjøring, førerens kjørevaner etc. Slike effekter elimineres i høy grad ved å basere analysen på d-ene. Dette er essensen i bruk av avhengige utvalg. Dermed har vi kun ett utvalg i vår analyse, og vi er tilbake til situasjonen i kapitel 9.

6 Konfidensintervall for forventet forskjell ved avhengige utvalg Et 1 α konfidensintervall for µ d er gitt ved d ± t(n 1, α/2) s d n Konfidensintervall og testing er basert på t = d µ d s d / n som er t-fordelt med df = n 1 frihetsgrader. Mest aktuelle nullhypotese er: H 0 : µ d = 0 (hvorfor?) mot ulike alternativer for µ d Oppgave: Finn et 90% konfidensintervall for µ d i dekk-eksemplet. Test også H 0 : µ d = 0 mot H a : µ d > 0 med 5% signifikansnivå.

7 Inferens om forskjell i forventning ved å bruke to uavhengige utvalg (10.4) Populasjon 1: Populasjon 2 µ 1 forventning µ 2 forventning (populasjonsgjennomsnitt) (populasjonsgjennomsnitt) σ 1 populasjonsstandardavvik σ 2 populasjonsstandardavvik n 1 observasjoner n 2 observasjoner x 1 observert variabel x 2 observert variabel x 1 utvalgsgjennomsnitt x 2 utvalgsgjennomsnitt s 1 utvalgsstandardavvik s 2 utvalgsstandardavvik Vi er nå interessert i µ 1 µ 2, som har punktestimat x 1 x 2

8 Utvalgsfordeling for x 1 x 2 Antagelse: Uavhengige utvalg av størrelse n 1 og n 2 trekkes tilfeldig fra normalfordelte populasjoner. Da er x 1 x 2 normalfordelt med 1. forventning 2. standardfeil σ x1 x 2 = µ x1 x 2 = µ 1 µ 2 ) ( σ 2 1 n 1 + ( σ 2 2 n 2 )

Dette betyr at z = x 1 x 2 (µ 1 µ 2 ) (σ ) ( ) 2 1 σ 2 n 1 + 2 n 2 er standard normalfordelt og kan brukes til inferens om µ 1 µ 2 hvis σ 1 og σ 2 er kjente. Hvis σ 1 og σ 2 er ukjente, erstattes disse med s 1 og s 2, og inferens baseres på t = x 1 x 2 (µ 1 µ 2 ) ( ) ( ) s 2 1 s 2 n 1 + 2 n 2 som er tilnærmet t-fordelt med df frihetsgrader (se neste side).

Det korrekte antall frihetsgrader for t er df = {( ) ( )} s 2 1 s 2 2 n 1 + 2 n 2 (s1 2/n 1) 2 n 1 1 + (s2 2 /n 2) 2 n 2 1 (avrundet nedover til nærmeste hele tall). Dette brukes i kalkulatorer og dataprogrammer, men for å gjøre analyser enklere vil vi bruke som df for t: det minste av n 1 1 og n 2 1. (Det kan vises at formelen ovenfor alltid gir en df mellom dette tallet og den maksimale verdien n 1 + n 2 2). Men: Vi gjør da inferensen konservativ i den forstand at vi får lenger konfidensintervall og høyere kritiske verdier for tester enn ved å bruke formelen.

11 Konfidensintervall for forventet forskjell ved uavhengige utvalg Et 1 α konfidensintervall for µ 1 µ 2 er gitt ved ) ( ) x 1 x 2 ± t(df, α/2) ( s 2 1 s 2 + 2 n 1 n 2 der df er lik det minste av n 1 1 og n 2 1, eller eventuelt gitt ved formelen på forrige side,

Fra eksamen 24. mai 2003 Oppgave 1 Vekta (i kilogram) til forsvarsspillerne, x, og til angrepsspillerne, y, i Molde Fotballklubbs A-stall (MFK) er slik: x 79 83 88 89 78 84 y 80 80 77 78 72 Det oppgis at x = 501, x 2 = 41935, y = 387 og y 2 = 29997. a) Finn utvalgsmiddelverdiene og utvalgsstandardavvikene for de to utvalgene. Anta at vi kan betrakte forsvarsspillerne og angrepsspillerne i MFK som uavhengige tilfeldige utvalg fra henholdsvis populasjonen av alle forsvarsspillere og populasjonen av alle angrepsspillere på høyt nivå. b) Foreslå en testmetode for å undersøke om det er noen forskjell i gjennomsnittsvekta til forsvarsspillere og angrepsspillere på høyt nivå. Gjør greie for antakelsene for testmetoden. c) Utfør testen med signifikansnivå α = 0,10.

Løsning: Skriver x 1 for x, x 2 for y µ 1 er forventet vekt for forsvarsspiller µ 2 er forventet vekt for angrepsspiller a) x 1 = 501/6 = 83.5, x 2 = 387/5 = 77.4 s 1 = s 2 = Σx 2 1 (Σx 1) 2 /n 1 n 1 1 Σx 2 2 (Σx 2) 2 /n 2 n 2 1 = = 41935 (501) 2 /6 = 4.5 6 1 29997 (387) 2 /5 = 3.3 5 1

b) Bruker t-test for to uavhengige utvalg ( to-utvalgs t-test ). Utvalgene må være uavhengige og tilfeldige, fra normalfordelte populasjoner (viser seg rimelig for vekt). Tester H 0 : µ 1 µ 2 = 0 mot H 1 : µ 1 µ 2 0 c) Testobservator t = x 1 x 2 (µ 1 µ 2 ) ( ) s 2 1 n 1 + ( s 2 2 n 2 ) = 83.5 77.3 ) + ( 4.5 2 6 ( 3.3 2 5 ) = 2.59 Hvis H 0 gjelder er t tilnærmet t-fordelt med df = 4 (minimum av 6-1 og 5-1). Klassisk metode: Forkast H 0 hvis t < t(4, 0.10/2) = t(4, 0.05) = 2.13 (tabell 6), eller hvis t > t(4, 0.05) = 2.13. Vi forkaster altså H 0 og påstår H a siden 2.59 > 2.13.

Metode med p-verdi: p-verdi er gitt ved sannsynligheten for å få det vi har fått eller noe mer ekstremt i forhold til nullhypotesen, dvs. her P(t < 2.59) + P(t > 2.59) = 2 P(t > 2.59) når t er t-fordelt med 4 frihetsgrader. Tabell 7 gir at P(t > 2.6) = 0.03, så p-verdien blir ca 2 0.03 = 0.06, som altså er mindre enn signifikansnivået på 0.10. Vi forkaster altså H 0. Det er tidligere bemerket at dette er en konservativ metode. Det korrekte antall frihetsgrader er muligens større enn 4, noe som ville ha gitt en mindre p-verdi, og lavere kritisk verdi. Men sålenge vi forkaster, har dette ingen betydning for konklusjonen. (Formelen for df ville gitt 8.7, dvs vi kunne ha brukt 8 frihetsgrader. Kritiske verdier ville da ha blitt ±1.86, mens p-verdi ville blitt 0.032.)

Oppgave: Jeg har trukket 10 tall fra populasjon 1 som er normalfordelt med forventning µ 1 og standardavvik σ 1 : 46.1 49.1 64.8 35.6 36.5 42.8 42.2 55.4 37.1 60.2 med utvalgsgjennomsnitt x 1 = 47.0 og utvalgsstandardavvik s 1 = 10.3. Dessuten har jeg trukket 10 tall fra en populasjon 2 som er normalfordelt med forventning µ 2 og standardavvik σ 2 : 31.5 37.6 39.8 38.4 27.4 29.6 23.2 39.3 30.7 31.4 med utvalgsgjennomsnitt x 2 = 32.9 og utvalgsstandardavvik s 2 = 5.6 Finn punktestimat for µ 1 µ 2 Finn 90% konfidensintervall for µ 1 µ 2. Er µ 1 = µ 2? Bruk 5% signifikansnivå.

Fordelinger som dataene er trukket fra: Populasjon 1: Normalfordeling med µ 1 = 50, σ 1 = 10 Populasjon 2: Normalfordeling med µ 2 = 35, σ 2 = 5

20 Inferens om forskjell mellom andeler i to populasjoner basert på uavhengige utvalg (10.5) p 1 andel suksesser i populasjon 1 p 2 andel suksesser i populasjon 2 x 1 antall suksesser i utvalg 1 x 2 antall suksesser i utvalg 2 p 1 = x 1 n 1 andel suksesser i utvalg 1 p 2 = x 2 n 2 andel suksesser i utvalg 2 Vil gjøre inferens om p 1 p 2 ved hjelp av p 1 p 2.

Repetisjon: Binomisk situasjon med ett utvalg Andel med suksess i utvalget er p = x n Utvalgsfordelingen: µ p = p så σ p = pq n z = p p pq n er tilnærmet standard normalfordelt

22 Binomisk situasjon med to utvalg Hvis uavhengige utvalg på n 1 og n 2 trekkes tilfeldig fra store populasjoner med suksess-sannsynligheter p 1 og p 2, vil utvalgsfordelingen for p 1 p 2 ha egenskapene: 1. forventning: 2. standardfeil: µ p 1 p 2 = p 1 p 2 σ p 1 p 2 = p1 q 1 n 1 + p 2q 2 n 2 3. tilnærmet normalfordelt når n 1 og n 2 er store

Dermed er z = p 1 p 2 (p 1 p 2 ) p1 q 1 n 1 + p 2q 2 n 2 tilnærmet standard normalfordelt når n 1 og n 2 er store. Et tilnærmet (1 α)-konfidensintervall for p 1 p 2 er gitt ved Altså som vanlig: p 1 p 2 ± z(α/2) p 1 q 1 n 1 + p 2 q 2 n 2 punktestimat ± z(α/2) standard error

Hypotesetesting om p 1 p 2. Vanlig å teste H 0 : p 1 p 2 = 0 som er det samme som H 0 : p 1 = p 2 Tar utgangspunkt i den standard normalfordelte og lager testobservatoren z = p 1 p 2 (p 1 p 2 ) p1 q 1 n 1 + p 2q 2 n 2 z = p 1 p 2 p p q p n 1 + p pq p n 2 der p p er et punktestimat for verdien av p 1 = p 2 når H 0 er sann. Et naturlig estimat er p p = x 1 + x 2 n 1 + n 2 Da er z standard normalfordelt når H 0 gjelder og vi kan basere testen på den.

Fra! " #! " $ eksamen 5. desember 2005 + " ', -.% %& " $! '($) " " $ *p 718 40, /3 B p 0#6$ T pt 45 /0)$ 12 /3/ H0 : pb = pt Ha : pb >

Løsning 9::;<=>? <@ABCDEFCBGHIDEGBJBGz = p B p T (p B p T ) = p p (1 p p) + p p(1 p p) n1 n2 p B p T p p (1 p p) + p p(1 p p) n1 n2 CKLBJJMNOPQEDBCBJBGIDp B = p TRp B = 251 366 = 0.6858 p T = 201 366 = 0.5492 V@WKJCDBCKXJKYUIJCJKHSCEZXKGTEGUICDJKJXFNKGp[HBGLKBJ\ 251 + 201 p p = 366 + 366 = 0.6175 z 0.6858 0.5492 0R = = 3.80 0.6175 (1 0.6175) + 0.6175 (1 0.6175) 366 36 z(α) = z(0.05) = 1.65 < 3.80CSHKTEGUICDBGH p[hbglk= P(z > z ) = P(z > 3.80) = 0.0001

Oppgave: Jeg har utført et binomisk forsøk med n 1 = 1000, x 1 = 757 og n 2 = 500, x 2 = 367 suksesser. Finn et punktesimat for p 1 p 2 Finn et 90% konfidensintervall for p 1 p 2 Test hypotesen H 0 : p 1 = p 2 mot H a : p 1 p 2 med signifikansnivå 5% (Dataene er simulert med p 1 = 0.75, p 2 = 0.7