ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag

2 Kap. 10: Inferens om to populasjoner Situasjon: Det er to populasjoner som vi ønsker å sammenligne. Vi trekker da et utvalg fra hver populasjon. Vi kan ha avhengige eller uavhengige utvalg. Avhengige utvalg: Det er en sammenheng mellom utvalgene Uavhengige utvalg: Det er ingen sammenheng mellom utvalgene Eksempel: Undersøk om et nytt treningsprogram påvirker det fysiske nivået til elevene ved en videregående skole. Populasjon 1: Alle elevene før de gjennomgår programmet. Populasjon 2: Alle elevene etter at de har gjennomgått programmet. Spørsmål: Er populasjon 2 i bedre form enn populasjon 1?

Uavhengige utvalg: Trekk 6 elever som ennå ikke har gjennomgått treningsprogrammet og test dem. Trekk 6 elever som har gjennomgått treningsprogrammet og test dem. Elevene i de to utvalgene er forskjellige. Dataene er ett sett med verdier for hvert utvalg. Avhengige utvalg: Trekk 6 elever. Test dem før de gjennomgår treningsprogrammet, la dem så gjennomgå programmet og test de samme elevene etterpå. Elevene i de to utvalgene er de samme. Dataene er to verdier for hver elev (såkalte pardata - paired data )

4 Inferens om forskjell i forventning ved å bruke to avhengige utvalg (10.3) Har nå pardata, x 1 og x 2, for hvert av n utvalgte par (for eksempel resultater før og etter å ha gjennomgått et treningsprogram for hver elev). Vi ønsker å finne ut om det er forskjell på forventningsverdiene i de to populasjonene. For dette ser vi på: Pardifferanse ( paired difference ): d = x 1 x 2 beregnet for hvert av de n parene Antagelse om fordeling for d: Antar at de to populasjonene er normalfordelte og at forsøksenheter er tilfeldig trukket ut. De n beregnede verdier av differansene d kan da antas å være et tilfeldig utvalg fra en normalfordeling med forventning µ d og standardavvik σ d. Her representerer µ d forskjellen i forventet verdi mellom de to populasjonene.

Eksempel: Sammenligner to typer dekk A og B med hensyn på dekkslitasje. På 6 biler monteres ett bildekk av hver type (tilfeldig side) på forhjulene. Dekkslitasje etter kjøring en viss lengde måles: Bil 1 2 3 4 5 6 Dekk A (x 1 ) 125 64 94 38 90 106 Dekk B (x 2 ) 133 65 103 37 102 115 Pardifferanse (d = x 1 x 2 ) 8 1 9-1 12 9 d = 6.3, s d = 5.1 (vanlig utvalgsstandardavvik for d-ene) Ide: x-ene varierer mye, da de er påvirket av mange faktorer: Bilens tyngde, type kjøring, førerens kjørevaner etc. Slike effekter elimineres i høy grad ved å basere analysen på d-ene. Dette er essensen i bruk av avhengige utvalg. Dermed har vi kun ett utvalg i vår analyse, og vi er tilbake til situasjonen i kapitel 9.

6 Konfidensintervall for forventet forskjell ved avhengige utvalg Et 1 α konfidensintervall for µ d er gitt ved d ± t(n 1, α/2) s d n Konfidensintervall og testing er basert på t = d µ d s d / n som er t-fordelt med df = n 1 frihetsgrader. Mest aktuelle nullhypotese er: H 0 : µ d = 0 (hvorfor?) mot ulike alternativer for µ d Oppgave: Finn et 90% konfidensintervall for µ d i dekk-eksemplet. Test også H 0 : µ d = 0 mot H a : µ d > 0 med 5% signifikansnivå.

7 Inferens om forskjell i forventning ved å bruke to uavhengige utvalg (10.4) Populasjon 1: Populasjon 2 µ 1 forventning µ 2 forventning (populasjonsgjennomsnitt) (populasjonsgjennomsnitt) σ 1 populasjonsstandardavvik σ 2 populasjonsstandardavvik n 1 observasjoner n 2 observasjoner x 1 observert variabel x 2 observert variabel x 1 utvalgsgjennomsnitt x 2 utvalgsgjennomsnitt s 1 utvalgsstandardavvik s 2 utvalgsstandardavvik Vi er nå interessert i µ 1 µ 2, som har punktestimat x 1 x 2

8 Utvalgsfordeling for x 1 x 2 Antagelse: Uavhengige utvalg av størrelse n 1 og n 2 trekkes tilfeldig fra normalfordelte populasjoner. Da er x 1 x 2 normalfordelt med 1. forventning 2. standardfeil σ x1 x 2 = µ x1 x 2 = µ 1 µ 2 ) ( σ 2 1 n 1 + ( σ 2 2 n 2 )

Dette betyr at z = x 1 x 2 (µ 1 µ 2 ) (σ ) ( ) 2 1 σ 2 n 1 + 2 n 2 er standard normalfordelt og kan brukes til inferens om µ 1 µ 2 hvis σ 1 og σ 2 er kjente. Hvis σ 1 og σ 2 er ukjente, erstattes disse med s 1 og s 2, og inferens baseres på t = x 1 x 2 (µ 1 µ 2 ) ( ) ( ) s 2 1 s 2 n 1 + 2 n 2 som er tilnærmet t-fordelt med df frihetsgrader (se neste side).

Det korrekte antall frihetsgrader for t er df = {( ) ( )} s 2 1 s 2 2 n 1 + 2 n 2 (s1 2/n 1) 2 n 1 1 + (s2 2 /n 2) 2 n 2 1 (avrundet nedover til nærmeste hele tall). Dette brukes i kalkulatorer og dataprogrammer, men for å gjøre analyser enklere vil vi bruke som df for t: det minste av n 1 1 og n 2 1. (Det kan vises at formelen ovenfor alltid gir en df mellom dette tallet og den maksimale verdien n 1 + n 2 2). Men: Vi gjør da inferensen konservativ i den forstand at vi får lenger konfidensintervall og høyere kritiske verdier for tester enn ved å bruke formelen.

11 Konfidensintervall for forventet forskjell ved uavhengige utvalg Et 1 α konfidensintervall for µ 1 µ 2 er gitt ved ) ( ) x 1 x 2 ± t(df, α/2) ( s 2 1 s 2 + 2 n 1 n 2 der df er lik det minste av n 1 1 og n 2 1, eller eventuelt gitt ved formelen på forrige side,

Fra eksamen 24. mai 2003 Oppgave 1 Vekta (i kilogram) til forsvarsspillerne, x, og til angrepsspillerne, y, i Molde Fotballklubbs A-stall (MFK) er slik: x 79 83 88 89 78 84 y 80 80 77 78 72 Det oppgis at x = 501, x 2 = 41935, y = 387 og y 2 = 29997. a) Finn utvalgsmiddelverdiene og utvalgsstandardavvikene for de to utvalgene. Anta at vi kan betrakte forsvarsspillerne og angrepsspillerne i MFK som uavhengige tilfeldige utvalg fra henholdsvis populasjonen av alle forsvarsspillere og populasjonen av alle angrepsspillere på høyt nivå. b) Foreslå en testmetode for å undersøke om det er noen forskjell i gjennomsnittsvekta til forsvarsspillere og angrepsspillere på høyt nivå. Gjør greie for antakelsene for testmetoden. c) Utfør testen med signifikansnivå α = 0,10.

Løsning: Skriver x 1 for x, x 2 for y µ 1 er forventet vekt for forsvarsspiller µ 2 er forventet vekt for angrepsspiller a) x 1 = 501/6 = 83.5, x 2 = 387/5 = 77.4 s 1 = s 2 = Σx 2 1 (Σx 1) 2 /n 1 n 1 1 Σx 2 2 (Σx 2) 2 /n 2 n 2 1 = = 41935 (501) 2 /6 = 4.5 6 1 29997 (387) 2 /5 = 3.3 5 1

b) Bruker t-test for to uavhengige utvalg ( to-utvalgs t-test ). Utvalgene må være uavhengige og tilfeldige, fra normalfordelte populasjoner (viser seg rimelig for vekt). Tester H 0 : µ 1 µ 2 = 0 mot H 1 : µ 1 µ 2 0 c) Testobservator t = x 1 x 2 (µ 1 µ 2 ) ( ) s 2 1 n 1 + ( s 2 2 n 2 ) = 83.5 77.3 ) + ( 4.5 2 6 ( 3.3 2 5 ) = 2.59 Hvis H 0 gjelder er t tilnærmet t-fordelt med df = 4 (minimum av 6-1 og 5-1). Klassisk metode: Forkast H 0 hvis t < t(4, 0.10/2) = t(4, 0.05) = 2.13 (tabell 6), eller hvis t > t(4, 0.05) = 2.13. Vi forkaster altså H 0 og påstår H a siden 2.59 > 2.13.

Metode med p-verdi: p-verdi er gitt ved sannsynligheten for å få det vi har fått eller noe mer ekstremt i forhold til nullhypotesen, dvs. her P(t < 2.59) + P(t > 2.59) = 2 P(t > 2.59) når t er t-fordelt med 4 frihetsgrader. Tabell 7 gir at P(t > 2.6) = 0.03, så p-verdien blir ca 2 0.03 = 0.06, som altså er mindre enn signifikansnivået på 0.10. Vi forkaster altså H 0. Det er tidligere bemerket at dette er en konservativ metode. Det korrekte antall frihetsgrader er muligens større enn 4, noe som ville ha gitt en mindre p-verdi, og lavere kritisk verdi. Men sålenge vi forkaster, har dette ingen betydning for konklusjonen. (Formelen for df ville gitt 8.7, dvs vi kunne ha brukt 8 frihetsgrader. Kritiske verdier ville da ha blitt ±1.86, mens p-verdi ville blitt 0.032.)

Oppgave: Jeg har trukket 10 tall fra populasjon 1 som er normalfordelt med forventning µ 1 og standardavvik σ 1 : 46.1 49.1 64.8 35.6 36.5 42.8 42.2 55.4 37.1 60.2 med utvalgsgjennomsnitt x 1 = 47.0 og utvalgsstandardavvik s 1 = 10.3. Dessuten har jeg trukket 10 tall fra en populasjon 2 som er normalfordelt med forventning µ 2 og standardavvik σ 2 : 31.5 37.6 39.8 38.4 27.4 29.6 23.2 39.3 30.7 31.4 med utvalgsgjennomsnitt x 2 = 32.9 og utvalgsstandardavvik s 2 = 5.6 Finn punktestimat for µ 1 µ 2 Finn 90% konfidensintervall for µ 1 µ 2. Er µ 1 = µ 2? Bruk 5% signifikansnivå.

Fordelinger som dataene er trukket fra: Populasjon 1: Normalfordeling med µ 1 = 50, σ 1 = 10 Populasjon 2: Normalfordeling med µ 2 = 35, σ 2 = 5

20 Inferens om forskjell mellom andeler i to populasjoner basert på uavhengige utvalg (10.5) p 1 andel suksesser i populasjon 1 p 2 andel suksesser i populasjon 2 x 1 antall suksesser i utvalg 1 x 2 antall suksesser i utvalg 2 p 1 = x 1 n 1 andel suksesser i utvalg 1 p 2 = x 2 n 2 andel suksesser i utvalg 2 Vil gjøre inferens om p 1 p 2 ved hjelp av p 1 p 2.

Repetisjon: Binomisk situasjon med ett utvalg Andel med suksess i utvalget er p = x n Utvalgsfordelingen: µ p = p så σ p = pq n z = p p pq n er tilnærmet standard normalfordelt

22 Binomisk situasjon med to utvalg Hvis uavhengige utvalg på n 1 og n 2 trekkes tilfeldig fra store populasjoner med suksess-sannsynligheter p 1 og p 2, vil utvalgsfordelingen for p 1 p 2 ha egenskapene: 1. forventning: 2. standardfeil: µ p 1 p 2 = p 1 p 2 σ p 1 p 2 = p1 q 1 n 1 + p 2q 2 n 2 3. tilnærmet normalfordelt når n 1 og n 2 er store

Dermed er z = p 1 p 2 (p 1 p 2 ) p1 q 1 n 1 + p 2q 2 n 2 tilnærmet standard normalfordelt når n 1 og n 2 er store. Et tilnærmet (1 α)-konfidensintervall for p 1 p 2 er gitt ved Altså som vanlig: p 1 p 2 ± z(α/2) p 1 q 1 n 1 + p 2 q 2 n 2 punktestimat ± z(α/2) standard error

Hypotesetesting om p 1 p 2. Vanlig å teste H 0 : p 1 p 2 = 0 som er det samme som H 0 : p 1 = p 2 Tar utgangspunkt i den standard normalfordelte og lager testobservatoren z = p 1 p 2 (p 1 p 2 ) p1 q 1 n 1 + p 2q 2 n 2 z = p 1 p 2 p p q p n 1 + p pq p n 2 der p p er et punktestimat for verdien av p 1 = p 2 når H 0 er sann. Et naturlig estimat er p p = x 1 + x 2 n 1 + n 2 Da er z standard normalfordelt når H 0 gjelder og vi kan basere testen på den.

Fra! " #! " $ eksamen 5. desember 2005 + " ', -.% %& " $! '($) " " $ *p 718 40, /3 B p 0#6$ T pt 45 /0)$ 12 /3/ H0 : pb = pt Ha : pb >

Løsning 9::;<=>? <@ABCDEFCBGHIDEGBJBGz = p B p T (p B p T ) = p p (1 p p) + p p(1 p p) n1 n2 p B p T p p (1 p p) + p p(1 p p) n1 n2 CKLBJJMNOPQEDBCBJBGIDp B = p TRp B = 251 366 = 0.6858 p T = 201 366 = 0.5492 V@WKJCDBCKXJKYUIJCJKHSCEZXKGTEGUICDJKJXFNKGp[HBGLKBJ\ 251 + 201 p p = 366 + 366 = 0.6175 z 0.6858 0.5492 0R = = 3.80 0.6175 (1 0.6175) + 0.6175 (1 0.6175) 366 36 z(α) = z(0.05) = 1.65 < 3.80CSHKTEGUICDBGH p[hbglk= P(z > z ) = P(z > 3.80) = 0.0001

Oppgave: Jeg har utført et binomisk forsøk med n 1 = 1000, x 1 = 757 og n 2 = 500, x 2 = 367 suksesser. Finn et punktesimat for p 1 p 2 Finn et 90% konfidensintervall for p 1 p 2 Test hypotesen H 0 : p 1 = p 2 mot H a : p 1 p 2 med signifikansnivå 5% (Dataene er simulert med p 1 = 0.75, p 2 = 0.7