Forelesning 13 Analyser av gjennomsnittsverdier. Er inntektsfordelingen for kvinner og menn i EU-undersøkelsen lik?



Like dokumenter
Transkript:

2 verdier Forelesning 13 Analyser av gjennomsnittsverdier Valg av type statistisk generalisering i bivariat analyse er avhengig av hvilke variabler vi har Avhengig variabel kategorivariabel kontinuerlig variabel Uavhengig variabel 3 eller flere Kjikvadrattest Kjikvadrattest t-test for uavhengige utvalg (Regresjonsanalyse) Variansanalyse Er inntektsfordelingen for kvinner og menn i EU-undersøkelsen lik? 5 4 Menn 4 3 Kvinner 3 2 2 1 Std. Dev = 125.79 = 19. N = 179.. 1. 2. 3. 4. 5. 6. 7. 8. 5. 15. 25. 35. 45. 55. 65. 75. 85. 1 1.. 2. 3. 4. 5. 6. 7. 8. 9. Std. Dev = 88.76 = 17.3 N = 1513. 1. OWN GROSS INCOME (BEFORE TAX) 1993 Menn: N = 179 Y = 19,45 s = 125,79 OWN GROSS INCOME (BEFORE TAX) 1993 Kvinner: N = 1513 Y = 17,35 s = 88,756 T-test for å undersøke om kvinner og menn tjener like mye Group Statistics AQ84 OWN GROSS INCOME (BEFORE TAX) 1993 SEX sex 1 MALE 2 FEMALE N Std. Deviation Std. Error 179 19.5 125.79 2.97 1513 17.3 88.76 2.28 GROSS INCOME (BEFORE TAX) 1993 assumed not assumed Levene's Test for Equality of Variances F Sig. Independent Samples Test t df Sig. (2-tailed) t-test for Equality of s Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper 9.91. 21.464 331. 82.74 3.85 75.18 9.3 22.77 322.527. 82.74 3.75 75.39 9.9 T-verdien er 22,77 og sannsynligheten for å få en så høy t-verdi hvis kvinner og menn tjener i tjener like mye er mindre enn,1 prosent (p <.1) Konklusjon: Kvinner og menn i har ulik gjennomsnittslønn 1

KONSTRUERT EKSEMPEL: T-tester for å sammenligne aldersgjennomsnittet for 56 kvinner og 56 menn med en person på hvert alderstrinn innenfor ulike aldersintervall Alder Alder Std. Err. T df Sig. Kvinner Menn Diff. Diff. 15-7 15-7. 3.822. 11 1. 15-7 16-71 1. 3.822.324 11.746 15-7 17-72 2. 3.822.649 11.518 15-7 18-73 3. 3.822.973 11.333 15-7 19-74 4. 3.822 1.298 11.197 15-7 2-75 5. 3.822 1.622 11.18 15-7 21-76 6. 3.822 1.947 11.54 15-7 22-77 7. 3.822 2.271 11.25 15-7 23-78 8. 3.822 2.596 11.11 15-7 24-79 9. 3.822 2.92 11.4 15-7 25-8 1. 3.822 3.244 11.2 To versjoner av t-testen (for tosidig test av to uavhengige utvalg) Klassisk variant: Moderne variant: Valg av test: t-test Valg av test : t-test H : Det er ingen forskjell i H 1 : Det er forskjell i H : Det er ingen forskjell i H 1 : Det er forskjell i Velg signifikansnivå (α=,5), Velg signifikansnivå (α=,5) finn antallet frihetsgrader, og Bruk SPSS for å beregne bruk t-tabellen for å finne den utvalgsverdien av t og dennes kritiske verdien (k) p-verdi Finn utvalgsverdien av t Konkluder Konkluder t < k H beholdes t k H forkastes p > α H beholdes p α H forkastes I levekårsundersøkelsen finner vi en typisk avhengig variabel for en t-test Kan du anslå hvilken pris du/dere ville få for boligen dersom den bla solgt nå? HVIS IO IKKE KAN OPPGI VERDI: Vi ber likevel om at du anslår en verdi. Slike anslag må nødvendigvis blir svært grove. HVIS IO FORTSATT IKKE KAN OPPGI EN VERDI: Vi er fornøyd om du anslår beløpet i nærmeste hundretusen kroner. MARKEDSVERDI:.. 3. 14 12 1 8 6 4 2 Std. Dev = 579.63 = 78.5 N = 2658.. 5. 9. 85. 8. 75. 7. 65. 6. 55. 5. 45. 4. 35. 3. 25. 2. 15. 1. Kan du anslå pris for boligen dersom solgt nå 2

Moderne variant av t-test for to uavhengige utvalg H : Det er ingen forskjeller i gjennomsnittlig vurdering av salgsverdi på egen bolig mellom kvinner og menn H 1 : Det er forskjeller i gjennomsnittlig vurdering av salgsverdi på egen bolig mellom kvinner og menn Vi velger signifikansnivå på 5% (α=,5) Vi bruker SPSS for å beregne utvalgsverdien av t og dennes p-verdi. Så starter vi opp SPSS og kjører Independent Samples T Test Group Statistics SPM3A Kan du anslå pris for boligen dersom solgt nå IOSKJONN IOs kjønn 1 Mann 2 Kvinne Std. Error N Std. Deviation 1339 85.52 644.51 17.61 1319 755.4 54.29 13.89 Her kommer resultatet fra t-testen SPM3A Anslå pris for boligen assumed not assumed Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of s 95% Confidence Interval of the Std. Error Difference F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper 2.888.89 2.247 2656.25 5.49 22.47 6.43 94.54 2.251 2527.42.24 5.49 22.43 6.51 94.47 Vi ser her at t-verdien ble 2,247 og p-verdien,25 Dette viser at p-verdien (,25) er mindre enn α-verdien (,5), og at vi derfor bør forkaste hypotesen H Konklusjon: Det er forskjeller i gjennomsnittlig vurdering av salgsverdi på egen bolig mellom kvinner og menn 3

Hvordan kan vi teste denne tabellen? Report IOSBOSTE Bostedsstrøk 1 Spredtbygd strøk 2 Tettb. - 1999 3 Tettb. 2-19999 4 Tettb. 2-99999 5 Tettb. 1 + H : Ingen forskjell mellom gruppe 1 og gruppe 2 H : Ingen forskjell mellom gruppe 1 og gruppe 3 H : Ingen forskjell mellom gruppe 1 og gruppe 4 H : Ingen forskjell mellom gruppe 1 og gruppe 5 H : Ingen forskjell mellom gruppe 2 og gruppe 3 H : Ingen forskjell mellom gruppe 2 og gruppe 4 H : Ingen forskjell mellom gruppe 2 og gruppe 5 H : Ingen forskjell mellom gruppe 3 og gruppe 4 H : Ingen forskjell mellom gruppe 3 og gruppe 5 H : Ingen forskjell mellom gruppe 4 og gruppe 5 N Std. Deviation 714.58 495 629.62 731.83 394 594.39 779.14 687 587.97 816.84 42 547.54 848.55 596 548.97 781.69 2592 583.83 Her vil sannsynligheten for å finne en eller flere signifikante forskjeller øke med antallet tester selv om alle gjennomsnittene er like i Med mer enn to verdier på den uavhengige variabelen bør vi heller bruke denne teste Report IOSBOSTE Bostedsstrøk 1 Spredtbygd strøk 2 Tettb. - 1999 3 Tettb. 2-19999 4 Tettb. 2-99999 5 Tettb. 1 + N Std. Deviation 714.58 495 629.62 731.83 394 594.39 779.14 687 587.97 816.84 42 547.54 848.55 596 548.97 781.69 2592 583.83 Enveis variansanalyse basert på F-verdi i F- fordelingen Hypoteser: H : De ulike gjennomsnittene er like i H 1 : Minst to av disse gjennomsnittene er ulike i Enveis variansanalyse av forholdet mellom boligstrøk og verdsetting av egen bolig ANOVA Sum of Squares df Square F Sig. Between Groups 6396524 4 1599131.85 4.718.1 Within Groups 8.77E+8 2587 338912.22 8.83E+8 2591 Her ser vi at F = 4,718 og at sannsynligheten for å få en så høy F-verdi hvis det ikke er gjennomsnittsforskjeller mellom minst to grupper i er på,1 prosent (p =,1) Det vil si at vi forkaster H, og konkluderer med at det er forskjeller i gjennomsnittlig verdsetting av egen bolig i forhold til boligens sentralitet. 4

Her er det mer naturlig å teste en hypotese om at boligverdien øker med befolkningstetthet, enn å teste om gjennomsnittet er likt for alle gruppene Pris på egen bolig Antall 1 kroner 9 85 8 75 7 65 6 Spredtbygd strøk Tettb. - 1999 Tettb. 2-19999 bosate Tettb. 2.99999 Tettb. 1 + Dette gjør vi neste gang med regresjonsanalyse 5