Forelesning 10 Kjikvadrattesten



Like dokumenter
Forelesning 9 Kjikvadrattesten. Kjikvadrattest for bivariate tabeller (klassisk variant) Når kan vi forkaste H 0?

Univariate tabeller. Bivariat tabellanalyse. Forelesning 8 Tabellanalyse. Formålet med bivariat analyse:

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Eksamensoppgave i samfunnsfaglig forskningsmetode 16. mai 2003

Eksamensoppgave i ST3001

Forelesning 13 Analyser av gjennomsnittsverdier. Er inntektsfordelingen for kvinner og menn i EU-undersøkelsen lik?

3. Multidimensjonale tabeller. SOS1120 Kvantitativ metode. Årsaksmodeller. Forelesningsnotater 8. forelesning høsten 2005

ST0202 Statistikk for samfunnsvitere

Testobservator for kjikvadrattester

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2002

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

Forelesning 13 Regresjonsanalyse

Forelesning 10 Statistiske mål for bivariat tabellanalyse. Korrelasjonsmål etter målenivå. Cramers V

Logistisk regresjon 2

Definisjoner av begreper Eks.: interesse for politikk

Krysstabellanalyse. SOS1120 Kvantitativ metode. Disposisjon. 1. Beskrivelse av analyseteknikk. Forelesningsnotater 7. forelesning høsten 2005

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

Testobservator for kjikvadrattester

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2001

EKSAMEN I SOS1120 KVANTITATIV METODE 23. NOVEMBER 2004 (6 timer)

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2001

EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer)

Univariate tabeller. Statistisk uavhengighet og statistisk avhengighet. Bivariat tabellanalyse. Hvordan bør vi prosentuere denne tabellen?

Målenivå: Kjønn: Alle bør kunne se at denne variabelen må plasseres på nominalnivå

Tidspunkt: Fredag 18. mai (3.5 timer) Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler.

ST0202 Statistikk for samfunnsvitere

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

TMA4240 Statistikk H2010 (19)

Statistisk generalisering

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Kort innføring i SPSS

EKSAMEN I SOS1120 KVANTITATIV METODE 27. NOVEMBER 2003 (6 timer)

Løsningsforslag eksamen sos1001 V14

(b) På slutten av dagen legger sekretæren inn all innsamlet informasjon i en ny JMP datafil. Hvor mange rader og søyler(kolonner) har datafila?

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2007

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

1 11-1: Kji-kvadrat fordelingen : Krysstabeller og kji-kvadrattesten. 3 Kji-kvadrattesten i JMP

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Forelesning 9 Statistiske mål for bivariat tabellanalyse

Gjør kort rede for seks av de åtte begrepene. Bruk inntil ½ side på hvert begrep.

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver : Sammenligne gjennomsnitt for to relaterte stikkprøver

TMA4240 Statistikk H2010 (20)

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Oppgaver Oppgavetype Vurdering Status 1 ME-417, forside Flervalg Automatisk poengsum Levert. 2 ME-417, oppgave 1 Skriveoppgave Manuell poengsum Levert

Til bruk i metodeundervisningen ved Høyskolen i Oslo

Fasit for tilleggsoppgaver

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Logistisk regresjon 1

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Kapittel 10: Hypotesetesting

1 8-1: Oversikt : Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

Forkaste H 0 "Stikkprøven er unormal" Akseptere H 0 "Stikkprøven er innafor normalen" k kritisk verdi. Utgangspunkt for H 0

ST0202 Statistikk for samfunnsvitere

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

EKSAMEN I SOS1120 KVANTITATIV METODE 30. NOVEMBER 2006 (4 timer)

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

TMA4240 Statistikk Høst 2015

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen i. STA 200- Statistikk. Mandag 24. august 2015 kl

Løsningsforslag eksamen STAT100 Høst 2010

ST0202 Statistikk for samfunnsvitere

Oppsummering av STK2120. Geir Storvik

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

Kapittel 3: Studieopplegg

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Det lille kvantitative metodeheftet

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

TMA4240 Statistikk H2010 (22)

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

Sensurveiledning SOS1002, vår 2013

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

Forelesning 17 Logistisk regresjonsanalyse

Eksamensoppgave i ST3001

Bivariate analyser. Analyse av sammenhengen mellom to variabler. H 0 : Ingen sammenheng H 1 : Sammenheng

Std. Error. ANOVA b. Sum of Squares df Square F Sig , , ,600, , , ,

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Statistikk er begripelig

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer)

6.2 Signifikanstester

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

ME Metode og statistikk Candidate 2511

Transkript:

verdier Forelesning 10 Kjikvadrattesten To typer av statistisk generalisering: Statistisk hypotesetesting Statistiske hypoteser (H 0 og H 1 ) om populasjonen Finner forkastningsområdet for H 0 ut fra en kjent sannsynlighetsfordeling, signifikansnivå og kritisk verdi. Konklusjon: Beholder eller forkaster H 0 Estimering (feilmargin, konfindensintervall) Hvor stort må intervallet rundt vårt estimat være for at det med 95% sikkerhet omfatter den riktige verdien i populasjonen? Valg av type statistisk generalisering i bivariat analyse er avhengig av hvilke variabler vi har Avhengig variabel kategorivariabel kontinuerlig variabel Uavhengig variabel 3 eller flere Kjikvadrattest Kjikvadrattest t-test Regresjonsanalyse Variansanalyse Kjikvadrattesten Den mest benyttede metoden for å utføre statistiske generaliseringer fra bivariate tabeller. Brukes til å teste nullhypotesen om at det ikke er sammenheng mellom to variabler i populasjonen ved hjelp av data fra et sannsynlighetsutvalg.

Hvis menn og kvinner stemmer likt er det mest sannsynlig at vi får denne fordelingen i utvalget Y EU-syn Y EU-syn * X Kjønn Crosstabulation 1 Ja Nei Pearson Chi-Square Continuity Correction a X Kjønn 1 Menn Kvinner 500 500 1000 500 500 1000 1000 1000 000 Value df Asymp. Sig. (-sided).000 b 1 1.000.000 1 1.000.000 1 1.000.000 1 1.000 000 Exact Sig. (-sided) Exact Sig. (1-sided) 1.000.518 a. Computed only for a x table 500.00. Kjikvadratet viser at det er ingen forskjell mellom de observerte frekvensene (O) og frekvensene ved statistisk uavhengighet (E) Kan vi avkrefte lik stemmegivning i populasjonen hvis vi får dette utvalgsresultatet? Y EU-syn Y EU-syn * X Kjønn Crosstabulation 1 Ja Nei X Kjønn 1 Menn Kvinner 510 490 1000 490 510 1000 1000 1000 000 Det er 37,1% sannsynlighet for at kvinner og menn i populasjonen stemmer likt Asymp. Sig. Exact Sig. Exact Sig. Value df (-sided) (-sided) (1-sided) Pearson Chi-Square.800 b 1.371 Continuity Correction a.7 1.395.800 1.371.395.198.800 1.371 000 a. Computed only for a x table 500.00. Kan vi avkrefte hypotesen om at kvinner og menn stemmer likt ut fra dette utvalgsresultatet? Y EU-syn Y EU-syn * X Kjønn Crosstabulation X Kjønn 1 Menn Kvinner 1 Ja 50 480 1000 Nei 480 50 1000 1000 1000 000 Det er fortsatt 7,4% sannsynlighet for at menn og kvinner i populasjonen kan stemme likt Asymp. Sig. Exact Sig. Exact Sig. Value df (-sided) (-sided) (1-sided) Pearson Chi-Square 3.00 b 1.074 Continuity Correction a 3.04 1.081 3.01 1.074.074.041 3.198 1.074 000 a. Computed only for a x table 500.00.

Her kan vi avkrefte hypotesen om lik stemmegivning Y EU-syn * X Kjønn Crosstabulation X Kjønn 1 Menn Kvinner Y EU-syn 1 Ja 55 475 1000 Nei 475 55 1000 1000 1000 000 Det er,5% sannsynlighet for at kvinner og menn i populasjonen stemmer likt Asymp. Sig. Exact Sig. Exact Sig. Value df (-sided) (-sided) (1-sided) Pearson Chi-Square 5.000 b 1.05 Continuity Correction a 4.80 1.08 5.00 1.05.05.014 4.998 1.05 000 a. Computed only for a x table 500.00. Kjikvadrattest for bivariate tabeller (klassisk variant) M enn K vinner S o sialistisk 4 4 3 9 Borgerlig 47 47 S tem te ik k e 9 1 4 Sum 100 100 (n=) (1037) (980) Statistiske hypoteser H 0 : Det er ingen sammenheng mellom kjønn og stemmegivning i populasjoner. H 1 : Det er sammenheng mellom kjønn og stemmegivning. Testobservator: Kjikvadrat som er kjikvadratfordelt Signifikansnivå: 5 prosent Når kan vi forkaste H 0? Hvis det er en sterk sammenheng mellom variablene i utvalget, vil vi forkaste nullhypotesen (H 0 ) For å finne ut hvor sterk denne sammenhengen må være for at vi skal forkaste H 0 må vi benytte en testobservator der vi kjenner sannsynlighetsfordelingen. I bivariate tabeller bruker vi kjikvadrat (χ ) Kjikvadratet: ( O = E χ E ) H 0 forkastes

Hva er den kritiske verdien for kjikvadratet (χ )? Den kritiske verdien for kjikvadratet er avhengig av: 1: Valg av signifikansnivå (sannsynlighet). : Størrelsen på tabellen målt i antallet frihetsgrader (df). Antallet frihetsgrader: df = (ant. verdier på variabel en - 1) (ant. verdier på variabel to - 1) Antall Sannsynlighet frihetsgr. 0,99 0,90 0,50 0,0 0,10 0,05 0,0 0,01 0,001 1 0,000 0,0 0,46 1,64,71 3,84 5,41 6,64 10,83 df 0,0 0,1 1,39 3, 4,61 5,99 7,8 9,1 13,8 3 0,1 0,58,37 4,64 6,5 7,8 9,84 11,34 16,7 4 0,30 1,06 3,36 5,99 7,78 9,49 11,67 13,8 18,47 Kritisk verdi ved 5% signifikansnivå og frihetsgrader blir 5,99 Først nå er det nødvendig å se på data fra utvalget Hvis vi regne om den første tabellen fra prosenter til antall enheter, får vi den observerte fordelingen (O). O: Menn Kvinner Sum Sosialistisk 456 38 838 Borgerlig 485 460 945 Stemte ikke 96 138 34 Sum 1037 980 017 For å finne ut om det er statistisk avhengighet mellom variablene kjønn og stemmegivning må vi sammenligne denne faktiske fordelingen med en fordeling der vi ikke har statistisk avhengighet Frekvenser hvis det ikke er statistisk avhengighet De frekvensene som gir statistisk uavhengighet finner vi ved at vi for hver rute i tabellen multipliserer linjesummen med kolonnesummen, og dividerer dette produktet på det totale antallet enheter. Eksempel: 838 1037 869006 E = = 017 017 = 430,84 431 E: Menn Kvinner Sum % alle Sosialistisk 431 407 838 4 Borgerlig 486 459 945 47 Stemte ikke 10 114 34 1 Sum 1037 980 017 101 Nå blir også alle de relative betingede fordelingene like!

Beregning av kjikvadratet (χ ) χ = ( O E E ) (456 431) (38 407) (485 486) (460 459) (96 10) (138 114) χ = 431 407 486 459 10 114 (5) ( 5) ( 1) (1) ( 4) (4) χ = 431 407 486 459 10 114 65 65 1 1 576 576 χ = = 1,84 431 407 486 459 10 114 Skal vi forkaste eller beholde H 0 med χ =1,84? Signifikannivået er 5% (sannsynlighet = 0,05) Antallet frihetsgrader er (df=(3-1)(-1)= 1=) Kritisk verdi blir da (se tabell s. 487 i Ringdal) 5,99 Vårt kjikvadrat på 1,84 er større enn den kritiske verdien på 5,99 Avvikene mellom den observerte fordelingen (O) og fordelingen uten statistisk avhengighet (E) er derfor så store at det er mindre enn 5 prosent sannsynlig at det ikke er en statistisk sammenheng i populasjonen Vi forkaster derfor H 0 om ingen sammenheng, og beholder H 1 om at det er statistisk sammenheng. Det vil si: Det er sammenheng mellom kjønn og stemmegivning i populasjonen! Vi kan gjøre dette mye enklere med SPSS (moderne variant) STEMME Stemmegivning Pearson Chi-Square STEMME Stemmegivning * KJONN Kjønn Crosstabulation 1 Sosialistisk Borgerlig 3 Vet ikke KJONN Kjønn 1 Menn Kvinner 456 38 838 485 460 945 96 138 34 1037 980 017 Asymp. Sig. Value df (-sided) 13.134 a.001 13.173.001 10.986 1.001 017 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 113.69. χ = 13,134 Signifikanssannsynligheten for χ = 13,134 ved frihetsgraderer er på 0,1%

To versjoner av kjikvadrattesten Klassisk variant: Valg av test Formulering av hypoteser: H 0 : Det er ingen sammenheng mellom X og Y i populasjonen H 1 : Det er sammenheng mellom X og Y i populasjonen. Velg signifikansnivå (α=0,05), finn antallet frihetsgrader, og bruk kjikvadrattabellen for å finne den kritiske verdien (k) Finn utvalgsverdien av χ Konkluder χ < k H0 beholdes χ k H0 forkastes Moderne variant: Valg av test Formulering av hypoteser: H0: Det er ingen sammenheng mellom X og Y i populasjonen H1: Det er sammenheng mellom X og Y i populasjonen. Velg signifikansnivå (α=0,05) Bruk SPSS for å beregne utvalgsverdien av χ og dennes p-verdi Konkluder p > α H0 beholdes p α H0 forkastes Hva skjer hvis vi kutter ut de som ikke stemte? STEMME Stemmegivning Pearson Chi-Square Continuity Correction a STEMME Stemmegivning * KJONN Kjønn Crosstabulation Value 1 Sosialistisk Borgerlig df Asymp. Sig. (-sided) 1.704 b 1.19 1.58 1.08 1.705 1.19 1.703 1.19 1783 KJONN Kjønn 1 Menn Kvinner 456 38 838 485 460 945 941 84 1783 Exact Sig. (-sided) Exact Sig. (1-sided).00.104 a. Computed only for a x table 395.74. χ blir vesentlig lavere Er det fortsatt signifikante forskjeller? Kjikvadrattest av forholdet mellom fagvalg og kjønn Utvalget for denne undersøkelsen består av 1 menn og 178 kvinner.

Hypoteser og kritisk verdi 1. Statistiske hypoteser: H 0 : Det er ingen sammenheng mellom kjønn og fagvalg H 1 : Det er sammenheng mellom kjønn og fagvalg. Testobservator: Kjikvadrat som er kjikvadratfordelt med df= 3. Signifikansnivå: 5% (p = 0,05) og df = gir: 4. Kritisk verdi på 5,99 (se tabell i Ringdal side 487) 5. Vi forkaster H 0 hvis vi i utvalget observerer et kjikvadrat på 5,99 eller mer! Beregning av kjikvadrat (37 9,3) (41 46,0) (44 46,8) (35 4,7) (7 67,0) (71 68,) χ = 9,3 46,0 46,8 4,7 67,0 86, (7,7) ( 5) (,8) ( 7,7) (5) (,8) χ = 9,3 46,0 46,8 4,7 67,0 68, 59,9 5 7,84 59,9 5 7,84 χ = = 4,61 Hva blir konklusjonen? 9,3 46,0 46,8 4,7 67,0 68, Blir konklusjonen den samme hvis vi slår sammen samfunnsfag og humanistiske fag? O: E: Nå blir antallet frihetsgrader lik 1, mens signifikansnivået fortsatt er på 5 prosent. Vi forkaster H 0 hvis vi observerer et kjikvadrat på 3,84 eller mer (37 9,3) (71 68,) χ =... 9,3 86, = 4,51 Konklusjon????

Sannsynlighetsfordeling for kjikvadrat (χ ) Sannsynlighet Antall frihetsgrader 0,99 0,90 0,50 0,0 0,10 0,05 0,0 0,01 0,001 1 0,000 0,0 0,46 1,64,71 3,84 5,41 6,64 10,83 0,0 0,1 1,39 3, 4,61 5,99 7,8 9,1 13,8 3 0,1 0,58,37 4,64 6,5 7,8 9,84 11,34 16,7 4 0,30 1,06 3,36 5,99 7,78 9,49 11,67 13,8 18,47 5 0,55 1,61 4,35 7,9 9,4 11,07 13,39 15,09 0,5 6 0,87,0 5,35 8,56 10,65 1,59 15,03 16,81,46 7 1,4,83 6,35 9,80 1,0 14,07 16,5 18,48 4,3 8 1,65 3,49 7,34 11,03 13,36 15,51 18,17 0,09 6,13