Forelesning 9 Statistiske mål for bivariat tabellanalyse



Like dokumenter
Forelesning 10 Statistiske mål for bivariat tabellanalyse. Korrelasjonsmål etter målenivå. Cramers V

Univariate tabeller. Statistisk uavhengighet og statistisk avhengighet. Bivariat tabellanalyse. Hvordan bør vi prosentuere denne tabellen?

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

Forelesning 9 Kjikvadrattesten. Kjikvadrattest for bivariate tabeller (klassisk variant) Når kan vi forkaste H 0?

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2001

3. Multidimensjonale tabeller. SOS1120 Kvantitativ metode. Årsaksmodeller. Forelesningsnotater 8. forelesning høsten 2005

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2002

Univariate tabeller. Bivariat tabellanalyse. Forelesning 8 Tabellanalyse. Formålet med bivariat analyse:

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SOS1002 VÅREN 2008

Krysstabellanalyse. SOS1120 Kvantitativ metode. Disposisjon. 1. Beskrivelse av analyseteknikk. Forelesningsnotater 7. forelesning høsten 2005

Eksamensoppgave i samfunnsfaglig forskningsmetode 16. mai 2003

Kort innføring i SPSS

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Oppgave 1. Besvarelse av oppgave 1c) Mål på statistisk sammenheng mellom variabler i krysstabeller

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMEN I SOS1120 KVANTITATIV METODE 5. DESEMBER 2005 (4 timer)

EKSAMEN I SOS1120 KVANTITATIV METODE 23. NOVEMBER 2004 (6 timer)

Målenivå: Kjønn: Alle bør kunne se at denne variabelen må plasseres på nominalnivå

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Forelesning 10 Kjikvadrattesten

Semesteroppgave 1 i SOS1002 Samfunnsvitenskapelig forskningsmetode

Metode i medievitenskap MEVIT2800 Kvantitativ metode: observasjon, intervju og analyse Grønmo 2004: Kap 7, 8, 9, 14 og mars, 2013 Karoline

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Forelesning 13 Regresjonsanalyse

Semesteroppgave i SVSOS107 Samfunnsvitenskapelig forskningsmetode

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Til bruk i metodeundervisningen ved Høyskolen i Oslo

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2001

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Statistisk generalisering

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

Høye skårer indikerer høye nivåer av selvkontroll.

Std. Error. ANOVA b. Sum of Squares df Square F Sig , , ,600, , , ,

Løsningsforslag Til Statlab 5

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

84 % er fornøyde med det tilbudet de får

Omtaler av grunnlagsrapporten. I dette dokumentet finnes det tre uttalelser om grunnlagsrapporten til elevundersøkelsen 2007.

EKSAMENSOPPGAVE I IDRSA1004 Samfunnsvitenskapelig forskningsmetode og analyse

Sensurveiledning SOS1002, vår 2013

Value added-indikatoren: Et nyttig verktøy i kvalitetsvurdering av skolen?

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Analyse med uavhengige variabler på nominal- /ordinalnivå

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

Det lille kvantitative metodeheftet

Kvinners valgdeltakelse i Norge fra 1901 til 1930

Logistisk regresjon 1

Eksamensoppgave i ST3001

Definisjoner av begreper Eks.: interesse for politikk

1 11-1: Kji-kvadrat fordelingen : Krysstabeller og kji-kvadrattesten. 3 Kji-kvadrattesten i JMP

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Analyse av nasjonale prøver i lesing, regning og engelsk pa ungdomstrinnet 2015 for Telemark

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Løsningsforslag til seminar 4 Undervisningsfri uke

Forelesning 9 mandag den 15. september

Idrett vg1 - valg av programfag for kull 2010/2011

Minoritetsrådgivere ved utvalgte ungdomsskoler og videregående skoler (MR)

STUDIEÅRET 2011/2012. Utsatt individuell skriftlig eksamen. STA 200- Statistikk. Mandag 27. august 2012 kl

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

Utvekslingsår i utlandet. Hva innebærer det? Hvordan går man frem? Fordeler - ulemper Bør man dra på utveksling?

Effektstørrelse. Tabell 1. Kritiske verdier for Pearson s produkt-moment-korrelasjon med 5% og 1% signifikansnivå. N 5% 1% N 5% 1%

> 6 7 ) = 1 Φ( 1) = = P (X < 7 X < 8) P (X < 8) < ) < ) = Φ(2) =

Store forskjeller i kommuner mellom barnehager og mellom skoler. Hva kan gjøres? Thomas Nordahl

en bil en/ei flaske et hus

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Analyse av nasjonale prøver i engelsk, lesing og regning på 5. trinn 2015

Sannsynlighetsregning

Korrelasjon og lineær regresjon, litt om resultatpresentasjon

Nøkkelspørsmål til eller i etterkant av introduksjonsoppgaven:

Nasjonale prøver i lesing, regning og engelsk på 5. trinn 2015

Repeterbarhetskrav vs antall Trails

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer)

Nåverdi og pengenes tidsverdi

BERGEN KOMMUNE BRUKERUNDERSØKELSE I BARNEHAGENE HOVEDRAPPORT - VÅREN Anne-Christin Boge, Bergen kommune

SOS 31 MULTIVARIAT ANALYSE

Tall fra Grunnskolens informasjonssystem (GSI)

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Lærerkjennetegn og elevprestasjoner. Pål Schøne, Institutt for samfunnsforskning (i samarbeid med Ines Hardoy og Arne Mastekaasa)

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 16. april 2015 kl

Resonnerende oppgaver

UTSATT EKSAMEN I SOS1120 KVANTITATIV METODE 8. JANUAR 2007 (4 timer)

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Terminprøve Sigma 1T Våren 2008 m a t e m a t i k k

Modul 1: Hva er ledelse av klasser og elevgrupper?

Forelesning 17 Logistisk regresjonsanalyse

Tyngdekraft og luftmotstand

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Forkurs i kvantitative metoder ILP 2019

Transkript:

Forelesning 9 Statistiske mål for bivariat tabellanalyse Vi har ulike koeffisienter som viser styrken på den statistiske avhengigheten mellom de to variablene. Valg av koeffisient må vurderes ut fra variablenes målenivå. Skal vi ta hensyn til rangering av verdiene eller avstanden mellom verdiene? Hvis de to variablene har ulike målenivå, er det den med lavest målenivå som avgjør valget. Mål på statistisk sammenheng og korrelasjon mellom to variabler Hellevik Ringdal Målenivå: Symmetriske mål Asymmetriske mål Nominalnivå Phi Cramers V (Lamda) Ordinalnivå Gamma Kendalls tau-b Somers d Kendalls tau-c Intervall- og forholdstallsnivå Pearsons r Pearsons r (kap. 19) (Eta) (kap. 18) Phi (φ) Kan vi beregne phi ut fra denne tabellen? Tabell. Elevenes valg av studieretning i videregående skole i forhold til kjønn. Prosenter Jenter Gutter Studieretning: Naturfag 35,3 51,0 Språk 7,5 6,0 Samfunnsfag 37,3 43,0 Sum 100,1 100,0 (n) (561) (500) 1

Ny tabell med antallet enheter Tabell. Elevenes valg av studieretning i videregående skole i forhold til kjønn. Antall Jenter Gutter Totalt Studieretning: Naturfag 198 55 453 Språk 154 30 184 Samfunnsfag 09 15 44 Totalt 561 500 Formel for phi: Beregning av phi (φ) Phi Formel for kjikvadrat (χ ): Kjikvadrat n ( O E) Kjikvadrat E der O er de absolutte frekvensene i den observerte fordelingen, og E er de frekvensene vi har når det er statistisk uavhengighet (Hvis H 0 er sann). Vi har O-ene i tabellen, og finner E-ene med denne formelen: n ( kollonne ) n ( rekke ) E n ( hele tabellen ) Utregning av frekvenser ved statistisk uavhengighet (E) ut fra de totale frekvensene i de vertikale og de horisontale marginalene: Jenter Gutter Totalt Studieretning: O: E: O: E: Naturfag Språk 198 154 40 97 55 30 13 87 453 184 Samfunnsfag 09 4 15 00 44 Totalt 561 561 500 500 E JNat 561 453 54133 39,5 40 561 184 1034 97,89 97 og så videre til vi har beregnet alle E-ene i tabellen E JSp

Alternativ metode for beregning av forventede frekvenser (E) Jenter Gutter Totalt Studieretning: % E: % E: % N Naturfag 4,70 40 4,70 13 4,70 453 Språk 17,34 97 17,34 87 17,34 184 Samfunnsfag 39,96 4 39,96 00 39,96 44 Total 100,00 561 100,00 500 100,00 1: Prosentuer marginalfordelingen for den avhengige variabelen : Sett inn relative betingede prosentueringer som er lik marginalfordelingen 3: Regn ut antallet enheter bak de relative betingede prosentueringene Beregning av kjikvadrat (χ ) Tabell. O bserverte frekvenser (O ) og frekvenser ved statistisk uavhengighet (E). E levenes kjønn Jenter G utter T otalt Studieretning: O : / E: O : / E : Naturfag 198 / 40 55 / 13 453 Språk 154 / 97 30 / 87 184 Samfunnsfag 09 / 4 15 / 00 44 Totalt 561 / 561 500 / 500 Hjelpetabell for utregning av χ Rute 1 3 4 5 6 O: 198 55 154 30 09 15 E: 40 13 97 87 4 00 O-E -4 4 57-57 -15 15 (O-E) 1764 1764 349 349 5 5 (O-E) /E 7,4 8,3 33,5 37,3 1,0 1,1 χ88,6 Beregning av phi (φ) Kjikvadrat: χ 88,6 Antall enheter: n Phi blir da: φ χ n 88,6 0,084 0,9 3

Hvorfor anbefaler Ringdal Cramers V i stedet for Phi? Phi er ikke standardisert Phi varierer mellom 0 og 1 bare i de tilfellene der den ene av variablene bare har to verdier. Hvis antallet verdier i variabelen med færrest kategorier overstiger to blir maksimalverdien for phi kvadratrota av k-1 (der k er antall kategorier i variabelen med færrest verdier) Cramers V er standardisert Cramers V blir 0 ved ingen statistisk avhengighet og kommer nærmere 1 jo sterkere den statistiske avhengigheten er. Beregning av Cramers V Kjikvadrat: χ 88,6 Antall enheter: n Cramers V blir da: V χ 88,6 n( k 1) ( 1) 88,6 0,084 0,9 Det vi si at det ikke er noen forskjell mellom phi og Cramers V hvis den ene av variabelen har to verdier! Korrelasjonsmålet gamma (γ) Tabell. Forventet levealder i 104 land i forhold til kaloriforbruk per innbygger. Antall land. Kaloriforbruk per innbygger per dag (100 kcal) Forventet levealder 18-3 4-8 9-30 31-35 70-74 år 3 5 18 0 60-69 år 3 8 8 10 50-59 år 5 13 0 3 7-49 år 8 0 0 0 Formelen for Gamma: L U γ L+ U Der: L er antall par av enheter som er ordnet likt (lav-lav/høy-høy), og U er antall par av enheter som er ordnet ulikt (lav-høy/høy-lav) Når vi skal finne antallet par ordnet likt (L) bør vi alltid starte med den kombinasjonen som har den laveste verdien på begge de rangerte variablene. Det vil i dette tilfellet si de som har lavest forventet levealder (7-49 år) og samtidig lavest kaloriforbruk per innbygger (18-3). 4

Tabell. Forventet levealder i 104 land i forhold til kaloriforbruk per innbygger. Antall land. Kaloriforbruk per innbygger per dag (100 kcal) Forventet levealder 18-3 4-8 9-30 31-35 70-74 år 3 5 18 0 60-69 år 3 8 8 10 50-59 år 5 13 0 3 7-49 år 8 0 0 0 Par ordnet likt: L 8 85 + 0 59 + 0 33 + 5 69 + 13 56 + 0 30 + 3 43 + 8 38 + 8 0 L 680 + 0 + 0 + 345 + 78 + 0 + 19 + 304 + 106 346 Par ordnet ulikt: U 0 63 + 0 37 + 0 11 + 3 45 + 0 19 + 13 6 + 10 6 + 8 8 + 8 3 U 0 + 0 + 0 + 135 + 0 + 78 + 60 + 64 + 4 561 Gamma blir da: γ 346 561 1785 0,61 346+ 561 907 Fordeler og ulemper med gamma (γ) Fordeler med gamma: Gamma viser både styrken og retningen i den statistiske avhengigheten Positivt fortegn betyr at de som har høyt verdi på den ene variabelen også har en tendens til å ha høy verdi på den andre variabelen, mens de som har lav verdi på den ene også har lav verdi på den andre. Negativ gamma betyr at de som har høy verdi på den ene variabelen har en tendens til å ha lav verdi på den andre variabelen. Ulempen med gamma: Gamma tar ikke hensyn til de parene som har sammenfallende ranger (S) Det vil si at gamma ikke tar med de parene som har lik verdi på den ene variabelen og ulik verdi på den andre variabelen Hvilke alternative mål bør vi bruke i stedet for gamma? Hvis tabellen har like mange linjer og kolonner velger vi Kendalls tau-b L U τ b L + U + S )( L + U + S ) ( y x Hvis antallet linjer og kolonner er ulikt velger vi Kendalls tau-c k ( L U ) τ c n ( k 1) Hvis korrelasjonen skal beregnes asymmetrisk (korrelasjonen varierer etter hvilken variabel som er avhengig) velger vi Somers d L U d L + U + S y Alle disse koeffisientene gir lavere korrelasjon enn gamma. 5

Tabell. Forventet levealder i 104 land i forhold til kaloriforbruk per innbygger. Antall land. Kaloriforbruk per innbygger per dag (100 kcal) Forventet levealder 18-3 4-8 9-30 31-35 70-74 år 3 5 18 0 60-69 år 3 8 8 10 50-59 år 5 13 0 3 7-49 år 8 0 0 0 Denne tabellen har like mange linjer og kolonner, og vi velger derfor Kendalls tau-b L U τ b ( L + U + S y )( L + U + S x ) Sammenfallende x-ranger: S x 8 11+0 6+0 6+0 33+5 6+13 13+0 6+3 30+3 3+8 5+8 18+10 0 S x 88 + 0 + 0 + 0 + 30 + 169 + 0 + 90 + 9 + 40 + 144 + 00 770 Sammenfallende y-ranger: S y 8 0+5 16+3 6+3 43+0 0+13 3+8 18+5 38+0 0+0 3+8 10+18 0 S y 0 + 80 + 78 + 19 + 0 + 39 + 144 + 190 + 0 + 0 + 80 + 360 1100 Tau-b blir da: L U 346 561 τ b 0,465 ( L + U + S )( L + U + S ) (346 + 561 + 1100 )(346 + 561 + 770 ) y x Tips: Bruk heller SPSS Symmetric Measures Nominal by Nominal Ordinal by Ordinal Phi Cramer's V Kendall's tau-b Kendall's tau-c Gamma Asymp. Value Std. Error a Approx. T b Approx. Sig..000.814.470.000.465.075 5.905.000.440.075 5.905.000.614.088 5.905.000 N of Valid Cases 104 a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. Directional Measures Asymp. Value Std. Error a Approx. T b Approx. Sig. Ordinal by Ordinal Somers' d Symmetric.465.075 5.905.000 LEVEALD Forventet.445.074 5.905.000 levealder Dependent KALORI Kaloriforbruk per.485.076 5.905.000 innbygger Dependent a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. 6