Statistisk generalisering Forelesningsnotat høsten 2005 (SOS1120 Kvantitativ metode) av Per Arne Tufte (1) Innledning Så langt har vi undersøkt om det er sammenheng og eventuelt hvor sterk sammenhengen er mellom variabler i et utvalg. Det har vi gjort ved hjelp av krysstabellanalyse. Vi har også sett på noen mål på statistisk sammenheng: - prosentdifferanser - Cramers v - gamma Men forskere er ikke tilfreds med å si noe om sammenhengen mellom variablene i utvalget. Vi ønsker også å undersøke muligheten for å trekke konklusjoner til den populasjonen utvalget er trukket fra. Vi har for eksempel trukket et utvalg på 1000 personer fra den norske stemmeberettigede befolkningen. Dersom vi finner at menn og kvinner i utvalget har ulike politiske sympatier (for eksempel at kvinner i større grad enn menn sympatiserer med partier på venstresiden), ønsker vi å finne ut om denne forskjellen skyldes at det er forskjeller mellom menns og kvinners politiske sympatier i befolkningen og ikke bare i utvalget. Dette kalles for generalisering, dvs. å kunne trekke konklusjoner til en større gruppe enn selve utvalget. Det vi gjør når vi undersøker om det er en sammenheng eller ikke mellom variablene i populasjonen, kalles for hypotesetesting. Generelt tester vi alltid to hypoteser: H0: Det er ikke sammenheng mellom variablene i populasjonen H1: Det er sammenheng mellom variablene i populasjonen Den første kalles for nullhypotesen, den andre kalles for den alternative hypotesen. Dessverre er det slik at vi ikke kan teste den alternative hypotesen direkte. Vi må konsentrere oss om nullhypotesen, dvs. at det ikke er sammenheng mellom variablene. Forutsetningen for å gjøre hypotesetesting er at vi har et sannsynlighetsutvalg, dvs. at utvalget av respondenter er framkommet gjennom en eller form for tilfeldig trekning. På den måten unngår vi at det er systematiske forskjeller i sammensetningen av utvalget og populasjonen. Men vi kan aldri gardere oss mot tilfeldige forskjeller. Selv om vi trekker et tilfeldig utvalg, kan vi aldri være helt sikre på at det virkelig er representativt for populasjonen. Et tilfeldig utvalg av den norske befolkningen kan for eksempel ha en sterk overvekt av menn, selv om kjønnsfordelingen i befolkningen er omtrent 50-50. Dette kalles tilfeldige utvalgsfeil. Tilfeldige utvalgsfeil skaper problemer for oss. Vi kan ikke lenger være helt sikre på resultatene vi får for eksempel når vi sammenlikner gjennomsnittet på en variabel (lønn, alder e.l.) eller når vi foretar en krysstabellanalyse. Det er heftet statistisk usikkerhet knyttet til utvalgsresultatene våre. Som Ringdal påpeker, kaller vi et utvalgsresultat, for eksempel et gjennomsnitt, en prosentandel eller lignende for et estimat. Den tilsvarende størrelsen i populasjonen kalles for en parameter. Per Arne Tufte Statistisk generalisering Side 1
Den statistiske usikkerheten som skylds tilfeldige utvalgsfeil må vi leve med, men statistisk teori kan hjelpe oss et godt stykke på vei når det gjelder å få orden på denne usikkerheten. (2) Generelt om statistisk generalisering: hypoteseprøving og estimering 1 Statistisk generalisering brukes i to situasjoner: (1) Estimering, hvor vi rundt utvalgsresultatet (estimatet) vårt som kan være gjennomsnitt, median, prosentandel etc. - beregner en margin eller et intervall (også kalt konfidensintervall) som med en bestemt grad av sikkerhet innholder den sanne verdien, det vil si tilsvarende gjennomsnitt, median, prosentandel i selve populasjonen (parameteren). (2) Hypotesetesting, hvor vi på bakgrunn av utvalgsresultatene tester en påstand om hvordan et forhold (et gjennomsnitt, en sammenheng etc.) ser ut i populasjonen. Den vanligste formen for hypoteseprøving innebærer å teste hypoteser om det er sammenheng eller ikke mellom to variabler i populasjonen. Vi skal lære om estimering i en bestemt situasjon, nemlig når vi ønsker å konstruere et konfidensintervall rundt et utvalgsgjennomsnitt. Hypoteseprøving er beskrevet innledningsvis. Vi skal se på hypoteseprøving i følgende situasjoner: - krysstabellanalyse - sammenlikning av to gjennomsnitt - sammenslikning av mer enn to gjennomsnitt (ANOVA) - regresjonsanalyse Vi må bruke forskjellige tester i hver av disse situasjonene. Det henger sammen med at utseendet på samplingfordelingen (vi kommer tilbake til hva dette er) varierer fra situasjon til situasjon. Vi skal lære om tre forskjellig tester: - kjikvadrattest - t-test - F-test Uansett hvilken test en må bruke, følger man i grove trekk samme framgangsmåte. Ringdal skisserer følgende fem trinn i hypoteseprøving: 1. Avgjøre hvilken test som skal benyttes. Dette avhenger av hvilken analyseteknikk som brukes: - kjikvadrattest (krysstabellanalyse) - t-test (sammenlikning av to gjennomsnitt, regresjonskoeffisienter) - F-test (sammenlikning av mer enn to gjennomsnitt, regresjonsmodell) 1 Dette avsnittet bygger på underkapittel 14.8 hos Ringdal. Per Arne Tufte Statistisk generalisering Side 2
2. Formulere hypoteser I såkalt tosidig hypotesetesting formuleres det en nullhypotese (H0) om at det ikke er sammenheng mellom variablene i populasjonen, mens den alternative hypotesen (H1) sier at det er en sammenheng mellom variablene i populasjonen. Ved såkalte ensidige tester, undersøker vi ikke bare om det er sammenheng, men også om denne sammenhengen har en bestem retning, for eksempel at det er en positiv sammenheng mellom to variabler. I det tilfellet blir nullhypotesen at det ikke er en sammenheng i populasjonen eller at den er negativ, mens den alternative hypotesen er at sammenhengen er positiv. 2 3. Deretter velger man signifikansnivå. Dette begrepet trenger en forklaring. Logikken er lettest å forstå hvis vi tenker oss en tosidig test. Hypoteseprøving tar alltid utgangspunkt i at nullhypotesen er korrekt. Grunnen til det er at denne angir en helt konkret situasjon, nemlig at det ikke er sammenheng. Når nullhypotesen er korrekt, gjør vi feil hvis vi forkaster den. Dette kalles for feil av type I. Når vi forkaster nullhypotesen kan vi aldri helt utelukke at vi gjør feil av type I. Det vi imidlertid kan gjøre er å sette en grense for hvor ofte vi på lang sikt aksepterer å gjøre denne typen feil. Denne grensen kalles for signifikansnivå. En konvensjon innen samfunnsvitenskapene har vært å akseptere at feil av type I skjer i en av tjue tilfeller. Det tilsvarer et signifikansnivå på 5 prosent. Noen vil bemerke at det også må finnes en annen type feil, nemlig å beholde nullhypotesen når den ikke er korrekt, dvs. å konkludere med at det er ikke sammenheng mellom variablene i populasjonen, mens det i virkeligheten er det. Dette kalles feil av type II. Den forekommer selvfølgelig kun i de situasjoner der nullhypotesen ikke er sann. Sannsynligheten for å gjøre feil av type II er vanskelig å beregne, men vi vet blant annet at risikoen øker når vi gjør signifikansnivået strengere (for eksempel at vi velger et signifikansnivå på 1 prosent i stedet for 5 prosent). Det er derfor ikke riktig å si at signifikansnivået er den akseptable risikoen for å trekke feil konklusjon. Signifikansnivået dreier seg kun om faren for å begå feil av type I, ikke type II. Dette henger sammen med at hypoteseprøving alltid har som utgangspunkt at nullhypotesen er sann. 4. Etter at signifikansnivået er avklart må vi beregne en såkalt testobservator. Dette er et tall som angir hvor stor forskjellen er mellom det observerte utvalgsresultatet og det resultatet vi skulle ha fått dersom utvalgsresultatet var identisk med nullhypotesen. Hvilken testobservator en opererer med er avhengig av type test. I de testene vi skal gjennomgå - kjikvadrattest, t-test og F-test- kalles testobservatorene for henholdsvis kjikvadrat, t-verdi og F-verdi. Alle disse testobservatorene har samme egenskap. Jo høyere tallverdi på testobservatoren er, jo lengre unna nullhypotesen befinner utvalgsresultatet seg. 2 Dersom vi ønsker å undersøke om en sammenheng mellom to variabler er negativ, blir nullhypotesen at det ikke er sammenheng eller at sammenhengen er positiv, mens den alternative hypotesen er at sammenhengen er negativ. Per Arne Tufte Statistisk generalisering Side 3
Det finnes en moderne variant av hypoteseprøving hvor man i stedet for testobservatoren bruker den såkalte signifikanssannsynligheten (p-verdi). Denne viser sannsynligheten for at man i et utvalg får en testobservator med en bestemt tallverdi eller høyere når nullhypotesen er korrekt. 5. Til slutt trekkes en konklusjon av testen. Ringdal viser til to varianter av hypoteseprøving. De to variantene gir alltid samme konklusjon: Den klassiske varianten sammenlikner testobservatoren med en kritisk verdi som tilsvarer det valgte signifikansnivået. Dersom testobservatoren overskrider denne, forkastes nullhypotesen, ellers må den beholdes. Den moderne varianten sammenlikner signifikanssannsynligheten med signifikansnivået. Dersom signifikanssannsynligheten er høyere enn signifikansnivået, betyr det at risikoen for å begå feil av type I er større enn det vi kan akseptere og følgelig tar vi ikke sjansen på å forkaste nullhypotesen. Er signifikanssannsynligheten lavere enn signifikansnivået, forkastes nullhypotesen. (3) Hypotesetesting i krysstabeller 3 Krysstabeller brukes til å undersøke om frekvensfordelingen på en avhengig variabel en forskjellige for respondenter som har forskjellige verdier på en eller flere uavhengige variabler. For eksempel: Kjønn: Menn Kvinner Alle Leder andres arbeid: Nei 52% (906) 76% (1129) 63% (2035) Ja 48% (847) 24% (353) 37% (1200) Total (n) 100% (1753) 100% (1482) 100% (3235) Vi ser umiddelbart at frekvensfordelingene for den avhengige variabelen leder andres arbeid er forskjellige for menn og kvinner. Prosentandelen som leder andres arbeid er dobbelt så stor for menn som for kvinner. Krysstabellen viser at det er en sammenheng mellom variablene kjønn og leder andres arbeid. (Cramers V er 0,25). Men dette resultatet gjelder utvalget vårt. Spørsmålet er om det skyldes at det er en sammenheng i populasjonen (samtlige norske arbeidstakere) eller om det skyldes tilfeldige utvalgsfeil. Spørsmålet vi stiller oss er: er det sannsynlig at vi får dette utvalgsresultatet hvis det ikke er sammenheng mellom variablene i populasjonen (dvs. at frekvensfordelingene for menn og kvinner i populasjonen er like)? Vi kan sette opp to konkurrerende hypoteser: H 0 : Det er ingen sammenheng i populasjonen mellom variablene kjønn og leder andres arbeid (dvs. frekvensfordelingene for ledervariabelen i populasjonen er like for menn og kvinner). 3 Dette underkapitlet bygger på underkapitlene 16.4.1 og 16.5 hos Ringdal Per Arne Tufte Statistisk generalisering Side 4
H 1 : Det er en sammenheng i populasjonen mellom variablene kjønn og leder andres arbeid (dvs. frekvensfordelingene for ledervariabelen i populasjonen er forskjellige for menn og kvinner). Finnes det et mål (eller rettere sagt: en testobservator) som kan angi hvor langt det observerte resultatet befinner seg fra den situasjonen nullhypotesen postulerer? Ja, i dette tilfellet kan vi beregne en testobservator som kalles kjikvadrat (χ 2 ). For å regne kjikvadratet må vi først beregne forventet antall observasjoner i hver celle dersom nullhypotesen er korrekt. Dette er en krysstabell hvor frekvensfordelingene for den avhengige variabelen er like for alle verdier på den uavhengige variabelen. Denne kommer vi fram til ved å beregne de frekvensene som innebærer at prosentfordelingen på den avhengige variabelen for menn og kvinner blir lik prosentfordelingen for samtlige enheter («Alle»- kolonnen i tabellen). 4 Tabellen med forventede verdier blir følgende: Kjønn: Menn Kvinner Alle Leder andres arbeid: Nei 63% (1102,7) 63% (932,3) 63% (2035) Ja 37% (650,3) 37% (549,7) 37 (1200) Total (n) 100% (1753) 100% (1482) 100% (3235) Vi kan nå kvadrere forskjellen mellom forventede og observerte frekvenser og dele på forventet frekvens i hver celle. Deretter summeres resultatene: Rute O E O-E (O-E) 2 (O-E) 2 /E 1 906 1102,7-196,7 38690,89 35,1 2 1129 932,3 196,7 38690,89 41,5 3 847 650,3 196,7 38690,89 59,5 4 353 549,7-196,7 38690,89 70,4 χ 2 = 206,5 Det er lite sannsynlig å få svært høye kjikvadratverdier når nullhypotesen er sann. I slike tilfeller er følgelig sannsynligheten for å begå feil av type I (forkaste en nullhypotese som er sann) liten. Men hvor går grensen mellom en «høy» og en «lav» kjikvadratverdi? For å avgjøre det må vi ta hensyn til to faktorer: signifikansnivået og antall frihetsgrader. (1) Signifikansnivået (α) angir den risikoen for å begå feil av type I som vi maksimalt kan akseptere. Vi ønsker ikke at denne risikoen skal være for stor. Samtidig kan vi heller ikke sette en alt for lav grense for da øker sannsynligheten for å begå feil av type II (beholde en nullhypotese som er usann). Som tidligere nevnt er det en konvensjon å sette signifikansnivået til 5% (α=0,05), men også andre nivåer er hyppig benyttet, for eksempel 10% (α=0,1)og 1% (α=0,01). 4 En måte å beregne de forventede frekvensene på er å gange kolonnesummen og radsummen for en celle og dele på antall observasjoner, for eksempel 1753 x 2035 / 3235 = 1102,7. Per Arne Tufte Statistisk generalisering Side 5
(2) Antall frihetsgrader varierer med størrelsen på krysstabellen. Generelt er det slik at sannsynligheten for å få høye kjikvadratverdier når nullhypotesen er sann øker med størrelsen på krysstabellen, dvs. hvor mange ruter det er i tabellen. Dette tar vi hensyn til ved å beregne antall frihetsgrader (degrees of freedom = d.f.): d.f. = (antall verdier på avhengig variabel 1) x (antall verdier på uavhengig variabel 1) I tabellen ovenfor blir antall frihetsgrader (2-1) x (2-1) = 1 Tanken bak kjikvadrattesten er at vårt utvalg er ett av veldig mange utvalg som kunne ha vært trukket fra den samme populasjonen. Dersom en virkelig hadde trukket svært mange utvalg og beregnet kjikvadrat for den samme tabellanalysen (mellom kjønn og leder andres arbeid i vårt tilfelle) i hvert eneste utvalg, ville kjikvadratene fordelt seg som i figuren nedenfor dersom nullhypotesen er sann. Slike hypotetiske fordelinger kalles for samplingfordelinger: Figuren viser kjikvadratfordelingen for ulike antall frihetsgrader. Vi ser at kurven blir flatere når frihetsgrader øker. Selv om kurvene har ulik form, forteller den samme historien: Sannsynligheten for å få en svært høy kjikvadratverdi er liten når nullhypotesen er korrekt. Ved hjelp av figurene ovenfor kan en finne en grense som innebærer at kun 5% av utvalgene vil ha en høyere kjikvadratverdi når nullhypotesen er sann. Denne grensen kalles kritisk verdi for et signifikansnivå på 5%. (3.1) Klassisk versjon av kjikvadrattesten Nå slipper vi heldigvis å regne direkte på kjikvadratfordelingene. Vi kan bruke en kjikvadrattabell for å finne den kritiske verdien. En slik tabell er vist nedenfor. Per Arne Tufte Statistisk generalisering Side 6
Sannsynlighet df,500,250,100,050,025,010,005,001 1,455 1,323 2,706 3,841 5,024 6,635 7,879 10,83 2 1,386 2,773 4,605 5,991 7,387 9,210 10,60 13,82 3 2,366 4,108 6,251 7,851 9,348 11,34 12,84 16,27 4 3,357 5,385 7,779 9,488 11,14 13,28 14,86 18,47 5 4,351 6,626 9,236 11,07 12,83 15,09 16,75 20,52 6 5,348 7,841 10,64 12,59 14,45 16,81 18,55 22,46 7 6,346 9,037 12,02 14,07 16,01 18,48 20,28 24,32 8 7,344 10,22 13,36 15,51 17,53 20,09 21,96 26,12 Ved å kombinere informasjon om antall frihetsgrader og signifikansnivå kan vi finne den kritiske verdien. I vårt tilfelle er den 3,841 (df=1 og sannsynlighet=0,05). Testobservatoren χ 2 er 206,5. Dette er høyere enn den kritiske verdien. Det er mindre enn 5% sannsynlighet for å få denne verdien når nullhypotesen er korrekt. Følgelig er det også mindre enn 5% sannsynlighet for å forkaste en sann nullhypotese (feil av type I). Vi forkaster nullhypotesen og har fått støtte for den alternative hypotesen at det er en sammenheng mellom de to variablene. MEN: Denne testen gir bare støtte for at det er en sammenheng. Den sier ikke noe om hvordan denne sammenhengen er, dvs. om andelen som leder andre er størst for kvinner eller for menn. (3.2) Moderne versjon av kjikvadrattesten Framgangsmåten ovenfor er den klassiske varianten av kjikvadrattesten. Det finnes også en moderne variant. De to framgangsmåtene gir imidlertid alltid samme resultat. Alle statistikkprogrammer som benyttes til kvantitative analyser rapporterer signifikanssannsynligheten i tillegg til testobservatoren χ 2. Signifikanssannsynligheten angir sannsynligheten for å få den observerte verdien for testobservatoren eller høyere når nullhypotesen er sann. Den sier med andre ord hvor stor sannsynligheten i det aktuelle tilfelle er for å forkaste en sann nullhypotese (feil av type I). Denne kan sammenliknes direkte med signifikansnivået. Hvis den er lavere en signifikansnivået, er det mindre fare for å begå feil av type I enn det vi maksimalt kan akseptere. Følgelig kan vi forkaste nullhypotesen. I vårt tilfelle er signifikanssannsynligheten svært liten. Mitt statistikkprogram (STATA) har beregnet den til å være mindre enn 0,0001. Dette er langt lavere enn 0,05. Vi kan følgelig forkaste nullhypotesen og får støtte for den alternative hypotesen om at det er sammenheng mellom variablene. (4) Gjennomsnittsanalyse 5 I krysstabeller sammenlikner vi prosentuerte (relative) frekvensfordelinger. I gjennomsnittsanalyser sammenlikner vi derimot gjennomsnittene på den avhengige variabelen for respondenter som har ulike verdier på en eller flere uavhengige variabler. For å kunne foreta analyser av gjennomsnitt må den avhengige variabelen ha høyt målenivå (intervalleller forholdstallsnivå eventuelt ordinalnivå med mange verdier). 5 Dette underkapitlet bygger på kapittel 18 hos Ringdal. Per Arne Tufte Statistisk generalisering Side 7
290,0 270,0 250,0 230,0 210,0 190,0 170,0 150,0 130,0 110,0 90,0 70,0 50,0 30,0 10,0 Vi skal se på tre ulike situasjoner når vi opererer med gjennomsnitt: - ett gjennomsnitt - sammenlikner to gjennomsnitt - sammenlikner tre eller flere gjennomsnitt Men først en liten forhistorie. Hva har skjedd før vi som sosiologer trer inn på scenen? (4.1) Forhistorie Utgangspunktet er at vi har et sannsynlighetsutvalg av respondenter fra en populasjon. I dette utvalget kan vi beregne gjennomsnittet for en variabel, for eksempel lønn, alder, gjeld etc. Vi vet imidlertid at dette utvalgsgjennomsnittet (estimatet) ikke behøver å være det samme som gjennomsnittet for variabelen i populasjonen (parameteren). Avviket skyldes tilfeldige utvalgsfeil. Vi kan imidlertid benytte det samme resonnementet som for kjikvadrattesten. Vi tenker oss at vårt utvalg er ett av mange mulige tilfeldige utvalg som kunne vært trukket fra den samme populasjonen. Dersom en virkelig hadde trukket en masse tilfeldige utvalg fra denne populasjonen, beregnet gjennomsnittet for den samme variabelen i hvert utvalg og deretter plottet disse utvalgsgjennomsnittene i en figur, hvordan ville denne fordelingen, som kalles samplingfordeling, da sett ut? Svaret er at fordelingen av alle utvalgsgjennomsnittene ville ha vært normalfordelt 6 (eller noe i nærheten av normalfordelt, hvis utvalget er lite). Dette kan illustreres med figuren nedenfor: Fordeling i populasjonen Fordeling i utvalget Samplingfordeling 700 70 600 500 400 60 50 40 30 300 20 200 10 100 0 0 40,0 60,0 80,0 100,0 120,0 140,0 160,0 180,0 200,0 220,0 50,0 70,0 90,0 110,0 130,0 150,0 170,0 190,0 210,0 230,0 Lønn i kroner pr time 70 60 50 40 30 20 10 0 30,0 70,0 110,0 150,0 190,0 230,0 50,0 90,0 130,0 170,0 210,0 Plotter inn gjennomsnittet fra alle tenkelige utvalg Lønn i kroner pr time Svært mange utvalg 6 Det står mer om normalfordelingen i underkapittel 15.9 hos Ringdal. Per Arne Tufte Statistisk generalisering Side 8
Nå viser det seg at gjennomsnittet i denne samplingfordelingen er identisk med gjennomsnittet på variabelen i populasjonen, dvs. parameteren. I tillegg kan en beregne standardavviket som mål på spredningen i samplingfordelingen. Standardavviket i samplingfordelingen har et eget navn, nemlig standardfeil, og har en helt bestemt fortolkning. Den måler spredningen mellom alle utvalgsgjennomsnittene, altså hvor mye vi må regne med at et konkret utvalgsgjennomsnitt vil avvike fra gjennomsnittet i populasjonsfordelingen (som er identisk med populasjonsgjennomsnittet). Men da kan vi jo si at standardfeilen uttrykker noe om den statistiske usikkerheten som et utvalgsgjennomsnitt er forbundet med. Jo større standardfeil jo større er den statistiske usikkerheten for jo mer må vi regne med at et enkelt utvalgsgjennomsnitt vil avvike fra populasjonsparameteren. Vi kan lage et estimat for standardfeilen når vi vet standardavviket for variabelen i utvalget og antall enheter i utvalget. Estimatet for standardfeilen er da lik standardavviket delt på roten av antall observasjoner: s Y = s n Vi ser at standardfeilen, og følgelig den statistiske usikkerheten, blir stor når spredningen på variabelen er stor og når utvalget er lite. En måte å redusere den statistiske usikkerheten på er følgelig å øke utvalgsstørrelsen. Standardfeilen er nyttig fordi det viser seg at 95% av verdiene i en normalfordeling ligger +/- 1,96 standardfeil fra gjennomsnittet (som er lik populasjonsgjennomsnittet). Dette kan illustreres i følgende figur: -1,96 1,96 95 % av utvalgene vil ha gjennomsnitt som befinner seg +/- 1,96 standardfeil fra populasjonsgjennomsnittet Og dermed er vi ved kjernen av denne forhistorien: Vi vet av vårt utvalg er ett av de mange utvalg som kunne ha vært trukket. Ut fra samplingfordelingen vet vi at utvalgsgjennomsnittet på variabelen antakelig ikke ligger så langt fra populasjonsgjennomsnittet og at det er 95% sannsynlighet for at det ligger innenfor intervallet +/- 1,96 standardfeil fra populasjonsgjennomsnittet (parameteren vi ønsker å si noe om). Tallet 1,96 kommer vi tilbake til flere ganger. Per Arne Tufte Statistisk generalisering Side 9
(4.2) Situasjon 1: Statistisk generalisering av ett gjennomsnitt Denne situasjonen innebærer at vi kun har ett gjennomsnitt for en variabel. Dette kan være et gjennomsnitt for hele utvalget, for eksempel gjennomsnittlig lønn, eller et gjennomsnitt for en spesiell undergruppe i utvalget, for eksempel gjennomsnittlig lønn for kvinner. Denne situasjonen er ikke egentlig det vi kaller for gjennomsnittsanalyse, men det gir et nyttig utgangspunkt for å forstå framgangsmåten bak hypotesetesting av gjennomsnitt. Når vi har et utvalgsgjennomsnitt (estimat) kan vi: lage et intervall rundt estimatet som med en viss sannsynlighet inneholder populasjonsgjennomsnittet (parameteren), teste hypoteser om hvor stort gjennomsnittet i populasjonen er Konfidensintervall Med utgangspunkt i samplingfordelingen vet vi at 95% av utvalgsgjennomsnittene ligger innenfor intervallet +/- 1,96 standardfeil fra populasjonsgjennomsnittet. Dette kan vi bruke som utgangspunkt for å lage et 95% konfidensintervall rundt utvalgsgjennomsnittet, dvs. et intervall som med 95% sannsynlighet inneholder populasjonsverdien. Det gjør vi ved å estimere standardfeilen, og så beregne et intervall på +/- 1,96 standardfeil rundt utvalgsgjennomsnittet. 95% av slike konfidensintervall vil inneholde populasjonsverdien mens 5% av konfidensintervallene ikke vil inneholde populasjonsverdien. I utvalgsundersøkelsen er de som oppgir at de leder andre til daglig spurt hvor mange underordnede de har. En univariat analyse av denne variabelen gir blant annet følgende resultater: - gjennomsnittlig antall underordnede: 18,82 personer - standardavvik: 52,75 personer - antall observasjoner: 1166 På bakgrunn av dette kan vi estimere standardfeilen (= standardavviket i samplingfordelingen = usikkerhet): s 52,75 s Y = = = 1,54 n 1166 Vi kan nå lage et 95% konfidensintervall rundt gjennomsnittet på variabelen ved å gange standardfeilen med 1,96 (forutsatt at antall frihetsgrader, lik n-1, er større enn 100). KI = 18,82 +/- 1,96 x 1,54 = [15,80-21,84] Fortolkningen av dette konfidensintervallet er at gjennomsnittlig antall underordnede blant norske ledere med 95% sannsynlighet ligger mellom 15,80 og 21,84. Det er med andre ord 95% sannsynlighet at dette intervallet inneholder populasjonsgjennomsnittet (parameteren). Hypotesetest Vi kan også teste hypoteser om at populasjonsgjennomsnittet har en bestemt verdi. Vi kan skille mellom to testsituasjoner: såkalt tosidig og ensidig hypoteseprøving. Nedenfor behandles kun tosidig hypotesetesting. Per Arne Tufte Statistisk generalisering Side 10
Tosidig test: Sett at vi har en antakelse om at norske ledere i gjennomsnitt har akkurat 16 underordnede. Vi kan da sette opp følgende hypoteser: H 0 : Gjennomsnittlig antall underordnede i populasjonen er lik 16 (µ=16) H 1 : Gjennomsnittlig antall underordnede i populasjonen er ikke lik 16 (µ 16) Vi vet nå at dersom vi hadde trukket en uendelig mengde utvalg fra populasjonen, så ville de fleste utvalgene ha et gjennomsnitt nær populasjonsgjennomsnittet, men det vil som regel være et visst avvik mellom populasjonsgjennomsnitt og utvalgsgjennomsnittet. Fordelingen av alle mulige utvalgsgjennomsnitt vil ha en samplingfordeling som illustrert nedenfor. Denne viser at 95% av utvalgene vil befinne seg i intervallet +/- 1,96 standardfeil fra populasjonsgjennomsnittet. Dette forutsetter at (forutsatt at antall frihetsgrader, lik n-1, er mer enn 100). Det er kun 5% av utvalgsresultatene som ligger utenfor dette intervallet. Hvis vi får et utvalgsresultat som ligger utenfor +/- 1,96, er det følgelig liten sannsynlighet for å gjøre feil når vi forkaster nullhypotesen. Vi kan nå beregne testobservatoren t som rett og slett måler hvor mange standardfeil utvalgsestimatet befinner seg fra den verdien nullhypotesen angir. Hvis estimatet ligger mer enn +/- 1,96 standardfeil fra nullhypotesen, er sannsynligheten for å forkaste en riktig nullhypotese mindre enn 5% og vi kan forkaste nullhypotesen. Denne kritiske verdien er imidlertid avhengig av antall frihetsgrader for testen, beregnet som n-1. I vårt tilfelle er n-1 lik 1166-1=1165. Når dette tallet er lavere enn 100, er ikke samplingfordelingen normalfordelt, men t-fordelt (se eget underkapittel senere). I vårt tilfelle er ikke dette noe problem, vi kan bruke kritisk t-verdi fra normalfordelingen. Hva blir konklusjonen i vårt utvalg? Vi regner forskjellen mellom utvalgsresultatet og nullhypotesen, dvs. 18,82 16 = 2,82. Deretter deler vi på standardfeilen for å finne hvor mange standardfeil utvalgsresultatet befinner seg fra nullhypotesen: t = Y µ s n 18,82 16 = 1,54 = 1,83 Per Arne Tufte Statistisk generalisering Side 11
t-verdien er positiv fordi utvalgsgjennomsnittet vårt er høyere enn det som antas i nullhypotesen. Vi ser imidlertid at t-verdien ikke ligger så langt fra nullhypotesen som 1,96 standardfeil. (Hadde utvalgsresultatet vært identisk med nullhypotesen, ville vi ha fått en t- verdi lik null.) Med et signifikansnivå på 5% må vi derfor beholde nullhypotesen. Vi har ikke fått støtte for at gjennomsnittlig antall underordnede for norske ledere er lik 16. (4.3) Situasjon 2: Sammenlikning av to gjennomsnitt I sosiologi er det ikke så vanlig å teste hypoteser om fordelingen på en variabel. Vanligere er det å bruke t-testen i de tilfeller der vi sammenlikner gjennomsnittet på en variabel for to ulike grupper. En kan for eksempel være interessert i om gjennomsnittslønnen blant norske arbeidstakere er forskjellig for menn og kvinner. I dette tilfellet kan lønn betraktes som den avhengige variabelen og kjønn som den uavhengige: Kjønn Lønn Når den uavhengige variabelen har to verdier eller vi kun sammenlikner gjennomsnittene på den avhengige variabelen for to av verdiene på den uavhengige variabelen, kan vi bruke t- testen som er beskrevet ovenfor. Vi ønsker for eksempel å sammenlikne gjennomsnittlig antall underordnede for mannlige og kvinnelige ledere. Utvalgsundersøkelsen gir følgende resultat: Menn Kvinner Gjennomsnitt 20,16 15,56 Standardavvik 56,49 42,20 N 826 340 I utvalget finner vi at mannlige ledere i gjennomsnitt har 4,6 flere underordnede enn kvinnelige ledere. Spørsmålet er om denne forskjellen skyldes tilfeldige utvalgsfeil eller om det faktisk er en forskjell mellom mannlige og kvinnelige ledere i populasjonen når det gjelder gjennomsnittlig antall underordnede. Dette kan testes ved en t-test. I testen er antall underordnede å betrakte som avhengig variabel og kjønn som uavhengig: Kjønn Antall underordnede Vi setter opp følgende hypoteser: H 0 : H 1 : Gjennomsnittlig antall underordnede er likt for mannlige og kvinnelige ledere (µ menn = µ kvinner ) Gjennomsnittlig antall underordnede er forskjellig for mannlige og kvinnelige ledere (µ menn µ kvinner ) Dersom nullhypotesen er korrekt, er det ingen forskjell mellom gjennomsnittlig antall underordnede for mannlige og kvinnelige ledere. T-observatoren viser hvor langt den observerte forskjellen i utvalgsundersøkelsen ligger fra nullhypotesen målt i antall standardfeil. Hvis utvalgsresultatet er helt i tråd med nullhypotesen, er t lik 0. Per Arne Tufte Statistisk generalisering Side 12
Formelen for standardfeilen i denne testen bygger på de samme opplysningene som tidligere (standardavviket til variabelen i utvalget og antall observasjoner), men er litt mer komplisert fordi vi nå to sett av opplysninger: standardavvik på avhengige variabel og n for henholdsvis mannlige og kvinnelige ledere (se tabellen ovenfor). Formelen er: s D = 2 2 2 2 s s kvinner 56,49 + 42,20 n + = menn n kvinner 826 340 menn = 3,02 En kan nå dele forskjellen i gjennomsnitt på denne standardfeilen og se hvor mange standardfeil utvalgsresultatet befinner fra det resultatet nullhypotesen antar: µ t = menn µ s D kvinner = 20,16 15,56 = 1,52 3,02 Vi ser av nullhypotesen at denne testen er tosidig: nullhypotesen er usann hvis menn i gjennomsnitt har flere underordnede enn menn og hvis de har færre. 7 Den kritiske t-verdien i tosidig test er avhengig av antall frihetsgrader. Ringdal foreslår å bruke det minste av n 1-1 og n 2-1 som frihetsgrader. Det gir i så fall 340-1=339 frihetsgrader. Dette er større enn 100 og vi kan bruke 1,96 som kritisk verdi for et signifikansnivå på 5%. Testobservatoren er mindre enn kritisk verdi. Det innebærer at sannsynligheten for å få minst en så høy t-verdi når nullhypotesen er sann, er større enn 5%. Sjansen for å forkaste en riktig nullhypotese er for stor og tar derfor ikke sjansen på å forkaste nullhypotesen. Vi kan ikke utelukke at den observerte forskjellen i gjennomsnittlige antall underordnede mellom mannlige og kvinnelige ledere skyldes tilfeldige utvalgsfeil. Å sammenlikne t-observatoren med kritisk t-verdi er den klassiske varianten av hypotesetesting. Den moderne varianten sammenlikner signifikanssannsynligheten med signifikansnivået. I dette tilfellet er signifikanssannsynligheten lik 0,13. Det innebærer at 13 prosent av utvalgene vil få en så høy t-verdi når nullhypotesen er sann, alternativt at det er 13 prosent sjansen for å forkaste en riktig nullhypotese (feil av type I). Dette overskrider vår maksimumsgrense (signifikansnivå) på 5%, og vi kan derfor ikke forkaste nullhypotesen. Mer om signifikansnivå Noen vil kanskje mene at 5% sannsynlighet for å forkaste en riktig nullhypotese er forholdsvis mye (5% vil si at vi begår feil av type I i en av tjue tilfeller). Det er ikke noe magisk ved 5%. En kunne for eksempel ha valgt et signifikansnivå på 1%. I så fall blir den kritiske t-verdien 2,58. Utvalgsresultatet må ligger mer enn 2,58 standardfeil fra nullhypotesen før vi kan forkaste nullhypotesen. Et signifikansnivå på 0,1% gir en kritisk verdi på 3,29. Det vi imidlertid må huske på er at risikoen for å begå feil av type II (beholde en usann nullhypotese) øker når vi reduserer risikoen for type I feil. I eksemplet ovenfor spiller det ikke noen rolle om vi velger et strengere signifikansnivå for vi må beholde nullhypotesen allerede ved et signifikansnivå på 5 prosent. 7 Det er ikke noe i veien for å gjøre en ensidig test også her. Per Arne Tufte Statistisk generalisering Side 13
Mer om t-test i små utvalg Vi har konsekvent skrevet at området for nullhypotesen med 95 prosent sannsynlighet er i området +/-1,96 standardfeil. Hvis et utvalg består av få enheter, er strengt tatt ikke samplingfordelingen normaltfordelt, men t-fordelt (se figur 18.3 på side 376 hos Ringdal). I slike tilfeller blir estimeringen av konfidensintervallet mer usikker, og området for nullhypotesen må utvides. Ved få enheter i utvalget er det likeledes større usikkerhet knyttet til estimering av konfidensintervallet på 95 prosent. Ved 10 enheter i utvalget vil t-verdien ved 95 prosent konfidensintervall være 2,23. Tabellen nedenfor viser forholdet mellom antall enheter og t-verdi (95 % konfidensintervall) Antall enheter 10 20 30 120 t-skåre 2,23 2,10 2,04 1,98 Ved omtrent 100-120 observasjoner kan vi benytte normalfordeling som tilnærming til t- fordelingen, og vi kan følgelig bruke 1,96 som kritisk t-verdi ved hypoteseprøving. I boken til Ringdal er det bak i boken en tabell over t-fordelingen, hvor en kan finne kritiske t-verdier når antall frihetsgrader er lavt. (4.4) Situasjon 3: Sammenlikning av mer enn to gjennomsnitt ANOVA og F-test Når vi skal sammenlikne mer enn to gjennomsnitt, er det fortsatt mulig å bruke t-testen, men en må da sammenlikne to og to gjennomsnitt av gangen. Samtidig finnes det en form for hypoteseprøving som kan teste alle gjennomsnittene på en gang. Denne analysemetode kalles enveis variansanalyse (ANOVA) og tester hypoteser om forskjell mellom gjennomsnitt med en såkalt F-test. Vi kan for eksempel være interessert i å undersøke om personer med forskjellig utdanningsnivå (grunnskole, videregående skole og høyskole/universitet) i gjennomsnitt har ulikt antall underordnede. Vi tenker oss vel at sammenhengen er positiv: jo høyere utdanningsnivå jo flere personer ledes. En oppstilling fra utvalgsundersøkelsen viser følgende: Gjennomsnitt Standardavvik N Grunnskole 9,47 17,45 131 Videregående skole 15,53 47,63 578 Høyskole/Universitet 25,11 61,64 429 TOTAL 18,44 51,45 1138 Her ser det unektelig ut til at gjennomsnittlig antall underordnede er høyere jo høyere utdanningsnivå lederne har. Spørsmålet er om de observerte forskjellene kan skyldes tilfeldigheter og at det i populasjonen ikke er noen forskjell mellom utdanningsnivåene (dvs. at gjennomsnittene er like). Vi kan sette opp følgende hypoteser: H 0 : Gjennomsnittlig antall underordnede er det samme uansett hvilket utdanningsnivå en leder har (µ grunnskole =µ videregående =µ høyskole/universitet ) Per Arne Tufte Statistisk generalisering Side 14
H 1 : Gjennomsnittlig antall underordnede er forskjellige for minst to av utdanningsnivåene Men hvordan kan variansanalyse benyttes til å teste disse hypotesene? Enveis variansanalyse tar utgangspunkt i variasjonen rundt gjennomsnittet på den avhengige variabelen. Hvis en kvadrerer avviket fra gjennomsnittet for hver eneste observasjon og så summerer resultatene, får en det som i variansanalyse kalles for den totale kvadratsummen, SS(total). 8 Variansanalysen deler nå den totale kvadratsummen i to deler: Den første delen består av summen av de kvadrerte avvikene mellom totalgjennomsnittet og gruppegjennomsnittet (gjennomsnittlig antall underordnede for de respektive utdanningsnivåene) for den gruppen en respondent tilhører. Dette betegnes ofte Sum of squares between groups. Ringdal kaller det SS(faktor). Den andre delen av kvadratsummen tar utgangspunkt i avviket mellom hver observasjon og det respektive gruppegjennomsnittet. Disse avvikene kvadreres og summeres. Dette betegnes ofte Sum of squares within groups. Ringdal kaller det SS(feil). Denne framgangsmåten blir lettere å forstå hvis vi illustrerer det med følgende eksempel og figur: Disponent Hansen har grunnskole og 5 underordnede Avvik fra totalgjennomsnittet: 5 18,44 = - 13,44 5 9,47 18,44 Avvik fra gruppegjennomsnittet: Avvik mellom totalgjennomsnittet og gjennomsnittet for den gruppen Hansen tilhører: 5 9,47 = - 4,47 9,47 18,44 = - 8,97 La oss tenke oss at disponent Hansen deltar i utvalgsundersøkelsen vår. Han har grunnskole som høyeste utdanning og 5 underordnede. Det innebærer at han har 13,44 færre ansatte enn totalgjennomsnittet. Men dette avviket kan deles inn i to deler. For det første «skyldes» avviket at Hansen kun har grunnskoleutdanning. Gjennomsnittlig antall underordnede for 8 Dette er for øvrig første skritt på vei til å regne spredningsmålet varians. Hvis en deler den totale kvadratsummen på n-1, får en variansen. Per Arne Tufte Statistisk generalisering Side 15
denne gruppen er 9,47. Gruppegjennomsnittet er 8,97 lavere enn totalgjennomsnittet. Vi kan si at 8,97 av Hansens avvik fra totalgjennomsnittet kan «forklares» med at han tilhører gruppen med grunnskoleutdannelse. For det andre avviker Hansen også fra gruppegjennomsnittet for ledere som kun har grunnskoleutdannelse. Disse har som nevnt i gjennomsnitt 9,47 underordnede, men Hansen har 4,47 færre enn dette. Vi kan si at 4,47 av Hansens avvik fra totalgjennomsnittet ikke kan «forklares» med at Hansen tilhører gruppen av ledere med grunnskoleutdannelse. For å oppsummere: Av det totale avviket på 13,44 fra totalgjennomsnittet, kan 8,97 tilskrives at Hansen tilhører gruppen med grunnskoleutdannelse, mens 4,47 er et restavvik som blir «uforklart» i denne modellen (dvs. det skyldes ikke utdanningsnivå). Utvalgsundersøkelsen består av mange flere ledere enn Hansen. For hver leder deles avviket mellom rapportert antall underordnede og totalgjennomsnittet inn på samme måte som ovenfor. De respektive avvikene kvadreres og summeres. Summen av totalavvikene gir total kvadratsum, SS(total). Summen av kvadrerte avvik mellom totalgjennomsnitt og gruppegjennomsnitt gir SS(between groups). Summen av kvadrerte avvik fra gruppegjennomsnittene gir SS(within groups). Selve formlene er vist på side 383 hos Ringdal. For å komme fram til testobservatoren F må en beregne noe som kalles for Mean sum of squares. Dette får ved å dele kvadratsummene på sine respektive frihetsgrader: frihetsgrader (df) for SS(total) er n-1 frihetsgrader (df) for SS(beween) er K-1 frihetsgrader (df) for SS(within) er n-k hvor n er lik antall enheter i analysen og K er lik antall grupper som vi sammenlikner gjennomsnitt for (dvs. antall verdier på den uavhengige variabelen). I vårt tilfelle blir frihetsgradene henholdsvis 1138-1=1137, 3-1=2 og 1138-3=1135. Mean sum of squares blir følgelig: MS(total) = SS(total) / (n-1) MS(between) = SS(between) / (K-1) MS (within) = SS(within) / (n-k) Legg merke til at MS(total) er det samme som variansen til den avhengige variabelen. Hvorfor? (Se fotnote 8). For å komme fram til testobservatoren F deles MS(between) på MS(within): F = MS(between) / MS(within) Per Arne Tufte Statistisk generalisering Side 16
Hvis nullhypotesen er rett, forventer vi at forskjeller mellom MS(faktor) og MS(feil) kun skyldes tilfeldigheter, og at F følgelig er lik 1. F-observatoren er F-fordelt: Behold H 0 Forkast H 0 F(2;1161) = 3,00 Dette er nok en samplingfordeling som framkommer dersom en tenker seg at en hadde trukket svært mange tilfeldige utvalg fra en populasjon og beregnet F-verdien for sammenhengen mellom utdanning og antall underordnede i hvert eneste utvalg. Fordelingen tar utgangspunkt i at nullhypotesen er korrekt. F-fordelingen avhenger av to frihetsgrader: df for MS(between) og MS(within). For kombinasjonen 2 og 1135 frihetsgrader og et signifikansnivå på 5% blir den kritiske F-verdien lik 3,00. For å forkaste nullhypotesen må den observerte F-verdien overstige dette tallet. Hvis ikke, er sannsynligheten for å forkaste en sann nullhypotese større enn 5%. Det er ikke særlig hensiktsmessig å regne ut kvadratsummene, Mean sum of squares og testobservatoren F for hånd. Vi skal derfor se på en utskrift fra statistikkprogrammet SPSS: Sum of Squares df Mean Square F Sig. Between Groups 34537.3908 2 17268.6954 6.59 0.001 Within Groups 2974875.4 1135 2621.03559 Total 3009412.79 1137 2646.80104 Vi ser at SPSS rapporterer kvadratsummer (sum of squares), mean square, F og signifikanssannsynlighet (Sig.). Her kan vi bruke enten klassisk eller moderne variant av hypotesetesting. Den klassiske varianten tar utgangspunkt i den beregnede F-verdien og sammenlikner denne med den kritiske F-verdien ved gitt antall frihetsgrader og signifikansnivå. Som vi pekte på ovenfor, gir kombinasjonen 2 og 1135 frihetsgrader og et signifikansnivå på 5% en kritisk F-verdien lik 3,00. Testobservatoren F overskrider dette. Det er mindre enn 5% sannsynlig å få de observerte forskjellene i gjennomsnitt dersom nullhypotesen er korrekt. Vi forkaster nullhypotesen og har fått støtte for at minst to av gruppegjennomsnittene er forskjellige i populasjonen. Den moderne varianten tar utgangspunkt i signifikanssannsynligheten. Vi ser at denne er 0,001. Det innebærer at de observerte forskjellene i gruppegjennomsnitt ville forekomme i omtrent ett av tusen utvalg dersom nullhypotesen var sann. Dette er langt lavere enn signifikansnivået på 0,05 (=5%) som innebærer at vi kan godta at dette skjer i ett av tjue utvalg. Vi kan med andre ord forkaste nullhypotesen. Per Arne Tufte Statistisk generalisering Side 17
Vi har tidligere vist at avviket mellom totalgjennomsnittet og gruppegjennomsnittet kan betraktes som delen av totalavviket fra gjennomsnittet som er «forklart» med at en person tilhører en bestemt gruppe. Vi kan bruke denne tankegangen til å beregne et mål som kalles eta kvadrert, η 2. Vi deler den delen av kvadratsummen som er beregnet på grunnlag av avvikene fra gruppegjennomsnittene med den totale kvadratsummen. Resultatet viser hvor stor andel av den totale variasjonen rundt gjennomsnittet på den avhengige variabelen som kan «forklares» med at enhetene i undersøkelsen tilhører ulike grupper (dvs. har ulike verdier på den uavhengige variabelen). Målet kalles derfor også ofte for «forklart varians». I vårt tilfelle blir eta kvadrert: η 2 = SS(between) / SS(total) = 34537,3908 / 3009412,79 = 0,0115 Hvis vi ganger dette tallet med 100, får vi andelen «forklart» varians i prosent. I vårt tilfelle forklarer utdanningsnivå 1,15 prosent av variasjonen rundt gjennomsnittet variabelen antall underordnede. Det innebærer at 98,85 prosent av variasjonen ikke er forklart av utdanningsnivå. (5) Test av hypoteser i regresjonsanalyse I tillegg til de situasjonene som er behandlet ovenfor kan vi også generalisere resultater fra utvalg til populasjon ved regresjonsanalyse. Dette er imidlertid en analyseform vi kommer til i neste notat. Per Arne Tufte Statistisk generalisering Side 18