Kvantitativ analyse: statistisk raffinement versus mening*



Like dokumenter
Fordeler og ulemper ved tabellanalyse

Logistisk regresjon 1

Univariate tabeller. Statistisk uavhengighet og statistisk avhengighet. Bivariat tabellanalyse. Hvordan bør vi prosentuere denne tabellen?

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

ME Vitenskapsteori og kvantitativ metode

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Forelesning 17 Logistisk regresjonsanalyse

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav.

Forelesning 18 SOS1002

ME Vitenskapsteori og kvantitativ metode

Appendiks 5 Forutsetninger for lineær regresjonsanalyse

Logistisk regresjon 2

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt.

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006

Rapport til undersøkelse i sosiologi og sosialantropologi

Detaljerte forklaringer av begreper og metoder.

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

Om feiltolking av forskningsresultater

Mulige sammenhenger for plassering på samfunnsstigen

BESLUTNINGER UNDER USIKKERHET

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SOS1002 VÅREN 2008

SENSORVEILEDNING FOR SKOLEEKSAMEN I SOS KVANTITATIV METODE. 11. mars 2015 (4 timer)

EKSAMEN I SOS4020 KVANTITATIV METODE (MASTER) 14. MAI 2004 (4 timer)

= 5, forventet inntekt er 26

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

Når Merge sort og Insertion sort samarbeider

Forelesning 13 Regresjonsanalyse

SKOLEEKSAMEN 2. november 2007 (4 timer)

Spørreundersøkelsen om PISA blant Utdanningsforbundets medlemmer

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer)

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

regresjonsmodeller multippel logistisk regresjon logistisk regresjon prediksjon vs assosiasjon den logistisk funksjonen (2)

ME Metode og statistikk Candidate 2511

Sannsynlighetsbegrepet

Statistikk er begripelig

Forskningsmetoder i menneske-maskin interaksjon

Univariate tabeller. Bivariat tabellanalyse. Forelesning 8 Tabellanalyse. Formålet med bivariat analyse:

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2001

4 Matriser TMA4110 høsten 2018

Grunnleggende statistikk. Eva Denison 25. Mai 2016

Krysstabellanalyse. SOS1120 Kvantitativ metode. Disposisjon. 1. Beskrivelse av analyseteknikk. Forelesningsnotater 7. forelesning høsten 2005

Kvantitative metoder datainnsamling

EKSAMEN I SOS4020 KVANTITATIV METODE 8. april (4 timer)

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007

RELIABILITET : Pålitelighet? Troverdighet? Reproduserbarhet? Stabilitet? Konsistens?

Likestilte arbeidsplasser er triveligere og mer effektive

PISA får for stor plass

Effektstørrelse. Tabell 1. Kritiske verdier for Pearson s produkt-moment-korrelasjon med 5% og 1% signifikansnivå. N 5% 1% N 5% 1%

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Vurdering av kvaliteten på undersøkelser om virkninger av trafikksikkerhetstiltak

EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer)

7 Egenverdier og egenvektorer TMA4110 høsten 2018

9. Sosial kontakt. Elisabeth Rønning. Flere aleneboende, men færre ensomme

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

EKSAMEN I SOS4020 KVANTITATIV METODE 20. mars (4 timer)

PISA i et internationalt perspektiv hvad der er idegrundlaget og hvad kan den bruges til? Júlíus K. Björnsson November 2012

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Oppgaver Oppgavetype Vurdering Status 1 ME-417, forside Flervalg Automatisk poengsum Levert. 2 ME-417, oppgave 1 Skriveoppgave Manuell poengsum Levert

EKSAMEN I SOS1120 KVANTITATIV METODE 2. DESEMBER 2010 (4 timer)

3 Største felles faktor og minste felles multiplum

7.4 Eksempler på misoppfatninger/mistolkinger

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

1. COACHMODELL: GROW PERSONLIG VERDIANALYSE EGENTEST FOR MENTALE MODELLER. (Noen filtre som vi til daglig benytter)...

Profil Lavpris Supermarked Hypermarked Totalt. Coop Prix 4 4. Coop Extra Coop Mega 7 7. Coop Obs Rimi Ica Supermarked 7 7

Eksamen PSYC3101 Kvantitativ metode II Høsten 2013

b) i) Finn sannsynligheten for at nøyaktig 2 av 120 slike firmaer går konkurs.

Seminar i Selskab for surveyforskning. Aarhus 13/4 2011

Diskuter egen vitenskapsteoretiske posisjon

EKSAMEN I SOS1120 KVANTITATIV METODE 23. NOVEMBER 2004 (6 timer)

UNIVERSITETET I OSLO

Notat angående mulig kjønnskvotering på partilistene ved kommunestyrevalg

Oppgaver og løsningsforslag i undervisning. av matematikk for ingeniører

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

SUBTRAKSJON FRA A TIL Å

Tabell 1: Antallet besøkende pasienter og gjennomsnittlig ventetid i minutter (fiktive data).

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Konsekvenser av familiepolitikk 2

10.4 Sannsynligheter ved flere i utvalget (kombinatorikk)

3.A IKKE-STASJONARITET

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Høye skårer indikerer høye nivåer av selvkontroll.

Forelesning 14. Rekursjon og induksjon. Dag Normann februar Oppsummering. Oppsummering. Beregnbare funksjoner

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

UNIVERSITETET I OSLO

KLH3002 Epidemiologi. Eksamen høsten 2012

Troløse studenter på vandring. Om frafallsproblematikken i UH-sektor

Formelsamling i medisinsk statistikk

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Christensen Etikk, lykke og arkitektur

SKOLEEKSAMEN 29. september 2006 (4 timer)

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

SKOLEEKSAMEN I SOS KVANTITATIV METODE. 27. februar 2017 (4 timer)

Tusen takk for invitasjonen, Utdanningsforbundet setter stor pris på å få spille inn til dette viktige arbeidet.

Barn som pårørende fra lov til praksis

Telle mennesker lærerveiledning

10.1 Enkel lineær regresjon Multippel regresjon

Transkript:

Hellevik, Ottar (2003): Kvantitativ analyse: Statistisk raffinement versus mening, Sosiologisk tidsskrift Vol. 10, nr. 3. Side 54-74. Kvantitativ analyse: statistisk raffinement versus mening* Av Ottar Hellevik Innledning Formålet med denne artikkelen er å peke på det jeg oppfatter som en uheldig utvikling innenfor kvantitativ analyse i sosiologi. Kompliserte statistiske analyseteknikker brukes uten at det stilles spørsmål om hva målene som beregnes egentlig beskriver, og hvorvidt de egner seg til å belyse den aktuelle problemstillingen. Etter min mening bør meningsinnhold tillegges større vekt og statistisk raffinement mindre enn tilfellet ofte er i dag. Ellers kan en risikere at kvantitativ samfunnsforskning forfaller til uinteressante regneøvelser, med uleselige og i noen tilfeller også misvisende forskningsrapporter uten verdi som bidrag til den allmenne samfunnsdebatten som resultat. Konkret er det den tiltakende bruken av logistisk regresjon og andre loglineære teknikker jeg har i tankene. Det sies nå ofte at disse må brukes når den avhengige variabelen er en dikotomi. Artikler som ikke gjør det kommer i retur fra seriøse tidsskrifter. De statistiske grunnene som anføres for dette er imidlertid ikke så tungtveiende som mange later til å tro. Og når det kan pekes på en rekke problemer av substansiell art som i mange situasjoner knytter seg til bruken av de loglineære målene, er det grunn til å etterlyse en mer åpen holdning til valget av statistisk analyseteknikk. Et problem i denne sammenhengen er at det statistisk raffinerte og tungt tilgjengelige har en egen prestisje. De som har lært seg å mestre teknikkene vil gjerne ha uttelling for strevet, og er lite åpne for motforestillinger. De som ikke behersker det nye kvier seg for å innrømme sin uvitenhet. Det er derfor lite debatt om fruktbarheten av de nye analyseteknikkene. Hensikten med dette innlegget er å forsøke å få i gang en slik debatt. Noen vil kanskje oppfatte dette innlegget som et typisk eksempel på tilårskommen endringsmotvilje. Men som det skulle framgå av artikkelen er jeg ikke like skeptisk til alt som er nytt. Motforestillingene er heller ikke av ny dato. Helt fra slutten av 1970-tallet har jeg gjentatte ganger skrevet kritisk om loglineær analyse (Hellevik 1979, 1980, 1983, 1984, 1997, 1999, 2000, 2002a). Motsvar fra tilhengerne av denne analyseteknikken har stort sett uteblitt. De som er blitt 1

direkte utfordret, har latt være å imøtegå konkrete ankepunkter (Marshall & Swift 1999, 2000; Kivinen, Ahola og Hedman 2001, Kivinen, Hedman og Ahola 2002). Derfor gjør jeg nå et forsøk på å nå ut til et bredere publikum gjennom en mer populær framstilling av denne problematikken. Kanskje finnes det en taus majoritet av samfunnsforskere, som er lite begeistret for det nye, men som ikke tror at det er noen vei utenom? Gangen i artikkelen For å unngå at de som ikke er fortrolige med loglineær analyse faller av lasset helt i starten, skal vi begynne med en kort presentasjon av noen sentrale loglineære mål for statistisk sammenheng. Deretter reises spørsmålet om hva disse målene egentlig fanger opp, og dermed hva slags sosiale fenomener de er egnet til å beskrive. Et klart eksempel på at loglineære mål brukes til formål de ikke er egnet for, finner vi i analysen av sosiale skjevheter i tilgangen på høyere utdanning. Her har et uheldig valg av analyseteknikk forledet en rekke kjente sosiologer til å trekke uholdbare konklusjoner om stabil ulikhet i rekrutteringen til høyere utdanning og manglende effekt av egalitære utdanningsreformer. Debatten om hvordan ulikhet skal analyseres avdekker en forestilling om at loglineære mål beskriver statistisk sammenheng i en slags lutret form, upåvirket av marginalfordelingen til variablene som undersøkes. Som vi skal se er ideen om marginalinsensitivitet en myte, forårsaket av en logisk kortslutning. Et viktig moment ved valget av analyseteknikk er formålet med analysen. Dersom det er å fortolke statistiske sammenhenger med basis i kausalmodeller, må en bruke lineære og ikke loglineære mål, for å være sikret at dekomponeringen i direkte, indirekte og spuriøs effekt skal bli korrekt. Konklusjonen blir at det i mange situasjoner vil være gode substansielle grunner for å foretrekke andre mål enn de loglineære. At vi likevel alltid skulle være tvunget til å bruke dem i analyser med en dikotom avhengig variabel, slik det hevdes, er heldigvis ikke riktig. Dette blir klart når en ser nærmere på de argumentene som gis mot å velge lineære statistiske mål. Til slutt i artikkelen påpekes en annen uheldig utviklingstendens, hangen til å hive innpå likt og ulikt av uavhengige variabler i multiple regresjonsanalyser uten noen gjennomtenkt teoretisk begrunnelse. Dette fører lett til uinteressante forskningsresultater, og det som verre er, de kan fort 2

bli totalt misvisende. Det er grunn til å etterlyse større edruelighet når det gjelder å utnytte muligheten som regresjonsanalyser gir for å operere med store forklaringsmodeller. Loglineære mål for statistisk sammenheng Tabell 1 viser den bivariate sammenhengen mellom utdanning og oppfatning av egen yrkesrolle for ansatte i departementer (hentet fra Lægreid og Olsen 1978). Rolleoppfatningen blant jurister og ikke-jurister er som vi ser meget forskjellig. Tabell 1. Følelse av fellestrekk med dommerrollen blant jurister og ikke-jurister i departementene (Proporsjoner) Jurister Andre PD Opplever at egen yrkesrolle likner dommerrollen 0,75 0,20 0,55 Opplever ikke at egen yrkesrolle likner dommerrollen 0,25 0,80-0,55 Sum 1,00 1,00 0,00 Vi kan uttrykke sammenhengen som en proporsjonsdifferanse (PD). Den svarer til den lineære regresjonskoeffisienten b når de to variablene er kodet 0 eller 1 (binære variabler). 1 PD = b = 0,75-0,20 = 0,55 I loglineær analyse beregnes odds i stedet for proporsjoner. En odds er andelen (eller antallet) med en bestemt verdi på variabelen dividert med andelen (antallet) som ikke har denne verdien. Nedenfor er oddsen for sjansen for å oppleve at egen yrkesrolle likner dommerrollen beregnet både for jurister og ikke-jurister. En odds klart høyere enn 1 viser at det er langt flere som føler fellestrekk enn som ikke gjør det blant jurister, mens odds langt under 1 blant ikke-jurister forteller at her er personer med en slik rolleoppfatning i klart mindretall. Odds for ja = P / (1 - P) Jurist: Oj = 75/25 = 3,00 Andre: Oa = 20/80 = 0,25 1 For en demonstrasjon av hvordan regresjonskoeffisienter i en analyse med binære variabler svarer til proporsjoner og proporsjonsdifferanser, noe jeg i sin tid lærte av Gudmund Iversen, se Hellevik 1984. 3

Som uttrykk for hvor forskjellige de to utdanningsgruppene blant departementsansatte er, kan vi beregne odds ratio (OR), som er forholdet mellom de to gruppenes odds. Resultatet viser at oddsen er 12 ganger større for jurister enn for de som har annen utdanning. Odds ratio = Oj/Oa = 3,00/0,25 = 12,0 Ut fra OR beregnes det andre mål for statistisk sammenheng. Ett av disse er den naturlige logaritmen til odds ratio, som tilsvarer den logistiske regresjonskoeffisienten beta vi finner i en regresjonsanalyse der det er variasjonen i oddsen for å ha høy over lav verdi på den dikotome avhengige variabelen som analyseres. beta = ln(or) = 2,48 Et annet mål er lambda, som er ¼ av beta. Lambda har den egenskapen at den i mange tilfeller er lik eller litt større enn proporsjonsdifferansen for en empirisk sammenheng. I vårt eksempel er lambda 0,62 sammenliknet med 0,55 for PD. I spesielle situasjoner kan imidlertid lambda anta langt høyere verdier, som vi kommer tilbake til. Mens PD varierer mellom 0 og pluss eller minus 1, har lambda 0 og pluss/minus uendelig som ytterpunkter. Lambda = ¼ beta = 0,62 Hva forteller de ulike statistiske målene? Beregningen av de lineære og de loglineære målene er forskjellig, og resultatene kan være motstridende når det gjelder hvorvidt konkrete empiriske sammenhenger er sterke eller svake, og dermed også når det gjelder om det foreligger samspill eller ikke. For å velge mellom dem, må en danne seg en mening om hva de to typene av mål egentlig fanger opp, slik at en kan vurdere om det er dette en ønsker å måle. De lineære målene har fortolkinger som er umiddelbart forståelige. En proporsjon kan tolkes som et estimat for sannsynligheten for at enhetene skal ha den aktuelle verdien på en variabel. En proporsjonsdifferanse (eller en lineær regresjonskoeffisient for binære variabler) blir dermed den forskjellen i sannsynlighet vi har mellom enheter med ulik verdi på en uavhengig variabel. I en kausalanalyse kan vi snakke om hvordan sannsynligheten for å ha høy verdi på 4

effektvariabelen påvirkes av at vi skifter fra enheter med lav til enheter med høy verdi på årsaksvariabelen (Hellevik 1984). En odds er forholdet mellom sannsynligheten for å ha en bestemt verdi på en variabel og sannsynligheten for ikke å ha denne verdien. Det er greit å forstå hva som for eksempel menes med odds 3 (eller 3 til 1, som det ofte sies). Dette betyr at 75 prosent av enhetene har et kjennetegn og 25 prosent mangler det. Det blir imidlertid vanskeligere når vi skal se på sammenheng målt ved odds ratio. Noen beskriver OR som forholdet mellom sannsynligheter, at noe er så og så mange ganger vanligere innenfor én gruppe enn innenfor en annen. 2 Dette er ikke korrekt, OR viser forholdet mellom odds, ikke proporsjoner. Men resultatet blir omtrent det samme dersom proporsjonene er små. Derfor brukes denne fortolkningen innenfor epidemiologisk forskning. 3 Her refereres det noen ganger til OR som relativ risiko. Men i de fleste analyser av surveydata, der forekomsten av et fenomen gjerne er langt større, blir en slik fortolking misvisende. Problemet med å gi en meningsfylt beskrivelse av hva målet for sammenheng forteller blir ikke mindre når vi går til beta (den logistiske regresjonskoeffisienten). Den naturlige logaritmen til forholdet mellom to odds er neppe egnet til å skape aha-opplevelse hos mange lesere. Her ser vi derfor ofte at det bare er signifikans som kommenteres når analyseresultater presenteres, ikke størrelsen til koeffisientene. Eller en regner seg tilbake til hva en koeffisient svarer til i forskjell i sannsynlighet gitt bestemte forutsetninger. Loglineære mål sammenliknet med lineære Når definisjonen ikke er egnet til å skape forståelse av hva slags virkelighet en fanger opp med et statistisk mål, kan det være lærerikt å se på hvordan det oppfører seg i konkrete situasjoner, og sammenlikne med et velkjent mål som proporsjonsdifferansen. Da er lambda en grei representant for den loglineære familien, siden den i størrelse ofte ligger nær PD. 2 I en forskningsrapport ble det gitt følgende forklaring for OR: Odds ratio uttrykker hvor mange ganger hyppigere det forekommer helsesvikt i den aktuelle gruppen sammenliknet med referansegruppa. En OR på 3,8 ble kommentert slik: helsesvikt forekommer tre-fire ganger så hyppig for de som har flyttet Forholdet mellom proporsjonene var imidlertid klart lavere: 0,39 / 0,15 = 2,6. Referert i Hellevik (1996). 3 The odds ratio approximates how much more likely (or unlikely) it is for the outcome to be present among those with x = 1 than among those with x = 0. For example, if y denotes the presence or absence of lung cancer and x denotes whether or not the person is a smoker, then d [OR] = 2 indicates that lung cancer occurs twice as often among smokers than among nonsmokers in the study population. Hosmer and Lemeshow (1989), Applied Logistic Regression (New York: John Wiley & Sons). 5

Hvis for eksempel 60 prosent av mennene i et utvalg sier ja til norsk EU-medlemskap, mens tallet er 45 prosent for kvinnene, har vi at PD = 0,15. Odds blir 60/40 = 1,5 for menn, og 45/55 = 0,82 for kvinner, og OR 1,5/0,82 = 1,83. Dette gir lambda = ¼ ln(1,83) = ¼ 0,60 = 0,15. Proporsjonsdifferansen og Lambda er med andre ord identiske. Generelt gjelder at når vi ser på differanser mellom proporsjoner innenfor intervallet 0,30 0,70 vil lambda være lik eller bare litt større enn PD. Når vi beveger oss utenfor dette intervallet og nærmer oss ytterpunktene 0 eller 1 for proporsjonen som har en egenskap, vil lambda anta langt høyere verdier. Hvis for eksempel 3 prosent av alle menn var nominert på lister ved et kommunevalg, mot 1,5 prosent for kvinner, blir PD beskjedne 0,015. Dette er bare tidelen av PD i eksemplet med EU-holdning. Med odds lik 3/97 = 0,031 og 1,5/98,5 = 0,015, blir OR = 0,031/0,015 = 2,1. Lambda blir dermed høyere enn i det første eksemplet, nemlig ¼ ln(2,1) = 0,19. En tilsvarende forskjell mellom de to målene finner vi på motsatt ekstrem av forekomster. Hvis for eksempel 99,99 prosent av mennene og 99,90 prosent av kvinnene i Irak deltok i valget av Saddam Hussein, blir proporsjonsdifferansen mikroskopiske 0,0009, mens lambda blir hele 0,58. Det må med andre ord være ulike ting som menes med statistisk sammenheng innenfor de to tilnærmingene. I de to siste eksemplene forteller proporsjonsdifferansen at kjønn gir liten forskjell i sjansen for å bli nominert, eller for å stemme. Det første fordi meget få blir nominert uansett kjønn, det andre fordi praktisk talt alle stemmer, enten de er kvinner eller menn. Å kjenne en persons kjønn har følgelig liten verdi for å forutsi vedkommendes plassering på den avhengige variabelen. I et kausalperspektiv vil vi si at kjønn har liten effekt på sjansen for å bli nominert eller å stemme. Hvordan skal de helt forskjellige resultatene for lambda i disse situasjonene forståes? Vi skal se på noen ulike måter som bruken av loglineære mål kan begrunnes på. Endring over tid En innfallsvinkel er å ta utgangspunkt i logistiske vekstkurver (Heath et al. 1992). La oss forestille oss en sosial diffusjonsprosess, for eksempel ryktespredning innenfor en befolkning via samtaler, fra et utgangspunkt der ingen kjenner ryktet til et sluttpunkt der alle gjør det. Til å begynne med vil andelen som kjenner ryktet vokse langsomt, fordi det er så få som sprer det. Så stiger kjennskapen 6

hurtigere etter som stadig flere bringer ryktet videre, inntil veksten igjen flater ut når en nærmer seg taket på 100 prosent kjennskap, fordi det nå finnes få nye å fortelle det til. En logistisk vekstkurve beskriver et slikt utviklingsmønster. For den vil lambda være like stor når vi sammenlikner tidspunkter med lik avstand, uansett om vi befinner oss tidlig, midt i eller sent i prosessen. De korresponderende proporsjonsdifferansene for endringen i kjennskap vil derimot variere sterkt. De er langt mindre enn lambda til å begynne med (starteffekt), og mot slutten (metnings- eller takeffekt), men like store som lambda i midtfasene. En logistisk vekstmodell passer imidlertid ikke like godt for alle utviklingsprosesser. Når det for eksempel gjelder utbredelsen av et politisk standpunkt, har vi ved siden av vekst også mulighet for nedgang. Dette skaper problemer for den substansielle begrunnelsen for de loglineære målene. Så lenge det er snakk om økende forekomst, kan det med henvisning til takeffekten argumenteres for at en økning fra 85 til 95 prosent er sterkere eller mer krevende enn økningen fra 45 til 55 prosent. Dette indikeres av lambda, som blir 0,3 i det første og 0,1 i det siste tilfellet. Men ifølge de loglineære målene må også nedgangen fra 95 prosent til 85 betraktes som tre ganger så sterk som en nedgang fra 55 til 45, siden lambda blir 0,3 i det første og 0,1 i det andre tilfellet. Det er ikke lett å forstå hvorfor det skal være vanskeligere å falle ti prosentpoeng fra 95 enn fra 55 prosent. Det gir ikke lengre mening å snakke om en takeffekt, siden vi beveger oss vekk fra en forekomst nær 100 prosent. Avhengige variabler med gitt marginalfordeling Når vi studerer utvikling over tid, vil nivået på ett tidspunkt blant annet avhenge av nivået på tidligere tidspunkter. Dette er et argument for å ta hensyn til dette nivået slik de loglineære målene gjør. Hva så når vi sammenlikner grupper på samme tidspunkt? Her kan det også i noen tilfeller hevdes at det eksisterer en form for kobling mellom nivåene innenfor ulike grupper, nemlig når totalfordelingen for den avhengige variabelen ligger fast. Et eksempel kan være andelen som får høyere utdanning, i en situasjon der det er et bestemt antall slike plasser som tilbys, og dette er mindre enn etterspørselen. Hvis vi fikk vite hvor mange av plassene som var gått til menn, ville samtidig antallet plasser til kvinner være gitt. I en slik situasjon vil det også være grenser for hvor stor forskjell vi kan få mellom gruppene. Om det er høyere utdanningsplasser nok til 40 prosent av søkerne, vil PD maksimalt kunne bli 0,80. Dette ser vi hvis vi tenker oss at alle plassene går til den ene gruppen, for eksempel menn. 7

Da blir proporsjonen med høy utdanning 0,80 for menn, og 0,00 for kvinner. 4 Med utdanningsplasser nok til 70 prosent totalt, blir den maksimale kjønnsdifferansen 0,60 (med full dekning - 100 prosent - i en gruppe, og 40 prosent i den andre, som tildeles de utdanningsplassene som ble til overs). Her kan det være aktuelt å se den faktiske PD i forhold til den vi har beregnet som den maksimalt mulig, slik at vi får et normert mål for sammenheng som har 1 som maksimal verdi (maksimums-korrigert PD). La oss si at den faktiske kjønnsforskjellen er en PD på 0,40. Den maksimumskorrigerte PD blir da 0,4/0,8 = 0,50 i det første eksemplet, og 0,4/0,6 = 0,67 i det andre. Det er blitt hevdet at loglineære mål for sammenheng gir en slik korrigering for betydningen av marginalfordelingen til den avhengige variabelen (Heath et al. 1987: 270). Det viser seg imidlertid at resultatene for lambda avviker noe fra de maksimumskorrigerte resultatene. Avviket blir spesielt stort når den uavhengige variabelen ikke har en jevn (50-50) fordeling. Lambda reagerer nemlig ikke på skjevheter i denne fordelingen, mens den maksimale forskjellen påvirkes (Hellevik 2002a: 153-154). Ønsker vi å ta hensyn til at det gir begrensninger i sammenhengers styrke når marginalfordelingen til den avhengige variabelen ligger fast, blir konklusjonen derfor at andre mål er bedre egnet enn de loglineære. Når det ikke er restriksjoner for marginalfordelingen til den avhengige variabelen, kan forekomsten innenfor de gruppene vi sammenlikner variere fritt og uavhengig av hverandre. Et eksempel er andelen som har en bestemt holdning. Her er det vanskelig å se den substansielle begrunnelsen for at forskjellen mellom forekomstene 60 og 40 prosent skal anses som langt mindre enn forskjellen mellom 90 og 70 prosent, slik de loglineære resultatene viser (lambda 0,20 og 0,34). Men velger vi å bruke disse målene, inkludert logistiske regresjonskoeffisienter, forutsetter vi implisitt at det gir substansiell mening å operere med en forskjell mellom de to situasjonene som av lineære sammenhengsmål blir betraktet som like. For å sette det på spissen: Vi må kunne begrunne hvorfor en forskjell i valgdeltakelsen mellom 35 prosent for kvinner og 65 for menn er klart mindre enn en forskjell mellom 99,90 og 99,99 prosent, siden lambda er 0,31 i det første og 0,58 i det andre tilfellet. Andre innfallsvinkler Diskusjonen så langt uttømmer ikke mulighetene for å begrunne bruken av ikke-lineære modeller som den logistiske i forbindelse med dikotome avhengige variabler. Axel West Pedersen har i en 4 Det er for å gjøre beregningene enkle forutsatt at det er like mange av hvert kjønn blant utdanningssøkerne. 8

kommentar til denne artikkelen pekt på at siviløkonomer ved studier av ulike typer valgsituasjoner vanligvis bruker den såkalte probit modellen som er nesten identisk med logit modellen. 5 Tanken er at beslutningen er et resultat av en nytte-kost kalkyle som ikke umiddelbart kan observeres, men som slår ut i et skift på den avhengige variabel når nytten overstiger kostnadene. Bruk av probit modellen vil da innebære en antakelse om at den ikke-observerte variasjon i preferansene er normalfordelt (se for eksempel Greene 1993:642). Denne tenkemåten kan også benyttes på andre problemstillinger der skifte av verdi på en dikotom avhengig variabel kan oppfattes som et resultat av ikke-observerte egenskaper eller tilbøyeligheter ved enhetene som studeres. Hvis det er rimelig å anta at disse egenskapene har den karakteristiske klokkeformen til normalfordelingen og den logistiske fordelingen, så følger det at de uavhengige variablene vil ha en avtakende effekt på sannsynligheten for skift i den avhengige variablene jo nærmere en kommer ekstremverdiene 0 og 1. Analyse av ulikhet En demonstrasjon av hvor viktig det er å vurdere nøye hva et statistisk mål egentlig fanger opp, finner vi i debatten om ulikhet i rekrutteringen til høyere utdanning. Undersøkelser fra en rekke land viser klare sosiale forskjeller i sjansen for å få høyere utdanning. Prosenten av barna som oppnår slik utdanning øker når vi går fra foreldre med lav sosial status til foreldre med høy (fra arbeider- til middelklasse-foreldre). De viser dessuten at utdanningsnivået har steget kraftig i andre halvdel av forrige århundre innenfor alle sosiale grupper, men uten at avstanden mellom dem har endret seg nevneverdig. Tabell 2 viser et eksempel med britiske data (brukt av Heath og Clifford (1990)). Her ser vi utviklingen over tid ved å sammenlikne andelen med høyere utdanning innenfor ulike fødselskohorter. Proporsjonsdifferansen mellom de sosiale yttergruppene ligger rundt 0,4 for de tre første kohortene, og litt lavere for den siste. Også loglineære mål for sammenhengen mellom status (klasse) og utdanning, som har vært foretrukket innenfor denne forskningstradisjonen, har vært stabile over tid. Grunnen til at lineære og loglineære mål viser noenlunde samme tendens, er at ingen av proporsjonene som sammenliknes ligger nær 0 eller 1 (ekstremverdiene er 0,18 og 0,87). 5 Mens logit modellen baserer seg på den logististiske fordelingen bygger probit modellen på den mer velkjente normalfordelingen. Begge fordelingene har omtrent den samme karakteristiske klokkeform. Den logistiske vekstkurven vi har diskutert tidligere er en kumulativ logistisk fordeling. 9

Tabell 2. Klasse og utdanning: Mål for sammenheng og ulikhet (britiske data gjengitt i Hellevik 1997) Fødselskohort 1930-39 1940-49 1950-59 1960-69 Proporsjon Høy status (P Høy) 0,58 0,67 0,84 0,87 med høy Middels status (P Middels) 0,31 0,46 0,58 0,74 utdanning Lav status (P Lav) 0,18 0,27 0,42 0,54 Lineær Proporsjonsdifferanse (P Høy - P Lav) 0,40 0,40 0,42 0,33 sammenheng 1930-39 = 100 100 100 105 83 Loglineær Lambda ¼ ln(or Høy / OR Lav) 0,46 0,43 0,49 0,42 sammenheng 1930-39 = 100 100 93 107 91 Ulikhet Deltakelsesratio (P Høy / P Lav) 3,22 2,48 2,00 1,61 1930-39 = 100 100 77 62 50 Gini-indeks 0,24 0,20 0,15 0,10 1930-39 = 100 100 80 60 44 Ut fra disse og tilsvarende resultater har forskere konkludert at ulikheten i tilgangen til høyere utdanning ikke har endret seg. Og siden den sosiale ulikheten vedvarer, til tross for en rekke utdanningsreformer med utjevning som siktemål, slutter de videre at disse egalitære reformene ikke har virket. I innledningen til et stort internasjonalt verk med analyser fra en rekke land sies det for eksempel (Blossfeld og Shavit 1993: 19, 21):... despite the marked expansion of all the educational systems under study, in most countries there has been little change in socioeconomic inequality of educational opportunity.... the impact of educational reforms on changes in educational stratification seems to be negligible. Nowhere have they reduced inequalities of educational opportunity between socioeconomic strata. Men som tabell 2 også viser, blir bildet et ganske annet hvis vi bruker statistiske mål som skal fange opp ulikhet i fordelingen av et gode. Deltakelsesratioen er et enkelt mål, som er lik forholdet mellom andelene som har høy utdanning innenfor to grupper (tabellen viser forholdet mellom høy og lav status). Fra første til siste kohort er ulikheten ifølge deltakelsesratioen blitt halvert. Et mer komplekst mål for ulikhet er gini-koeffisienten, som tar hensyn til hele fordelingen både på uavhengig og avhengig variabel. Det beregnes ved å sammenlikne de tre gruppenes andel av høyere utdanningsplasser med deres andel av befolkningen (vist med dette empiriske eksemplet i Hellevik 2002b: 262-263). Jo mer fordelingen av godet avviker fra befolkningsfordelingen, desto nærmere 1 kommer gini-koeffisienten. Dersom hver gruppe får en andel av godet som nøyaktig tilsvarer dens størrelse, blir gini-koeffisienten 0 (maksimal likhet). At den er blitt mer enn halvert 10

fra første til siste kohort, viser at fordelingen av utdanningsplasser mellom klassene mer og mer nærmer seg deres befolkningsandeler. Sagt på en annen måte: Den sosiale sammensetningen for gruppen med høyere utdanning blir stadig mer representativ, det vil si likere befolkningens. Proporsjonsdifferansen (som er lik den lineære regresjonskoeffisienten) viser at betydningen av klasse for sjansen for å få høyere utdanning er stor gjennom hele tidsrommet som dekkes av undersøkelsen. Vi kan tolke dette som en sterk og stabil kausaleffekt av klasse på utdanning. Men ulikhetsmålene viser at etter som utdanningsnivået i befolkningen stiger, skaper denne stabile påvirkningen stadig mindre skjevhet i fordelingen av høyere utdanning mellom klassene. Dette skillet mellom to forskjellige aspekter ved relasjonen mellom variabler, sammenheng og ulikhet, er kanskje enda lettere å forstå når det gjelder lønn. Som et forenklet eksempel kan vi sammenlikne gjennomsnittslønnen for to grupper, en med høy og en med lav utdanning, som er like når det gjelder andre forhold som påvirker lønnsnivået. Den lineære regresjonskoeffisienten, som tilsvarer forskjellen i gjennomsnittslønn mellom gruppene, er et mål for kausaleffekten av utdanning på lønn. La oss tenke oss at det i et lønnsoppgjør gis samme tillegg i kroner til begge grupper. Siden den absolutte avstanden mellom dem forblir uendret, vil regresjonskoeffisienten vise en stabil effekt av utdanning på lønn. Samtidig vil ulikheten i fordelingen av lønn mellom gruppene ha blitt mindre. Jo høyere nivå, desto mindre betyr en konstant absolutt forskjell. En forskjell på 50.000 kroner i lønn innebærer selvsagt langt større ulikhet dersom gjennomsnittslønnen i lavtlønnsgruppen er 100.000, enn hvis den er 1.000.000. Konklusjonen blir altså at en innenfor litteraturen om klasseforskjeller i rekrutteringen til høyere utdanning har gjort seg skyldig i en oppsiktvekkende feiltolking av eget empirisk materiale, fordi en ikke har skilt mellom sammenheng og ulikhet. Det er riktig at den statistiske sammenhengen er stabil. Men dette kombinert med et stigende utdanningsnivå i befolkningen, betyr at ulikheten i fordelingen av høyere utdanning blir sterkt redusert over tid. De som får høyere utdanning i de nyeste kohortene har en langt mer representativ sosial sammensetning enn de som gjorde det i tidligere generasjoner. Det empiriske grunnlaget for å hevde at utdanningsreformene må ha vært feilslåtte faller dermed bort. Ledende sosiologer har altså trukket gale konklusjoner i sin analyse av hva som skjer innenfor dette feltet, fordi de har brukt en statistisk teknikk som ikke fanger opp det de hadde til 11

hensikt å belyse. 6 Men selv etter at dette er blitt påpekt, har det vært forbausende vanskelig å få gehør for at loglineære mål er lite egnet til å beskrive ulikhet. En kan spekulere på om grunnen til dette kan være at disse målene er såpass kompliserte at det har gitt grobunn for den rene mytedannelsen om hva de kan utrette. Myten om loglineære måls marginalinsensitivitet Loglineære mål tillegges i litteraturen den egenskapen at de ikke avhenger av endringer i marginalfordelingene i en tabell, i vårt eksempel fordelingen på klasser og utdanning i befolkningen. Vi finner beskrivelser som: "invariant under changes in the marginal distributions of the variables (Mare 1981: 75), "margin insensitive" (Erikson and Goldthorpe 1992: 56), "margin free" (Grusky and Tienda 1993: vii), slik at de viser "true effects" (Mare 1981: 75). Og enten de forstår hva som menes eller ikke, gjentas dette som et mantra av andre brukere av de loglineære målene. Ideen stammer fra en lærebok i statistikk (Bishop, Fienberg og Holland 1975), som er den eneste referansen vi finner i sentrale tekster som Mare (1981: 74) og Erikson og Goldthorpe (1992: 56). Bishop et al. sier at odds ratio (som de kaller kryss-produkt-ratioen) er invariant under row and column multiplications (1975: 14). Hvis vi multipliserer kolonner og/eller rader med konstanter (forskjellige fra 0), endres ikke OR, selv om marginalene endrer seg. Tabell 3 viser hva som menes med dette. I cellene i venstre kolonne er frekvensene a og c blitt multiplisert med X, og i cellene i øverste rad multipliseres a og b med Y. Dette resulterer i en endring i marginalene i tabellen. For eksempel kan vi ha fått en økning i andelen med høy utdanning, og i andelen som har en høystatus-bakgrunn. Formelen for OR viser hvorfor dette målet ikke påvirkes av rad/kolonne multiplisering med konstanter. Disse kommer med i både teller og nevner og faller derfor bort gjennom forkorting. Proporsjonsdifferansen påvirkes ikke av multipliseringen med X i celler med samme verdi på den uavhengige variabelen (dvs. kolonner i tabell 3). Med andre ord har endring i fordelingen på den uavhengige variabelen heller ikke innvirkning på PD. Derimot vil radmultipliseringen med Y, som endrer fordelingen på den avhengige variabelen, påvirke det lineære målet for sammenheng. Tabell 3. Tabell for status og utdanning: Rad- og kolonne-multiplikasjon med henholdsvis X og Y 6 Det er mange aspekter ved denne diskusjonen som det ikke er mulig å komme inn på her. Interesserte henvises til artiklene i Acta Sociologica i litteraturlista, og andre relevante arbeider som det refereres til der. 12

Før multiplisering Etter multiplisering Høy status Lav status SUM Høy status Lav status SUM Høy utdanning A b a+b Xya Yb Y(Xa + b) Lav utdanning C d C+d Xc d Xc + d SUM a+c b+d X(Ya + c) Yb + d Før: OR = (a / c) / (b / d) = ad / bc Etter: OR = (XYa / Xc) / (Yb / d) = XYad / XYbc = ad / bc Før: PD = a / (a+c) b / (b+d) Etter: PD = XYa / X(Ya+c) - Yb / (Yb+d) = Ya / (Ya + c) Yb / (Yb + d) Dette blir kanskje klarere hvis vi bruker et eksempel med tall. I tabell 4 er frekvensene for høy utdanning blitt multiplisert med 2. Dette medfører at utdanningsnivået i befolkningen stiger (fra en andel med høyere utdanning på 70/200 = 0,35 til 140/270 = 0,52). Også marginalfordelingen for status endres noe (fra en andel med høy på 0,50 til 0,56). For PD fører radmultiplikasjonen til en liten endring i resultatet (fra 0,5 0,2 = 0,3 til 0,67 0,33 = 0,34). OR derimot er uendret: (50/50)/ (20/80) = 4, (100/50)/(40/80) = 4. 13

Tabell 4. Tabell for status og utdanning: Eksempel der øverste rad multipliseres med 2 Før multiplisering Etter multiplisering Høy status Lav status SUM Høy status Lav status SUM Høy utdanning 50 20 70 100 40 140 Lav utdanning 50 80 130 50 80 130 SUM 100 100 200 150 120 270 Hva innebærer så dette? Det som sies av statistikerne er presist og klart ingen endring av OR når kolonner og/eller rader i tabellen multipliseres med en konstant en operasjon som også endrer marginalfordelingene. I utdanningslitteraturen er utsagnet gitt en mye videre og uholdbar fortolking. Her har det skjedd en logisk kortslutning, ved at en tar spranget fra insensitivitet i forhold til en helt bestemt form for marginalendring til å hevde at OR er ufølsom for alle slags endringer i marginalene. Men hvis vi for eksempel multipliserer i bare én celle, vil både marginalfordelingene og OR endres. Ved alle endringer i marginalene som ikke skyldes kolonne/rad-multiplikasjon med konstanter, er det vanskelig å se at begrepet marginalinsensitivitet har noen mening. Forestillingen om en slik egenskap har fått utdanningsforskere til å gi nesten lyriske skildringer av de loglineære målenes fortreffelige egenskaper sammenliknet med de lineære (de overser helt ulikhetsmål i diskusjonen). Bruken av loglineære modeller kalles et metodologisk gjennombrudd som gjør det possible to specify the intrinsic association between variables after purging out nuisance variability in marginal distributions" (Grusky and Tienda 1993: vii). Under the logistic response model, differences in background effects, either over school transitions or over cohorts, cannot result from changing marginal distributions of either independent or dependent variables because such changes do not affect the [loglinear measure]. Mare (1981: 75). Forskjellen mellom lineære og loglineære mål for sammenheng tillegges en klar substansiell mening: 14

Simple differences in proportions continuing in school among background groups change over cohorts primarily in response to the average level of proportions, rather than in response to changes in the principles by which schooling is allocated. By contrast, statistical models that measure the association between school continuation and social background, net of the marginal distribution of schooling, [dvs. loglineære mål] are sensitive to changes in the principles by which schooling is allocated and not to changes in the dispersion of the schooling distribution" (Mare 1981: 83). Påstanden om at de loglineære målene, til forskjell fra de lineære, skulle fange opp skjevheter i rekrutteringsmekanismene, kommer i et underlig lys når vi vet hvor likt de to typene av mål stort sett oppfører seg. Ingen av dem påvirkes av endringer i fordelingen på den uavhengige variabelen (klassesammensetningen i samfunnet), til forskjell fra gini-koeffisienten. De loglineære påvirkes ikke av endringer i marginalen for den avhengige variabelen (utdanning), men det gjør heller ikke de lineære så lenge proporsjonene som sammenliknes er innenfor intervallet 0,30 0,70, igjen til forskjell fra gini-koeffisienten. Vi kan altså ha alle slags endringer i klassefordelingen, og en dramatisk økning i andelen som får høyere utdanning i et samfunn, for eksempel fra 35 til 65 prosent, uten at dette skaper forskjeller i resultat mellom proporsjonsdifferansen og lambda for sammenhengen mellom klasse og utdanning. Forskjellen går mellom disse to typene av sammenhengsmål og ulikhetsmål. Dette viser at forestillingen om fundamentale substansielle forskjeller mellom lineære og loglineære mål i analysen av rekruttering til høyere utdanning ikke er holdbar innenfor et normalt variasjonsområde for utdanningsnivået i et samfunn. Lineære og loglineære mål skiller som før nevnt først lag når proporsjonene begynner å nærme seg yttergrensene 0 og 1. Ved forekomster nær 0 får vi langt høyere verdier for loglineære mål enn for lineære. Her likner de loglineære målene på ulikhetsmål. Ved meget lave forekomster er OR tilnærmet lik deltakelsesratioen (DR), det vil si forholdet mellom proporsjoner. Hvis for eksempel 15 prosent av høystatusgruppa og 5 prosent av lavstatusgruppa får høyere utdanning, blir DR 3 og OR 3,35. Med vekst til 55 og 45 prosent med høyere utdanning, synker både DR og OR (til 1,22 og 1,49). Dette samsvaret i tendens mellom loglineære mål og ulikhetsmål opphører imidlertid når vi passerer midtpunktet og nærmer oss motsatt ytterpunkt, forekomst 100 prosent for høy utdanning. 15

Da begynner OR igjen å stige, mens DR fortsetter å synke. Med andeler på 95 og 85 prosent som får høyere utdanning, er OR tilbake til gamle høyder med 3,35, mens DR med 1,12 begynner å nærme seg sitt minimum 1. De loglineære målene behandler de to ekstremene av fordelingen helt symmetrisk, det spiller ingen rolle om det er 5 eller 95 prosent som har høy utdanning. For måling av ulikhet er det derimot en fundamental forskjell mellom det å ha og det å ikke ha godet. For riktig å sette på spissen hvor meningsløst det er å påstå at de loglineære målene fanger opp skjevheten i en fordelingsmekanisme, kan vi igjen vende tilbake til eksemplet med 99,99 og 99,90 prosent valgdeltakelse for menn og kvinner. Deltakelsesratioen er her 1,001, som forteller at godet å kunne delta i valget av Saddam Hussein er så godt som helt likt fordelt mellom kjønnene. Valgdeltakernes kjønnsfordeling er representativ for befolkningens, de to gruppene er jo praktisk talt identiske. Ifølge de loglineære målene (OR lik10 og lambda lik 0,58) må det likevel være en svært stor skjevhet i mekanismene som fordeler godet valgdeltakelse. Formålet med analysen Ved valg av statistisk teknikk er et viktig moment hva som er formålet med analysen. Her går det et avgjørende skille mellom prediksjons- og kausalanalyse, som jeg gjennom mange år som lærebokforfatter har lagt vekt på at studentene skal få med seg. Oversikten i tabell 5 oppsummerer i stikkords form diskusjonen av forskjeller mellom de to analyseoppleggene (Hellevik 2002b: 307). Som det framgår av tabellen er bruken av loglineære statistiske mål begrenset til prediksjonsanalyse, de kan ikke brukes til kausalanalyse (stianalyse). De effektene en beregner vil ikke gi komponenter som summerer opp til den bivariate sammenhengen en ønsker å kausalfortolke (se referanser i Hellevik 1984: 187). En korrekt dekomponering oppnår vi bare ved hjelp av lineære mål. Dette kan være veide gjennomsnitt av proporsjonsdifferanser fra tabellanalyse, der en riktignok med mer enn tre variabler i modellen kan risikere at det blir avvik mellom komponentsum og bivariat sammenheng (Hellevik 1984: 168-170). Med lineære regresjonskoeffisienter vil dekomponeringen alltid være korrekt, enten variablene er binære eller kontinuerlige. Tabell 5: Oversikt over forskjeller mellom prediksjons- og kausalanalyse Prediksjonsanalyse Kausalanalyse Formål Forutsi enheters verdi på Y Forklare (dekomponere) bivariat (avhengig variabel) ut fra sett med X er sammenheng mellom par av variabler. 16

(uavhengige variabler). Analysemodell Todelt: Hierarkisk: To/flere X, én Y X1 - X2 - X3 - X4 Analyseopplegg Den mest multivariate tabellen eller regresjonslikningen Sett med flere tabeller eller regresjonslikninger (inneholder alle X er og Y) (to alternative analyseopplegg: effektendring og effektoverføring). Effektberegning Variabeleffekter og samspill. Direkte og indirekte variabeleffekter. (I tabellanalyse: uveide gjennomsnitt (I tabellanalyse veide gjennomsnitt av av delsammenhenger og differanser mellom delsammenhenger. I regresjonsanalyse: likning med samspillsvariabler) delsammenhenger. I regresjonsanalyse: likning uten samspillsvariabler) Krav til resultatet Prediksjonen skal stemme overens med Summen av komponenter skal svare til den faktiske fordelingen på den den bivariate sammenhengen. avhengige variabelen. Teknikker Tabellanalyse. Tabellanalyse. Lineær regresjon. Lineær regresjon. Loglineær analyse av tabeller. Logistisk regresjon. De lineære målenes fortrinn Ut fra diskusjonen kan det gis følgende oppsummering av de lineære målenes sterke sider når det gjelder analyser der den avhengige variabelen er en dikotomi: 1) Proporsjonsdifferansen og koeffisienter fra lineær regresjonsanalyse av binære variabler kan forstås som forskjell i sannsynlighet for å ha en bestemt verdi på den avhengige variabelen. Dette gjør at resultatene av en empirisk analyse har en enkel og lett forståelig tolkning, noe en vanskelig kan si gjelder for de loglineære målene. 2) Dette gjør det mulig å formidle forskningsresultater til et bredere publikum av samfunnsinteresserte, som kan sette seg inn i og vurdere kritisk hva som er kommet ut av den empiriske analysen. Det er neppe noe stort problem for naturfagene at forskningsresultatene ofte bare kan forstås av spesialister. For samfunnsfag som tar opp forhold mange borgere er opptatt av, må det anses som ønskelig at forskningspublikasjoner skal kunne leses med utbytte av journalister, politikere og andre som er interessert i det aktuelle temaet. 3) Enkle analyseteknikker gir mulighet for å vektlegge grunnleggende forståelse framfor drill av kompliserte beregninger i undervisningen av studenter. 17

4) De lineære målene kan brukes til å belyse kausale problemstillinger, som ofte vil være det en forsker er interessert i. Loglineære mål gir ikke en korrekt dekomponering av bivariate sammenhenger. Det finnes altså i mange situasjoner tungtveiende substansielle grunner for å foretrekke lineære statistiske mål framfor loglineære. Likevel hevdes det at dette ikke er tillatt dersom den avhengige variabelen er en dikotomi. Vi skal se nærmere på hvordan dette forbudet begrunnes. Argumentene mot lineær analyse Det er to argumenter av statistisk art som brukes for å begrunne at en ikke kan bruke lineære regresjonskoeffisienter i en analyse med en binær avhengig variabel: 1) De lineære regresjonskoeffisientene kan gi umulige resultater, det vil si predikerte sannsynligheter som er større enn 1 eller negative. Resultater utenfor intervallet 0-1 kan opptre når vi bestemmer sannsynligheten for høy verdi på den avhengige variabelen for ulike kombinasjoner av verdier på de uavhengige ved å summere produktene av variabelverdier og koeffisienter i regresjonslikningen. Nå kan det diskuteres hvor påtrengende dette problemet er. 7 Men uansett, det kan ikke oppstå i loglineær analyse, fordi disse målene ikke varierer innenfor gitte grenser. I en lineær regresjonsanalyse med binære variabler vil umulige resultater bare kunne inntreffe dersom det er samspill mellom de uavhengige variablene. I tilfelle av samspill, vil vi ved å inkludere de relevante samspillsvariablene i modellen alltid være sikret at resultatet ligger innenfor intervallet 0 1. Er det imidlertid kontinuerlige uavhengige variabler med i analysen, vil prediksjoner utenfor dette intervallet fortsatt kunne forekomme. Dette kan skje dersom sammenhengen mellom en slik variabel og den avhengige ikke er lineær. Et eksempel på en ikke-lineær sammenheng er den vi alt har diskutert mellom tid og kjennskap til et rykte. Når det kan stilles spørsmålstegn ved rimeligheten av å anta at en sammenheng skal være lineær, slik tilfellet ofte vil være, er et alternativ å erstatte den kontinuerlige variabelen med et sett med dummyvariabler. Da vil vi fortsatt 7 In practice, estimates of cumulative incidence would seldom be much below zero or above 1, and then only for extreme combinations of values of the independent variables. In place of such inadmissible estimates, it is reasonable to substitute the theoretical minimum or maximum value, as appropriate, for the inadmissible value. (Rothman 1986: 291) 18

være sikret mot resultater utenfor intervallet 0-1, ved å inkludere aktuelle samspillsvariabler i analysen. Dersom formålet med analysen ikke er prediksjon, men kausal dekomponering av bivariate sammenhenger, faller hele denne problemstillingen bort. Uansett om vi har variasjon i en variabels deleffekter (samspill) eller ikke, kan vi beregne et gjennomsnitt som forteller hva disse deleffektene summerer opp til av påvirkning innenfor en populasjon med en gitt sammensetning (fordelingen på de uavhengige variablene, som bestemmer vektene for det veide gjennomsnittet av delsammenhengene i tabellanalyse). Kausaleffekter skal ikke brukes til å predikere sannsynligheter, hvorvidt slike prediksjoner faller innenfor intervallet 0 1 er derfor ikke et relevant kriterium for meningsfullhet. Det avgjørende kravet til resultatene i en kausalanalyse er at summen av komponentene skal tilsvare den bivariate sammenhengen. Dette kravet tilfredsstilles av de lineære koeffisientene, men ikke av de loglineære. 2) Med en binær avhengig variabel kan vanlige signikanstester for regresjonsanalyse gi misvisende resultater. Med en binær avhengig variabel vil ikke forutsetningen om homoskedastisitet (lik spredning på den avhengige variabelen for enheter med ulik verdi på den uavhengige) være oppfylt. Dette påvirker ikke resultatet for effekten som beregnes. Men anslaget for usikkerheten knyttet til denne effekten, og dermed signifikanstesten, kan bli feil. Dette gjelder vel å merke når en bruker signifikanstestene i de vanlige standardpakkenes regresjonsprogrammer. Det finnes imidlertid analyseprogrammer med korrekte tester for lineære modeller med binære variabler. 8 At signifikanstesting er blitt brukt som et tungtveiende argument mot lineær regresjon viser at mange gjør utvalgsusikkerhet til et større problem enn det som ofte er rimelig. En kan noen ganger få inntrykk av at det spiller mindre rolle hva en egentlig måler, bare resultatet lar seg signifikansteste. Det er grunn til å minne om at tilfeldigheter ved utvalgstrekningen bare er én av mange mulige metodologiske forklaringer når resultatene skal tolkes. Med noenlunde størrelse på utvalget vil den kunne avvises uten videre, så lenge det ikke dreier seg om meget svake effekter. Og selv med de vanlige standardprogrammene med gal test er misvisende resultater noe en 8 Opplysning fra statistikeren Petter Laake. Et eksempel er programmet Egret (www.cytel.com). 19

risikerer først og fremst når antallet enheter som er undersøkt er lite (Skog 1998: 301), noe som sjelden er tilfellet i analyser av survey-data. Vi kan dermed konkludere, i strid med det som mange i dag ser ut til å tro, at det ikke er grunnlag for å hevde at lineær regresjonsanalyse ikke kan brukes med en binær avhengig variabel. Eksesser i multippel regresjonsanalyse Til slutt skal en annen problematisk utviklingstendens, som er felles for alle typer regresjonsanalyse, så vidt berøres. Dette er tendensen til å pøse på med uavhengige variabler i analysen, slik at modellene antar gigantiske proporsjoner. Antall enheter begrenser hvor mange variabler som kan tas med i samme tabell. Med tusen enheter vil det fort kunne bli tomme eller nesten tomme celler dersom en prøver å inkludere mer enn tre uavhengige dikotome variabler. Slike problemer har en ikke i regresjonsanalyse, der kontrollen for andre variabler ikke er basert på inndeling av enhetene i atskilte undergrupper. Her kan det forekomme mildt sagt omfattende kontroller, som i en avhandling der det i en logistisk regresjonsanalyse av et utvalg med 500 personer ble brukt 7 kontrollvariabler med fra 2 til 7 verdier omkodet til dummyvariabler. I en tabellanalyse tilsvarer dette 1680 kontrollgrupper. Med andre ord må mer enn to tredjedeler av dem ha vært helt tomme for enheter når en skulle se på sammenhengen mellom uavhengig og avhengig variabel. På toppen av dette hadde bare 10 enheter høy verdi på den uavhengige variabelen! Selv en så absurd analyse vil et regresjonsprogram håndtere uten problemer, fordi den kontrollerte effekten beregnes ut fra matrisen med bivariate korrelasjoner mellom de aktuelle variablene. Dermed kan en i teorien ha like mange variabler i regresjonslikningen som antall enheter minus én. Spørsmålet er om ikke denne muligheten for uhemmet inkludering av variabler i multiple regresjonsanalyser nå ofte utnyttes mer enn det som godt er. En ting er at dette lett kan føre til teoriløs og lite interessant forskning. I tabellanalysen tvinger begrensningene i antall variabler forskeren til å legge mye arbeid i å utvikle og begrunne enkle modeller som fokuserer på de vesentlige aspektene ved et fenomen. Hvis det i stedet for et grundig teoretisk forarbeid bare fylles på med variabler etter innfallsmetoden, for å se om det kanskje kan være noe å finne, og resultatene presenteres i kjempetabeller fylt til randen av regresjonskoeffisienter, blir det fort ganske kjedelig lesning. 20

Noe annet og alvorligere er at en kan stille spørsmålstegn ved holdbarheten av resultatene en oppnår på denne måten. Det er nemlig ikke slik at regresjonsanalyse av binære variabler har tilgang til informasjon som tabellanalysen mangler. 9 Muligheten for å gjennomføre analyser med flere variabler enn i tabellanalysen, er ikke basert på mer informasjon, men på de normalfordelingsforutsetningene som regresjonsanalysen legger til grunn. Her er det fare for å komme skjevt ut, mer jo flere variabler som tas med. 10 Som et alternativ til multippel regresjonsanalyse har Rosenbaum og Rubin (1983) introdusert det de kaller tilbøyelighets-skåre (propensity score) teknikken. Subklassifisering, det vil si inndeling i grupper som i tabellanalyse, gir ifølge dem den beste kontrollen av sammenhengen mellom en antatt årsaks- og effektvariabel for ikke-eksperimentelle data. Problemet med celletomhet ved mange aktuelle kontrollvariabler løses ved å kombinere disse variablene til en ny variabel, tilbøyelighets-skåren. Den bestemmes gjennom en multivariat regresjons- eller diskriminant-analyse, der alle aktuelle kontrollvariabler brukes til å forutsi sjansen for å ha høy verdi på årsaksvariabelen. På basis av denne skåren inndeles enhetene i for eksempel fem omtrent like store kontrollgrupper, og enheter med ulik verdi på årsaksvariabelen sammenliknes når det gjelder fordelingen på effektvariabelen innenfor hver kontrollgruppe. På denne måten oppnår en å fjerne det meste av innvirkningen for samtlige kontrollvariabler, som kan antas å ha tilnærmet lik fordeling innenfor gruppene med høy og lav verdi på årsaksvariabelen i hver kontrollgruppe. Slik kan en foreta svært omfattende kontroller, uten at de problemene som knytter seg til en tilsvarende analyse ved hjelp av multippel regresjon melder seg. Framgangsmåten egner seg best når en er opptatt av å påvise betydningen av en bestemt årsaksfaktor, slik som effekten av et medikament for et sykdomsforløp innenfor ikkeeksperimentell medisinsk forskning, og skal kontrollere for alle slags forhold som kan tenkes å forstyrre inntrykket av denne sammenhengen. Den er ikke like tilfredsstillende når en er interessert i hele systemet av relasjoner mellom variablene i en kausalmodell. Her vil multippel 9 Det kan se ut som om Skog tror noe annet (men muligens er det kategorisering av kontinuerlige variabler han har i tankene): Fordelen med [regresjonsteknikker] er at de gir en effektiv utnyttelse av informasjonen i datamaterialet. Det finnes også tabellanalyseteknikker basert på prosentdifferanser (jf. eksempelvis Hellevik 1988). Ulempen med sistnevnte teknikker er bl.a. at de gir en lite effektiv utnyttelse av informasjonen i datamaterialet, særlig hvis det er mange variabler som trekkes inn i analysen. (Skog 1998: 55-56). 10 Harvard-statistikeren Donald B. Rubin advarer: Standard modeling software can automatically handle many regressor variables and produce results, although they can be remarkably misleading. With many confounding covariates, however, the issues of lack of adequate overlap and reliance on untrustworthy modelbased extrapolations are even more serious than with only one confounding covariate. (Rubin 1997: 759). 21