Kvantitativ analyse: statistisk raffinement versus mening*

Størrelse: px
Begynne med side:

Download "Kvantitativ analyse: statistisk raffinement versus mening*"

Transkript

1 Hellevik, Ottar (2003): Kvantitativ analyse: Statistisk raffinement versus mening, Sosiologisk tidsskrift Vol. 10, nr. 3. Side Kvantitativ analyse: statistisk raffinement versus mening* Av Ottar Hellevik Innledning Formålet med denne artikkelen er å peke på det jeg oppfatter som en uheldig utvikling innenfor kvantitativ analyse i sosiologi. Kompliserte statistiske analyseteknikker brukes uten at det stilles spørsmål om hva målene som beregnes egentlig beskriver, og hvorvidt de egner seg til å belyse den aktuelle problemstillingen. Etter min mening bør meningsinnhold tillegges større vekt og statistisk raffinement mindre enn tilfellet ofte er i dag. Ellers kan en risikere at kvantitativ samfunnsforskning forfaller til uinteressante regneøvelser, med uleselige og i noen tilfeller også misvisende forskningsrapporter uten verdi som bidrag til den allmenne samfunnsdebatten som resultat. Konkret er det den tiltakende bruken av logistisk regresjon og andre loglineære teknikker jeg har i tankene. Det sies nå ofte at disse må brukes når den avhengige variabelen er en dikotomi. Artikler som ikke gjør det kommer i retur fra seriøse tidsskrifter. De statistiske grunnene som anføres for dette er imidlertid ikke så tungtveiende som mange later til å tro. Og når det kan pekes på en rekke problemer av substansiell art som i mange situasjoner knytter seg til bruken av de loglineære målene, er det grunn til å etterlyse en mer åpen holdning til valget av statistisk analyseteknikk. Et problem i denne sammenhengen er at det statistisk raffinerte og tungt tilgjengelige har en egen prestisje. De som har lært seg å mestre teknikkene vil gjerne ha uttelling for strevet, og er lite åpne for motforestillinger. De som ikke behersker det nye kvier seg for å innrømme sin uvitenhet. Det er derfor lite debatt om fruktbarheten av de nye analyseteknikkene. Hensikten med dette innlegget er å forsøke å få i gang en slik debatt. Noen vil kanskje oppfatte dette innlegget som et typisk eksempel på tilårskommen endringsmotvilje. Men som det skulle framgå av artikkelen er jeg ikke like skeptisk til alt som er nytt. Motforestillingene er heller ikke av ny dato. Helt fra slutten av 1970-tallet har jeg gjentatte ganger skrevet kritisk om loglineær analyse (Hellevik 1979, 1980, 1983, 1984, 1997, 1999, 2000, 2002a). Motsvar fra tilhengerne av denne analyseteknikken har stort sett uteblitt. De som er blitt 1

2 direkte utfordret, har latt være å imøtegå konkrete ankepunkter (Marshall & Swift 1999, 2000; Kivinen, Ahola og Hedman 2001, Kivinen, Hedman og Ahola 2002). Derfor gjør jeg nå et forsøk på å nå ut til et bredere publikum gjennom en mer populær framstilling av denne problematikken. Kanskje finnes det en taus majoritet av samfunnsforskere, som er lite begeistret for det nye, men som ikke tror at det er noen vei utenom? Gangen i artikkelen For å unngå at de som ikke er fortrolige med loglineær analyse faller av lasset helt i starten, skal vi begynne med en kort presentasjon av noen sentrale loglineære mål for statistisk sammenheng. Deretter reises spørsmålet om hva disse målene egentlig fanger opp, og dermed hva slags sosiale fenomener de er egnet til å beskrive. Et klart eksempel på at loglineære mål brukes til formål de ikke er egnet for, finner vi i analysen av sosiale skjevheter i tilgangen på høyere utdanning. Her har et uheldig valg av analyseteknikk forledet en rekke kjente sosiologer til å trekke uholdbare konklusjoner om stabil ulikhet i rekrutteringen til høyere utdanning og manglende effekt av egalitære utdanningsreformer. Debatten om hvordan ulikhet skal analyseres avdekker en forestilling om at loglineære mål beskriver statistisk sammenheng i en slags lutret form, upåvirket av marginalfordelingen til variablene som undersøkes. Som vi skal se er ideen om marginalinsensitivitet en myte, forårsaket av en logisk kortslutning. Et viktig moment ved valget av analyseteknikk er formålet med analysen. Dersom det er å fortolke statistiske sammenhenger med basis i kausalmodeller, må en bruke lineære og ikke loglineære mål, for å være sikret at dekomponeringen i direkte, indirekte og spuriøs effekt skal bli korrekt. Konklusjonen blir at det i mange situasjoner vil være gode substansielle grunner for å foretrekke andre mål enn de loglineære. At vi likevel alltid skulle være tvunget til å bruke dem i analyser med en dikotom avhengig variabel, slik det hevdes, er heldigvis ikke riktig. Dette blir klart når en ser nærmere på de argumentene som gis mot å velge lineære statistiske mål. Til slutt i artikkelen påpekes en annen uheldig utviklingstendens, hangen til å hive innpå likt og ulikt av uavhengige variabler i multiple regresjonsanalyser uten noen gjennomtenkt teoretisk begrunnelse. Dette fører lett til uinteressante forskningsresultater, og det som verre er, de kan fort 2

3 bli totalt misvisende. Det er grunn til å etterlyse større edruelighet når det gjelder å utnytte muligheten som regresjonsanalyser gir for å operere med store forklaringsmodeller. Loglineære mål for statistisk sammenheng Tabell 1 viser den bivariate sammenhengen mellom utdanning og oppfatning av egen yrkesrolle for ansatte i departementer (hentet fra Lægreid og Olsen 1978). Rolleoppfatningen blant jurister og ikke-jurister er som vi ser meget forskjellig. Tabell 1. Følelse av fellestrekk med dommerrollen blant jurister og ikke-jurister i departementene (Proporsjoner) Jurister Andre PD Opplever at egen yrkesrolle likner dommerrollen 0,75 0,20 0,55 Opplever ikke at egen yrkesrolle likner dommerrollen 0,25 0,80-0,55 Sum 1,00 1,00 0,00 Vi kan uttrykke sammenhengen som en proporsjonsdifferanse (PD). Den svarer til den lineære regresjonskoeffisienten b når de to variablene er kodet 0 eller 1 (binære variabler). 1 PD = b = 0,75-0,20 = 0,55 I loglineær analyse beregnes odds i stedet for proporsjoner. En odds er andelen (eller antallet) med en bestemt verdi på variabelen dividert med andelen (antallet) som ikke har denne verdien. Nedenfor er oddsen for sjansen for å oppleve at egen yrkesrolle likner dommerrollen beregnet både for jurister og ikke-jurister. En odds klart høyere enn 1 viser at det er langt flere som føler fellestrekk enn som ikke gjør det blant jurister, mens odds langt under 1 blant ikke-jurister forteller at her er personer med en slik rolleoppfatning i klart mindretall. Odds for ja = P / (1 - P) Jurist: Oj = 75/25 = 3,00 Andre: Oa = 20/80 = 0,25 1 For en demonstrasjon av hvordan regresjonskoeffisienter i en analyse med binære variabler svarer til proporsjoner og proporsjonsdifferanser, noe jeg i sin tid lærte av Gudmund Iversen, se Hellevik

4 Som uttrykk for hvor forskjellige de to utdanningsgruppene blant departementsansatte er, kan vi beregne odds ratio (OR), som er forholdet mellom de to gruppenes odds. Resultatet viser at oddsen er 12 ganger større for jurister enn for de som har annen utdanning. Odds ratio = Oj/Oa = 3,00/0,25 = 12,0 Ut fra OR beregnes det andre mål for statistisk sammenheng. Ett av disse er den naturlige logaritmen til odds ratio, som tilsvarer den logistiske regresjonskoeffisienten beta vi finner i en regresjonsanalyse der det er variasjonen i oddsen for å ha høy over lav verdi på den dikotome avhengige variabelen som analyseres. beta = ln(or) = 2,48 Et annet mål er lambda, som er ¼ av beta. Lambda har den egenskapen at den i mange tilfeller er lik eller litt større enn proporsjonsdifferansen for en empirisk sammenheng. I vårt eksempel er lambda 0,62 sammenliknet med 0,55 for PD. I spesielle situasjoner kan imidlertid lambda anta langt høyere verdier, som vi kommer tilbake til. Mens PD varierer mellom 0 og pluss eller minus 1, har lambda 0 og pluss/minus uendelig som ytterpunkter. Lambda = ¼ beta = 0,62 Hva forteller de ulike statistiske målene? Beregningen av de lineære og de loglineære målene er forskjellig, og resultatene kan være motstridende når det gjelder hvorvidt konkrete empiriske sammenhenger er sterke eller svake, og dermed også når det gjelder om det foreligger samspill eller ikke. For å velge mellom dem, må en danne seg en mening om hva de to typene av mål egentlig fanger opp, slik at en kan vurdere om det er dette en ønsker å måle. De lineære målene har fortolkinger som er umiddelbart forståelige. En proporsjon kan tolkes som et estimat for sannsynligheten for at enhetene skal ha den aktuelle verdien på en variabel. En proporsjonsdifferanse (eller en lineær regresjonskoeffisient for binære variabler) blir dermed den forskjellen i sannsynlighet vi har mellom enheter med ulik verdi på en uavhengig variabel. I en kausalanalyse kan vi snakke om hvordan sannsynligheten for å ha høy verdi på 4

5 effektvariabelen påvirkes av at vi skifter fra enheter med lav til enheter med høy verdi på årsaksvariabelen (Hellevik 1984). En odds er forholdet mellom sannsynligheten for å ha en bestemt verdi på en variabel og sannsynligheten for ikke å ha denne verdien. Det er greit å forstå hva som for eksempel menes med odds 3 (eller 3 til 1, som det ofte sies). Dette betyr at 75 prosent av enhetene har et kjennetegn og 25 prosent mangler det. Det blir imidlertid vanskeligere når vi skal se på sammenheng målt ved odds ratio. Noen beskriver OR som forholdet mellom sannsynligheter, at noe er så og så mange ganger vanligere innenfor én gruppe enn innenfor en annen. 2 Dette er ikke korrekt, OR viser forholdet mellom odds, ikke proporsjoner. Men resultatet blir omtrent det samme dersom proporsjonene er små. Derfor brukes denne fortolkningen innenfor epidemiologisk forskning. 3 Her refereres det noen ganger til OR som relativ risiko. Men i de fleste analyser av surveydata, der forekomsten av et fenomen gjerne er langt større, blir en slik fortolking misvisende. Problemet med å gi en meningsfylt beskrivelse av hva målet for sammenheng forteller blir ikke mindre når vi går til beta (den logistiske regresjonskoeffisienten). Den naturlige logaritmen til forholdet mellom to odds er neppe egnet til å skape aha-opplevelse hos mange lesere. Her ser vi derfor ofte at det bare er signifikans som kommenteres når analyseresultater presenteres, ikke størrelsen til koeffisientene. Eller en regner seg tilbake til hva en koeffisient svarer til i forskjell i sannsynlighet gitt bestemte forutsetninger. Loglineære mål sammenliknet med lineære Når definisjonen ikke er egnet til å skape forståelse av hva slags virkelighet en fanger opp med et statistisk mål, kan det være lærerikt å se på hvordan det oppfører seg i konkrete situasjoner, og sammenlikne med et velkjent mål som proporsjonsdifferansen. Da er lambda en grei representant for den loglineære familien, siden den i størrelse ofte ligger nær PD. 2 I en forskningsrapport ble det gitt følgende forklaring for OR: Odds ratio uttrykker hvor mange ganger hyppigere det forekommer helsesvikt i den aktuelle gruppen sammenliknet med referansegruppa. En OR på 3,8 ble kommentert slik: helsesvikt forekommer tre-fire ganger så hyppig for de som har flyttet Forholdet mellom proporsjonene var imidlertid klart lavere: 0,39 / 0,15 = 2,6. Referert i Hellevik (1996). 3 The odds ratio approximates how much more likely (or unlikely) it is for the outcome to be present among those with x = 1 than among those with x = 0. For example, if y denotes the presence or absence of lung cancer and x denotes whether or not the person is a smoker, then d [OR] = 2 indicates that lung cancer occurs twice as often among smokers than among nonsmokers in the study population. Hosmer and Lemeshow (1989), Applied Logistic Regression (New York: John Wiley & Sons). 5

6 Hvis for eksempel 60 prosent av mennene i et utvalg sier ja til norsk EU-medlemskap, mens tallet er 45 prosent for kvinnene, har vi at PD = 0,15. Odds blir 60/40 = 1,5 for menn, og 45/55 = 0,82 for kvinner, og OR 1,5/0,82 = 1,83. Dette gir lambda = ¼ ln(1,83) = ¼ 0,60 = 0,15. Proporsjonsdifferansen og Lambda er med andre ord identiske. Generelt gjelder at når vi ser på differanser mellom proporsjoner innenfor intervallet 0,30 0,70 vil lambda være lik eller bare litt større enn PD. Når vi beveger oss utenfor dette intervallet og nærmer oss ytterpunktene 0 eller 1 for proporsjonen som har en egenskap, vil lambda anta langt høyere verdier. Hvis for eksempel 3 prosent av alle menn var nominert på lister ved et kommunevalg, mot 1,5 prosent for kvinner, blir PD beskjedne 0,015. Dette er bare tidelen av PD i eksemplet med EU-holdning. Med odds lik 3/97 = 0,031 og 1,5/98,5 = 0,015, blir OR = 0,031/0,015 = 2,1. Lambda blir dermed høyere enn i det første eksemplet, nemlig ¼ ln(2,1) = 0,19. En tilsvarende forskjell mellom de to målene finner vi på motsatt ekstrem av forekomster. Hvis for eksempel 99,99 prosent av mennene og 99,90 prosent av kvinnene i Irak deltok i valget av Saddam Hussein, blir proporsjonsdifferansen mikroskopiske 0,0009, mens lambda blir hele 0,58. Det må med andre ord være ulike ting som menes med statistisk sammenheng innenfor de to tilnærmingene. I de to siste eksemplene forteller proporsjonsdifferansen at kjønn gir liten forskjell i sjansen for å bli nominert, eller for å stemme. Det første fordi meget få blir nominert uansett kjønn, det andre fordi praktisk talt alle stemmer, enten de er kvinner eller menn. Å kjenne en persons kjønn har følgelig liten verdi for å forutsi vedkommendes plassering på den avhengige variabelen. I et kausalperspektiv vil vi si at kjønn har liten effekt på sjansen for å bli nominert eller å stemme. Hvordan skal de helt forskjellige resultatene for lambda i disse situasjonene forståes? Vi skal se på noen ulike måter som bruken av loglineære mål kan begrunnes på. Endring over tid En innfallsvinkel er å ta utgangspunkt i logistiske vekstkurver (Heath et al. 1992). La oss forestille oss en sosial diffusjonsprosess, for eksempel ryktespredning innenfor en befolkning via samtaler, fra et utgangspunkt der ingen kjenner ryktet til et sluttpunkt der alle gjør det. Til å begynne med vil andelen som kjenner ryktet vokse langsomt, fordi det er så få som sprer det. Så stiger kjennskapen 6

7 hurtigere etter som stadig flere bringer ryktet videre, inntil veksten igjen flater ut når en nærmer seg taket på 100 prosent kjennskap, fordi det nå finnes få nye å fortelle det til. En logistisk vekstkurve beskriver et slikt utviklingsmønster. For den vil lambda være like stor når vi sammenlikner tidspunkter med lik avstand, uansett om vi befinner oss tidlig, midt i eller sent i prosessen. De korresponderende proporsjonsdifferansene for endringen i kjennskap vil derimot variere sterkt. De er langt mindre enn lambda til å begynne med (starteffekt), og mot slutten (metnings- eller takeffekt), men like store som lambda i midtfasene. En logistisk vekstmodell passer imidlertid ikke like godt for alle utviklingsprosesser. Når det for eksempel gjelder utbredelsen av et politisk standpunkt, har vi ved siden av vekst også mulighet for nedgang. Dette skaper problemer for den substansielle begrunnelsen for de loglineære målene. Så lenge det er snakk om økende forekomst, kan det med henvisning til takeffekten argumenteres for at en økning fra 85 til 95 prosent er sterkere eller mer krevende enn økningen fra 45 til 55 prosent. Dette indikeres av lambda, som blir 0,3 i det første og 0,1 i det siste tilfellet. Men ifølge de loglineære målene må også nedgangen fra 95 prosent til 85 betraktes som tre ganger så sterk som en nedgang fra 55 til 45, siden lambda blir 0,3 i det første og 0,1 i det andre tilfellet. Det er ikke lett å forstå hvorfor det skal være vanskeligere å falle ti prosentpoeng fra 95 enn fra 55 prosent. Det gir ikke lengre mening å snakke om en takeffekt, siden vi beveger oss vekk fra en forekomst nær 100 prosent. Avhengige variabler med gitt marginalfordeling Når vi studerer utvikling over tid, vil nivået på ett tidspunkt blant annet avhenge av nivået på tidligere tidspunkter. Dette er et argument for å ta hensyn til dette nivået slik de loglineære målene gjør. Hva så når vi sammenlikner grupper på samme tidspunkt? Her kan det også i noen tilfeller hevdes at det eksisterer en form for kobling mellom nivåene innenfor ulike grupper, nemlig når totalfordelingen for den avhengige variabelen ligger fast. Et eksempel kan være andelen som får høyere utdanning, i en situasjon der det er et bestemt antall slike plasser som tilbys, og dette er mindre enn etterspørselen. Hvis vi fikk vite hvor mange av plassene som var gått til menn, ville samtidig antallet plasser til kvinner være gitt. I en slik situasjon vil det også være grenser for hvor stor forskjell vi kan få mellom gruppene. Om det er høyere utdanningsplasser nok til 40 prosent av søkerne, vil PD maksimalt kunne bli 0,80. Dette ser vi hvis vi tenker oss at alle plassene går til den ene gruppen, for eksempel menn. 7

8 Da blir proporsjonen med høy utdanning 0,80 for menn, og 0,00 for kvinner. 4 Med utdanningsplasser nok til 70 prosent totalt, blir den maksimale kjønnsdifferansen 0,60 (med full dekning prosent - i en gruppe, og 40 prosent i den andre, som tildeles de utdanningsplassene som ble til overs). Her kan det være aktuelt å se den faktiske PD i forhold til den vi har beregnet som den maksimalt mulig, slik at vi får et normert mål for sammenheng som har 1 som maksimal verdi (maksimums-korrigert PD). La oss si at den faktiske kjønnsforskjellen er en PD på 0,40. Den maksimumskorrigerte PD blir da 0,4/0,8 = 0,50 i det første eksemplet, og 0,4/0,6 = 0,67 i det andre. Det er blitt hevdet at loglineære mål for sammenheng gir en slik korrigering for betydningen av marginalfordelingen til den avhengige variabelen (Heath et al. 1987: 270). Det viser seg imidlertid at resultatene for lambda avviker noe fra de maksimumskorrigerte resultatene. Avviket blir spesielt stort når den uavhengige variabelen ikke har en jevn (50-50) fordeling. Lambda reagerer nemlig ikke på skjevheter i denne fordelingen, mens den maksimale forskjellen påvirkes (Hellevik 2002a: ). Ønsker vi å ta hensyn til at det gir begrensninger i sammenhengers styrke når marginalfordelingen til den avhengige variabelen ligger fast, blir konklusjonen derfor at andre mål er bedre egnet enn de loglineære. Når det ikke er restriksjoner for marginalfordelingen til den avhengige variabelen, kan forekomsten innenfor de gruppene vi sammenlikner variere fritt og uavhengig av hverandre. Et eksempel er andelen som har en bestemt holdning. Her er det vanskelig å se den substansielle begrunnelsen for at forskjellen mellom forekomstene 60 og 40 prosent skal anses som langt mindre enn forskjellen mellom 90 og 70 prosent, slik de loglineære resultatene viser (lambda 0,20 og 0,34). Men velger vi å bruke disse målene, inkludert logistiske regresjonskoeffisienter, forutsetter vi implisitt at det gir substansiell mening å operere med en forskjell mellom de to situasjonene som av lineære sammenhengsmål blir betraktet som like. For å sette det på spissen: Vi må kunne begrunne hvorfor en forskjell i valgdeltakelsen mellom 35 prosent for kvinner og 65 for menn er klart mindre enn en forskjell mellom 99,90 og 99,99 prosent, siden lambda er 0,31 i det første og 0,58 i det andre tilfellet. Andre innfallsvinkler Diskusjonen så langt uttømmer ikke mulighetene for å begrunne bruken av ikke-lineære modeller som den logistiske i forbindelse med dikotome avhengige variabler. Axel West Pedersen har i en 4 Det er for å gjøre beregningene enkle forutsatt at det er like mange av hvert kjønn blant utdanningssøkerne. 8

9 kommentar til denne artikkelen pekt på at siviløkonomer ved studier av ulike typer valgsituasjoner vanligvis bruker den såkalte probit modellen som er nesten identisk med logit modellen. 5 Tanken er at beslutningen er et resultat av en nytte-kost kalkyle som ikke umiddelbart kan observeres, men som slår ut i et skift på den avhengige variabel når nytten overstiger kostnadene. Bruk av probit modellen vil da innebære en antakelse om at den ikke-observerte variasjon i preferansene er normalfordelt (se for eksempel Greene 1993:642). Denne tenkemåten kan også benyttes på andre problemstillinger der skifte av verdi på en dikotom avhengig variabel kan oppfattes som et resultat av ikke-observerte egenskaper eller tilbøyeligheter ved enhetene som studeres. Hvis det er rimelig å anta at disse egenskapene har den karakteristiske klokkeformen til normalfordelingen og den logistiske fordelingen, så følger det at de uavhengige variablene vil ha en avtakende effekt på sannsynligheten for skift i den avhengige variablene jo nærmere en kommer ekstremverdiene 0 og 1. Analyse av ulikhet En demonstrasjon av hvor viktig det er å vurdere nøye hva et statistisk mål egentlig fanger opp, finner vi i debatten om ulikhet i rekrutteringen til høyere utdanning. Undersøkelser fra en rekke land viser klare sosiale forskjeller i sjansen for å få høyere utdanning. Prosenten av barna som oppnår slik utdanning øker når vi går fra foreldre med lav sosial status til foreldre med høy (fra arbeider- til middelklasse-foreldre). De viser dessuten at utdanningsnivået har steget kraftig i andre halvdel av forrige århundre innenfor alle sosiale grupper, men uten at avstanden mellom dem har endret seg nevneverdig. Tabell 2 viser et eksempel med britiske data (brukt av Heath og Clifford (1990)). Her ser vi utviklingen over tid ved å sammenlikne andelen med høyere utdanning innenfor ulike fødselskohorter. Proporsjonsdifferansen mellom de sosiale yttergruppene ligger rundt 0,4 for de tre første kohortene, og litt lavere for den siste. Også loglineære mål for sammenhengen mellom status (klasse) og utdanning, som har vært foretrukket innenfor denne forskningstradisjonen, har vært stabile over tid. Grunnen til at lineære og loglineære mål viser noenlunde samme tendens, er at ingen av proporsjonene som sammenliknes ligger nær 0 eller 1 (ekstremverdiene er 0,18 og 0,87). 5 Mens logit modellen baserer seg på den logististiske fordelingen bygger probit modellen på den mer velkjente normalfordelingen. Begge fordelingene har omtrent den samme karakteristiske klokkeform. Den logistiske vekstkurven vi har diskutert tidligere er en kumulativ logistisk fordeling. 9

10 Tabell 2. Klasse og utdanning: Mål for sammenheng og ulikhet (britiske data gjengitt i Hellevik 1997) Fødselskohort Proporsjon Høy status (P Høy) 0,58 0,67 0,84 0,87 med høy Middels status (P Middels) 0,31 0,46 0,58 0,74 utdanning Lav status (P Lav) 0,18 0,27 0,42 0,54 Lineær Proporsjonsdifferanse (P Høy - P Lav) 0,40 0,40 0,42 0,33 sammenheng = Loglineær Lambda ¼ ln(or Høy / OR Lav) 0,46 0,43 0,49 0,42 sammenheng = Ulikhet Deltakelsesratio (P Høy / P Lav) 3,22 2,48 2,00 1, = Gini-indeks 0,24 0,20 0,15 0, = Ut fra disse og tilsvarende resultater har forskere konkludert at ulikheten i tilgangen til høyere utdanning ikke har endret seg. Og siden den sosiale ulikheten vedvarer, til tross for en rekke utdanningsreformer med utjevning som siktemål, slutter de videre at disse egalitære reformene ikke har virket. I innledningen til et stort internasjonalt verk med analyser fra en rekke land sies det for eksempel (Blossfeld og Shavit 1993: 19, 21):... despite the marked expansion of all the educational systems under study, in most countries there has been little change in socioeconomic inequality of educational opportunity.... the impact of educational reforms on changes in educational stratification seems to be negligible. Nowhere have they reduced inequalities of educational opportunity between socioeconomic strata. Men som tabell 2 også viser, blir bildet et ganske annet hvis vi bruker statistiske mål som skal fange opp ulikhet i fordelingen av et gode. Deltakelsesratioen er et enkelt mål, som er lik forholdet mellom andelene som har høy utdanning innenfor to grupper (tabellen viser forholdet mellom høy og lav status). Fra første til siste kohort er ulikheten ifølge deltakelsesratioen blitt halvert. Et mer komplekst mål for ulikhet er gini-koeffisienten, som tar hensyn til hele fordelingen både på uavhengig og avhengig variabel. Det beregnes ved å sammenlikne de tre gruppenes andel av høyere utdanningsplasser med deres andel av befolkningen (vist med dette empiriske eksemplet i Hellevik 2002b: ). Jo mer fordelingen av godet avviker fra befolkningsfordelingen, desto nærmere 1 kommer gini-koeffisienten. Dersom hver gruppe får en andel av godet som nøyaktig tilsvarer dens størrelse, blir gini-koeffisienten 0 (maksimal likhet). At den er blitt mer enn halvert 10

11 fra første til siste kohort, viser at fordelingen av utdanningsplasser mellom klassene mer og mer nærmer seg deres befolkningsandeler. Sagt på en annen måte: Den sosiale sammensetningen for gruppen med høyere utdanning blir stadig mer representativ, det vil si likere befolkningens. Proporsjonsdifferansen (som er lik den lineære regresjonskoeffisienten) viser at betydningen av klasse for sjansen for å få høyere utdanning er stor gjennom hele tidsrommet som dekkes av undersøkelsen. Vi kan tolke dette som en sterk og stabil kausaleffekt av klasse på utdanning. Men ulikhetsmålene viser at etter som utdanningsnivået i befolkningen stiger, skaper denne stabile påvirkningen stadig mindre skjevhet i fordelingen av høyere utdanning mellom klassene. Dette skillet mellom to forskjellige aspekter ved relasjonen mellom variabler, sammenheng og ulikhet, er kanskje enda lettere å forstå når det gjelder lønn. Som et forenklet eksempel kan vi sammenlikne gjennomsnittslønnen for to grupper, en med høy og en med lav utdanning, som er like når det gjelder andre forhold som påvirker lønnsnivået. Den lineære regresjonskoeffisienten, som tilsvarer forskjellen i gjennomsnittslønn mellom gruppene, er et mål for kausaleffekten av utdanning på lønn. La oss tenke oss at det i et lønnsoppgjør gis samme tillegg i kroner til begge grupper. Siden den absolutte avstanden mellom dem forblir uendret, vil regresjonskoeffisienten vise en stabil effekt av utdanning på lønn. Samtidig vil ulikheten i fordelingen av lønn mellom gruppene ha blitt mindre. Jo høyere nivå, desto mindre betyr en konstant absolutt forskjell. En forskjell på kroner i lønn innebærer selvsagt langt større ulikhet dersom gjennomsnittslønnen i lavtlønnsgruppen er , enn hvis den er Konklusjonen blir altså at en innenfor litteraturen om klasseforskjeller i rekrutteringen til høyere utdanning har gjort seg skyldig i en oppsiktvekkende feiltolking av eget empirisk materiale, fordi en ikke har skilt mellom sammenheng og ulikhet. Det er riktig at den statistiske sammenhengen er stabil. Men dette kombinert med et stigende utdanningsnivå i befolkningen, betyr at ulikheten i fordelingen av høyere utdanning blir sterkt redusert over tid. De som får høyere utdanning i de nyeste kohortene har en langt mer representativ sosial sammensetning enn de som gjorde det i tidligere generasjoner. Det empiriske grunnlaget for å hevde at utdanningsreformene må ha vært feilslåtte faller dermed bort. Ledende sosiologer har altså trukket gale konklusjoner i sin analyse av hva som skjer innenfor dette feltet, fordi de har brukt en statistisk teknikk som ikke fanger opp det de hadde til 11

12 hensikt å belyse. 6 Men selv etter at dette er blitt påpekt, har det vært forbausende vanskelig å få gehør for at loglineære mål er lite egnet til å beskrive ulikhet. En kan spekulere på om grunnen til dette kan være at disse målene er såpass kompliserte at det har gitt grobunn for den rene mytedannelsen om hva de kan utrette. Myten om loglineære måls marginalinsensitivitet Loglineære mål tillegges i litteraturen den egenskapen at de ikke avhenger av endringer i marginalfordelingene i en tabell, i vårt eksempel fordelingen på klasser og utdanning i befolkningen. Vi finner beskrivelser som: "invariant under changes in the marginal distributions of the variables (Mare 1981: 75), "margin insensitive" (Erikson and Goldthorpe 1992: 56), "margin free" (Grusky and Tienda 1993: vii), slik at de viser "true effects" (Mare 1981: 75). Og enten de forstår hva som menes eller ikke, gjentas dette som et mantra av andre brukere av de loglineære målene. Ideen stammer fra en lærebok i statistikk (Bishop, Fienberg og Holland 1975), som er den eneste referansen vi finner i sentrale tekster som Mare (1981: 74) og Erikson og Goldthorpe (1992: 56). Bishop et al. sier at odds ratio (som de kaller kryss-produkt-ratioen) er invariant under row and column multiplications (1975: 14). Hvis vi multipliserer kolonner og/eller rader med konstanter (forskjellige fra 0), endres ikke OR, selv om marginalene endrer seg. Tabell 3 viser hva som menes med dette. I cellene i venstre kolonne er frekvensene a og c blitt multiplisert med X, og i cellene i øverste rad multipliseres a og b med Y. Dette resulterer i en endring i marginalene i tabellen. For eksempel kan vi ha fått en økning i andelen med høy utdanning, og i andelen som har en høystatus-bakgrunn. Formelen for OR viser hvorfor dette målet ikke påvirkes av rad/kolonne multiplisering med konstanter. Disse kommer med i både teller og nevner og faller derfor bort gjennom forkorting. Proporsjonsdifferansen påvirkes ikke av multipliseringen med X i celler med samme verdi på den uavhengige variabelen (dvs. kolonner i tabell 3). Med andre ord har endring i fordelingen på den uavhengige variabelen heller ikke innvirkning på PD. Derimot vil radmultipliseringen med Y, som endrer fordelingen på den avhengige variabelen, påvirke det lineære målet for sammenheng. Tabell 3. Tabell for status og utdanning: Rad- og kolonne-multiplikasjon med henholdsvis X og Y 6 Det er mange aspekter ved denne diskusjonen som det ikke er mulig å komme inn på her. Interesserte henvises til artiklene i Acta Sociologica i litteraturlista, og andre relevante arbeider som det refereres til der. 12

13 Før multiplisering Etter multiplisering Høy status Lav status SUM Høy status Lav status SUM Høy utdanning A b a+b Xya Yb Y(Xa + b) Lav utdanning C d C+d Xc d Xc + d SUM a+c b+d X(Ya + c) Yb + d Før: OR = (a / c) / (b / d) = ad / bc Etter: OR = (XYa / Xc) / (Yb / d) = XYad / XYbc = ad / bc Før: PD = a / (a+c) b / (b+d) Etter: PD = XYa / X(Ya+c) - Yb / (Yb+d) = Ya / (Ya + c) Yb / (Yb + d) Dette blir kanskje klarere hvis vi bruker et eksempel med tall. I tabell 4 er frekvensene for høy utdanning blitt multiplisert med 2. Dette medfører at utdanningsnivået i befolkningen stiger (fra en andel med høyere utdanning på 70/200 = 0,35 til 140/270 = 0,52). Også marginalfordelingen for status endres noe (fra en andel med høy på 0,50 til 0,56). For PD fører radmultiplikasjonen til en liten endring i resultatet (fra 0,5 0,2 = 0,3 til 0,67 0,33 = 0,34). OR derimot er uendret: (50/50)/ (20/80) = 4, (100/50)/(40/80) = 4. 13

14 Tabell 4. Tabell for status og utdanning: Eksempel der øverste rad multipliseres med 2 Før multiplisering Etter multiplisering Høy status Lav status SUM Høy status Lav status SUM Høy utdanning Lav utdanning SUM Hva innebærer så dette? Det som sies av statistikerne er presist og klart ingen endring av OR når kolonner og/eller rader i tabellen multipliseres med en konstant en operasjon som også endrer marginalfordelingene. I utdanningslitteraturen er utsagnet gitt en mye videre og uholdbar fortolking. Her har det skjedd en logisk kortslutning, ved at en tar spranget fra insensitivitet i forhold til en helt bestemt form for marginalendring til å hevde at OR er ufølsom for alle slags endringer i marginalene. Men hvis vi for eksempel multipliserer i bare én celle, vil både marginalfordelingene og OR endres. Ved alle endringer i marginalene som ikke skyldes kolonne/rad-multiplikasjon med konstanter, er det vanskelig å se at begrepet marginalinsensitivitet har noen mening. Forestillingen om en slik egenskap har fått utdanningsforskere til å gi nesten lyriske skildringer av de loglineære målenes fortreffelige egenskaper sammenliknet med de lineære (de overser helt ulikhetsmål i diskusjonen). Bruken av loglineære modeller kalles et metodologisk gjennombrudd som gjør det possible to specify the intrinsic association between variables after purging out nuisance variability in marginal distributions" (Grusky and Tienda 1993: vii). Under the logistic response model, differences in background effects, either over school transitions or over cohorts, cannot result from changing marginal distributions of either independent or dependent variables because such changes do not affect the [loglinear measure]. Mare (1981: 75). Forskjellen mellom lineære og loglineære mål for sammenheng tillegges en klar substansiell mening: 14

15 Simple differences in proportions continuing in school among background groups change over cohorts primarily in response to the average level of proportions, rather than in response to changes in the principles by which schooling is allocated. By contrast, statistical models that measure the association between school continuation and social background, net of the marginal distribution of schooling, [dvs. loglineære mål] are sensitive to changes in the principles by which schooling is allocated and not to changes in the dispersion of the schooling distribution" (Mare 1981: 83). Påstanden om at de loglineære målene, til forskjell fra de lineære, skulle fange opp skjevheter i rekrutteringsmekanismene, kommer i et underlig lys når vi vet hvor likt de to typene av mål stort sett oppfører seg. Ingen av dem påvirkes av endringer i fordelingen på den uavhengige variabelen (klassesammensetningen i samfunnet), til forskjell fra gini-koeffisienten. De loglineære påvirkes ikke av endringer i marginalen for den avhengige variabelen (utdanning), men det gjør heller ikke de lineære så lenge proporsjonene som sammenliknes er innenfor intervallet 0,30 0,70, igjen til forskjell fra gini-koeffisienten. Vi kan altså ha alle slags endringer i klassefordelingen, og en dramatisk økning i andelen som får høyere utdanning i et samfunn, for eksempel fra 35 til 65 prosent, uten at dette skaper forskjeller i resultat mellom proporsjonsdifferansen og lambda for sammenhengen mellom klasse og utdanning. Forskjellen går mellom disse to typene av sammenhengsmål og ulikhetsmål. Dette viser at forestillingen om fundamentale substansielle forskjeller mellom lineære og loglineære mål i analysen av rekruttering til høyere utdanning ikke er holdbar innenfor et normalt variasjonsområde for utdanningsnivået i et samfunn. Lineære og loglineære mål skiller som før nevnt først lag når proporsjonene begynner å nærme seg yttergrensene 0 og 1. Ved forekomster nær 0 får vi langt høyere verdier for loglineære mål enn for lineære. Her likner de loglineære målene på ulikhetsmål. Ved meget lave forekomster er OR tilnærmet lik deltakelsesratioen (DR), det vil si forholdet mellom proporsjoner. Hvis for eksempel 15 prosent av høystatusgruppa og 5 prosent av lavstatusgruppa får høyere utdanning, blir DR 3 og OR 3,35. Med vekst til 55 og 45 prosent med høyere utdanning, synker både DR og OR (til 1,22 og 1,49). Dette samsvaret i tendens mellom loglineære mål og ulikhetsmål opphører imidlertid når vi passerer midtpunktet og nærmer oss motsatt ytterpunkt, forekomst 100 prosent for høy utdanning. 15

16 Da begynner OR igjen å stige, mens DR fortsetter å synke. Med andeler på 95 og 85 prosent som får høyere utdanning, er OR tilbake til gamle høyder med 3,35, mens DR med 1,12 begynner å nærme seg sitt minimum 1. De loglineære målene behandler de to ekstremene av fordelingen helt symmetrisk, det spiller ingen rolle om det er 5 eller 95 prosent som har høy utdanning. For måling av ulikhet er det derimot en fundamental forskjell mellom det å ha og det å ikke ha godet. For riktig å sette på spissen hvor meningsløst det er å påstå at de loglineære målene fanger opp skjevheten i en fordelingsmekanisme, kan vi igjen vende tilbake til eksemplet med 99,99 og 99,90 prosent valgdeltakelse for menn og kvinner. Deltakelsesratioen er her 1,001, som forteller at godet å kunne delta i valget av Saddam Hussein er så godt som helt likt fordelt mellom kjønnene. Valgdeltakernes kjønnsfordeling er representativ for befolkningens, de to gruppene er jo praktisk talt identiske. Ifølge de loglineære målene (OR lik10 og lambda lik 0,58) må det likevel være en svært stor skjevhet i mekanismene som fordeler godet valgdeltakelse. Formålet med analysen Ved valg av statistisk teknikk er et viktig moment hva som er formålet med analysen. Her går det et avgjørende skille mellom prediksjons- og kausalanalyse, som jeg gjennom mange år som lærebokforfatter har lagt vekt på at studentene skal få med seg. Oversikten i tabell 5 oppsummerer i stikkords form diskusjonen av forskjeller mellom de to analyseoppleggene (Hellevik 2002b: 307). Som det framgår av tabellen er bruken av loglineære statistiske mål begrenset til prediksjonsanalyse, de kan ikke brukes til kausalanalyse (stianalyse). De effektene en beregner vil ikke gi komponenter som summerer opp til den bivariate sammenhengen en ønsker å kausalfortolke (se referanser i Hellevik 1984: 187). En korrekt dekomponering oppnår vi bare ved hjelp av lineære mål. Dette kan være veide gjennomsnitt av proporsjonsdifferanser fra tabellanalyse, der en riktignok med mer enn tre variabler i modellen kan risikere at det blir avvik mellom komponentsum og bivariat sammenheng (Hellevik 1984: ). Med lineære regresjonskoeffisienter vil dekomponeringen alltid være korrekt, enten variablene er binære eller kontinuerlige. Tabell 5: Oversikt over forskjeller mellom prediksjons- og kausalanalyse Prediksjonsanalyse Kausalanalyse Formål Forutsi enheters verdi på Y Forklare (dekomponere) bivariat (avhengig variabel) ut fra sett med X er sammenheng mellom par av variabler. 16

17 (uavhengige variabler). Analysemodell Todelt: Hierarkisk: To/flere X, én Y X1 - X2 - X3 - X4 Analyseopplegg Den mest multivariate tabellen eller regresjonslikningen Sett med flere tabeller eller regresjonslikninger (inneholder alle X er og Y) (to alternative analyseopplegg: effektendring og effektoverføring). Effektberegning Variabeleffekter og samspill. Direkte og indirekte variabeleffekter. (I tabellanalyse: uveide gjennomsnitt (I tabellanalyse veide gjennomsnitt av av delsammenhenger og differanser mellom delsammenhenger. I regresjonsanalyse: likning med samspillsvariabler) delsammenhenger. I regresjonsanalyse: likning uten samspillsvariabler) Krav til resultatet Prediksjonen skal stemme overens med Summen av komponenter skal svare til den faktiske fordelingen på den den bivariate sammenhengen. avhengige variabelen. Teknikker Tabellanalyse. Tabellanalyse. Lineær regresjon. Lineær regresjon. Loglineær analyse av tabeller. Logistisk regresjon. De lineære målenes fortrinn Ut fra diskusjonen kan det gis følgende oppsummering av de lineære målenes sterke sider når det gjelder analyser der den avhengige variabelen er en dikotomi: 1) Proporsjonsdifferansen og koeffisienter fra lineær regresjonsanalyse av binære variabler kan forstås som forskjell i sannsynlighet for å ha en bestemt verdi på den avhengige variabelen. Dette gjør at resultatene av en empirisk analyse har en enkel og lett forståelig tolkning, noe en vanskelig kan si gjelder for de loglineære målene. 2) Dette gjør det mulig å formidle forskningsresultater til et bredere publikum av samfunnsinteresserte, som kan sette seg inn i og vurdere kritisk hva som er kommet ut av den empiriske analysen. Det er neppe noe stort problem for naturfagene at forskningsresultatene ofte bare kan forstås av spesialister. For samfunnsfag som tar opp forhold mange borgere er opptatt av, må det anses som ønskelig at forskningspublikasjoner skal kunne leses med utbytte av journalister, politikere og andre som er interessert i det aktuelle temaet. 3) Enkle analyseteknikker gir mulighet for å vektlegge grunnleggende forståelse framfor drill av kompliserte beregninger i undervisningen av studenter. 17

18 4) De lineære målene kan brukes til å belyse kausale problemstillinger, som ofte vil være det en forsker er interessert i. Loglineære mål gir ikke en korrekt dekomponering av bivariate sammenhenger. Det finnes altså i mange situasjoner tungtveiende substansielle grunner for å foretrekke lineære statistiske mål framfor loglineære. Likevel hevdes det at dette ikke er tillatt dersom den avhengige variabelen er en dikotomi. Vi skal se nærmere på hvordan dette forbudet begrunnes. Argumentene mot lineær analyse Det er to argumenter av statistisk art som brukes for å begrunne at en ikke kan bruke lineære regresjonskoeffisienter i en analyse med en binær avhengig variabel: 1) De lineære regresjonskoeffisientene kan gi umulige resultater, det vil si predikerte sannsynligheter som er større enn 1 eller negative. Resultater utenfor intervallet 0-1 kan opptre når vi bestemmer sannsynligheten for høy verdi på den avhengige variabelen for ulike kombinasjoner av verdier på de uavhengige ved å summere produktene av variabelverdier og koeffisienter i regresjonslikningen. Nå kan det diskuteres hvor påtrengende dette problemet er. 7 Men uansett, det kan ikke oppstå i loglineær analyse, fordi disse målene ikke varierer innenfor gitte grenser. I en lineær regresjonsanalyse med binære variabler vil umulige resultater bare kunne inntreffe dersom det er samspill mellom de uavhengige variablene. I tilfelle av samspill, vil vi ved å inkludere de relevante samspillsvariablene i modellen alltid være sikret at resultatet ligger innenfor intervallet 0 1. Er det imidlertid kontinuerlige uavhengige variabler med i analysen, vil prediksjoner utenfor dette intervallet fortsatt kunne forekomme. Dette kan skje dersom sammenhengen mellom en slik variabel og den avhengige ikke er lineær. Et eksempel på en ikke-lineær sammenheng er den vi alt har diskutert mellom tid og kjennskap til et rykte. Når det kan stilles spørsmålstegn ved rimeligheten av å anta at en sammenheng skal være lineær, slik tilfellet ofte vil være, er et alternativ å erstatte den kontinuerlige variabelen med et sett med dummyvariabler. Da vil vi fortsatt 7 In practice, estimates of cumulative incidence would seldom be much below zero or above 1, and then only for extreme combinations of values of the independent variables. In place of such inadmissible estimates, it is reasonable to substitute the theoretical minimum or maximum value, as appropriate, for the inadmissible value. (Rothman 1986: 291) 18

19 være sikret mot resultater utenfor intervallet 0-1, ved å inkludere aktuelle samspillsvariabler i analysen. Dersom formålet med analysen ikke er prediksjon, men kausal dekomponering av bivariate sammenhenger, faller hele denne problemstillingen bort. Uansett om vi har variasjon i en variabels deleffekter (samspill) eller ikke, kan vi beregne et gjennomsnitt som forteller hva disse deleffektene summerer opp til av påvirkning innenfor en populasjon med en gitt sammensetning (fordelingen på de uavhengige variablene, som bestemmer vektene for det veide gjennomsnittet av delsammenhengene i tabellanalyse). Kausaleffekter skal ikke brukes til å predikere sannsynligheter, hvorvidt slike prediksjoner faller innenfor intervallet 0 1 er derfor ikke et relevant kriterium for meningsfullhet. Det avgjørende kravet til resultatene i en kausalanalyse er at summen av komponentene skal tilsvare den bivariate sammenhengen. Dette kravet tilfredsstilles av de lineære koeffisientene, men ikke av de loglineære. 2) Med en binær avhengig variabel kan vanlige signikanstester for regresjonsanalyse gi misvisende resultater. Med en binær avhengig variabel vil ikke forutsetningen om homoskedastisitet (lik spredning på den avhengige variabelen for enheter med ulik verdi på den uavhengige) være oppfylt. Dette påvirker ikke resultatet for effekten som beregnes. Men anslaget for usikkerheten knyttet til denne effekten, og dermed signifikanstesten, kan bli feil. Dette gjelder vel å merke når en bruker signifikanstestene i de vanlige standardpakkenes regresjonsprogrammer. Det finnes imidlertid analyseprogrammer med korrekte tester for lineære modeller med binære variabler. 8 At signifikanstesting er blitt brukt som et tungtveiende argument mot lineær regresjon viser at mange gjør utvalgsusikkerhet til et større problem enn det som ofte er rimelig. En kan noen ganger få inntrykk av at det spiller mindre rolle hva en egentlig måler, bare resultatet lar seg signifikansteste. Det er grunn til å minne om at tilfeldigheter ved utvalgstrekningen bare er én av mange mulige metodologiske forklaringer når resultatene skal tolkes. Med noenlunde størrelse på utvalget vil den kunne avvises uten videre, så lenge det ikke dreier seg om meget svake effekter. Og selv med de vanlige standardprogrammene med gal test er misvisende resultater noe en 8 Opplysning fra statistikeren Petter Laake. Et eksempel er programmet Egret ( 19

20 risikerer først og fremst når antallet enheter som er undersøkt er lite (Skog 1998: 301), noe som sjelden er tilfellet i analyser av survey-data. Vi kan dermed konkludere, i strid med det som mange i dag ser ut til å tro, at det ikke er grunnlag for å hevde at lineær regresjonsanalyse ikke kan brukes med en binær avhengig variabel. Eksesser i multippel regresjonsanalyse Til slutt skal en annen problematisk utviklingstendens, som er felles for alle typer regresjonsanalyse, så vidt berøres. Dette er tendensen til å pøse på med uavhengige variabler i analysen, slik at modellene antar gigantiske proporsjoner. Antall enheter begrenser hvor mange variabler som kan tas med i samme tabell. Med tusen enheter vil det fort kunne bli tomme eller nesten tomme celler dersom en prøver å inkludere mer enn tre uavhengige dikotome variabler. Slike problemer har en ikke i regresjonsanalyse, der kontrollen for andre variabler ikke er basert på inndeling av enhetene i atskilte undergrupper. Her kan det forekomme mildt sagt omfattende kontroller, som i en avhandling der det i en logistisk regresjonsanalyse av et utvalg med 500 personer ble brukt 7 kontrollvariabler med fra 2 til 7 verdier omkodet til dummyvariabler. I en tabellanalyse tilsvarer dette 1680 kontrollgrupper. Med andre ord må mer enn to tredjedeler av dem ha vært helt tomme for enheter når en skulle se på sammenhengen mellom uavhengig og avhengig variabel. På toppen av dette hadde bare 10 enheter høy verdi på den uavhengige variabelen! Selv en så absurd analyse vil et regresjonsprogram håndtere uten problemer, fordi den kontrollerte effekten beregnes ut fra matrisen med bivariate korrelasjoner mellom de aktuelle variablene. Dermed kan en i teorien ha like mange variabler i regresjonslikningen som antall enheter minus én. Spørsmålet er om ikke denne muligheten for uhemmet inkludering av variabler i multiple regresjonsanalyser nå ofte utnyttes mer enn det som godt er. En ting er at dette lett kan føre til teoriløs og lite interessant forskning. I tabellanalysen tvinger begrensningene i antall variabler forskeren til å legge mye arbeid i å utvikle og begrunne enkle modeller som fokuserer på de vesentlige aspektene ved et fenomen. Hvis det i stedet for et grundig teoretisk forarbeid bare fylles på med variabler etter innfallsmetoden, for å se om det kanskje kan være noe å finne, og resultatene presenteres i kjempetabeller fylt til randen av regresjonskoeffisienter, blir det fort ganske kjedelig lesning. 20

21 Noe annet og alvorligere er at en kan stille spørsmålstegn ved holdbarheten av resultatene en oppnår på denne måten. Det er nemlig ikke slik at regresjonsanalyse av binære variabler har tilgang til informasjon som tabellanalysen mangler. 9 Muligheten for å gjennomføre analyser med flere variabler enn i tabellanalysen, er ikke basert på mer informasjon, men på de normalfordelingsforutsetningene som regresjonsanalysen legger til grunn. Her er det fare for å komme skjevt ut, mer jo flere variabler som tas med. 10 Som et alternativ til multippel regresjonsanalyse har Rosenbaum og Rubin (1983) introdusert det de kaller tilbøyelighets-skåre (propensity score) teknikken. Subklassifisering, det vil si inndeling i grupper som i tabellanalyse, gir ifølge dem den beste kontrollen av sammenhengen mellom en antatt årsaks- og effektvariabel for ikke-eksperimentelle data. Problemet med celletomhet ved mange aktuelle kontrollvariabler løses ved å kombinere disse variablene til en ny variabel, tilbøyelighets-skåren. Den bestemmes gjennom en multivariat regresjons- eller diskriminant-analyse, der alle aktuelle kontrollvariabler brukes til å forutsi sjansen for å ha høy verdi på årsaksvariabelen. På basis av denne skåren inndeles enhetene i for eksempel fem omtrent like store kontrollgrupper, og enheter med ulik verdi på årsaksvariabelen sammenliknes når det gjelder fordelingen på effektvariabelen innenfor hver kontrollgruppe. På denne måten oppnår en å fjerne det meste av innvirkningen for samtlige kontrollvariabler, som kan antas å ha tilnærmet lik fordeling innenfor gruppene med høy og lav verdi på årsaksvariabelen i hver kontrollgruppe. Slik kan en foreta svært omfattende kontroller, uten at de problemene som knytter seg til en tilsvarende analyse ved hjelp av multippel regresjon melder seg. Framgangsmåten egner seg best når en er opptatt av å påvise betydningen av en bestemt årsaksfaktor, slik som effekten av et medikament for et sykdomsforløp innenfor ikkeeksperimentell medisinsk forskning, og skal kontrollere for alle slags forhold som kan tenkes å forstyrre inntrykket av denne sammenhengen. Den er ikke like tilfredsstillende når en er interessert i hele systemet av relasjoner mellom variablene i en kausalmodell. Her vil multippel 9 Det kan se ut som om Skog tror noe annet (men muligens er det kategorisering av kontinuerlige variabler han har i tankene): Fordelen med [regresjonsteknikker] er at de gir en effektiv utnyttelse av informasjonen i datamaterialet. Det finnes også tabellanalyseteknikker basert på prosentdifferanser (jf. eksempelvis Hellevik 1988). Ulempen med sistnevnte teknikker er bl.a. at de gir en lite effektiv utnyttelse av informasjonen i datamaterialet, særlig hvis det er mange variabler som trekkes inn i analysen. (Skog 1998: 55-56). 10 Harvard-statistikeren Donald B. Rubin advarer: Standard modeling software can automatically handle many regressor variables and produce results, although they can be remarkably misleading. With many confounding covariates, however, the issues of lack of adequate overlap and reliance on untrustworthy modelbased extrapolations are even more serious than with only one confounding covariate. (Rubin 1997: 759). 21

Fordeler og ulemper ved tabellanalyse

Fordeler og ulemper ved tabellanalyse Fordeler og ulemper ved tabellanalyse Ottar Hellevik Innlegg på møte i Surveyselskabet København 8/3 2010 Tabeller på vei ut? Epost fra James A. Davis (Harvard / NORC & General Social Survey): On 06.01.2009

Detaljer

Logistisk regresjon 1

Logistisk regresjon 1 Logistisk regresjon Hovedideen: Binær logistisk regresjon håndterer avhengige, dikotome variable Et hovedmål er å predikere sannsynligheter for å ha verdien på avhengig variabel for bestemte (sosiale)

Detaljer

Univariate tabeller. Statistisk uavhengighet og statistisk avhengighet. Bivariat tabellanalyse. Hvordan bør vi prosentuere denne tabellen?

Univariate tabeller. Statistisk uavhengighet og statistisk avhengighet. Bivariat tabellanalyse. Hvordan bør vi prosentuere denne tabellen? Forelesning 8 Tabellanalyse Tabellanalyse er en godt egnet presentasjonsform hvis: variablene har et fåtall naturlige kategorier For eksempel kjønn, Eu-syn variablene er delt inn i kategorier For eksempel

Detaljer

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002 SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002 Generell informasjon Dette er den siste eksamensoppgaven under overgangsordningen mellom gammelt og nytt pensum i SVSOS107. Eksamensoppgaven

Detaljer

ME Vitenskapsteori og kvantitativ metode

ME Vitenskapsteori og kvantitativ metode KANDIDAT 2586 PRØVE ME-417 1 Vitenskapsteori og kvantitativ metode Emnekode ME-417 Vurderingsform Skriftlig eksamen Starttid 18.05.2018 09:00 Sluttid 18.05.2018 13:00 Sensurfrist 08.06.2018 02:00 PDF opprettet

Detaljer

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005 SOS1120 Kvantitativ metode Regresjonsanalyse Forelesningsnotater 11. forelesning høsten 2005 Per Arne Tufte Lineær sammenheng I Lineær sammenheng II Ukelønn i kroner 4000 3500 3000 2500 2000 1500 1000

Detaljer

Forelesning 17 Logistisk regresjonsanalyse

Forelesning 17 Logistisk regresjonsanalyse Forelesning 17 Logistisk regresjonsanalyse Logistiske regresjons er den mest brukte regresjonsanalysen når den avhengige variabelen er todelt Metoden kan brukes til å: teste hypoteser om variablers effekt

Detaljer

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav.

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav. Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav. Analyse av endringsskårer (change scores). Vi så forrige gang på analyser

Detaljer

Forelesning 18 SOS1002

Forelesning 18 SOS1002 Forelesning 8 SOS002 Bruk av regresjonsmodeller til å predikere verdier? Hvordan kan vi predikere timelønn ut fra denne lineære regresjonsmodellen? B SEB Beta t Sig. t Kvinner(kvinne=, mann=0) -4,0 0,96-0,23-4,66

Detaljer

ME Vitenskapsteori og kvantitativ metode

ME Vitenskapsteori og kvantitativ metode KANDIDAT 2581 PRØVE ME-417 1 Vitenskapsteori og kvantitativ metode Emnekode ME-417 Vurderingsform Skriftlig eksamen Starttid 18.05.2018 09:00 Sluttid 18.05.2018 13:00 Sensurfrist 08.06.2018 02:00 PDF opprettet

Detaljer

Appendiks 5 Forutsetninger for lineær regresjonsanalyse

Appendiks 5 Forutsetninger for lineær regresjonsanalyse Appendiks 5 Forutsetninger for lineær regresjonsanalyse Det er flere krav til årsaksslutninger i regresjonsanalyse. En naturlig forutsetning er tidsrekkefølge og i andre rekke spiller variabeltype inn.

Detaljer

Logistisk regresjon 2

Logistisk regresjon 2 Logistisk regresjon 2 SPSS Utskrift: Trivariat regresjon a KJONN UTDAAR Constant Variables in the Equation B S.E. Wald df Sig. Exp(B) -,536,3 84,56,000,25,84,08 09,956,000,202 -,469,083 35,7,000,230 a.

Detaljer

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt.

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt. Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt. Data fra likelonn.sav og vi ser på variablene Salnow, Edlevel og Sex (hvor

Detaljer

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio) Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio) Beskrive fordelinger (sentraltendens, variasjon og form): Observasjon y i Sentraltendens

Detaljer

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006 SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006 Oppgave 1 Nedenfor ser du en forenklet tabell basert på informasjon fra den norske delen av European Social Survey

Detaljer

Rapport til undersøkelse i sosiologi og sosialantropologi

Rapport til undersøkelse i sosiologi og sosialantropologi Rapport til undersøkelse i sosiologi og sosialantropologi Problemstilling: Er det en sammenheng mellom kjønn og hva de velger å gjøre etter videregående? Er det noen hindringer for ønske av utdanning og

Detaljer

Detaljerte forklaringer av begreper og metoder.

Detaljerte forklaringer av begreper og metoder. Appendiks til Ingar Holme, Serena Tonstad. Risikofaktorer og dødelighet oppfølging av Oslo-undersøkelsen fra 1972-73. Tidsskr Nor Legeforen 2011; 131: 456 60. Dette appendikset er et tillegg til artikkelen

Detaljer

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse Forelesning 4 Regresjonsanalyse To typer bivariat analyse: Bivariat tabellanalyse: Har enhetenes verdi på den uavhengige variabelen en tendens til å gå sammen med bestemte verdier på den avhengige variabelen?

Detaljer

Om feiltolking av forskningsresultater

Om feiltolking av forskningsresultater Betyr ikke lærerkvalitet noe for elevprestasjoner? Om feiltolking av forskningsresultater Fagpedagogisk dag UiO 1/11 2012 Gir meningsmålinger et misvisende bilde av virkeligheten? Meningsmålinger og annen

Detaljer

Mulige sammenhenger for plassering på samfunnsstigen

Mulige sammenhenger for plassering på samfunnsstigen Mulige sammenhenger for plassering på samfunnsstigen - blokkvis multippel regresjonsanalyse - Utarbeidet av Ronny Kleiven Antall ord (ekskludert forside og avsnitt 7) 2163 1. SAMMENDRAG Oppgaven starter

Detaljer

BESLUTNINGER UNDER USIKKERHET

BESLUTNINGER UNDER USIKKERHET 24. april 2002 Aanund Hylland: # BESLUTNINGER UNDER USIKKERHET Standard teori og kritikk av denne 1. Innledning En (individuell) beslutning under usikkerhet kan beskrives på følgende måte: Beslutningstakeren

Detaljer

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SOS1002 VÅREN 2008

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SOS1002 VÅREN 2008 SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SOS1002 VÅREN 2008 Alle tre oppgavene skal besvares. De tre besvarte oppgavene teller hver en tredjedel av den samlede karakteren. Oppgave 1 Nedenfor ser du en tabell

Detaljer

SENSORVEILEDNING FOR SKOLEEKSAMEN I SOS KVANTITATIV METODE. 11. mars 2015 (4 timer)

SENSORVEILEDNING FOR SKOLEEKSAMEN I SOS KVANTITATIV METODE. 11. mars 2015 (4 timer) SENSORVEILEDNING FOR SKOLEEKSAMEN I SOS4020 - KVANTITATIV METODE 11. mars 2015 (4 timer) Tillatte hjelpemidler: Alle skriftlige hjelpemidler og kalkulator. Sensur for eksamen faller 7. april klokken 14.00.

Detaljer

EKSAMEN I SOS4020 KVANTITATIV METODE (MASTER) 14. MAI 2004 (4 timer)

EKSAMEN I SOS4020 KVANTITATIV METODE (MASTER) 14. MAI 2004 (4 timer) EKSAMEN I SOS4020 KVANTITATIV METODE (MASTER) 14. MAI 2004 (4 timer) Bruk av ikke-programmerbar kalkulator er tillatt under eksamen. Utover det er ingen hjelpemidler tillatt. Sensur faller mandag 7. juni

Detaljer

= 5, forventet inntekt er 26

= 5, forventet inntekt er 26 Eksempel på optimal risikodeling Hevdet forrige gang at i en kontrakt mellom en risikonøytral og en risikoavers person burde den risikonøytrale bære all risiko Kan illustrere dette i en enkel situasjon,

Detaljer

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005 ANALYSE AV KATEGORISKE DATA- TABELLANALYSE 3. Mai 2005 Tron Anders Moger Forrige gang: Snakket om kontinuerlige data, dvs data som måles på en kontinuerlig skala Hypotesetesting med t-tester evt. ikkeparametriske

Detaljer

Når Merge sort og Insertion sort samarbeider

Når Merge sort og Insertion sort samarbeider Når Merge sort og Insertion sort samarbeider Lars Sydnes 8. november 2014 1 Innledning Her skal vi undersøke to algoritmer som brukes til å sortere lister, Merge sort og Insertion sort. Det at Merge sort

Detaljer

Forelesning 13 Regresjonsanalyse

Forelesning 13 Regresjonsanalyse Forelesning 3 Regresjonsanalyse To typer bivariat analyse: Bivariat tabellanalyse: Har enhetenes verdi på den uavhengige variabelen en tendens til å gå sammen med bestemte verdier på den avhengige variabelen?

Detaljer

SKOLEEKSAMEN 2. november 2007 (4 timer)

SKOLEEKSAMEN 2. november 2007 (4 timer) EKSAMEN I SOS400 KVANTITATIV METODE SKOLEEKSAMEN. november 007 (4 timer Ikke-programmerbar kalkulator er tillatt under eksamen. Ingen andre hjelpemidler er tillatt. Sensuren faller fredag 3. november kl.

Detaljer

Spørreundersøkelsen om PISA blant Utdanningsforbundets medlemmer

Spørreundersøkelsen om PISA blant Utdanningsforbundets medlemmer Spørreundersøkelsen om PISA blant Utdanningsforbundets medlemmer Utdanningsforbundet har ønsket å gi medlemmene anledning til å gi uttrykk for synspunkter på OECDs PISA-undersøkelser spesielt og internasjonale

Detaljer

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer)

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer) EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer) Bruk av ikke-programmerbar kalkulator er tillatt under eksamen. Utover det er ingen hjelpemidler tillatt. Sensur faller fredag 28. mai kl. 14.00,

Detaljer

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014 Psykologisk institutt PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014 Skriftlig skoleeksamen fredag 2. mai, 09:00 (4 timer). Kalkulator uten grafisk display og tekstlagringsfunksjon

Detaljer

regresjonsmodeller multippel logistisk regresjon logistisk regresjon prediksjon vs assosiasjon den logistisk funksjonen (2)

regresjonsmodeller multippel logistisk regresjon logistisk regresjon prediksjon vs assosiasjon den logistisk funksjonen (2) Innføring i medisinsk statistikk del 2 regresjonsmodeller Hvorfor vil man bruke regresjonsmodeller? multippel logistisk regresjon. predikere et utfall (f.eks. sykdom, død, blodtrykk) basert på et sett

Detaljer

ME Metode og statistikk Candidate 2511

ME Metode og statistikk Candidate 2511 ME-400, forside Emnekode: ME-400 Emnenavn: Metode og statistikk Dato: 31. mai Varighet: 5 timer Tillatte hjelpemidler: Kalkulator (enkel type) Merknader: Besvar 3 av 4 oppgaver (Oppgavene teller likt)

Detaljer

Sannsynlighetsbegrepet

Sannsynlighetsbegrepet Sannsynlighetsbegrepet Notat til STK1100 Ørnulf Borgan Matematisk institutt Universitetet i Oslo Januar 2004 Formål Dette notatet er et supplement til kapittel 1 i Mathematical Statistics and Data Analysis

Detaljer

Statistikk er begripelig

Statistikk er begripelig Statistikk er begripelig men man må begynne med ABC ANOVA ANOVA er brukt til å sammenligne gjennomsnittsverdier Slik er det, selv om det er Analysis of Variance man sier BIVARIAT Bivariat analyse er godt

Detaljer

Forskningsmetoder i menneske-maskin interaksjon

Forskningsmetoder i menneske-maskin interaksjon Forskningsmetoder i menneske-maskin interaksjon Kapittel 2- Eksperimentell forskning Oversikt Typer atferdsforskning Forskningshypoteser Grunnleggende om eksperimentell forskning Signifikanstesting Begrensninger

Detaljer

Univariate tabeller. Bivariat tabellanalyse. Forelesning 8 Tabellanalyse. Formålet med bivariat analyse:

Univariate tabeller. Bivariat tabellanalyse. Forelesning 8 Tabellanalyse. Formålet med bivariat analyse: Forelesning 8 Tabellanalyse Tabellanalyse er en godt egnet presentasjonsform hvis: variablene har et fåtall naturlige kategorier For eksempel kjønn, Eu-syn variablene er delt inn i kategorier For eksempel

Detaljer

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2001

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2001 UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 001 Generell informasjon Da denne eksamensoppgaven ble gitt var SVSOS107 inne i en overgangsordning mellom gammelt og nytt pensum. Denne

Detaljer

4 Matriser TMA4110 høsten 2018

4 Matriser TMA4110 høsten 2018 Matriser TMA høsten 8 Nå har vi fått erfaring med å bruke matriser i et par forskjellige sammenhenger Vi har lært å løse et lineært likningssystem ved å sette opp totalmatrisen til systemet og gausseliminere

Detaljer

Grunnleggende statistikk. Eva Denison 25. Mai 2016

Grunnleggende statistikk. Eva Denison 25. Mai 2016 Grunnleggende statistikk Eva Denison 25. Mai 2016 Agenda Hva er statistikk, og hvorfor trenger vi det? Beskrivende statistikk Statistisk analyse Meta-analyse Hva er statistikk? En måte å kvantitativt beskrive

Detaljer

Krysstabellanalyse. SOS1120 Kvantitativ metode. Disposisjon. 1. Beskrivelse av analyseteknikk. Forelesningsnotater 7. forelesning høsten 2005

Krysstabellanalyse. SOS1120 Kvantitativ metode. Disposisjon. 1. Beskrivelse av analyseteknikk. Forelesningsnotater 7. forelesning høsten 2005 SOS1120 Kvantitativ metode Krysstabellanalyse Forelesningsnotater 7. forelesning høsten 2005 Per Arne Tufte Disposisjon 1. Beskrivelse av analyseteknikk 2. Korrelasjonsmål Cramers V Gamma 3. Flerdimensjonale

Detaljer

Kvantitative metoder datainnsamling

Kvantitative metoder datainnsamling Kvantitative metoder datainnsamling Pensum: Dag Ingvar Jacobsen (2005): Hvordan gjennomføre undersøkelser?, side 235-303 og 380-388. Tematikk: Oppsummering fra sist forelesning. Operasjonalisering. Utforming

Detaljer

EKSAMEN I SOS4020 KVANTITATIV METODE 8. april (4 timer)

EKSAMEN I SOS4020 KVANTITATIV METODE 8. april (4 timer) EKSAMEN I SOS4020 KVANTITATIV METODE 8. april 200 (4 timer) Tillatte hjelpemidler: Ikke-programmerbar kalkulator Liste med matematiske uttrykk/andeler i fordelinger (bakerst i oppgavesettet) Sensur på

Detaljer

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling Wilcoxon Signed-Rank Test I uke, bruker vi Z test eller t-test for hypotesen H:, og begge tester er basert på forutsetningen om normalfordeling

Detaljer

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007 SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007 Oppgave 1 Nedenfor ser du en forenklet tabell basert på informasjon fra den norske delen av European Social Survey 2004.

Detaljer

RELIABILITET : Pålitelighet? Troverdighet? Reproduserbarhet? Stabilitet? Konsistens?

RELIABILITET : Pålitelighet? Troverdighet? Reproduserbarhet? Stabilitet? Konsistens? RELIABILITET : Pålitelighet? Troverdighet? Reproduserbarhet? Stabilitet? Konsistens? I dagligtale og i ulike fremstillinger også innenfor psykologisk forskningsmetode, brukes slike begreper og reliabilitet

Detaljer

Likestilte arbeidsplasser er triveligere og mer effektive

Likestilte arbeidsplasser er triveligere og mer effektive Pressenotat fra Manpower 7. mars 2011 Likestilte arbeidsplasser er triveligere og mer effektive Når arbeidsgiveren aktivt forsøker å skape likestilte muligheter for kvinner og menn på arbeidsplassen, ser

Detaljer

PISA får for stor plass

PISA får for stor plass PISA får for stor plass Av Ragnhild Midtbø og Trine Stavik Mange lærere mener at skolemyndigheter og politikere legger for stor vekt på PISA-resultatene, og at skolen i stadig større grad preges av tester

Detaljer

Effektstørrelse. Tabell 1. Kritiske verdier for Pearson s produkt-moment-korrelasjon med 5% og 1% signifikansnivå. N 5% 1% N 5% 1%

Effektstørrelse. Tabell 1. Kritiske verdier for Pearson s produkt-moment-korrelasjon med 5% og 1% signifikansnivå. N 5% 1% N 5% 1% Thor Arnfinn Kleven Institutt for pedagogikk 19.09.2013 Effektstørrelse Tradisjonelt har signifikanstesting vært fremhevet som den viktigste statistiske analyseformen i pedagogisk og psykologisk forskning.

Detaljer

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005. SOS112 Kvantitativ metode Krysstabellanalyse (forts.) Forelesningsnotater 9. forelesning høsten 25 4. Statistisk generalisering Per Arne Tufte Eksempel: Hypoteser Eksempel: observerte frekvenser (O) Hvordan

Detaljer

Vurdering av kvaliteten på undersøkelser om virkninger av trafikksikkerhetstiltak

Vurdering av kvaliteten på undersøkelser om virkninger av trafikksikkerhetstiltak Sammendrag: Vurdering av kvaliteten på undersøkelser om virkninger av trafikksikkerhetstiltak TØI-rapport 984/2008 Forfatter(e): Rune Elvik Oslo 2008, 140 sider Denne rapporten presenterer en undersøkelse

Detaljer

EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer)

EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer) EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer) Bruk av ikke-programmerbar kalkulator er tillatt under eksamen. Utover det er ingen hjelpemidler tillatt. Sensur faller torsdag 3. Januar

Detaljer

7 Egenverdier og egenvektorer TMA4110 høsten 2018

7 Egenverdier og egenvektorer TMA4110 høsten 2018 7 Egenverdier og egenvektorer TMA4 høsten 8 Det er ofte hensiktsmessig å tenke på en matrise ikke bare som en tabell med tall, men som en transformasjon av vektorer. Hvis A er en m n-matrise, så gir A

Detaljer

9. Sosial kontakt. Elisabeth Rønning. Flere aleneboende, men færre ensomme

9. Sosial kontakt. Elisabeth Rønning. Flere aleneboende, men færre ensomme Aleneboendes levekår Sosial kontakt Elisabeth Rønning 9. Sosial kontakt Flere aleneboende, men færre ensomme Andel aleneboende som mangler en fortrolig venn, har gått noe ned fra 1980 til 2002, men det

Detaljer

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere 2 Loven om total sannsynlighet La A og Ā være komplementære hendelser, mens B er en annen hendelse. Da er: P(B) P(B oga)+p(b ogā) P(B A)P(A)+P(B Ā)P(Ā) ST0202 Statistikk for samfunnsvitere Bo Lindqvist

Detaljer

EKSAMEN I SOS4020 KVANTITATIV METODE 20. mars (4 timer)

EKSAMEN I SOS4020 KVANTITATIV METODE 20. mars (4 timer) EKSAMEN I SOS400 KVANTITATIV METODE 0. mars 009 (4 timer Tillatte hjelpemidler: Ikke-programmerbar kalkulator Liste med matematiske uttrykk/andeler i fordelinger (bakerst i oppgavesettet Sensur på eksamen

Detaljer

PISA i et internationalt perspektiv hvad der er idegrundlaget og hvad kan den bruges til? Júlíus K. Björnsson November 2012

PISA i et internationalt perspektiv hvad der er idegrundlaget og hvad kan den bruges til? Júlíus K. Björnsson November 2012 PISA i et internationalt perspektiv hvad der er idegrundlaget og hvad kan den bruges til? Júlíus K. Björnsson November 2012 Hvor kommer PISA fra? Kjent metodologi NAPE prøvene i USA bl.a. Like studier

Detaljer

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode QED 1 7 Matematikk for grunnskolelærerutdanningen Bind 2 Fasit kapittel 4 Statistikk og kvantitativ metode Kapittel 4 Oppgave 1 La være antall øyne på terningen. a) Vi får følgende sannsynlighetsfordeling

Detaljer

Oppgaver Oppgavetype Vurdering Status 1 ME-417, forside Flervalg Automatisk poengsum Levert. 2 ME-417, oppgave 1 Skriveoppgave Manuell poengsum Levert

Oppgaver Oppgavetype Vurdering Status 1 ME-417, forside Flervalg Automatisk poengsum Levert. 2 ME-417, oppgave 1 Skriveoppgave Manuell poengsum Levert ME-417 1 Vitenskapsteori og kvantitativ metode Kandidat 3704 Oppgaver Oppgavetype Vurdering Status 1 ME-417, forside Flervalg Automatisk poengsum Levert 2 ME-417, oppgave 1 Skriveoppgave Manuell poengsum

Detaljer

EKSAMEN I SOS1120 KVANTITATIV METODE 2. DESEMBER 2010 (4 timer)

EKSAMEN I SOS1120 KVANTITATIV METODE 2. DESEMBER 2010 (4 timer) EKSAMEN I SOS1120 KVANTITATIV METODE 2. DESEMBER 2010 (4 timer) Bruk av ikke-programmerbar kalkulator er tillatt under eksamen. Utover det er ingen hjelpemidler tillatt. Sensur faller 23. desember 2010

Detaljer

3 Største felles faktor og minste felles multiplum

3 Største felles faktor og minste felles multiplum 3 Største felles faktor og minste felles multiplum 3.1 Største felles faktor og minste felles multiplum. Metodiske aspekter Største felles faktor og minste felles multiplum er kjente matematiske uttrykk

Detaljer

7.4 Eksempler på misoppfatninger/mistolkinger

7.4 Eksempler på misoppfatninger/mistolkinger Verdier som parvis hører sammen. Nedbør som samsvarer med dagen vi velger. Utviklingen eller forandringen. Har nedbørsmengden steget eller sunket, har det gått opp og ned? Måleverdien har forandret seg

Detaljer

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger. H12 - Semesteroppgave i statistikk - sensurveiledning Del 1 - teori 1. Gjør rede for resonnementet bak ANOVA. Enveis ANOVA tester om det er forskjeller mellom gjennomsnittene i tre eller flere populasjoner.

Detaljer

1. COACHMODELL: GROW... 1 2. PERSONLIG VERDIANALYSE... 2 3. EGENTEST FOR MENTALE MODELLER. (Noen filtre som vi til daglig benytter)...

1. COACHMODELL: GROW... 1 2. PERSONLIG VERDIANALYSE... 2 3. EGENTEST FOR MENTALE MODELLER. (Noen filtre som vi til daglig benytter)... Personal og lønn Coaching 1. COACHMODELL: GROW... 1 2. PERSONLIG VERDIANALYSE... 2 3. EGENTEST FOR MENTALE MODELLER. (Noen filtre som vi til daglig benytter).... 3 1. COACHMODELL: GROW Formål: GROW-modellen

Detaljer

Profil Lavpris Supermarked Hypermarked Totalt. Coop Prix 4 4. Coop Extra 13 5. Coop Mega 7 7. Coop Obs 5 13. Rimi 24 24. Ica Supermarked 7 7

Profil Lavpris Supermarked Hypermarked Totalt. Coop Prix 4 4. Coop Extra 13 5. Coop Mega 7 7. Coop Obs 5 13. Rimi 24 24. Ica Supermarked 7 7 Vedlegg 1 - Regresjonsanalyser 1 Innledning og formål (1) Konkurransetilsynet har i forbindelse med Vedtak 2015-24, (heretter "Vedtaket") utført kvantitative analyser på data fra kundeundersøkelsen. I

Detaljer

Eksamen PSYC3101 Kvantitativ metode II Høsten 2013

Eksamen PSYC3101 Kvantitativ metode II Høsten 2013 Psykologisk institutt Eksamen PSYC3101 Kvantitativ metode II Høsten 2013 Skriftlig skoleeksamen, torsdag 17.oktober kl. 09:00 (3 timer). Sensur etter tre uker. Ingen hjelpemidler er tillatt under eksamen.

Detaljer

b) i) Finn sannsynligheten for at nøyaktig 2 av 120 slike firmaer går konkurs.

b) i) Finn sannsynligheten for at nøyaktig 2 av 120 slike firmaer går konkurs. Eksamen i: MET 040 Statistikk for økonomer Eksamensdag: 31 Mai 2007 Tid for eksamen: 09.00-13.00 Oppgavesettet er på 4 sider. Tillatte hjelpemidler: Alle trykte eller egenskrevne hjelpemidler og kalkulator.

Detaljer

Seminar i Selskab for surveyforskning. Aarhus 13/4 2011

Seminar i Selskab for surveyforskning. Aarhus 13/4 2011 Seminar i Selskab for surveyforskning. Aarhus 13/4 2011 Gir meningsmålinger et misvisende bilde av virkeligheten? Meningsmålinger og resultater fra annen surveyforskning får en stadig mer sentral plass

Detaljer

Diskuter egen vitenskapsteoretiske posisjon

Diskuter egen vitenskapsteoretiske posisjon Diskuter egen vitenskapsteoretiske posisjon Arbeidstittelen på masteroppgaven jeg skal skrive sammen med to medstudenter er «Kampen om IKT i utdanningen - visjoner og virkelighet». Jeg skal gå historisk

Detaljer

EKSAMEN I SOS1120 KVANTITATIV METODE 23. NOVEMBER 2004 (6 timer)

EKSAMEN I SOS1120 KVANTITATIV METODE 23. NOVEMBER 2004 (6 timer) EKSAMEN I SOS20 KVANTITATIV METODE 23. NOVEMBER 2004 (6 timer) Bruk av ikke-programmerbar kalkulator er tillatt under eksamen. Utover det er ingen hjelpemidler tillatt. Sensur faller tirsdag 4. desember

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i STK1000 Innføring i anvendt statistikk. Eksamensdag: Onsdag 7. oktober 2009. Tid for eksamen: 15:00 17:00. Oppgavesettet er på

Detaljer

Notat angående mulig kjønnskvotering på partilistene ved kommunestyrevalg

Notat angående mulig kjønnskvotering på partilistene ved kommunestyrevalg Notat angående mulig kjønnskvotering på partilistene ved kommunestyrevalg Johannes Bergh & Henning Finseraas 6. mars 2012 Innledning Kommunal- og regionaldepartementet (KRD) har gjort et direkte kjøp av

Detaljer

Oppgaver og løsningsforslag i undervisning. av matematikk for ingeniører

Oppgaver og løsningsforslag i undervisning. av matematikk for ingeniører Oppgaver og løsningsforslag i undervisning av matematikk for ingeniører Trond Stølen Gustavsen 1 1 Høgskolen i Agder, Avdeling for teknologi, Insitutt for IKT trond.gustavsen@hia.no Sammendrag Denne artikkelen

Detaljer

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0 Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir

Detaljer

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt. Eksamen i: MET040 Statistikk for økonomer Eksamensdag: 4. juni 2008 Tid for eksamen: 09.00-13.00 Oppgavesettet er på 5 sider. Tillatte hjelpemidler: Alle trykte eller egenskrevne hjelpemidler og kalkulator.

Detaljer

SUBTRAKSJON FRA A TIL Å

SUBTRAKSJON FRA A TIL Å SUBTRAKSJON FRA A TIL Å VEILEDER FOR FORELDRE MED BARN I 5. 7. KLASSE EMNER Side 1 Innledning til subtraksjon S - 2 2 Grunnleggende om subtraksjon S - 2 3 Ulike fremgangsmåter S - 2 3.1 Tallene under hverandre

Detaljer

Tabell 1: Antallet besøkende pasienter og gjennomsnittlig ventetid i minutter (fiktive data).

Tabell 1: Antallet besøkende pasienter og gjennomsnittlig ventetid i minutter (fiktive data). Viktige modeller og begrep Når du skal lese forskningsartikler, kan det være nyttig at du kjenner navnet på noen viktige modeller og begreper. Tekst: Hugo Lewi Hammer og Ketil Gundro Bruberg I de tidligere

Detaljer

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 2013. Skrevet av Stian Lydersen 16 januar 2013

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 2013. Skrevet av Stian Lydersen 16 januar 2013 1 Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 013. Skrevet av Stian Lydersen 16 januar 013 Vi antar at vårt utvalg er et tilfeldig og representativt utvalg for

Detaljer

Konsekvenser av familiepolitikk 2

Konsekvenser av familiepolitikk 2 Konsekvenser av familiepolitikk 2 Nico Keilman Befolkning og velferd ECON 1730 Høst 2017 Denne forelesningen: Effekt av innføring av kontantstøtte på foreldrenes yrkesdeltakelse Konsekvenser av - barnetrygd

Detaljer

10.4 Sannsynligheter ved flere i utvalget (kombinatorikk)

10.4 Sannsynligheter ved flere i utvalget (kombinatorikk) 10. er ved flere i utvalget (kombinatorikk) Så langt i framstillingen har vi diskutert den språklige siden, den matematiske tolkningen av sannsynlighetsbegrepet og presentert ulike modeller som kan anvendes

Detaljer

3.A IKKE-STASJONARITET

3.A IKKE-STASJONARITET Norwegian Business School 3.A IKKE-STASJONARITET BST 1612 ANVENDT MAKROØKONOMI MODUL 5 Foreleser: Drago Bergholt E-post: Drago.Bergholt@bi.no 11. november 2011 OVERSIKT - Ikke-stasjonære tidsserier - Trendstasjonaritet

Detaljer

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Underveiseksamen i: STK1000 Innføring i anvendt statistikk. Eksamensdag: Onsdag 28/3, 2007. Tid for eksamen: Kl. 09.00 11.00. Tillatte hjelpemidler:

Detaljer

Høye skårer indikerer høye nivåer av selvkontroll.

Høye skårer indikerer høye nivåer av selvkontroll. Psykologisk institutt PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2015 Skriftlig skoleeksamen tirsdag 19. mai, 09:00 (4 timer) Resultater publiseres 10. juni Kalkulator

Detaljer

Forelesning 14. Rekursjon og induksjon. Dag Normann februar Oppsummering. Oppsummering. Beregnbare funksjoner

Forelesning 14. Rekursjon og induksjon. Dag Normann februar Oppsummering. Oppsummering. Beregnbare funksjoner Forelesning 14 og induksjon Dag Normann - 27. februar 2008 Oppsummering Mandag repeterte vi en del om relasjoner, da spesielt om ekvivalensrelasjoner og partielle ordninger. Vi snakket videre om funksjoner.

Detaljer

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål: Frafall fra videregende skole (VGS) er et stort problem. Bare ca 70% av elevene som begynner p VGS fullfører og bestr i løpet av 5 r. For noen elever er skolen s lite attraktiv at de velger slutte før

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Deleksamen i: UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet STK1000 Innføring i anvendt statistikk. Eksamensdag: Onsdag 13. oktober 2010. Tid for eksamen: 15:00 17:00. Oppgavesettet

Detaljer

KLH3002 Epidemiologi. Eksamen høsten 2012

KLH3002 Epidemiologi. Eksamen høsten 2012 KLH3002 Epidemiologi Eksamen høsten 2012 1. Insidens andel (Eng. Incidence proportion)avhenger av A. oppfølgingstiden i studien (= follow up time) B. bortfall fra studien (= loss to follow up) C. Både

Detaljer

Troløse studenter på vandring. Om frafallsproblematikken i UH-sektor

Troløse studenter på vandring. Om frafallsproblematikken i UH-sektor Elisabeth Hovdhaugen Troløse studenter på vandring. Om frafallsproblematikken i UH-sektor Foredrag for FS Brukerforum Hva er frafall? Studenter som slutter i utdanningen før de har oppnådd en grad. Er

Detaljer

Formelsamling i medisinsk statistikk

Formelsamling i medisinsk statistikk Formelsamling i medisinsk statistikk Versjon av 6. mai 208 Dette er en formelsamling til O. O. Aalen (red.): Statistiske metoder i medisin og helsefag, Gyldendal, 208. Gjennomsnitt x = n (x + x 2 + x 3

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Loven om total sannsynlighet La A og Ā være komplementære hendelser, mens B er en annen hendelse. Da er: P(B) =P(B oga)+p(b

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig

Detaljer

Christensen Etikk, lykke og arkitektur 2010-03-03

Christensen Etikk, lykke og arkitektur 2010-03-03 1 2 Plansmia i Evje 3 Lykke Hva gjør vi når ikke alle kan få det som de vil? Bør arkitekten ha siste ordet? Den som arkitekten bygger for? Samfunnet for øvrig? Og hvordan kan en diskusjon om lykke hjelpe

Detaljer

SKOLEEKSAMEN 29. september 2006 (4 timer)

SKOLEEKSAMEN 29. september 2006 (4 timer) EKSAMEN I SOS400 KVANTITATIV METODE SKOLEEKSAMEN 9. september 006 (4 timer) Ikke-programmerbar kalkulator er tillatt under eksamen. Ingen andre hjelpemidler er tillatt. Sensuren faller fredag 0. oktober

Detaljer

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003 SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 003 Oppgave 1 Tabell 1 gjengir data fra en spørreundersøkelse blant personer mellom 17 og 66 år i et sannsynlighetsutvalg fra SSB sitt sentrale personregister.

Detaljer

SKOLEEKSAMEN I SOS KVANTITATIV METODE. 27. februar 2017 (4 timer)

SKOLEEKSAMEN I SOS KVANTITATIV METODE. 27. februar 2017 (4 timer) Institutt for sosiologi og samfunnsgeografi BOKMÅL SKOLEEKSAMEN I SOS4020 - KVANTITATIV METODE 27. februar 2017 (4 timer) Tillatte hjelpemidler: Alle skriftlige hjelpemidler og kalkulator. Sensur for eksamen

Detaljer

Tusen takk for invitasjonen, Utdanningsforbundet setter stor pris på å få spille inn til dette viktige arbeidet.

Tusen takk for invitasjonen, Utdanningsforbundet setter stor pris på å få spille inn til dette viktige arbeidet. 1 Tusen takk for invitasjonen, Utdanningsforbundet setter stor pris på å få spille inn til dette viktige arbeidet. Jeg har merket meg at dere ber om svar på tre spørsmål: For det første: Hva er det som

Detaljer

Barn som pårørende fra lov til praksis

Barn som pårørende fra lov til praksis Barn som pårørende fra lov til praksis Samtaler med barn og foreldre Av Gunnar Eide, familieterapeut ved Sørlandet sykehus HF Gunnar Eide er familieterapeut og har lang erfaring fra å snakke med barn og

Detaljer

Telle mennesker lærerveiledning

Telle mennesker lærerveiledning Telle mennesker lærerveiledning Sammendrag Barn begynner å telle allerede ved svært lav alder Telling er en viktig matematisk kompetanse i førskoleopplæring og de første klassene i grunnskolen. Men telling

Detaljer

10.1 Enkel lineær regresjon Multippel regresjon

10.1 Enkel lineær regresjon Multippel regresjon Inferens for regresjon 10.1 Enkel lineær regresjon 11.1-11.2 Multippel regresjon 2012 W.H. Freeman and Company Denne uken: Enkel lineær regresjon Litt repetisjon fra kapittel 2 Statistisk modell for enkel

Detaljer