NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Like dokumenter
NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Logistisk regresjon 1

Logistisk regresjon 2

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMENSOPPGAVE I IDRSA1004 Samfunnsvitenskapelig forskningsmetode og analyse

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

Institutt for økonomi og administrasjon

SKOLEEKSAMEN 29. september 2006 (4 timer)

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

SKOLEEKSAMEN 2. november 2007 (4 timer)

Forelesning 17 Logistisk regresjonsanalyse

Fra krysstabell til regresjon

EKSAMENSOPPGAVE I SOS3003:

EKSAMENSOPPGAVE I SOS3003 ANVENDT STATISTISK DATAANALYSE I SAMFUNNSVITENSKAP VÅR 2008.

Forelesning 13 Regresjonsanalyse

SOS3003 Eksamensoppgåver

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006

EKSAMEN I SOS1120 KVANTITATIV METODE 5. DESEMBER 2005 (4 timer)

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

Hvorfor har forskjellen. i t-testen på nå blitt redusert til ?

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMENSOPPGAVE FOR SOS3003: ANVENDT STATISTISK DATAANALYSE

EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer)

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

UNIVERSITETET I OSLO

SKOLEEKSAMEN I SOS KVANTITATIV METODE. 27. februar 2017 (4 timer)

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Std. Error. ANOVA b. Sum of Squares df Square F Sig , , ,600, , , ,

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMEN I SOS1120 KVANTITATIV METODE 12. DESEMBER 2011 (4 timer)

Gjør kort rede for seks av de åtte begrepene. Bruk inntil ½ side på hvert begrep.

Eksamensoppgave i ST3001

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

SOS 31 MULTIVARIAT ANALYSE

Eksamensoppgave i PSY3100 Forskningsmetode - kvantitativ

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

EKSAMEN I SOS1120 KVANTITATIV METODE 23. NOVEMBER 2004 (6 timer)

EKSAMEN I SOSIOLOGI SOS KVANTITATIV METODE. ORDINÆR SKOLEEKSAMEN 4. april 2011 (4 timer)

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

PSYC 3101 KVANTITATIV METODE II Eksamen høst 2008

EKSAMEN I SOS4020 KVANTITATIV METODE 20. mars (4 timer)

EKSAMEN I SOS4020 KVANTITATIV METODE 8. april (4 timer)

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Eksamensoppgave i PSY2017/PSYPRO4317. Statistikk og kvantitative forskningsmetoder. Psykologisk institutt

UNIVERSITETET I OSLO

EKSAMENSOPPGAVER STAT100 Vår 2011

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer)

Eksamensoppgave i TMA4255 Anvendt statistikk

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2002

UTSATT SKOLEEKSAMEN I SOS KVANTITATIV METODE. 29. Mars 2017 (4 timer)

UNIVERSITETET I OSLO

Eksamensoppgave i PSY3100 Forskningsmetode kvantitativ

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

SOS3003 Eksamensoppgåver

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SOS1002 VÅREN 2008

EKSAMEN I PSY3100 FORSKNINGSMETODE KVANTITATIV HØSTEN 2012

Ref.: Fall SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 05

Sensorveiledning til eksamensoppgave i SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2001

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

SOS3003 Eksamensoppgåver

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Eksamensoppgave i ST3001

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Høye skårer indikerer høye nivåer av selvkontroll.

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

SOS3003 Eksamensoppgåver

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

Eksamensoppgave i PSY3100 Forskningsmetode Kvantitativ

NTNU, Norges teknisk-naturvitenskapelige universitet

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Eksamensoppgave i PSY2017/PSYPRO4317. Statistikk og kvantitative forskningsmetoder. Målform/språk: Bokmål Antall sider: 10. Psykologisk institutt

Lineære modeller i praksis

HØGSKOLEN I STAVANGER

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Eksamensoppgave i TMA4255 Anvendt statistikk

Transkript:

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap EKSAMENSOPPGAVE I SOS3003 Våren 2006 Anvendt statistisk dataanalyse i samfunnsvitenskap Faglig kontakt under eksamen: Johan Fredrik Rye Telefon: 99 27 30 88 Eksamensdato: 22. mai 2006 Eksamenstid: 6 timer Studiepoeng: 15 Antall sider bokmål ekskl. vedlegg: 2 Antall sider nynorsk ekskl. vedlegg: 2 Antall sider vedlegg: 15 Sensurdato: Sensurtelefon: 815 48014 Tillatte hjelpemiddel: Kalkulator Alle skriftlige hjelpemidler (unntatt tidligere eksamensoppgaver og sensorveiledninger) 1

BOKMÅL Kommentar til sensurveiledningen: Vær oppmerksom på at veiledningen kun antyder de viktigste momentene som skal være med i besvarelsen det forventes at kandidatene gir mer utfyllende svar enn det som gis nedenfor. I flere av oppgavene skal kandidaten gjengi formler, gjøre utregninger og så forklare hva resultatene innebærer. Det bør legges større vekt på gode fortolkningene av resultatene enn evnen til reproduksjon av formler. Dette gjelder også mer generelt: Kandidater som gir grundige og reflekterte svar skal belønnes. NB: I oppgave 1e) står det at man skal bruke opplysninger fra tabell 2 for å løse oppgaven. Det skal være tabell 3 (studentene ble gjort oppmerksom på denne feilen under eksamen). OPPGAVE 1: OLS-REGRESJON (TELLER 40 PROSENT) I oppgave 1 benyttes data fra European Social Survey (ESS). Hensikten med ESS er å kartlegge sammenhengen mellom institusjonelle forhold i de europeiske landene og borgernes holdninger, verdier og oppfatninger. Intervjuene ble gjort høsten 2004. Flere europeiske land deltar i undersøkelsen med representative utvalg, men i denne oppgaven er kun data fra den norske delundersøkelsen benyttet (N=1702). Et av spørsmålene i ESS er i hvilken grad informantene har tillit til politiet. Det er gjennomført en OLS-regresjon der denne tilliten søkes forklart ut fra ulike bakgrunnsvariabler. Se vedleggene for deskriptiv informasjon om variablene, modellspesifikasjon og diagnostiske analyser. 1a) Sett opp regresjonsligningen for populasjonen. Gjør grundig rede for forutsetningene for regresjonsmodeller, og drøft i hvilken grad de synes oppfylt i denne modellen. Bruk vedleggene aktivt. γ = 3,127 + 0,296 X tillit til politikere + 0,118 X tilfredshet med myndighetene + 0,201 X livskvalitet 0,036 X religiøsitet + 0,248 X kvinne + 0,013 X alder 0,025 X middels utdanning + 0,316 X høy utdanning 0,331 X samspill + ε Merk at det er ligningen for populasjonen som etterspøres. Man bør dermed ikke ta med samspilleddet (som ikke er signifikant ut fra det konvensjonelle 0,05-prosentsnivået), samtidig som feilleddet må være med. Forutsetningene og vurderinger av disse (her kun en stikkordsmessig gjennomgang) 1: Spesifikasjonskravet a) Y er en linjær og additiv funksjon av parametrene til X-variablene (ja, sikres gjennom modellformuleringen) b) Alle relevante X er med i modellen (bør diskuteres det er flere X man kan tenke seg som relevante enn dem som er med i modellen) c) Ingen irrelevante X er med i modellen (jfr. senere drøfting av insignifikante variabler) 2: Gauss-Markow a) Gitte X (kan ikke testes) b) Feilleddenes forventning er 0 (innfris automatisk gjennom OLS) 2

c) Fravær av heteroskedastisitet (se vedlegg: svak tendens til synkende varians for feilleddene ved høye verdier) d) Autokorrelasjon (ikke aktuelt i denne modellen) 3) Normalfordelte feil Feilleddenes synes noe skeivfordelte, noe som fremgår både av boxplot'et og histogrammet. Videre bør kandidaten kommentere problemer knyttet til mulitkollinaritet og bruke cook's d / dfbetas-plot'ene til å vurdere innflytelsesrike case. Multikollinaritet: Ingen betydelige problemer (men fint om de kommenterer verdien for utdanning, som er relatiert til samspillsleddet) Innflytelsesrike case: Cook's d: Noen få case peker seg ut (spesielt 1045, 376), men verdiene er relativt lave. Dfbetas-verdiene er også relativt lave, men igjen er det noen case som peker seg ut, og studentene bør knytte noen kommentarer til disse. Noen studenter har også tatt med noen mer overordnede betraktninger om kausalitet i regresjonsanalyser. Dette er positivt, men ikke nødvendig for å besvare oppgaven. 1b) I regresjonsmodellen er de standardiserte koeffisientene, t-verdien og signifikansnivået fjernet for variablene religiøsitet og tilfredshet med livet. Vis formlene og utregningene for å finne de standardiserte koeffisientene og t-verdiene (standardavvikene for alle variablene i modellen er vist i tabell 1). Vurder om variablene gir signifikante bidrag til modellen. Standardiserte koeffisienter b* x1 = b x1 * (s x1 / s y ) T-verdi b x1 / SE bx1 For å vurdere signifikansnivået må man slå opp i tabellen som viser kritiske verdier for t-testen (Hamilton s. 360). Ut fra et 0,05 prosents signifikansnivå (tosidig test) bidrar begge variablene signifikant til modellen Stand. T-verdi Sig. Livskvalitet,157 7,179,000 Religiøsitet -,047-2,000,039 1c) Hvilken påvirkning har kjønn på folks tillit til politiet? Hvordan påvirkes svaret av om du setter kravet til signifikans til et nivå på 0,10, 0,05 eller 0,01? Generell tendens: Kvinner har høyere tillit til politiet til menn, men samspillet antyder at kvinner 'mister' effekten av høy utdanning som menn får. (NB: Kandidaten skal demonstrere evne til konkret fortolkning av samspill i denne oppgaven) Hvilket signifikansnivå man setter, blir avgjørende for tolkningen. Hvis man setter α = 0,10 blir resonnementet som ovenfor. Hvis man setter α = 0,05, blir samspillet usignifikant og man bør se 3

bort fra samspilleffekten. Hvis man setter α = 0,01 blir kjønn vurdert som helt usignifikant. (Det forutsettes her tosidige tester) 1d) Vurder følgende hypoteser: i) Eldre personer har høyest tillit til politiet. Bekreftes ii) Det er en negativ sammenheng mellom folks tillit til politikere og deres tillit til politiet Avkreftes iii) Folks religiøse orientering påvirker deres tillit til politiet. Bekreftes iv) Folk med høy utdanning har høyere tillit til politiet enn dem med lav eller middels utdanning. Modellen viser at utdanningsvariabelen (dummysettet som helhet) er signifikant, men det er ingen av enkeltkoffisientene som er signifikante. Man kan anta at det er forskjellen mellom middels og høy som er signifikant, men opplysningene som er gitt, gir ingen endelige svar på dette. Hypotesen kan derfor ikke bekreftes uten ytterligere analyser. Drøftingen av hypotesen kan kompliseres videre ved å trekke inn samspillleddet mellom kvinne og høy utdanning hvis man tar utgangspunkt i et 0,10-prosents signifikansnivå. Det er fint om studentene kommer med betraktninger knyttet til dette men fortsatt er det ikke mulig å komme med endelige konklusjoner ift. hypotesen. 1e) Vis formler og utregninger for R 2 og R 2 adjusted for regresjonsmodellen (bruk opplysninger fra tabell 2). Forklar hva svarene betyr. R 2 = ESS / RSS = 1263,061 / 6943,733 = 0,182 Ca. en femtedel av variansen i den avhengige variablene forklares av X-variablene R 2 adjusted = R 2 - (((K-1)/(n-K)) * (1-R 2 )) = 0,182 (((10-1) / (1702-10)) * 1-0,182) = 0,182 ((9 / 1692) * 0,818) = 0,182 (0,005 * 0,818) = 0,182 0,004 = 0,178 Formelen avveier forklart varians i forhold til modellens kompleksistet (parimony). Som man ser, viser R 2 adjusted grovt sett det samme som R 2. OPPGAVE 2: LOGISTISK REGRESJON (TELLER 50 PROSENT) 4

Også i oppgave 2 benyttes data fra European Social Survey (ESS). Et av spørsmålene i ESS er i hvilken grad informantene har betalt svart, dvs. betalt kontant uten kvittering for å unngå skatt. I det videre tolkes positive svar som villighet til å betale med svarte penger. Det er gjennomført en logistisk regresjon der viljen til å betale med svarte penger søkes forklart ut fra ulike bakgrunnsvariabler. Se vedleggene til oppgave 2 for deskriptiv informasjon om variablene og modellene. Vær oppmerksom på at modellen er bygd opp 'blokkvis' (i alt sju modeller, inkludert modellen med bare konstantledd), og at 'Omnibus Tests for Model Coeffisients' er fjernet for de to siste modellene, slik at du selv må regne ut verdiene for 'loglikelihood'-testen for disse. 2a) Hvilken av modellene er den beste? Forklar svarene. Modellen i blokk 6 er den beste. Blokkene 1-5 er alle signifikante forbedringer, ifølge opplysningene som gis i tabellene 'Omnibus Tests for Model Coeffisients'. For å vurdere om blokk 6 er en signifikant forbedring må man bruke loglikelihood-testen, her vist ut fra -2LL-verdiene som oppgis av SPSS (noen kandidater bruker evt. Hamiltons litt mer kompliserte formel, og det er selvsagt greit) X 2 H = (-2LL blokk 5 ) (-2LL blokk 6 ) = 1838,621 1831,674 = 6,947 H = 1 (forskjell i antall variabler), kritisk verdi er 3,841 (gitt 0,05 sig.nivå se Hamilton s. 354) Konklusjon: Modellen i blokk 6 er en signifikant forbedring Deretter må man vurdere blokk 7 mot blokk 6 X 2 H = (-2LL blokk 6 ) (-2LL blokk 7 ) = 1831,674 1831,197 = 0,477 H = 1 (forskjell i antall variabler), kritisk verdi er 3,841 (gitt 0,05 sig.nivå se Ham. s. 354) Konklusjon: Modellen i blokk 7 er ikke en signifikant forbedring 2b) I logistiske regresjonsmodeller kan man tolke resultatene ut fra logit (L), odds (O) eller sannsynligheter (p). Gi en redegjørelse for hvordan man fortolker resultatene fra en logistisk regresjonsmodell ut fra disse verdiene. Bruk eksempler fra den logistiske regresjonsmodellen som er den beste (jfr. oppgave 2a). Her er det vanskelig å gi en konkret sensorveiledning, men samlet sett bør kandidatene vise en god oversikt over de ulike fortolkningsmåtene, inkludert en forståelse av hvordan L, O og p er relatert til hverandre. Besvarelsen bør også redegjøre for det matematiske grunnlaget for verdiene. Svaret på denne oppgaven bør derfor være rimelig omfattende. 5

2c) Skriv opp ligningene for betingede effektplott som vil minimere og maksimere oddsen (O) for å ha ha betalt svart (y = 1) etter informantens alder. Ta utgangspunkt i den beste modellen (jfr. oppgave 2a). O min = e L -6,054 + (0,105 * alder) (0,001 * alder2) = e (Man vil se ulike konstantleddet, ettersom samspillleddet mellom religion og politisk plassering fører til at det faktisk lønner seg å sette begge variablene til 10 for å minimere ligningen. Det er et pluss hvis studenten er oppmerksom på betydningen av samspillet, men det kan ikke forventes at man finner frem til de korrekte verdiene) O max = e L -2,562 + (0,105 * alder) (0,001 * alder2) = e (Det samme gjelder ift. konstantleddet på denne oppgaven. Det optimale er å sette religionsvariablen til 6 (pga. annengradsleddet), og løsningen over bruker denne verdien. Man bør imidlertid ikke forvente at studentene har tid til å regne seg frem til dette ( selv om man bør belønne dem som eventuelt greier det) 2d) Vurder følgende variablers innvirkning på sannsynligheten for å ha betalt med svarte penger: i) Tilfredshet med myndighetene Det er en positiv sammenheng, men denne er ikke signifikant (i ingen av modellene) ii) Utdanning Økt utdanning øker ens vilje til å betale med svarte penger (testes i blokk 2) iii) Region Det er regionale forskjeller i folks vilje til å betale med svarte penger (testes gjennom blokk 3). Ut fra den beste modellen (6) kan vi videre konkludere med at folk i Hedmark/Oppland har signifikant høyere villighet til å betale svart enn folk som bor i Osl/Akershus (referansekategorien). Man ser videre en tendens til at folk på sørøstlandet, Vestlandet og i Trøndelag er mer villige til å betale med svarte penger, mens folk i Agder og Rogaland og i Nord-Norge synes mer skeptiske til slik betaling. Ut fra den oppgitte informasjonen er det derimot vanskelig å konkludere eksakt om andre parvise sammenligninger. iv) Plassering i det politiske landskapet Her må man tolke effekten av politisk plassering sammen med religiøsitet, ettersom de inngår sammen i et samspill-ledd. Grovt sett kan man si at folk på høyresiden er mer villige til å betale 6

med svarte penger, men denne effekten avtar desto sterkere ens religiøsitet er. Blant de mest religøse er det derfor slik at plassering på høyresiden faktisk fører til mindre villighet til å betale med svarte penger. Det er flere måter å belegge dette på, men den enkleste fremgangsmåten er å beregne L-verdier ut fra forskjellige kombinasjoner på de to variablene (og se bort fra de øvrige variablene) L = (0,15* lrscale) + (0,257*rlgdgr) + (-0,026*lrscale*rlgdgr) Rel 0 5 10 Pol 0 0,000 1,285 2,570 1 0,150 1,305 2,460 2 0,300 1,325 2,350 3 0,450 1,345 2,240 4 0,600 1,365 2,130 5 0,750 1,385 2,020 6 0,900 1,405 1,910 7 1,050 1,425 1,800 8 1,200 1,445 1,690 9 1,350 1,465 1,580 10 1,500 1,485 1,470 Man kan ikke forvente at kandidatene går like grundig til verks som dette, men de bør i alle fall komme frem til det grunnleggende mønsteret OPPGAVE 3: TRANSFORMASJONER (TELLER 10 PROSENT) Gi en oversikt over anvendelse av transformasjoner i regresjonsanalyse Kandidatene bør gi en en oversikt over de meste sentrale problemstillingene knyttet til transformasjoner: Skillet mellom substansielt (bedre modellering av empiri) og metodisk (hensynet til feilleddene) motiverte transformasjoner Hvordan ulike potenser gir forskjellige resultater Det er også bra vis studentene drøfter transformering av Y, og hvilke konsekvenser detet har for fortolkning. Gode studenter vil også drøfte hvordan logistisk regresjon implisitt fører til 'transformerte' relasjoner mellom y og alle X NB: Denne oppgaven er like relevant for OLS-regresjon som for logistisk regresjon 7

DOKUMENTASJON TIL OPPGAVE 1 Koding av variablene som inngår i regresjonsmodellen TIllit til politiet (avhengig variabel): Måler tillit til politiet Skala fra 0 (svært lav tillit) til 10 (svært høy tillit). Tilfredshet med myndighetene: Måler ttilfredshet med myndighetene Skala fra 0 (svært lav tilfredshet) til 10 (svært høy tilfredshet). Livskvalitet: Måler livskvalitet Skala fra 0 (svært lav livskvalitet) til 10 (svært høy livskvalitet). Religiøsitet: Måler grad av religiøsitet Skala fra 0 (ikke religiøs) til 10 (svært religiøs). Kvinne: 1 = kvinne, 0 = mann Alder Antall år Utdanning: Dummysett, der lav utdanning er referansekategori. Samspill (kvinne * høy utd.) Samspillsledd mellom kvinne og høy utdanning (variablene er mulitiplisert med hverandre) 8

Tabell 1: Deskriptiv statistikk om variablene som inngår i modellene, inkludert standardavvik N Minimum Maksimum Gjennomsnitavvik Standard- Tillit til politiet 1702 0 10 7,12 2,020 Tillit til politikere 1702 0 10 4,26 1,987 Tilfredshet med myndighetene 1702 0 10 4,38 2,032 Livskvalitet 1702 0 10 7,90 1,576 Religiøsitet 1702 0 10 3,97 2,664 Kvinne 1702 0 1 0,47 0,499 Alder 1702 15 91 45,74 17,035 Middels utdanning 1702 0 1 0,43 0,494 Høyutdanning 1702 0 1 0,36 0,479 Samspill (kvinne * høy utd.) 1702 0 1 0,17 0,377 Valid N ('listwise') 1702 Tabell 2: Regresjonsmodellen Avhengig variabel (y) = Tillit til politiet Ustandardiserte koeffisienter Std. Stand. koeffisienter Toler- B Error T-verdi Sig. anse VIF (Constant) 3,127 0,297 10,546 <0,001 0,777 1,287 Tillit til politikere 0,296 0,025 0,291 11,664 <0,001 0,756 1,323 Tilfredshet med myndighetene 0,118 0,025 0,118 4,677 <0,001 0,983 1,018 Livskvalitet 0,201 0,028 0,891 1,123 Religiøsitet -0,036 0,018 0,624 1,603 Kvinne 0,248 0,113 0,061 2,200 0,028 0,893 1,120 Alder 0,013 0,003 0,113 4,837 <0,001 0,562 1,780 Middels utdanning -0,025 0,120-0,006-0,211 0,833 0,370 2,701 Høy utdanning 0,316 0,152 0,075 2,077 0,038 0,400 2,497 Samspill (kvinne * høy utd.) -0,331 0,186-0,062 0,076 0,076 0,777 1,287 En F-test viser at dummysettet for utdanning er signifikant. 9

Tabell 3: Modellsammendrag Forklart varians 1263,061 Residual 5680,671 Total varians 6943,733 Tabell 4: Deskriptiv informasjon om feilleddet Statistikk Standardfeil Ustandardisert feilledd Gjennomsnitt 0,000 0,0442 Median 0,203 Varians 3,340 Standardavvik 1,827 Minimum -7,470 Maksimum 4,718 'Range' 12,189 'Interquartile Range' 2,158 10

Figur 1: Homoskedastistetsplott Y: Absoluttverdier av feilleddene X-aksen: Ustandardiserte predikerte verdier Det er lagt inn en kurvilinjær regresjonslinje i plottet. 8 6 abs 4 2 R Sq Cubic =0,071 0 4,00000 5,00000 6,00000 7,00000 8,00000 9,00000 10,00000 Unstandardized Predicted Value 11

Figur 2. Boksplott for det ustandardiserte feilleddet 5,0 289 2,5 0,0-2,5-5,0 789 523 1 217-7,5 571 913 Unstandardized Residual Figur 3: Histogram for det ustandardiserte feilleddet 200 150 Frequency 100 50 Mean = 7,3031858E-16 Std. Dev. = 1,82745914 N = 1 702 0-7,50000-5,00000-2,50000 0,00000 2,50000 5,00000 Unstandardized Residual 12

Figur 4: Cook's d-verdier og dfbetas-verdier for konstantleddet og variabelen tillit til politikerne' ( trstplt ), 0,06 323 0,04 544 0,02 1 045 376 1 272 1 651 673 0,00-0,02-0,04 473 1 681 865 1 538 1 567 1 493 1 082 1 561 1 349 893-0,06 645-0,08 Cook's Distance DFBETA Intercept DFBETA trstplt Figur 5: Dfbetas-verdier for variablene tillit til myndighetene' ( stfgov ), livskvalitet' ( happy ), og religion ( rlgdr ) 0,010 1 045 362 0,005 913 646 1 613 645 1 736 41 1 095 64 1 475 118 188 1 404 323 1 049 0,000 595 377 1 518 87 277 893 1 536 1 609 741 289 713 1 460 1 743-0,005 1 045 1 754 DFBETA stfgov DFBETA happy DFBETA rlgdgr 13

Figur 6: Dfbetas-verdier for variabelen kvinne ( kvinne ) 646 711 0,01 1 580 1 071 1 133 1 594 0,00 1 384 1 600-0,01 277 1 457 1 217 1 404-0,02 DFBETA kvinne Figur 7: Dfbetas-verdier for variablene alder ( alder ), middels utdanning ( midutd ), høy utdanning ( høyutd ), og samspill kvinne*høy utdanning ( kvinutd ) 0,03 362 0,02 362 1 579 646 1 181 289 1 182 0,01 1 013 1 224 782 1 503 120 137 854 35 784 330 0,00 1 533 050 424 930 810-0,01 810 1 154 323 660 760 1 349 471 359 196-0,02 DFBETA alder DFBETA midutd DFBETA høyutd DFBETA kvinutd 14

DOKUMENTASJON TIL OPPGAVE 2 Koding av variablene som inngår i regresjonsmodellen Svart (avhengig variabel): 1 = har betalt svart, 0 = har ikke betalt svart Stfgov: 'How satisfied with the national government?' Måler tilfredshet med myndighetene Skala fra 0 (svært lav tilfredshet) til 10 (svært høy tilfredshet). Lrscale: 'Placement on left right scale' Måler plassering på den politiske venstre/høyre-aksen Skala fra 0 (ytre venstre) til 10 (ytre høyre). Rlgdgr: 'How religious are you?' Måler grad av religiøsitet Skala fra 0 (ikke religiøs) til 10 (svært religiøs). Kvinne: 1 = kvinne, 0 = mann Utdanning: Dummysett, der lav utdanning er referansekategori. midutd = middels utdanning høyutd = høy utdanning Region: Dummysett, der Oslo/Akershus er referansekategori: hedopp = Hedmark og Oppland, sorøst = fylkene på Sør-Østlandet, agdroga = Agder og Rogaland, vest = Vestlandet, trønde = Trøndelag nord = Nord-Norge. Relpol Samspillsledd mellom religiøsitet og plassering på den politiske skalaen (variablene er mulitiplisert med hverandre) Alder2 Aldersvariabelen opphøyd i andre Rel2 Religionsvariabelen opphøyd i andre Kvinutd Samspillsledd mellom kvinne og høyutdanning (variablene er mulitiplisert med hverandre) 15

UTSKRIFTER FRA SPSS (Merk at det SPSS bruker 'block' i stedet for 'modell') Logistic Regression Block 0: Beginning Block Variables in the Equation 0 Constant B S.E. Wald df Sig. Exp(B) -,945,054 303,011 1,000,389 Block 1: Method = Enter Omnibus Tests of Model Coefficients 1 Block Model Chi-square df Sig. 81,258 5,000 81,258 5,000 81,258 5,000 Model Summary 1-2 Log Cox & Snell Nagelkerke likelihood R Square R Square 1914,169 a,047,068 a. Estimation terminated at iteration number 4 because parameter estimates changed by less than,001. 1 a stfgov lrscale rlgdgr kvinne alder Constant Variables in the Equation B S.E. Wald df Sig. Exp(B),031,029 1,084 1,298 1,031,056,028 3,973 1,046 1,058 -,054,022 5,899 1,015,947 -,807,118 46,940 1,000,446 -,005,003 2,344 1,126,995 -,584,242 5,796 1,016,558 a. Variable(s) entered on step 1: stfgov, lrscale, rlgdgr, kvinne, alder. 16

Block 2: Method = Enter Omnibus Tests of Model Coefficients 1 Block Model Chi-square df Sig. 9,602 2,008 9,602 2,008 90,860 7,000 Model Summary 1-2 Log Cox & Snell Nagelkerke likelihood R Square R Square 1904,567 a,053,076 a. Estimation terminated at iteration number 4 because parameter estimates changed by less than,001. 1 a stfgov lrscale rlgdgr kvinne alder midutd høyutd Constant Variables in the Equation B S.E. Wald df Sig. Exp(B),024,030,639 1,424 1,024,057,028 3,983 1,046 1,058 -,057,022 6,655 1,010,944 -,808,118 46,762 1,000,446 -,004,004 1,169 1,280,996,301,158 3,598 1,058 1,351,490,161 9,295 1,002 1,632 -,917,282 10,548 1,001,400 a. Variable(s) entered on step 1: midutd, høyutd. 17

Block 3: Method = Enter Omnibus Tests of Model Coefficients 1 Block Model Chi-square df Sig. 24,455 6,000 24,455 6,000 115,315 13,000 Model Summary 1-2 Log Cox & Snell Nagelkerke likelihood R Square R Square 1880,112 a,066,095 a. Estimation terminated at iteration number 4 because parameter estimates changed by less than,001. 1 a stfgov lrscale rlgdgr kvinne alder midutd høyutd hedopp sorøst agdroga vest trønde nord Constant Variables in the Equation B S.E. Wald df Sig. Exp(B),019,030,418 1,518 1,020,058,029 4,074 1,044 1,060 -,050,023 4,977 1,026,951 -,844,119 49,913 1,000,430 -,005,004 1,648 1,199,995,321,161 3,994 1,046 1,379,510,164 9,650 1,002 1,666,515,224 5,310 1,021 1,674,192,176 1,184 1,276 1,211 -,189,199,896 1,344,828,035,178,039 1,843 1,036,112,227,244 1,622 1,119 -,682,238 8,186 1,004,505 -,910,315 8,337 1,004,403 a. Variable(s) entered on step 1: hedopp, sorøst, agdroga, vest, trønde, nord. 18

Block 4: Method = Enter Omnibus Tests of Model Coefficients 1 Block Model Chi-square df Sig. 6,390 1,011 6,390 1,011 121,705 14,000 Model Summary 1-2 Log Cox & Snell Nagelkerke likelihood R Square R Square 1873,723 a,070,100 a. Estimation terminated at iteration number 4 because parameter estimates changed by less than,001. 1 a stfgov lrscale rlgdgr kvinne alder midutd høyutd hedopp sorøst agdroga vest trønde nord relpol Constant a. Variable(s) entered on step 1: relpol. Variables in the Equation B S.E. Wald df Sig. Exp(B),018,030,342 1,559 1,018,145,045 10,245 1,001 1,156,081,057 2,037 1,153 1,084 -,851,120 50,327 1,000,427 -,004,004 1,311 1,252,996,328,161 4,145 1,042 1,388,530,165 10,325 1,001 1,699,531,224 5,601 1,018 1,701,193,177 1,192 1,275 1,213 -,184,200,850 1,357,832,040,179,049 1,825 1,040,115,228,257 1,612 1,122 -,680,239 8,122 1,004,506 -,025,010 6,294 1,012,975-1,388,372 13,930 1,000,250 19

Block 5: Method = Enter Omnibus Tests of Model Coefficients 1 Block Model Chi-square df Sig. 35,102 1,000 35,102 1,000 156,807 15,000 Model Summary 1-2 Log Cox & Snell Nagelkerke likelihood R Square R Square 1838,621 a,089,128 a. Estimation terminated at iteration number 5 because parameter estimates changed by less than,001. 1 a stfgov lrscale rlgdgr kvinne alder midutd høyutd hedopp sorøst agdroga vest trønde nord relpol alder2 Constant a. Variable(s) entered on step 1: alder2. Variables in the Equation B S.E. Wald df Sig. Exp(B),024,031,610 1,435 1,024,150,046 10,596 1,001 1,162,083,057 2,082 1,149 1,086 -,885,121 53,271 1,000,413,108,020 28,430 1,000 1,114,212,164 1,669 1,196 1,237,309,170 3,284 1,070 1,362,559,228 6,020 1,014 1,748,206,179 1,325 1,250 1,228 -,142,202,497 1,481,867,052,180,084 1,772 1,054,150,230,425 1,514 1,162 -,694,240 8,354 1,004,500 -,026,010 6,622 1,010,974 -,001,000 31,109 1,000,999-3,604,553 42,543 1,000,027 20

Block 6: Method = Enter 'Omnibus Tests for Model Coeffisients' er fjernet for denne blokken/modellen 1 Model Summary -2 Log Cox & Snell Nagelkerke likelihood R Square R Square 1831,674 a,093,134 a. Estimation terminated at iteration number 5 because parameter estimates changed by less than,001. 1 a stfgov lrscale rlgdgr kvinne alder midutd høyutd hedopp sorøst agdroga vest trønde nord relpol alder2 rel2 Constant a. Variable(s) entered on step 1: rel2. Variables in the Equation B S.E. Wald df Sig. Exp(B),024,031,610 1,435 1,024,150,047 10,280 1,001 1,162,257,090 8,152 1,004 1,293 -,887,121 53,280 1,000,412,105,020 26,571 1,000 1,111,208,165 1,601 1,206 1,231,325,171 3,621 1,057 1,384,542,228 5,654 1,017 1,720,225,179 1,572 1,210 1,252 -,113,202,313 1,576,893,034,181,035 1,853 1,034,145,230,394 1,530 1,156 -,710,241 8,695 1,003,492 -,026,011 6,262 1,012,974 -,001,000 29,644 1,000,999 -,022,008 6,649 1,010,978-3,719,557 44,531 1,000,024 21

Block 7: Method = Enter 'Omnibus Tests for Model Coeffisients' er fjernet for denne blokken/modellen 1 Model Summary -2 Log Cox & Snell Nagelkerke likelihood R Square R Square 1831,197 a,093,134 a. Estimation terminated at iteration number 5 because parameter estimates changed by less than,001. 1 a stfgov lrscale rlgdgr kvinne alder midutd høyutd hedopp sorøst agdroga vest trønde nord relpol alder2 rel2 kvinutd Constant a. Variable(s) entered on step 1: kvinutd. Variables in the Equation B S.E. Wald df Sig. Exp(B),024,031,613 1,434 1,024,149,047 10,113 1,001 1,161,255,090 8,022 1,005 1,291 -,953,155 37,607 1,000,386,105,020 26,730 1,000 1,111,209,165 1,610 1,204 1,233,260,195 1,792 1,181 1,298,548,228 5,772 1,016 1,730,227,179 1,606 1,205 1,255 -,110,202,293 1,588,896,034,181,035 1,851 1,035,149,230,417 1,518 1,160 -,712,241 8,752 1,003,491 -,026,011 5,961 1,015,975 -,001,000 29,730 1,000,999 -,022,008 6,727 1,009,978,168,243,477 1,490 1,182-3,709,558 44,202 1,000,025 22