EKSAMENSOPPGAVE FOR SOS3003: ANVENDT STATISTISK DATAANALYSE

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap EKSAMENSOPPGAVE FOR SOS3003: ANVENDT STATISTISK DATAANALYSE Vår 2012 Faglig kontakt under eksamen: Albert Andrew Simkus Telefon: 99 53 21 74 Eksamensdato og tidspunkt: 31. Mai 2012 09:00 15:00 Eksamenstid: 6 timer Studiepoeng: 15 Antall sider bokmål, appendiks ekskludert: 7 inkludert denne siden Antall sider nynorsk, appendiks ekskludert: 6 Antall sider engelsk, appendiks ekskludert: 6 Antall sider i vedlegg: 7 Sensurdato: 21. Juni 2012 Tillatte hjelpemidler: Kalkulator Ingen bøker eller notater er tillat under eksamineringen! Formler som kan være nødvendige for besvarelsen ligger på en egen side i vedlegget.

BOKMÅL Generell instruks: Foran hvert spørsmål er det oppgitt omtrentlig vekt og omtrentlig lengde på et godt svar. Dette angir anbefalt lengde for et godt svar, og skal hjelpe deg så du ikke skriver for kort eller for langt. Kvaliteten på svaret er mye viktigere enn lengden. Karakteren på eksamenen blir basert på den samlede kvaliteten på besvarelsen, og spesielt gode svar på noen av spørsmålene vil kunne veie opp for mindre gode svar på andre. Det blir også tatt hensyn til at enkelte spørsmål med hensikt er laget enkle, mens andre er vanskeligere å besvare. Formålet med dette er at det skal være mulig for sensorene å få oversikt over spennet i kunnskapen din rundt dette temaet. Hvis du har norsk som morsmål, anbefales det allikevel at du leser den engelskspråklige versjonen i tillegg for å forsikre deg om at du forstår detaljene i spørsmålene korrekt. Den norske versjonen vil allikevel være tilstrekkelig for å kunne besvare eksamen. Du må skrive tydelig! Fremhev hvilket spørsmål du besvarer, og presenter besvarelsen i samme rekkefølge som oppgaveteksten!

SPØRSMÅL DEL I (Den samlede vektleggingen av denne oppgavedelen utgjør omtrent 30 prosent av hele karakteren) Svarene på de fleste av disse spørsmålene bør være veldig korte og presise. Det er mulig at i noen tilfeller så vil svaret være noe lignende Nei, dette gir ikke mening (gi da en kort forklaring på hvorfor). 1. Kontrollert for effekten av de andre uavhengige variablene, hvilket mål i OLS angir gjennomsnittlig endring i den avhengige variabelen som følge av en enhets økning i den uavhengige variabelen? 2. Dersom du trekker 1.96 ganger standardfeilen fra en koeffisient for å få en verdi, for så å legge til 1.96 standardfeil til den samme koeffisienten for å få en annen, hvilket mål har du da beregnet? 3. Hvilket mål i logistisk regresjon er det som tilsvarer verdien av t opphøyd i andre? 4. I hvilke tilfeller kan konstantleddet i en multippel OLS-regresjon angi en predikert verdi på den avhengige variabelen? 5. Forestill deg at du ser på et sett med statistiske estimat fra en multippel regresjonsmodell. Du legger merke til at den ustandardiserte regresjonskoeffisienten for variabelen alder er 0,000, men at t-testen indikerer at koeffisienten er statistisk signifikant. Samtidig ser du at koeffisienten for dummyvariabelen kjønn (å være mann) er 0,05 og ikke statistisk signifikant. Er dette mulig, eller er det en opplagt feil? Gi en kort forklaring. 6 10. Følgende fem spørsmål er basert på tabellen nedenfor. Denne tabellen viser resultatet fra en OLS-regresjon der den avhengige variabelen er en holdningsskala som omhandler kjønnsroller fra en survey i Polen. MEN! Fem av tallene i denne tabellen har blitt endret slik at de har verdier som ikke kan være riktig gitt de andre tallene i tabellen. I alt er det fem feil og det er ikke mer enn en feil på hver horisontale linje i tabellen. Identifiser feilene og forklar hvorfor de må være feil. Navngi de fem svarene fra 6-10 i den rekkefølgen de ligger i tabellen. Model 1 (Constant) AGE Female Education Level of Education Urban Residence Type Religiosity Church attendance Unstandardized Coefficients B Std. Error a. Dependent Variable: GENSCALE2 SCALE zv33 + zv34 + zv35 + zv37 + zv40 + zv43 Coefficients a Standardized Coefficients Beta 95% Confidence Interval for B t Sig. Lower Bound Upper Bound 18,510,941 19,661,000 16,661 20,359 -,068,501 -,254-6,192,000 -,090 -,047 1,926,379,208 5,082,000 1,926 2,670,237,084,122 2,830,671,073,402,085,112,033,760,047 -,135,304 -,164,181-3,017 -,904,366 -,519,192

11. Beskriv de relative fordelene og ulempene ved å benytte 1) DFBETA, 2) leverage og 3) Cook s D når du skal se etter potensielle problemer dataene dine kan inneholde. 12. Hvilke typer analyser kan ikke gjøres i SPSS uten å benytte det mer spesialiserte programmet AMOS? 13 I AMOS, hva er forskjellen på variabler som er representert ved rektangler og variabler representert av ovaler? 14 Tenk deg at du har en uavhengig variabel X som korrelerer med en avhengig variabel Y. I tillegg er der en tredje variabel Z som kan forårsake en «spuriøs» sammenheng mellom X og Y. Hvordan ville du ha benyttet multippel regresjon for å evaluere om en slik spuriøs sammenheng eksisterer (hvilken modell ville du ha kjørt og hvordan ville du ha evaluert de mulige utfallene)? Hvordan ville en enkel stianalyse gi deg en mer sofistikert tolkning enn den som vil bli gitt under en forelesning for ett samfunnsvitenskapelig metodekurs på begynnernivå? 15. Hva står forkortelsen «SEM» for? Nevn minst to tilfeller der denne teknikken kan være nyttig. 16. Hvordan kan du på en enkel måte å se om du har et problem med multikolinearitet i logistisk regresjon, selv om denne metoden tilsynelatende strider litt mot reglene (det er lov)? 17. Er heteroskedastisitet et problem i logistisk regresjon? Hvis ja, hvordan må du håndtere det? 18. Survey data fra albanere og serbere i Kosovo i 2003 ble analysert ved hjelp av OLSregresjon. Variabelen som ble predikert målte tradisjonalisme i moralske verdier og ble rangert på en skala fra 1 til 5 (5 indikerer mest tradisjonell). Uavhengige variabler inkluderer MALE (en dummyvariabel hvor menn er kodet «1» og kvinner er kodet «0»), EDUYRS (antall år utdanning fullført), AGE (alder målt i år), SRB (en dummyvariabel hvor serbere har verdien 1 og albanere har verdien 0 ) og ett samspill mellom SRB og AGE. Med en R- square på.077 var resultatene som følger: Coefficients a Standardized Unstandardized Coefficients Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 3,989,095 41,901,000 MALE -,062,040 -,033-1,547,122 AGE Years of age, limited to 21 - -,002,002 -,027-1,127,260 80 EDYEARS -,036,005 -,153-6,682,000 SRB -,742,139 -,314-5,324,000 SRBxAGE,007,003,131 2,169,030 a. Dependent Variable: MORALV3

Forklar ved hjelp av ord (forsiktig og presist) den eksakte betydningen av den ustandardiserte regresjonskoeffisienten for AGE, SRB og SRBxAGE. «Ekstra kreditering»: Hva betyr uttrykket «sentrering på gjennomsnittet» i en slik regresjonsanalyse? Hvordan ville din tolkning av resultatene ha endret seg dersom «sentrering på gjennomsnittet» hadde vært benyttet? 19. Hvilket spesifikt statistisk mål kan du benytte om du er interessert i å finne ut om det finnes uteliggere som kan påvirke regresjonskoeffisienten til en enkelt, teoretisk viktig, uavhengig variabel? 20. Tilsvarer BETA-koeffisienten i OLS-regresjon oddsratioene (eller multiplikative koeffisienter») i logistisk regresjon? Er de like eller ulike i sine tolkninger? Forklar kort hvorfor. 21. Hva er navnet til ett av de mest brukte målene på skalaers reliabilitet, og hva vil være akseptable eller «gode» verdier for dette målet? 22 25. (Spørsmål om dummyvariabler) 22. Du analyserer effekten av «formell utdanning» på en avhengig variabel. Du setter inn en kontinuerlig variabel for antall år med utdanning i en regresjonsanalyse og den viser en verdi som ikke er statistisk signifikant forskjellig fra null. Når du fjerner denne variabelen og erstatter denne med et sett av fem dummyvariabler som indikerer høyeste fullførte utdanningsnivå så viser det seg at dette gir en signifikant forbedring av modellen basert på F-testen for forbedring av modellen. Hvordan kan dette være tilfellet? 23. I en analyse av en annen avhengig variabel, så finner du en nesten perfekt lineær sammenheng (signifikant på 0,05-nivå) mellom utdanning og den avhengige variabelen når du benytter den kontinuerlige variabelen «år med formell utdanning» som forklaringsvariabel. Når du bytter ut denne variabelen med et sett av fem dummyvariabler, som indikerer «høyeste fullførte utdanningsnivå», har ikke denne modellen signifikant bedre forklaringskraft sammenlignet med en modell hvor utdanning ikke er inkludert. Hva er en sannsynlig forklaring på hvorfor det å legge til disse dummyvariablene ikke resulterer i en signifikant forbedring av R-square? 24. Du må teste inklusjon av dummyvariabler som representerer en enkelt teoretisk variabel i en OLS-regresjon. Er det mest fornuftig å inkludere dem en etter en, på en trinnvis måte, basert på t-tester for hver dummy, eller å inkludere hele settet og enten akseptere eller forkaste alle dummyene basert på en F-test for forbedring av modellen? 25. Dersom man i en endelig modell har akseptert et sett av dummyvariabler, som representerer en enkelt teoretisk variabel, er da effektene for alle disse dummyvariablene signifikant forskjellige fra hverandre? Hvilket statistisk mål i «outputten» bruker du som en indikasjon på om spesifikke dummyer er statistisk forskjellige fra de andre? Vil det å endre referansekategori være til hjelp?

Spørsmål 26 30. Advarsel! Ødelagte tall! De følgende fem spørsmålene er basert på tabellen nedenfor. Denne tabellen viser resultatene fra en logistisk regresjonsmodell hvor den avhengige variabelen er basert på et spørsmål fra 2003-2004 South-East European Social Survey. Spørsmålet var: Do you agree or disagree I support the efforts of the International court to try war criminals from the war in this country, regardless of what side they were on. Svarene strongly agree og agree ble kodet til verdien 1, mens svar som antydet at man ikke var enig, ble kodet til 0. Data fra den originale tabellen kom fra Bosnia & Hercegovina og var et representativt utvalg for hele landet med en utvalgsstørrelse på rundt 3000 for dette spørsmålet. Variablene for kjønn, religiøsitet (høyere verdi indikerer mer religiøs) og antall år utdannelse er innlysende. Det er også en variabel med fire kategorier som angir hvor ruralt respondentens bosted er, hvor den fjerde kategorien er mest rural og den første kategorien er mest urban. Men! En spesialist i data-hacking har vært slem og forandret tabellen, slik at den nå inneholder fem store feil som en våken statistiker vil kunne avdekke hvis han eller hun følger godt med. Disse løper fra innlysende til mindre innlysende feil, og krever litt kalkulering (inntasting av et nummer og en funksjonsknapp) for å avdekke. Det finnes ikke mer enn én feil på noen av de horisontale linjene i tabellen, og fire av de ni horisontale linjene har ingen feil. Pek på de fem feilene og nevn de etter hvert som du ser dem når du går igjennom tabellen fra topp til bunn. (Ikke bruk for mye tid på dette! Ser du de ikke raskt, gå videre og returner til denne oppgaven senere!) Variables in the Equation Step 1 a MALE(1),341,080 18,183 1,000 1,406 B S.E. Wald df Sig. Exp(B) FEMALE(2),005,003 3,162 1,075 1,005 RELIGIOSITY -,160,039 17,236 1,000 -,852 URBRUR4 40,288 3,000 URBRUR4(1),537,248 4,698 1,030 1,711 URBRUR4(2) -,427,196 4,769 1,029,501 URBRUR4(3) -,703,316 2,225 1,026,495 EDYEARS -5,019,013 2,106 1,147,981 Constant 1,298,349 13,795 1,000 3,662 a. Variable(s) entered on step 1: MALE, AGE, RELIGIOSITY, URBRUR4, EDYEARS.

SPØRSMÅL DEL II OG III I begge eksamensoppgavene benyttes data fra den første intervjurunden av European Social Survey (ESS), som ble utført i 2002. Denne bølgen inkluderte 22 land, og spørsmålene her er basert på data fra bare tre av disse landene: Storbritannia, Norge og Polen. DEL II: OLS REGRESJONSANALYSE (TELLER OMTRENT 35 prosent) Den avhengige variabelen i regresjonsanalysen er en skala for tillit til samfunnsinstitusjoner. Se på dokumentasjonen i tabellvedlegget. a) Hvilken av de tre modellene er best? Kunne andre statistiske mål, som ikke er inkludert i denne analysen, vært til hjelp i evalueringen av dette? b) Skriv ligningen for predikert verdi, basert på utvalget. c) Er det forskjeller mellom landene når det gjelder tillit til samfunnsinstitusjoner? d) Lag (tegn) et enkelt betinget effektplot (diagram) som illustrerer effekten av utdanning for de tre landene. e) Vurder følgende hypoteser: H1: Alder har en lineær effekt på tillit til samfunnsinstitusjoner. H2: Kvinner har mindre tillit til samfunnsinstitusjoner enn menn. H3: Utdanning har ingen effekt på tillit til samfunnsinstitusjoner i Polen. f) Vurder om forutsetningene til modell 3 er tilfredsstilt. Kunne noen av figurene, som benyttes til vurderingen av dette, vært forbedret? DEL III: LOGISTISK REGRESJON (TELLER 35 prosent) Den avhengige variabelen i denne logistiske regresjonen er FREEGL, som har verdien 1 hvis respondenten var helt enig i utsagnet Gay men and lesbians should be free to live their own life as they wish. Ellers har variabelen verdien null. a) Skriv ned ligningen for modellen. b) Beskriv sammenhengen mellom alder og holdning til homofile og lesbiske. c) Beskriv sammenhengen mellom ekteskapelig status og holdning til homofile og lesbiske. d) Er det samspill mellom land og kjønn på holdning i modellen? e) Finn oddsratioene for å være helt enig i at homofile og lesbiske bør få leve som de vil mellom kvinner og menn i Storbritannia, Norge og Polen. Hva forteller de tre oddsrationen (kan beskrives i en kort sosiologisk setning)? f) Finn predikert sannsynlighet for å være helt enig i at homofile og lesbiske bør få leve som de vil for en 50 år gammel ugift mann med ti års utdanning, som er bosatt i Norge.

Dokumentasjon og tabeller for DEL II: OLS Regresjonsanalyse Avhengig variabel: SYSTRUST en skala som beregner gjennomsnittlig skåre på spørsmål om tillit til fire samfunnsinstitusjoner: Using this card, please tell me on a score of 0-10 how much you personally trust each of the institutions I read out. 0 means you do not trust an institution at all, and 10 means you have complete trust. Firstly the parliament, the legal system, the police, politicians? Uavhengige variabler: I regresjonsanalysen er land dummykodet med Polen som referansekategori.

Dokumentasjon og tabeller for DEL III: Logistisk regresjonsanalyse

Vedlegg: Formler Y*= bo + b1 + b2 + b3 + b4 + b5.. L*= bo + b1 + b2 + b3 + b4 + b5.. L=ln(O) O = e L P = 1 / (1 + e - L )