EKSAMENSOPPGAVE I SOS3003 ANVENDT STATISTISK DATAANALYSE I SAMFUNNSVITENSKAP VÅR 2008. Faglig kontakt under eksamen: Albert Andrew Simkus Telefon: 99 53 21 74 Eksamensdato og tidspunkt: 20. mai 2008 09:00 15:00 Eksamenstid: 6 timer Studiepoeng: 15 Antall sider bokmål, ekskludert appendiks vedlegg: 8 Antall sider nynorsk, ekskludert appendiks / vedlegg: 8 Number of pages in English, excluding appendix / attachments: 8 Antall sider med appendiks og vedlegg: 11 Sensurdato: 6. juni 2008 Sensurtelefon: 815 48014 Tillatte hjelpemidler under eksamen: Kalkulator Hamilton, Lawrence (1992): Regression with graphics. Belmont, Duxbury. Specter, Paul E. (1992): Summated rating scale construction. Newberry Park, Sage. Structural Equation Modelling using AMOS: An Introduction Tilleggsbøker I statistikk for samfunnsvitere. Egne notater, unntatt tidligere eksamener og sensorveiledninger.
BOKMÅL Generell instruks: Foran hvert spørsmål er det oppgitt omtrentlig vekt og omtrentlig lengde på et godt svar. Dette angir anbefalt lengde for et godt svar, og skal hjelpe deg så du ikke skriver for kort eller for langt. Kvaliteten på svaret er mye viktigere enn lengden. Karakteren på eksamenen blir basert på den samlede kvaliteten på besvarelsen, og spesielt gode svar på noen av spørsmålene vil kunne veie opp for mindre gode svar på andre. Det blir også tatt hensyn til at enkelte spørsmål med hensikt er laget enkle, mens andre er vanskeligere å besvare. Sluttkarakteren blir gitt på grunnlag av den totale besvarelsen. Sensoren(e) har årelang erfaring fra forskjellige norske universiteter. Noen spørsmål tester den basis-kunnskap som det forventes at alle som har tatt kurset i SOS3003 har, mens andre spørsmål tester for den spesielle kunnskapen relatert til denne type forskning spesielt. Dette for å lettere kunne gradere besvarelsene. Hvis du har norsk som morsmål, anbefales det allikevel å lese den engelskspråklige versjonen i tillegg, for å forsikre deg om at du forstår detaljene i spørsmålene korrekt. Du må skrive tydelig! Framhev tydelig hvilket spørsmål du besvarer, og presenter besvarelsen i samme rekkefølge som oppgaveteksten! SPØRSMÅL DEL I DEN SAMLEDE VEKTLEGGINGEN AV DENNE OPPGAVEDELEN UTGJØR OMTRENT 50 PROSENT. INGEN AV SPØRSMÅLENE BØR KREVE MER ENN ¼ TIL 1 SIDE FOR Å BLI BESVART. Noen kan besvares i en setning eller med ett symbol. 1.1 1.25 1.1 Hva er forskjellen mellom median og statistisk gjennomsnitt? 1.2 Hvilket mål i OLS regresjon angir forventet forandring på den avhengige variabelen når verdien på en uavhengig variabel øker med ett trinn? 1.3 Hva er den største og minste verdi R-kvadrat kan ha i OLS regresjon? 1.4 I OLS regresjon, hva er forskjellen mellom den ustandardiserte regresjonskoeffisienten(e) og Beta koeffisienten (Et enkelt, men korrekt skriftlig svar holder ingen formler nødvendig) 1.5 I logistisk regresjon og med presise statistiske begrep nøyaktig hva forklarer regresjonskoeffisienten? (Forklaring på eksakt hva den avhengige variabelen er, er en del av svaret). 1.6 Hva er forskjellen mellom standardavvik og standardfeil? 1.7 I logistisk regresjon; hva tilsvarer kvadratroten av WALD-målet i OLS regresjon. 1.8 I logistisk regresjon, hvorfor er det nyttig å ha standardfeilen på regresjonskoeffisientene inkludert i output? Hvordan kan de være til nytte i sammenligninger av uavhengige variabler? Hvorfor vil du vite deres verdi? Vær presis! 1.9 Er problemet med ensidige vs tosidige tester relevant i både logistisk og OLS regresjon?
1.10 Tenk deg at du har signifikante positive effekter for to kategorier: kjønn (kvinner er kodet som positiv), antall år utdanning og samspillet disse imellom. Effekten av å være mann er positiv, effekten av utdannelse er positiv og effekten av samspillet mellom utdannelse og det å være mann er positiv. Hvordan kan du statistisk forklare sammenhengen? 1. Effekten av kjønn øker med alder 2. Effekten av alder er større for menn enn for kvinner 3. Både 1 og 2. 4. Ingen av de ovenfor. 1.11 I logistisk regresjon, når vil du ønske å gi mest oppmerksomhet og legge mest vekt på den analoge til Cook s D, og når vil du vie mest oppmerksomhet til DFBETA? 1.12 Skriv ligningen for å predikere den avhengige variabelen når du har to uavhengige variabler. 1.13 I logistisk regresjon tilsvarer de multiplikative koeffisientene (anti-logs av regresjons koeffisientene) BETA koeffisientene i OLS regresjon? 1.14 Navngi og gi en kort forklaring på to forskjellige analytiske modeller hvor du kan kalkulere estimater ved hjelp av AMOS, men hvor du ikke kan kalkulere estimater ved SPSS regresjon. Navngi en type analyse som KAN estimeres ved hjelp av SPSS regresjon, men som ved veldig kompliserte modeller, er mye lettere å analysere ved bruk av AMOS. 1.15 Gi en kort forklaring på hvorfor verdiene av regresjonskoeffisienter forandres når flere uavhengige variabler tas med i en modell. 1.16 I logistisk regresjon, hva er forskjellen mellom log-likelihood og log-likelihood CHIkvadrat? Hvis du utvider en modell ved å legge til flere uavhengige variabler, vil loglikelihood Chi-kvadrat bli større eller mindre? 1.17 I logistisk regresjon, hva er formlene for omforming mellom verdiene L, O og P? 1.18 Hva er navnet på en pålitelighets (reliability) koeffisient som brukes til å måle pålitelighet for Likert skalaer? Hva er maksimums- og minimumsverdiene for koeffisienten og hva er standarden for hvilket nivå som indikerer akseptabel pålitelighet? 1.19 I strukturelle ligningsmodeller (equation models), hva er forskjellen mellom målmodellen (the measurement model) og den strukturelle modellen (the structural model)? 1.20 Tegn to enkle kausaldiagrammer med kun to variabler som hver illustrerer forskjellen mellom en rekursiv kausal sammenheng og en ikke-rekursiv sammenheng.
1.21 1.25 Advarsel! Ødelagte tall! De følgende 5 spørsmålene er basert på tabellen nedenfor. Denne tabellen viser resultatene fra en logistisk regresjons modell hvor den avhengige variabelen er basert på et spørsmål fra 2003-2004 South-East European Social Survey. Spørsmålet var: Do you agree or disagree I support the efforts of the International court to try war criminals from the war in this country, regardless of what side they were on. Svarene strongly agree og agree ble kodet til verdien 1, mens svar som antydet at man ikke var enig, ble kodet til 0. Data fra den originale tabellen kom fra Bosnia & Hercegovina og var et representativt utvalg for hele landet med en utvalgsstørrelse på rundt 3000 for dette spørsmålet. Variablene for kjønn, religiøsitet (høyere verdi indikerer mer religiøs) og antall år utdannelse er innlysende. Det er også en variabel med fire kategorier som angir hvor rural respondentens bosted er, med den fjerde kategorien mest rural og den første kategorien mest urban. MEN! En spesialist i data-hacking har ondskapsfullt forandret tabellen, slik at den nå inneholder 5 store feil, som en våken statistiker vil kunne avdekke hvis han eller hun følger godt med. Disse løper fra innlysende til mindre innlysende feil, og krever litt kalkulering (inntasting av et nummer og en funksjonsknapp) for å avdekke. Det finnes ikke mer enn èn feil på noen av de horisontale linjene i tabellen og tre av de åtte horisontale linjene har ingen feil. Pek på de fem feilene og nevn de etter hvert som du ser dem når du går igjennom tabellen fra topp til bunn. (Ikke bruk for mye tid på dette! Ser du de ikke raskt, gå videre og returner til denne oppgaven senere!) Variables in the Equation Step 1 a MALE(1),341,080 18,183 1,000 1,406 B S.E. Wald df Sig. Exp(B) FEMALE(2),005,003 3,162 1,075 1,005 RELIGIOSITY -,160,039 17,236 1,000 -,852 URBRUR4 40,288 3,000 URBRUR4(1),537,248 4,698 1,030 1,711 URBRUR4(2) -,427,196 4,769 1,029,501 URBRUR4(3) -,703,316 2,225 1,026,495 EDYEARS -5,019,013 2,106 1,147,981 Constant 1,298,349 13,795 1,000 3,662 a. Variable(s) entered on step 1: MALE, AGE, RELIGIOSITY, URBRUR4, EDYEARS.
SPØRSMÅL DEL 2 (DEN SAMLEDE VEKTLEGGINGEN AV DENNE OPPGAVEDELEN UTGJØR OMTRENT 25 PROSENT) Også spørsmålene i denne seksjonen er basert på the South-East European social survey project. Den avhengige variabelen er den samme som i spørsmålene 1.21-1.25 - støtte til den internasjonale domstolen i Haag. Men i denne delen er de basert på en survey i Serbia med omtrent 1800 respondenter for denne variabelen. I første del av dette spørsmålet brukes de samme uavhengige variabler som i spørsmål 1.21-1.25, samt variabelen alder (i antall år). OG, i denne delen av oppgaven er ikke resultatene forandret med den hensikt å være feil. Selv om det kan stilles noen spørsmål med tanke på detaljene rundt vekting av noen av variablene er dette en original analyse av et tilfredsstillende datasett. Spørsmålet i denne delen av oppgaven består av to deler: Først får du resultatene for et sett med generelle sosio-demografiske variabler og blir bedt om å tolke disse. Så vil et sett med dummy-variabler for Serbere som lever i spesifikke deler av Serbia og for medlemmer av etniske minoriteter i Serbia bli lagt til i regresjonen og du vil bli spurt om å forklare din konklusjon basert på disse resultatene. DEL 1. Resultatene fra den første logistiske regresjonen er vist i Appendiks A, side 1. Kalkuler først sannsynlighet, odds og logit av enighet for en respondent som er en mann på 42 år, med 12 års skolegang og en religiøs score på 5, og som bor i den mest rurale kategorien (referanse kategori). Oppsummer så med ord hva disse resultatene indikerer. Bruk 1-2 sider.
DEL 2. Appendiks A, side 2 viser resultatene etter at det er tilført 10 dummy variabler for kategorier av etniske serbere i syv regioner i Serbia, samt kategorier for de største etniske minoritetene i Serbia. Referansekategorien er medlemmer av de gjenstående etniske minoriteter. Disse kategoriene er kun nummerert i regresjonen, men de er identifisert i den følgende tabellen. SRBREGpM Serbs by Regions in Serbia and Minorities in Serbia 1,00 Backa Serbs 2,00 Banat Serbs 3,00 Belgrade Serbs 4,00 WSerbia Serbs 5,00 Sumadija Serbs 6,00 ESerbia Serbs 7,00 SE Serbia Serbs 8,00 Ethnic Bosniaks in Serbia 9,00 Ethnic Hungarians in Serbia 10,00 Ethnic Croats in Serbia 11,00 Other ethnic minorities in Serbia Total Frequency Valid Percent 343 9,5 167 4,6 566 15,7 467 13,0 299 8,3 240 6,7 385 10,7 242 6,7 299 8,3 270 7,5 322 8,9 3600 100,0 Bruk 1-2 sider på å summere opp hva du konkluderer med ut av forandringene i modellen og hovedresultatene i den andre modellen. SPØRSMÅL DEL 3 (DEN SAMLEDE VEKTLEGGINGEN AV DENNE OPPGAVEDELEN UTGJØR OMTRENT 25 PROSENT. EN TILFREDSSTILLENDE BESVARELSE BØR IKKE KREVE MER ENN MELLOM 3 OG 5 SIDER). Denne delen av oppgaven vil vise ditt nivå når det kommer til tolkninger av resultater fra en OLS regresjon. Data i denne seksjonen er fra den samme undersøkelsen som i del 2, og de uavhengige variabler er de samme, med ett unntak. I denne delen er variabelen for urban vs. rural skalert, med høyere verdier jo mer rural respondenten anser seg å være, fremfor et sett med fire kategorier.
I denne delen er respondentene begrenset til etniske serbere. Etniske bosniere og alle andre medlemmer av minoritetsgrupper i Serbia er fjernet fra utvalget. Den avhengige variabelen er skalert som sosial distanse til etniske bosniere. Denne skalaen er basert på seks spørsmål hvor respondentene ble spurt om det ikke ville plage de i det hele tatt, plage de litt eller plage i stor grad hvis flere etniske bosniere var bosatt i landet, i nabolaget, var kollegaer, giftet seg med et nærstående familiemedlem og lignende. Skalaen løper fra 0-100. Selv om det ikke er nødvendig for å kunne svare på spørsmålet, er etnisk bosnisk som begrep brukt om slaviske muslimer med samme aner som serbere, men med forskjellig religion (Serberne er serbisk ortodoks kristne). Selv om dialekten er forskjellig de to gruppene imellom, snakker de tilnærmelsesvis samme språk. Termen etnisk bosnier refererer både til bosniere som er serbiske statsborgere, stort sett bosatt vest i Serbia og til bosniere bosatt i Bosnia og Hercegovina. Det understrekes igjen at spørsmålet skal besvares med fortolkningen av den oppgitte statistikken, ikke med annen lærdom om disse land, eller deres etniske grupperinger. DEL 1. I appendiks B, finner du på side 3 og 4 tabellene som angir resultatene for en serie regresjoner hvor sosial distanse er den avhengige variabelen. Hvis du fikk i oppdrag å skrive en rapport basert på disse regresjonene, hvilken modell, eller hvilke modeller ville du ha inkludert i teksten? Kan du komme med forslag til noen endringer som vil føre til en modell som er bedre enn de som allerede eksisterer? DEL 2. Forklar hovedkonklusjonene som kan trekkes på bakgrunn av disse modellene. Vis at du kjenner igjen hvilke statistiske mål som er viktige, tolk de presist og korrekt og vis hvordan de kan organisere svaret ditt. DEL 3. I appendiks B, sidene 5-11 finner du en serie på syv grafer som er basert på en regresjonsmodell for de samme data og variabler som ovenfor, men som er spesifisert med visse forskjeller fra modellene på sidene 3 og 4. For hver av de syv grafene, gjør kort rede for hva grafene kan brukes som og hva de viser. Hvis du legger merke til noen problemer med dataene, pek på disse og kom med forslag til hvordan dataene kan gjøre bedre.
APPENDIX A, Page 1. Block 1: Method = Enter Omnibus Tests of Model Coefficients Step 1 Step Block Model Chi-square df Sig. 85,884 7,000 85,884 7,000 85,884 7,000 Model Summary Step 1 Cox & Snell Nagelkerke R -2 Log likelihood R Square Square 2548,661 a,044,059 a. Estimation terminated at iteration number 4 because parameter estimates changed by less than,001. Variables in the Equation Step 1 a AGE -,004,003 1,298 1,255,996 B S.E. Wald df Sig. Exp(B) EDYEARS,061,014 20,014 1,000 1,063 URBRUR4 19,265 3,000 URBRUR4(1),488,302 2,612 1,106 1,629 URBRUR4(2),919,278 10,932 1,001 2,506 URBRUR4(3) 1,009,584 2,989 1,084 2,744 RELIGIOSITY,286,052 29,606 1,000 1,331 MALE(1) -,357,096 13,849 1,000,700 Constant -1,927,416 21,455 1,000,146 a. Variable(s) entered on step 1: AGE, EDYEARS, URBRUR4, RELIGIOSITY, MALE. APPENDIX A, Page 2.
Omnibus Tests of Model Coefficients Step 1 Step Block Model Chi-square df Sig. 577,657 10,000 577,657 10,000 663,541 17,000 Model Summary Step 1-2 Log likelihood Cox & Snell R Square Nagelkerke R Square 1971,004 a,295,393 a. Estimation terminated at iteration number 7 because parameter estimates changed by less than,001. Variables in the Equation Step 1 a AGE,003,004,673 1,412 1,003 B S.E. Wald df Sig. Exp(B) EDYEARS,090,017 28,952 1,000 1,094 URBRUR4 2,111 3,550 URBRUR4(1),222,335,440 1,507 1,249 URBRUR4(2),359,308 1,359 1,244 1,432 URBRUR4(3),575,670,736 1,391 1,778 RELIGIOSITY,109,063 2,978 1,084 1,115 MALE(1) -,358,113 9,963 1,002,699 SRBREGpM 347,379 10,000 SRBREGpM(1) -1,318,247 28,430 1,000,268 SRBREGpM(2) -,988,297 11,024 1,001,372 SRBREGpM(3) -1,351,226 35,701 1,000,259 SRBREGpM(4) -1,239,235 27,847 1,000,290 SRBREGpM(5) -2,223,304 53,589 1,000,108 SRBREGpM(6) -1,149,265 18,775 1,000,317 SRBREGpM(7) -1,825,257 50,304 1,000,161 SRBREGpM(8) 3,350,539 38,578 1,000 28,508 SRBREGpM(9),647,248 6,826 1,009 1,910 SRBREGpM(10),870,252 11,930 1,001 2,387 Constant -,998,489 4,159 1,041,369 a. Variable(s) entered on step 1: SRBREGpM. Appendix B, page 3.
Model Summary Change Statistics Model R R Square Adjusted R Square Std. Error of the Estimate R Square Change F Change df1 df2 Sig. F Change 1,196 a,039,034 30,56472,039 9,020 5 1126,000 2,197 b,039,034 30,57045,000,578 1 1125,447 3,206 c,042,035 30,55619,003 1,350 3 1122,257 4,284 d,081,068 30,02057,038 7,732 6 1116,000 a. Predictors: (Constant), URBRUR, RELIGIOSITY Scale of religiosity based on prayer, attendance, belief, and s AGE Age limited to 21-80, MALE Male, EDYEARS Years of Education b. Predictors: (Constant), URBRUR, RELIGIOSITY Scale of religiosity based on prayer, attendance, belief, and s AGE Age limited to 21-80, MALE Male, EDYEARS Years of Education, AGESQ c. Predictors: (Constant), URBRUR, RELIGIOSITY Scale of religiosity based on prayer, attendance, belief, and s AGE Age limited to 21-80, MALE Male, EDYEARS Years of Education, AGESQ, EDUxMALE, AGExMALE, d. Predictors: (Constant), URBRUR, RELIGIOSITY Scale of religiosity based on prayer, attendance, belief, and s AGE Age limited to 21-80, MALE Male, EDYEARS Years of Education, AGESQ, EDUxMALE, AGExMALE, S, Banat, Sumadija, ESerbia, SESerbia, WSerbia Appendix B, page 4.
Coefficients a Model 1 2 3 4 a. (Constant) MALE Male AGE Age limited to 21-80 EDYEARS Years of Education RELIGIOSITY Scale of religiosity based on prayer, attendance, belief, and self-evaluation. URBRUR (Constant) MALE Male AGE Age limited to 21-80 EDYEARS Years of Education RELIGIOSITY Scale of religiosity based on prayer, attendance, belief, and self-evaluation. URBRUR AGESQ (Constant) MALE Male AGE Age limited to 21-80 EDYEARS Years of Education RELIGIOSITY Scale of religiosity based on prayer, attendance, belief, and self-evaluation. URBRUR AGESQ AGExMALE EDUxMALE EDUxAGE (Constant) MALE Male AGE Age limited to 21-80 EDYEARS Years of Education RELIGIOSITY Scale of religiosity based on prayer, attendance, belief, and self-evaluation. URBRUR AGESQ AGExMALE EDUxMALE EDUxAGE Backa_S Banat WSerbia Sumadija ESerbia SESerbia Dependent Variable: SDbosn Unstandardized Coefficients Standardized Coefficients B Std. Error Beta t Sig. 52,716 7,009 7,522,000-2,447 1,872 -,039-1,307,191 -,220,064 -,112-3,445,001-1,203,281 -,155-4,281,000 -,087 1,083 -,002 -,080,936 1,226,511,079 2,400,017 57,927 9,802 5,910,000-2,482 1,873 -,040-1,325,185 -,494,366 -,253-1,349,178-1,163,286 -,150-4,067,000 -,126 1,084 -,003 -,117,907 1,279,516,082 2,480,013,003,004,144,761,447 84,839 17,549 4,834,000-16,024 9,938 -,258-1,612,107-1,039,498 -,531-2,088,037-2,786,989 -,359-2,817,005 -,036 1,087 -,001 -,033,974 1,132,523,073 2,163,031,005,004,246 1,194,233,158,129,134 1,224,221,559,510,111 1,096,274,024,016,173 1,443,149 84,784 17,297 4,902,000-17,000 9,798 -,273-1,735,083 -,971,491 -,497-1,977,048-2,652,977 -,342-2,713,007 -,032 1,072 -,001 -,030,976 1,589,582,102 2,731,006,004,004,203,998,318,180,128,152 1,414,158,581,502,115 1,157,248,024,016,173 1,459,145-12,456 3,192 -,138-3,902,000-13,935 4,120 -,111-3,382,001,408 3,206,005,127,899,334 3,482,003,096,924-14,660 3,652 -,144-4,014,000-2,546 3,208 -,030 -,794,427 Appendix B, page 5. Figure 1.
Appendix B, page 6. Figure 2.
Appendix B, page 7. Figure 3. (The fitted line is a Loess line, a linear regression line shows a similar pattern.)
Appendix B, page 8. Figure 4
Appendix B, page 9. Figure 5.
Appendix B, page 10. Figure 6.
Appendix B, page 11. Figure 7. The frequency distribution for the original dependent variable.