EXAMININATION FOR SOS3003 Advanced statistical data analysis in the social sciences

Like dokumenter
Logistisk regresjon 2

Logistisk regresjon 1

EKSAMENSOPPGAVE I SOS3003 ANVENDT STATISTISK DATAANALYSE I SAMFUNNSVITENSKAP VÅR 2008.

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EXAMINATION PAPER. Exam in: STA-3300 Applied statistics 2 Date: Wednesday, November 25th 2015 Time: Kl 09:00 13:00 Place: Teorifagb.

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Slope-Intercept Formula

EN Skriving for kommunikasjon og tenkning

NORGES TEKNISK-NATURVITENSKAPELIGE UNIVERSITET Geografisk institutt

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

EKSAMENSOPPGAVE I SOS3003:

Besvar tre 3 av følgende fire 4 oppgaver.

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Eksamen PSY1010 PSYC1100 Forskningsmetode I vår 2013

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap EKSAMEN I SOS3003

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Eksamensoppgave i GEOG1004 Geografi i praksis Tall, kart og bilder

Eksamen ENG1002/1003 Engelsk fellesfag Elevar og privatistar/elever og privatister. Nynorsk/Bokmål

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

Exercise 1: Phase Splitter DC Operation

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

Eksamensoppgave i SOS1002 Samfunnsvitenskapelig forskningsmetode. Examination paper for SOS1002 Research Methods in the Social Sciences

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Eksamensoppgave i SOS1000 Innføring i sosiologi Examination paper for SOS1000 Introduction to Sociology

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Emneevaluering GEOV272 V17

Kartleggingsskjema / Survey

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Examination paper for SOS3050 EMPIRICAL RESEARCH METHODS

PSYC 3101 KVANTITATIV METODE II Eksamen høst 2008

Dean Zollman, Kansas State University Mojgan Matloob-Haghanikar, Winona State University Sytil Murphy, Shepherd University

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

EKSAMENSOPPGAVE FOR SOS3003: ANVENDT STATISTISK DATAANALYSE

Eksamen PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Våren 2011

Andrew Gendreau, Olga Rosenbaum, Anthony Taylor, Kenneth Wong, Karl Dusen

NTNU, Norges teknisk-naturvitenskapelige universitet

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMEN I PSY3100 FORSKNINGSMETODE KVANTITATIV HØSTEN 2012

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i SOS1000 Innføring i sosiologi Examination paper for SOS1000 Introduction to Sociology

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2016

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ

Neural Network. Sensors Sorter

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Datahandling and presentation. Themes. Respekt og redelighet Masterseminar, Frode Volden

Eksamensoppgave i GEOG Geografi i praksis - Tall, kart og bilder

Lineære modeller i praksis

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

EXAMINATION PAPER. Exam in: STA-3300 Date: Wednesday 27. November 2013 Time: Kl 09:00 13:00 Place: Åsgårdsv All printed and written

FINAL EXAM. Exam in: STA-3300 Applied Statistics 2 Date: Wednesday 28. November Time: 09:00 13:00 Place: Åsgårdvegen 9. All printed and written

Eksamen PSY1010 / PSYC1100 Forskningsmetode I

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap EKSAMEN I SOS3003

Examination paper for BI2034 Community Ecology and Ecosystems

Medisinsk statistikk, KLH3004 Dmf, NTNU Styrke- og utvalgsberegning

NTNU, Norges teknisk-naturvitenskapelige universitet

NORGES TEKNISK-NATURVITENSKAPELIGE UNIVERSITET Geografisk institutt

EXAMININATION FOR SOS3003. Advanced statistical data analysis in the social sciences

Examination paper for SØK2009 International Macroeconomics

Han Ola of Han Per: A Norwegian-American Comic Strip/En Norsk-amerikansk tegneserie (Skrifter. Serie B, LXIX)

UNIVERSITY OF OSLO. Faculty of Mathematics and Natural Sciences

Eksamensoppgave i GEOG Menneske og sted I

UNIVERSITETET I OSLO

0:7 0:2 0:1 0:3 0:5 0:2 0:1 0:4 0:5 P = 0:56 0:28 0:16 0:38 0:39 0:23

Eksamensoppgave i SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EXAMINATION PAPER. Exam in: STA-3300 Date: Time: Kl 09:00 13:00 Place: B154, Administrasjonsbygget.

Eksamensoppgave i PSY3100 Forskningsmetode - kvantitativ

Eksamensoppgave i PSY3100 Forskningsmetode kvantitativ

Checking Assumptions

SKOLEEKSAMEN I SOS KVANTITATIV METODE. 27. februar 2017 (4 timer)

C13 Kokstad. Svar på spørsmål til kvalifikasjonsfasen. Answers to question in the pre-qualification phase For English: See page 4 and forward

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i SOS1002 Samfunnsvitenskapelig forskningsmetode Examination paper for SOS1002 Research Methods in the Social Sciences

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Fra krysstabell til regresjon

- All printed and written. The exam contains 16 pages included this cover page

Eksamensoppgave i SOS1002 Samfunnsvitenskapelig forskningsmetode Examination paper for SOS1002 Research Methods in the Social Sciences

TDT4117 Information Retrieval - Autumn 2014

Eksamen PSY1010 PSYC1100 Forskningsmetode I vår 2014

Eksamensoppgave i SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Examination paper for SOS3003 Applied Social Statistics

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Generelle lineære modeller i praksis

Eksamensoppgave i POL1003 Miljøpolitikk, energipolitikk og ressursforvaltning

UTSATT SKOLEEKSAMEN I SOS KVANTITATIV METODE. 29. Mars 2017 (4 timer)

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Eksamensoppgave i SOS1000 Innføring i sosiologi

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Forelesning 17 Logistisk regresjonsanalyse

Den som gjør godt, er av Gud (Multilingual Edition)

Transkript:

NTNU, TRONDHEIM Norwegian University of Science and Technology Department of sociology and political science EXMININTION FOR SOS3003 dvanced statistical data analysis in the social sciences cademic contact during the examination: lbert ndrew Simkus Telephone: 99 53 21 74 Examination date and time: 06 December 2006 09:00 15:00 Examination duration: 6 hours Study points: 15 Number of pages in bokmål, excluding appendix/attachments: 6 Number of pages in English, excluding appendix/attachments 7 including this page. Number of pages in appendix/attachements: 11 Grading date: 03. January 2007 Sensurtelefon: 815 48014 Permitted helpful materials in the examination: Calculator Lawrence Hamilton (1992): Regression with graphics. Belmont, Duxbury. Paul E. Specter (1992): Summated rating scale construction. Newberry Park, Sage. Structural Equation Modeling using MOS: n Introduction Written notes, excluding former examinations and grader s advice.

BOKMÅL Generelle instrukser: For hvert spørsmålssett er den omtrentlige vekten spørsmålene i den seksjonen utgjør av totalkarakteren angitt og den omtrentlige lengden for gode svar er angitt i parenteser før hvert spørsmålssett. Kvaliteten på svarene er viktigere enn lengden. Du må skrive tydelig! SPØRSMÅLSSEKSJON 1 (TOTL VEKT FOR FEM DELER ER 30 PROSENT) ) (Vekt: 5 prosent) (Omtrent ½ side) En av pensumbøkene har forklart regresjon ved å bruke statistikk om vannforbruk. Vurder et annet praktisk eksempel, narkotikasmugling. Jeg mener å huske, muligens feilaktig, at den eneste Oscar Nominee Film for Film of the Year fra Hollywood som inkluderer eksplisitt diskusjon av regresjonsanalyse var filmen Traffic. I denne filmen forklarer sjefen for narkotikasmuglerne i Los ngeles hvor rasjonell hans virksomhet er, delvis basert på regresjonsanalyse av sjansene for at deres illegale narkotikaforsendelser blir stoppet på grensa, avhengig av tidspunkt, hvilken grense man krysser og andre variabler. Disse analysene gir sjefen to viktige former for informasjon: (1) når og hvor grensesmuglere har størst sjanse for å bli tatt og (2) prosentandelen narkotikaforsendelser som i gjennomsnitt forventes stoppet. i) Om denne narkotikasmuglersjefen hadde en god statistiker, hvilken estimeringsteknikk (OLS/LOGISTISK) burde vært benyttet? ii) Beskriv kort hvilke brudd på forutsetningene og tekniske problemer som trolig vil skape problemer i denne analysen. B) (Vekt: 5 prosent) (Omtrent 2 sider) i) Forklar forskjellen mellom en sammenheng / korrelasjon og en interaksjonseffekt i OLS-regresjon. ii) iii) iv) Uten å ta hensyn til utliggere, forklar forskjellen mellom leverage og influence. I OLS, hva er forskjellen mellom en Beta coefficient og en DfBeta? I modellbygging i regresjon er den mest presise signifikanstesten av effektene av å legge til eller trekke fra variabler bruk av signifikanstester for endringer i modellens forklaringskraft (model fit). Det gjøres vanligvis ved at man legger til eller trekker fra en variabel. Nevn tre omstendigheter/årsaker til at du burde teste endringer i forklaringskraft ved å legge til et sett med to eller flere variabler. v) Forklar kort fordeler og ulemper med ustandardiserte og standardiserte regresjonskoeffisienter i OLS-regresjon. 2

C) (Vekt: 10 prosent) (En halv side) I OLS og logistisk regresjon er det mange mål, begrep og statistikker som ligner hverandre. De er ikke matematisk like, men de bidrar med omtrent samme type informasjon og de brukes til samme formål i tolkningen. Det følgende lister opp et antall slike mål. Ordne alle disse målene i en liste med to kolonner med seks linjer. I den første kolonnen lister du opp et mål som brukes i OLS-regresjon, og i den andre kolonnen, på samme linje, lister du opp det tilsvarende målet i logistisk regresjon. For eksempel: OLS-REGRESJON R-square osv LOGISTISK REGRESJON Pseudo-R-square Begrepene som skal ordnes i to parallelle lister er (de står i tilfeldig rekkefølge her): t-test -2 (Log-Likelihood) diskriminering Cook s d F-test sum-of-squares logistisk koeffisient multikollinearitet Wald-statistikk Delta B j ustandardisert b-koeffisient L. R. kjikvadrattest D) (Vekt 5 prosent) (en halv side) i) I måling av holdninger, hva er fordelene ved å bruke en additiv skala basert på 3 15 items, sammenlignet med ett enkelt spørsmål? ii) I en summert skala (summated scale), hva er det mest vanlige målet på skalareliabilitet, og hva er kriteriet for en god verdi i den indeksen for en skala med 12 items? Burde kriteriet vært forskjellig med kun 3 items? Hvilke andre typer analyse kunne vært benyttet for å bestemme om itemene kunne utgjøre en god endimensjonal skala? E. (Vekt 5 prosent) (en halv side) Diagram 1 i appendikset viser en strukturell ligningsmodell (structural equation model). I denne modellen (bare navngi variablene ingen ytterligere forklaring trengs): i) Hvilke(n) variabel/variabler er avhengig(e) variabel/variabler? ii) Hvilke variabler er eksogene? iii) Hvilke(n) variabel/variabler er mellomliggende variabel/variabler ( intervening variables )? iv) Hvilke variabler er umålte/latente/faktor-variabler (unmeasured/latent/factor variables)? v) Hvilke variabler representerer ikke-forklarte feil (unexplained errors)? 3

SPØRSMÅLSSEKSJON 2: OLS-REGRESJON (TOTL VEKT ER 35 PROSENT) Spørsmålene i denne seksjonen er basert på analyser av data fra en representativ nasjonal spørreundersøkelse blant voksne i Polen, som ble gjennomført i april 2005. Spørreundersøkelsen er referert til som NORPOL-surveyen, finansiert av Norges forskningsråd. Dataene har blitt benyttet i flere av forelesningene og demonstrasjonene på dette kurset. Selv om det originale utvalget består av over 4000 case, baserer analysene i denne seksjonen av eksamen seg på et tilfeldig sub-utvalg på ca. 1900 respondenter. Dette sub-utvalget er brukt slik at utvalgsstørrelsen vil være omtrent lik utvalgsstørrelsene for land i European Social Survey dataene brukt i semesteroppgavene til de fleste studentene i dette emnet. For dette settet av spørsmål er den avhengige variabelen en skala av autoritarisme, basert på et sett av holdningsspørsmål i Likertformat. Den summerte scoren for denne skalaen har blitt omkodet til å ha en minimumsverdi på 0 og en maksimumsverdi på 1,0. I tabellen for denne seksjonen i vedlegget er variabelen kalt UTHORIT. Et antall uavhengige variable har blitt inkludert i OLS-regresjonene: 1) Respondentens alder er målt i faktiske år, og variabelen er kalt GE. 2) Det et også en variabel for den kvadrerte verdien av alder, kalt GE_2. 3) Respondentens totale antall år med formell utdanning er inkludert som en variabel kalt EDYRS. 4) Det er en variabel for respondentens religiøsitet, kalt RELIG. Denne variabelen er en skala basert på et antall indikatorer på religiøs atferd, som frekvenser for kirkeframmøte og bønn. Denne variabelen har blitt omkodet slik at den lavest mulige verdien er 0 og den høyeste er 1,0. 5) Respondentens kjønn er representert med en dummyvariabel kalt FEMLE_D. Denne variabelen er kodet 1 for kvinner og 0 for menn. 6) Størrelsen på respondentens hjemsted er representert ved tre kategorier: a) Store byer, b) middels store byer og c) små byer og landområder. To dummyvariabler er benyttet til å representere effektene av denne variabelen. Variabelen BCITY_D har verdien 1 for respondenter som bor i store byer og 0 for de som ikke gjør det. Variabelen RURL_D er kodet 1 for de som bor i små byer og landområder og 0 for de som ikke gjør det. 7) Det er en variabel for den mulige interaksjonseffekten som involverer variablene for kjønn og alder, kalt FEMxEDYRS. Variabelen ble kalkulert ved å multiplisere GE med FEMLE_D. Deskriptiv statistikk for disse variablene finnes i tabell 1 i vedleggene. Tabell 2 rapporterer summeringer og endringsstatistikk for fire modeller. Legg merke til hvilke variabler som er inkludert, lagt til eller fjernet i hver modell! Tabell 3 rapporterer koeffisienter 4

for hver av de fire modellene. Det er lettest å finne ut hvilke uavhengige variable som er inkludert, lagt til eller fjernet i hver modell ved å se nøye på tabell 3. ) Grunnleggende spørsmål om OLS-koeffisienter (15 prosent). i) Bruk koeffisientene i modell 1 til å skrive ut den formelle regresjonsligningen for prediksjon av autoritarisme. ii) Basert på koeffisientene i modell 1, kalkuler den forventede verdien på autoritarismeskalaen for en respondent som er 50 år gammel, mann, med 12 års utdanning og en religiøsitetsscore på 0,70. iii) I modell 1, hvilke variable har ustandardiserte regresjonskoeffisienter som er statistisk signifikante og hvilke har ikke? iv) Basert på koeffisientene i modell 1, beskriv den relative betydningen av alder, utdanning, kjønn og religiøsitet i å forklare variansen i autoritarisme. Hvilke har positive effekter på autoritarisme, hvilke har negative effekter? v) For modell 1, kalkuler et 95% konfidensintervall (nedre og øvre grenser) for regresjonskoeffisienten for effekten av religiøsitet. vi) Hvor stor prosentandel av variansen i autoritarisme er forklart av modell 1? vii) I modell 2, hva er den forventede forskjellen i autoritarisme mellom respondenter i store byer og respondenter i landsområder, kontrollert for effektene av de andre variablene i modellen? B) Modellseleksjon. I disse spørsmålene må du sammenligne de fire ulike modellene. Merk! Noen av svarene kan diskuteres. I noen av svarene er det viktigere at du viser at du skjønner spørsmålet/problemet enn den endelige svaret (10 prosent). i) Er størrelse på bosted en statistisk signifikant analytisk variabel som burde vært beholdt i modellen? Hvorfor? ii) Er multikollinearitet et tema når det gjelder å bestemme om en eller flere variabler burde vært inkludert i modellen? Hvilke(n) variabel/variabler? iii) Diskuter om interaksjonseffekten for kjønn x alder er statistisk signifikant og om den skal inkluderes i modellen. iv) Diskuter årsaker til hvorfor variabelen for alder kvadrert bør eller ikke bør inkluderes i modellen. v) Hvilken modell av de fire ser ut til å være den beste? Er det en modell som ikke er inkludert som kan foretrekkes fram de fire? 5

C) Evaluering av brudd på forutsetningene (10 prosent). Figur 2 7 viser ulike grafer brukt til å identifisere mulige problematiske innflytelsesrike case og evaluerer om forutsetningene om residualene stemmer for data og modell. Disse er alle basert på en av modellene 1-4. i) Hvilke figurer og hvilke mål brukes for å evaluere innflytelsesrike case? Indikerer resultatene seriøse problemer med innflytelsesrike case? Diskuter hvilke om noen case du vil eliminere, og hvorfor. ii) Hvilke figurer brukes til å evaluere homoskedastisitet/heteroskedastisitet? Hvordan vil du evaluere resultatene i denne figuren? Er det andre mål eller en annen type figur som ville vært mer hjelpsom? Si med ord hva du vil se i et godt scatterplott og hva du vil du se i et dårlig. iii) Hvilke konklusjoner vil du trekke fra figur 2? iv) Gi et par eksempler på type data hvor autokorrelasjon forventes å være et problem. Hvilken statistikk brukes til å teste for autokorrelasjon? Bør rekkefølgen på casene i dataene gjøres tilfeldig før man kalkulerer dette målet? v) Hvilke(n) av variablene mistenker du har ikke-lineære effekter? Beskriv i mer detalj noen måter du kan undersøke ikke-linearitet i effektene til disse variablene. SPØRSMÅLSSEKSJON 3: LOGISTISK REGRESJON (VEKT 35 PROSENT) Data for denne delen av eksamen er fra den sammen polske undersøkelsen som ble brukt i seksjonen om OLS-regresjon. Siden et større antall manglende verdier er inkludert i denne seksjonen, har antall case ikke blitt kunstig redusert for disse analysene. I disse analysene er den avhengige variabelen en dikotom variabel, basert på et surveyspørsmål hvor respondentene ble spurt om endringen fra det tidligere sosialistregimet (før 1990) til kapitalisme hadde ført til gevinst eller tap for majoriteten av det polske folk. Denne variabelen, kalt CPLOSS har blitt omkodet slik at de som svarte only losses eller more losses than gains er kodet 1. De som svarte the same, more gains than losses, eller only gains er kodet 0. ltså er dette en variabel som måler om respondenten har et NEGTIVT syn på konsekvensene av endringen til kapitalisme for de fleste polakker i det minste for 2005. En positiv verdi på den avhengige variabelen betyr at respondentene anså endringene mer som tap. De uavhengige variablene inkluderer: 6

1) Respondentens kjønn, kalt GENDER. I dette tilfellet er menn kodet som 1 og kvinner som 0. Legg merke til at dette er det motsatte av hva som var tilfellet i OLS-eksempelet! 2) Respondentens alder, kalt GE. 3) Respondentens alder kvadrert, kalt GE_2. 4) ntall år formell utdanning respondenten har, kalt EDYRS. 5) Den naturlige logaritmen av respondentens månedlige inntekt, kalt RINC_ln. 6) Respondentens subjektive oppfatning av deres sosiale posisjon i det polske systemet, evaluert på en skala fra 1 for laveste nivå til 10 for høyeste nivå. Variabelen er kalt SUBPOSN. De vedlagte sidene inkluderer tabeller fra SPSS som viser resultater fra en serie logistiske regresjonsmodeller basert på disse dataene. ) Hvilken av de tre modellene er best? Hvorfor? Foreslå en forbedring du ville prøvd i en annen modell, men med de samme variablene, i tillegg til disse tre. B) Skjer det en endring i den statistiske signifikansen til en eller flere variabler når andre variabler legges til? Gi en substansiell sosiologisk/politisk/psykologisk tolkning av hvorfor det er en endring når andre variabler legges til modellen. C) I modell/blokk 3, hva er oddsratioen for effekten av et ekstra år utdanning på om respondenten tror at endringen til kapitalisme ledet til tap for de fleste polakker? D) I modell/blokk 3, hva er oddsratioen for effekten av å være mann på om respondenten tror at endringen til kapitalisme ledet til tap for de fleste polakker? Diskuter om denne effekten er stor og om den er statistisk signifikant. E) Koeffisienttabellen for hver modell lister opp de logaritmiske og multiplikative koeffisientene, men det er ingen koeffisienter i disse tabellene for effekten av hver variabel på sannsynligheten for at den avhengige variabelen har verdien 1. Forklar hvorfor ikke. Forklar kort hvordan du ville demonstrere effektene av en av variablene på den predikerte sannsynligheten. F) Vis i enkle formler forskjellene i sammenhengene mellom logit, oddsratio og sannsynlighet.. G) Veldig kort, list opp to årsaker til at du ikke kan bruke OLS-regresjon med en binær/dikotom avhengig variabel. 7

ENGLISH General Instructions: For each set of questions, the approximate weight given the answers for that section toward the total grade, and the approximate length of good answers for that section are given in parentheses before each set of questions. The quality of the answers is more important than the length of the answers. You must write clearly! TSK BLOCK 1 (TOTL WEIGHT FOR FIVE PRTS IS 30 PERCENT) ) (Weight: 5 percent) (bout ½ page) Your textbook has explained regression using statistics on water use. In the spirit of using practical, although totally discouraged, examples, consider drug smuggling. s I may mistakenly recall, the only Hollywood Oscar Nominee Film for Film of the Year that included explicit discussion of regression analysis was the film Traffic. In this film, the illegal drug business boss in Los ngeles explains how rational his business is, partly on the basis of using regression analyses of the chances of their illegal drug shipments getting caught at the border, depending on the time of day, which border crossing, and other variables. These analyses evidently provide the boss drug smuggler with two important forms of information: First, when and where border smuggling attempts are most likely to be caught; Second, the percentage of drug shipments which can be expected to be caught on the average to be written off as a normal cost of business. i) If this fictional drug boss had a good statistician, which kind of estimation (OLS/LOGISTIC) should have been being used? ii) Describe, very briefly, which violations of assumptions and technical problems would be likely cause problems in the analysis. B) (Weight: 5 percent) (bout two pages.) i) Explain the difference between a relationship / correlation and an interaction effect in OLS regression. ii) iii) iv) With regard to outliers, explain the difference between leverage and influence In OLS, what is the difference between a Beta coefficient and a DfBeta? In model-building in regression, the most precise tests of significance for the effects of adding or subtracting variables involve using significance tests for change in the model fit, usually involving adding or subtracting a single variable. Name three circumstances/reasons why you should test changes in fit by adding a block of two or more variables. v) Briefly explain the advantages and disadvantages of unstandardized versus 8

standardized regression coefficients in OLS regression. C) (Weight: 10 percent) (One half page) In OLS and logistic regression, there are many measures, concepts, and statistics which are analogous to each other. They are not mathematically the same, but they provide roughly similar kinds of information and they are used for similar purposes in interpretation. The following lists a number of such measures. rrange all these measures in a list in two columns with six lines. In the first column, list a measure which is used in OLS regression, and in the second column, on the same line, list the analogous measure used in logistic regression. For example: OLS REGRESSION R-square and so on LOGISTIC REGRESSION Pseudo-R-square The terms to be arranged into the parallel lists are - (they are in random order here): t-test -2 (Log-Likelihood) discrimination Cook s d F-test sum-of-squares logistic coefficient multicollinearity Wald statististic Delta B j unstandardized b coefficient L. R. Chi-square-test D) (Weight 5 percent) (one half page) i) In measuring attitudes, what are the advantages of using an additive scale based on 3 15 items, as opposed to a single question? ii) In a summated scale, what is the most common measure of scale reliability, and What is the criterion for a good value of that index for a scale with 12 items? Should the criterion be different with just 3 items? What other kinds of analysis could be done to determine whether or not the items could make a good unidimensional scale? E. (Weight 5 percent) (one half page) Diagram 1 in the appendix shows a structural equation model. In this model (just name the variables no further explanation is needed). i) Which variable(s) are dependent variable(s)? ii) Which variables are exogenous? iii) Which variable(s) is/are intervening variables? iv) Which variables are unmeasured/latent/factor variables? v) Which variables represent unexplained errors? 9

TSK BLOCK 2: OLS-REGRESSION (TOTL WEIGHT IS 35 PERCENT) The questions in this section are based on analyses of data from a representative national survey of adults in Poland carried out in pril 2005. The survey is referred to as the NORPOL survey, funded by the Research Council of Norway. The data have been used in a number of lectures and demonstrations for this course. lthough the original sample includes over 4000 cases, the analyses in this section of this exam are based on a random sub-sample of approximately 1900 cases. This sub-sample is being used so that the sample size will be roughly similar to the sample sizes for individual countries in the European Social Survey the data used by most students in this course for their semester term papers. For this set of questions, the dependent variable is a scale of authoritarianism, based on a set of Likert-format attitude questions. The summed score for this scale has been rescaled to have a minimum possible value of 0 and a maximum of 1.0. In the tables for this section in the attachments, this variable is named UTHORIT. number of independent variables have been included in OLS regressions: 1) The respondent s age is measured in actual years of age, and the variable is named GE. 2) There is also a variable for the squared value of years of age, named GE_2 3) The respondents total number of years of formal education is included as a variable named EDYRS. 4) There is a variable for the religiosity of the respondents, named RELIG. This variable is a scale based on a number of indicators of religious behavior, such as the frequency of church attendance and the frequency of prayer. This variable has been rescaled such that its lowest possible value is 0 and its highest possible value is 1.0. 5) The gender of the respondent is represented by a dummy variable named FEMLE_D. This variable is coded as 1 for females and 0 for males. 6) The size of the respondent s place of residence is represented by three categories: a) Large cities, b) middle-sized cities, and c) small towns and rural areas. Two dummy variables are used to represent the effects of this conceptual variable. The variable BCITY_D has a value of 1 for respondents who live in large cities, and 0 for those who do not. The variable RURL_D is coded as 1 for those living in small towns and rural areas, and 0 for those who do not. 7) There a a variable for a possible interaction effect involving the variables for gender and age, named FEMxEDYRS. This variable is calculated as GE multiplied by FEMLE_D. The basic descriptive statistics for these variables are listed in Table 1 in the attachments. 10

Table 2 reports summary and change statistics for a series of four models. Note carefully which variables are being included, added, or removed in each successive model! Table 3 reports coefficients for each of the four models. It is easiest to observe which independent variables are being included, added, or removed in each model by examining Table 3 carefully. ) Basic questions about OLS coefficients (15 percent). i) Using the coefficients for Model 1, write out the formal regression equation for predicting authoritarianism. ii) Based on the coefficients for Model 1, calculate the expected value of the authoritarianism scale for a respondent who is fifty years old, male, with 12 years of education, and a religiosity scale score of.70. iii) In Model 1, which variables have unstandardized regression coefficients which are statistically significant, and which do not? iv) Based on the coefficients in Model 1, describe the relative importance of age, education, gender, and religiosity in explaining the variance in authoritarianism. Which has positive effects on authoritarianism, which has negative effects? v) For Model 1, calculate a 95% confidence interval (lower and upper limits) for the regression coefficient for the effect of religiosity. vi) What percentage of the variance in authoritarianism is explained by Model 1? vii) In Model 2, what is the expected difference in authoritarianism between respondents in big cities and respondents in rural areas, controlling for the effects of the other variables in the model? B) Issues in model selection. For these questions you need to compare the four different models. Note! Some of these answers are debatable. For some answers, a showing you understand the issues is more important than the final decision (10 percent). i) Is size of place of residence a statistically significant analytic variable which should be kept in the model? Why? ii) Is multicollinearity an issue in deciding whether or not one or more variables should be included in the model? Which variable(s)? iii) Discuss whether or not the interaction effect for gender x age is statistically significant and should or should not be included in the model. iv) Discuss reasons why the variable for age-squared should or should not be included in the model. 11

v) Which model out of the four seems the best model? Is there a model which is not included which may be preferable to any of the four? C) Evaluation of violations of assumptions (10 percent). Figures 2 7 display various graphs used for identifying possible problematic influential cases and evaluating whether assumptions about the residuals seem to be met by the data and model. These are all based on one of the Models 1 4. i) Which figures and which measures are used for evaluating influential cases? Do the results indicate serious problems with influential cases? Discuss which if any cases you would eliminate, and why. ii) Which figure(s) are used to evaluate homoskedacity/heteroskedacity? How would you evaluate the results of this figure? re there other measures or a different kind of figure which would be more helpful? State in words, what you want to see in a good such scatterplot, and what you would see in a bad one? iii) What conclusions would you draw from Figure 2? iv) Give a couple of examples of kinds of data where autocorrelation is expected to be a problem. What statistic is used to test for autocorrelation. Should order of the cases in the data be randomized before calculating this measure? v) Which of the variables are you most suspicious may have non-linear effects? Describe some ways you might investigate non-linearity in the effects of these variables in more detail? TSK BLOCK 3: LOGISTIC REGRESSION (WEIGHT 35 PERCENT) The data for this portion of the examination are from the same Polish survey used for the previous section on OLS regression. Given a larger number of missing values for the variables included in this section, the number of cases has not been artificially reduced for these analyses. For these analyses, the dependent variable is a dichotomous variable, based on a survey question in which respondents were asked whether the change from the former (pre-1990) socialist regime to capitalism had brought gains or losses for the majority of Polish people. This variable, named CPLOSS has been recoded such that those who answered only losses or more losses than gains are coded with a value of 1. Those who answered the same, more gains than losses, or only gains are coded 0. So, this is a variable for whether or not respondents had a NEGTIVE view of the consequences of the change to capitalism for most Poles at least as of 2005. positive value of the dependent variable means respondents saw the changes as as involving more losses. 12

The independent variables used include the following: 1) Gender of the respondent, named GENDER. In this case males are coded as 1 and females as 0. Note that this is the opposite to the case in the OLS example! 2) ge of the respondent in years, named GE. 3) ge of the respondent squared, named GE_2. 4) The number of years of education of the respondent, named EDYRS. 5) The natural logarithm of the respondents monthly income, named RINC_ln. 6) The respondent s subjective perception of their position in the Polish system of social stratification, evaluated on a scale of 1 for the lowest level and 10 for the highest level. This variable is named SUBPOSN. The attached pages include tables from SPSS output for the results of a series of logistic regression models based on these data. ) Which of the three models is best? Why? Suggest an improvement you would try in another model, addition to these three, using the same variables. B) Is there a change in the statistical significance of one or more variables as additional variables are added? Give a substantive sociological/political/psychological interpretation of why there is a change as additional variables are added to the model. C) In Model/Block 3, what is the odds ratio for the effect of one extra year of education on whether or not a respondent believes that the change to capitalism led to losses for most Poles? D) In Model/Block 3 what is the odds ratio for the effect of being male on whether or not a respondent believes that the change to capitalism led to losses for most Poles? Discuss whether or not this effect is large, and whether or not it is statistically significant. E) The tables of coefficients for each model list the logarithmic and multiplicative coefficients, but there are no coefficients in these tables for the effect of each variable on the probabilities of the dependent variable having a value of 1. Explain why not. Briefly explain how you would demonstrate the effects of one of the variables on the predicted probability? F) List in simple formulas the difference relationships between the logit, the odds ratio, and the probability. G) Very briefly, list two reasons why you cannot use OLS regression with a binary/dichotomous dependent variable. 13

PPENDIX/ TTCHMENTS Figure 1. For task / block 1, part E. e4 Parents Status Respondents Education e1 1 e2 1 e3 1 Fathers Education ITEM1 ITEM2 ITEM3 1 TTITUDE Mothers Education e5 14

Documentation for task block 2. Table 1. Descriptive Statistics N Minimum Maximum Mean Std. Deviation UTHORIT 1911,14 1,00,688,145 GE 1911 19,00 92,00 46,609 18,252 GE_2 1911 361,00 8464,00 2505,371 1808,166 EDYRS 1911 4,00 16,00 10,746 2,739 RELIG 1904,10,88,649,155 FEMLE_D 1911,00 1,00,516,499 BCITY_D 1911,00 1,00,309,462 RURL_D 1911,00 1,00,499,500 FEMLExGE 1911,00 92,00 24,860 27,539 Table 2. Model summary for four consecutive models. M o d e l R R Square djusted R Square Std. Error of the Estimate Change Statistics R Square Change F Change df1 df2 Sig. F Change 1,381(a),145,143,13410,145 64,620 5 1897,000 2,387(b),150,147,13382,004 4,975 2 1895,007 3,403(c),162,159,13286,013 28,384 1 1894,000 4,401(d),161,158,13293 -,001 2,933 1 1894,087 a Predictors: (Constant), FEMLExGE, EDYRS, RELIG, GE, FEMLE_D b Predictors: (Constant), FEMLExGE, EDYRS, RELIG, GE, FEMLE_D, BCITY_D, RURL_D c Predictors: (Constant), FEMLExGE, EDYRS, RELIG, GE, FEMLE_D, BCITY_D, RURL_D, GE_2 d Predictors: (Constant), EDYRS, RELIG, GE, FEMLE_D, BCITY_D, RURL_D, GE_2 15

Table 3. Coefficients for each of three models. Unstandardized Coefficients Standardized Coefficients Collinearity Statistics Model B Std. Error Beta t Sig. Tolerance VIF 1 (Constant),619,024 25,687,000 GE,001,000,183 5,715,000,438 2,282 FEMLE_D,027,017,094 1,580,114,128 7,796 RELIG,188,021,202 8,958,000,887 1,128 EDYRS -,011,001 -,203-8,563,000,798 1,254 FEMLExGE -,001,000 -,139-2,120,034,105 9,498 2 (Constant),620,025 24,641,000 GE,002,000,191 5,937,000,435 2,297 FEMLE_D,027,017,094 1,584,113,128 7,797 RELIG,180,021,194 8,496,000,860 1,162 EDYRS -,010,001 -,188-7,619,000,739 1,354 FEMLExGE -,001,000 -,139-2,123,034,105 9,502 RURL_D,000,008 -,002 -,059,953,525 1,903 BCITY_D -,022,009 -,070-2,466,014,554 1,805 3 (Constant),528,030 17,443,000 GE,006,001,796 6,744,000,032 31,512 FEMLE_D,021,017,074 1,252,211,128 7,828 RELIG,184,021,198 8,728,000,859 1,164 EDYRS -,011,001 -,205-8,303,000,726 1,377 FEMLExGE -,001,000 -,111-1,712,087,105 9,561 RURL_D,001,008,004,123,902,525 1,905 BCITY_D -,020,009 -,064-2,259,024,553 1,808 GE_2-5,07E- 005,000 -,634-5,328,000,031 31,995 4 (Constant),536,030 17,864,000 GE,006,001,774 6,595,000,032 31,148 FEMLE_D -,006,006 -,020 -,913,361,931 1,075 RELIG,183,021,197 8,694,000,860 1,163 EDYRS -,011,001 -,199-8,137,000,742 1,348 RURL_D,001,008,005,159,874,525 1,905 BCITY_D -,020,009 -,063-2,233,026,553 1,807 GE_2-5,20E- 005,000 -,650-5,477,000,031 31,796 a Dependent Variable: UTHORIT 16

17 Figure 2. Distribution of residuals 2 0-2 -4 Regression Standardized Residual 125 100 75 50 25 0 Frequency Mean =1,03E-15 Std. Dev. =0,999 N =1 904 Histogram Dependent Variable: UTHORIT Cases weighted by weight Figure 3. Scatterplot of residuals by predicted value of the dependent variable. Linear Regression through the Origin 0,50000 0,60000 0,70000 0,80000 Unstandardized Predicted Value -0,40000 0,00000 0,40000 Unstandardized Residual Unstandardized Residual = 0,00 * PRE_1

18 Figure 4. bsolute values of residuals by predicted values of dependent variable. Linear Regression through the Origin 0,50000 0,60000 0,70000 0,80000 Unstandardized Predicted Value 0,00 0,10 0,20 0,30 0,40 BSRES BSRES = 0,15 * PRE_1

Figure 5. Dfbetas for the intercept, age, religiosity, education, and gender (outliers identified by case identification number). 19

Figure 6. Cook s d (Note that the scale for the Y-axis is in scientific notation!) 1181 1,50000E-2 2619 1,25000E-2 1,00000E-2 2548 1328 7,50000E-3 5,00000E-3 1391 794 2,50000E-3 1904 0,00000E0 Cook's Distance Cases weighted by weight 20

Figure 7. Unstandardized residuals. 21

Tables from a series of logistic-regression models for task block 3. Note that in SPSS output, each model is referred to as a BLOCK. Logistic Regression Block 0: Beginning Block Variables in the Equation B S.E. Wald df Sig. Exp(B) Step 0 Constant -,310,037 69,912 1,000,733 Block 1: Method = Enter Omnibus Tests of Model Coefficients Step 1 Chi-square df Sig. Step 165,502 4,000 Block 165,502 4,000 Model 165,502 4,000 Model Summary Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square 1 3887,084(a ),054,073 a Estimation terminated at iteration number 3 because parameter estimates changed by less than,001. Step 1(a) Variables in the Equation B S.E. Wald df Sig. Exp(B) GE,017,003 43,070 1,000 1,017 EDYRS -,115,017 46,819 1,000,891 RINC_ln -,032,015 4,434 1,035,968 GENDER(1),115,078 2,174 1,140 1,122 Constant,227,248,836 1,360 1,255 a Variable(s) entered on step 1: GE, EDYRS, RINC_ln, GENDER. 22

Block 2: Method = Enter Omnibus Tests of Model Coefficients Step 1 Chi-square df Sig. Step 48,634 1,000 Block 48,634 1,000 Model 214,136 5,000 Model Summary Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square 1 3838,450(a ),069,093 a Estimation terminated at iteration number 4 because parameter estimates changed by less than,001. Step 1(a) Variables in the Equation B S.E. Wald df Sig. Exp(B) GE,014,003 29,138 1,000 1,014 EDYRS -,094,017 30,322 1,000,910 RINC_ln -,026,015 2,813 1,094,974 GENDER(1),148,079 3,532 1,060 1,160 SUBPOSN -,144,021 47,802 1,000,866 Constant,733,261 7,886 1,005 2,080 a Variable(s) entered on step 1: SUBPOSN. Block 3: Method = Enter Omnibus Tests of Model Coefficients Step 1 Chi-square df Sig. Step 33,899 1,000 Block 33,899 1,000 Model 248,035 6,000 Model Summary Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square 1 3804,551(a ),080,108 a Estimation terminated at iteration number 4 because parameter estimates changed by less than,001. 23

Step 1(a) Variables in the Equation B S.E. Wald df Sig. Exp(B) GE,085,013 45,762 1,000 1,089 EDYRS -,107,017 38,142 1,000,898 RINC_ln -,041,016 6,508 1,011,960 GENDER(1),147,079 3,439 1,064 1,159 SUBPOSN -,128,021 36,716 1,000,880 GE_2 -,001,000 33,423 1,000,999 Constant -,656,357 3,383 1,066,519 a Variable(s) entered on step 1: GE_2. 24