Psykologisk institutt PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2016 Skriftlig skoleeksamen fredag 24. mai, 14:30 (4 timer). Kalkulator uten grafisk display og tekstlagringsfunksjon er tillatt. En liste av relevante formler og en tabell av t-fordelingen er gitt på slutten av oppgaven. Forsøk å besvare alle oppgavene. Oppgave 1: Psykometriske egenskaper til en indeks for jobbtilfredshet (20%) En forsker har utviklet en kort skala bestående fem ledd (Q1-Q5) for å måle jobbtilfredshet. I denne oppgaven skal vi vurdere reliabiliteten til skalaen. a) Hva mener vi med reliabiliteten til et mål, og hva er fordelene og ulempene ved Cronbachs alfa sammenliknet med andre måter å estimere reliabilitet? b) Under finner du SPSS utskriften fra en reliabilitetsanalyse av de fem leddene. Basert på denne utskriften, hva ville du konkludere med angående den indre konsistens reliabiliteten til skalaen, og hvordan ville du gå frem for å forbedre den? c) Forskeren vurderer å fjerne ledd 2 (Q2) fra skalaen, og i det tilfellet ville den gjennomsnittlige korrelasjonen mellom de resterende leddene være 0,437. Ville du anbefale fjerning av ledd 2? Page 1 of 16
Oppgave 2: Kjønn og mellomledelse (15%) I denne oppgaven vil vi studere hvorvidt mellomledere (ledere på et mellomnivå) i 453 firmaer, på tvers av fire ulike sektorer (IT, helse, utdanning, bygg og anlegg) er menn eller kvinner. a) Vurder krysstabellen over. Hva er det forventede antallet mannlige mellomledere i helsesektoren under H 0? b) Hva ville du konkludere vedrørende sammenhengen mellom variablene kjønn (GENDER) og sektor (SECTOR)? Oppgave 3: Prediktorer for jobbtilfredshet (65%) I denne oppgaven vil vi utforske prediktorer for jobbtilfredshet. Du finner SPSS utskrift fra ulike modeller på slutten av oppgaven. Page 2 of 16
JOBBTILFREDSHET: Høyere verdier indikerer større jobbilfredshet. Følgende prediktorer (uavhengige variable) er inkludert: UTD: År med høyere utdanning. VARIASJON: Et mål på variasjon i den ansattes arbeidsoppgaver (en lav skåre indikerer at oppgavene er repetitive). STRESS: Gjennomsnittlig arbeidsrelatert stressnivå rapportert av den ansatte. LØNN: Lønn i 1000 NOK. ALDER: Alder i år. SOSIAL: Høyere nivåer indikerer høyere antall sosiale aktiviteter med kollegaer. PENDLING: Gjennomsnittlig antall minutter den ansatte daglig bruker på pendling til/fra jobb. FRUKT: Kodet 1 dersom kontoret mottar en ukentlig fruktkurv, 0 ellers. b. Først vil vi studere assosiasjonen mellom jobbtilfredshet og stress (Sett A). i. Kovariansen mellom JOBBTILFREDSHET og STRESS er -1.014, og standarddavviket til STRESS variabelen er 2.87. Vis at stigningsgraden til regresjonslinjen er lik -0.123. ii. Diskuter hvorvidt variabelen STRESS er en god prediktor av JOBBTILFREDSHET. iii. Dersom du la til flere uavhengige variabler til modellen som alle hadde svært lav Cronbachs alfa (reliabilitet), hvordan tror du dette ville påvirket statistikkene R Square og Adjusted R Square (justert R-kvadrat)? Begrunn svaret. c. I modell 2 blir LØNN lagt til modellen. i. Hvordan endrer estimatet for stigningsgraden av STRESS seg når LØNN blir lagt til modellen? Hvorfor skjer dette? ii. I koeffisienttabellen er estimatet for standardfeilen (Std. Error) for den uavhengige variabelen LØNN lik 0.005, mens standardfeilen for estimatet (Std. Error of the Estimate) for modell 2 er 2.12. Vurder følgende: o Ville Std. Error of the Estimate bli større eller mindre dersom du brukte et mer reliabelt mål på JOBBTILFREDSHET? Hvorfor? o For øyeblikket er minimum og maksimumverdier for LØNN 251 og 478 respektivt. Ville Std. Error for LØNN bli mindre eller større dersom utvalgsstørrelsen var den samme, men du bare inkluderte folk med en inntekt mellom 300 og 350? Hvorfor? d. I modell 3 blir ALDER, SOSIAL, PENDLING og FRUKT lagt til. i. Hvor mye av variansen i jobbtilfredshet kan bli forklart av de uavhengige variablene i modell 2 og 3? ii. Hvilke av de seks uavhengige variablene i modell 3 er statistisk signifikante prediktorer av JOBBTILFREDSHET på et 0.05 nivå? e. I sett B er vi interessert i prediktorvariablene UTD og VARIASJON. i. Forskerne tror at effekten av utdanning på jobbtilfredshet kan medieres av variabelen VARIASJON. Forklar hva vi mener med en mediator, og diskuter hvorvidt det er mulig å vurdere forskernes hypotese gjennom utskriften fra sett B. Page 3 of 16
f. Under finner du tre diagnostiske plott ofte undersøkt når man gjennomfører en regresjonsanalyse. Kun en av de tre figurene er hentet fra modell 1 (sett A), der ingen underliggende antagelser for regresjonsanalysen er brutt. Hvilken av figurene ville du argumentere er basert på denne modellen? Begrunn svaret. Page 4 of 16
SETT A Page 5 of 16
SETT B: Page 6 of 16
Formelark for PSY2012 Gjennomsnitt: X = 1 n X n i=1 i Varians: Standardavvik: Kovarians: Pearson korrelasjon: s 2 X = n i=1 (X i X ) 2 n 1 s X = s X 2 s XY = n i=1 r = s XY s X s Y (X i X )(Y i Y ) n 1 Odds: Odds = sannsynlighet for at utfallet inntreffer sannsynlighet for at utfallet ikke inntreffer = P occurrence 1 P occurrence Odds ratio: OR = Logistisk regresjon: Least squares estimater for koeffisienter i bivariat regresjon: Standardfeil for stigningskoeffisienten i bivariat regresjon: b 0 = Y b 1 X b 1 = ODDS eksponert ODDS ikke eksponert log ( p 1 p ) = b 0 + b 1X n i=1 n i=1 (X i X ) (Y i Y ) (X i X ) 2 s SE(b 1) = (X i X ) 2 = cov XY s X 2 2 (Y Y ) s = n p 1 Standardisert regresjonskoeffisient: β i = b i s X s Y Sums of squares: (Y i Y ) 2 = (Y i Y ) 2 + (Y i Y ) 2 i Coefficient of determination: Z-score: F-ratio: T-test: Z = r 2 = 1 SS Residual SS Total F = MS Regression MS Residual, er i en multippel regresjonsanalyse distribuert F(df 1=p, df 2=n-p-1) under H 0. t = X μ σ X b i, er i en multippel regresjonsanalyse distribuert t(df=n-p-1) under H0. SE(b i) Page 7 of 16
Cronbach s alpha: α = k ( 1 σ 2 i k 1 σ2 ) α = y k r 1+(k 1) r Kjikvadrat: χ 2 = (O E)2 E, distribuert χ 2 (df = (Rader 1)(Col 1) ) under H 0 E kolonne i, rad j = R j C i n Page 8 of 16
Department of psychology Page 9 of 16
PSY2012 Research methodology III: Statistical analysis, design and measurement Exam Spring 2016 Written school exam, Tuesday 24th of May, 14:30 (4 hours). Calculators without graphical display and text storage are permitted. A list of relevant formulas and a t-table is given at the end of the exercise set. Try to answer all exercises. Exercise 1: Psychometric properties of a scale measuring job satisfaction (20%) A researcher has developed a short scale intended to measure job satisfaction through five items (Q1-Q5). In this exercise we will investigate the reliability of the scale. d) What do we mean by the reliability of a measure, and what are the advantages and disadvantages of Cronbach's Alpha compared to other estimates of reliability? e) Below you can find SPSS output from a reliability analysis of the five questionnaire items. Based on this output, what would you conclude regarding the internal consistency reliability of the scale, and how would you go about improving it? f) The researcher considers removing item 2 (Q2) from the scale, in which case the mean correlation between the remaining items would be 0,437. Would you recommend removing item 2? Page 10 of 16
Exercise 2: Gender and middle management (15%) In this exercise we will investigate whether middle managers (intermediate management) in 453 companies across four different job sectors (IT, health care, education and construction) are male or female. a) Consider the cross table above. What is the expected number of male middle managers in the health care sector under H 0? b) What would you conclude regarding the association between the variables GENDER and SECTOR? Exercise 3: Predictors of job satisfaction (65%) In this exercise we will investigate predictors of job satisfaction. You will find SPSS output for different regression models at the end of the exercise. JOBSAT: Higher values indicate greater job satisfaction. The following predictors (independent variables) are included: EDU: Years of higher education. TASK_VARIATION: A measure of the variability in the work related tasks performed by the employee (a low score indicates that tasks are repetitive). STRESS: Average work-related stress level reported by the employee. PAY: Salary in 1000 NOK. AGE: Age in years. SOCIAL: Higher values indicate higher number of social activities with colleagues. COMMUTE: Average number of minutes the employee spends on daily commute to work. FRUIT: If coded 1, the office receives a fruit basket each week, 0 otherwise. Page 11 of 16
a. First we will consider the association between job satisfaction and stress (Set A). iv. The covariance between JOBSAT and STRESS is -1.014, and the standard deviation of the STRESS variable is 2.87. Show that the slope of the regression line is equal to -0.123. v. Discuss whether the variable STRESS is a good predictor of JOBSAT. vi. If you were to add several additional independent variables to the model, all which had very low Cronbach's alphas (reliability), how do you think this would impact the statistics R Square and Adjusted R Square? (Justify your answer). g. In model 2 the variable PAY is added to the model. i. How does the estimated slope for STRESS change when PAY is added to the model? Why does this happen? ii. In the coefficients table the estimate for the standard error for the independent variable PAY is 0.005, and the std. error of the estimate of model 2 is 2.12. Consider the following: o Would std. error of the estimate be smaller or larger if you used a more reliable instrument to measure JOBSAT? Why? o Currently, minimum and maximum values for the PAY variable are 251 and 478 respectively. Would the Std. Error for PAY be smaller or larger if the sample size was the same, but you only included people with an income between 300 and 350? Why? h. In model 3, AGE, SOCIAL, COMMUTE and FRUIT are added. i. How much of the variance in job satisfaction can be accounted for by the independent variables in models 2 and 3? ii. Which of the six independent variables in model 3 are statistically significant predictors of JOBSAT at a 0.05 level? i. In set B, we are interested in the predictor variables EDU and TASK_ VARIATION. i. The researchers believe that the effect of education on job satisfaction is mediated by task variability. Explain what we mean by a mediator, and discuss whether it is possible to evaluate the hypothesis of the researchers by the output from set B. j. Below you will find three diagnostic plots commonly investigated while performing a regression analysis. Only one of the figures is based on model 1 (SET A), where no assumptions underlying the regression analysis are violated. Which of the three figures would you argue are based on this model? Justify your answer. Page 12 of 16
SET A Page 13 of 16
SET B: Page 14 of 16
Mean: X = 1 n X n i=1 i Formulas for use in PSY2012 Variance: Standard deviation: s 2 X = n i=1 (X i X ) 2 n 1 s X = s X 2 Covariance: Pearson correlation: s XY = Odds: Odds = n i=1 r = s XY s X s Y (X i X )(Y i Y ) n 1 probability of happening probability of not happening = P occurrence 1 P occurrence Odds ratio: OR = ODDS exposed ODDS non exposed Logistic regression log ( p 1 p ) = b 0 + b 1X Least squares estimates for coefficients in bivariate regression: Standard error of the slope in bivariate regression: Standardized regression coefficient: Sums of squares: b 0 = Y b 1 X b 1 = n i=1 n i=1 (X i X ) (Y i Y ) (X i X ) 2 s SE(b 1) = (X i X ) 2 β i = b i s X s Y (Y i Y ) 2 = (Y i Y ) 2 + (Y i Y ) 2 i = cov XY s X 2 2 (Y Y ) s = n p 1 Coefficient of determination: Z-score: F-ratio: T-test: Z = k Cronbach s alpha: α = ( 1 σ i k 1 σ2 ) α = y Chi-square: 2 r 2 = 1 SS Residual SS Total F = MS Regression MS Residual, in a multiple regression analysis distributed F(df 1=p, df 2=n-p-1) under H 0. t = χ 2 = (O E)2 E X μ σ X b i, in a multiple regression analysis distributed t(df=n-p-1) under H0. SE(b i) k r 1+(k 1) r, distributed χ 2 (df = (Rows 1)(Cols 1) ) under H 0 E column i,rowj = R j C i n Page 15 of 16
Page 16 of 16