Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt. Data fra likelonn.sav og vi ser på variablene Salnow, Edlevel og Sex (hvor menn er kodet 0 og kvinner 1). Ser vi på de ubetingede effektene av sex og edlevel på salnow finner vi at: Salnow pred = a + b 1 *Sex = 16.577 + -6.164*Sex Salnow pred = a + b 1 *Edlevel = -7.332 + 1.564*Edlevel Dersom vi gjennomfører en multippel regresjonsanalyse finner vi de betingede effektene av variablene sex og edlevel altså effekten av hver av disse for personer med samme verdier på den andre variabelen: Salnow pred = a + b 1 *Sex + b 2 *Edlevel Salnow pred = -3.000 + -3.369*Sex + 1.357*Edlevel Vi ser at effekten av Sex blir halvert men ikke borte - når vi kontrollerer for Edlevel. a i ligningen over blir å tolke som forventet Salnow for personer som har 0 på alle de uavhengige variablene her menn med 0 års utdanning. b 1 blir å tolke som forskjellen mellom menn og kvinner for personer med 0 års utdanning men siden effekten av Sex er den samme på alle nivåer av Edlevel (se figur), kan vi tolke denne som effekten av Sex for personer med samme verdier på Edlevel. Tilsvarende tolkning får vi selvsagt for effekten av Edlevel.
Her er vi interesserte i de "partielle" eller "betingede" effektene av edlevel og sex: effekten av en variabel når vi "holder andre variabler konstante" - eller "sammenligner personer med samme verdier på andre variabler". Disse partielle effektene kan vi beskrive ved ustandardiserte regresjonskoeffisienter. Men ofte er det mer interessant å bruke standardiserte effekter. Da kan vi bruke: Standardiserte regresjonskoeffisienter: hvor mye endrer y seg målt i antall standardavvik når x øker med ett standardavvik. Hvor mye av variasjonen i y kan vi forklare ved x når vi "kontrollerer" for z (partiell forklart variasjon). Velger vi det siste har vi to vanlige muligheter: kvadrert part korrelasjon eller kvadrert partiell korrelasjon. Hvordan disse er beregnet er lettere å se dersom vi benytter et annet program for regresjonsanalysen (GLM, Univariate). Her får vi beregnet "Partial Eta Squared". Dette er den partielle korrelasjonskoeffisienten som vi fikk fra regresjonsprogrammet kvadrert. For Edlevel:.60 2 =.36 og for Sex: -.306 2 =.094.
Disse er beregnet slik: 6327.143 / (6327.143+11272.531) =.36 og 1165.593 / (1165.593+11272.531) =.094 Vi kunne også benyttet "Eta Squared". Dette vil være part korrelasjonskoeffisienten som vi får fra regresjonsprogrammet kvadrert - og denne er beregnet slik: 6327.143 / 22066.639 =.287 =.535 2 og 1165.593 / 22066.639 =.05 = -.23 2 Tolkning:
Sentrering. Her som ofte ellers blir a en i regresjonsligningen et temmelig uinteressant tall siden 0 års utdanning ikke forekommer (hvertfall ikke i dette materialet). Vi kan gi denne en annen tolkning dersom vi sentrerer variabelen Edlevel. Sentrering innebærer at vi bruker avvik fra gjennomsnittet som skårer på en ny variabel: compute cedlevel = edlevel - 13.49156118. Dersom vi gjør samme analysen som over men med den sentrerte Edlevel får vi: Salnow pred = 15.303 + -3.369*Sex + 1.357*Edlevel Det eneste som endrer seg er verdien for a. Denne er fortsatt å tolke som forventet Salnow for personer som har skåren 0 på Sex og 0 på Edlevel, men verdien 0 på Edlevel betyr nå gjennomsnittlig verdi på Edlevel. a blir altså nå forventet Salnow for menn med gjennomsnittlig utdanning. Sentrering endrer dermed bare tolkningen av konstantleddet i ligningen ingenting annet. Dette er imidlertid bare sant dersom vi ikke har et interaksjonsledd med i analysen! Interaksjon. Med interaksjon så forstår vi at effekten av en variabel varierer avhengig av nivå på en annen variabel. At det kan være slik her kan dere se ved å lage et scatterplot hvor salnow er plottet avhengig av edlevel - men separat for menn og kvinner:
Eller dere kan bruke data, split file - og gjøre en regresjonsanalyse separat for menn og kvinner: Da får dere følgende resultat fra SPSS: Regresjonskoeffisienten for menn er da: 1.69 og regresjonskoeffisienten for kvinner er:.698. Legg merke til at forskjellen mellom disse regresjonskoeffisientene er:.698-1.69 = -.992! Det ser altså ut til at edlevel har en sterkere effekt på salnow for menn enn for kvinner - men vi får ingen test på hvorvidt denne forskjellen er statistisk signifikant. Men dette kan løses slik: dersom X påvirker Y på en lineær måte kan vi skrive det slik: Y = a + b*x Dersom vi nå har en tredje variabel Z som påvirker den effekten X har på Y (b), kan vi skrive en lineær modell for effekten av Z på effekten av X: b = c + d*z Vi må også tillate at Z påvirker skjæringspunktet (a), altså: a = e + f*z
Setter vi inn i den opprinnelige ligningen for effekten av X på Y, får vi: Y = (e + f*z) + (c + d*z)*x Og dermed: Y = e + f*z + c*x + d*(z*x) Vi får altså korrekte estimater av Y ved å tilpasse en regresjonsmodell med prediktorene X, Z og produktet Z*X til data. Den totale forklarte variansen (R 2 ) og signifikanstesten av interaksjonsleddet (d i modellen over), er uavhengig av hvordan vi koder de dikotome variablene men tolkningen av de andre effektene (e, f og c i modellen over) er ikke det! Dersom vi i vårt eksempel tenker oss at effekten av utdanning er avhengig av hvorvidt man er mann eller kvinne, får vi altså: Salnow pred = a + b 1 *Sex + b 2 *Edlevel + b 3 *(Sex*Edlevel) For å undersøke interaksjonseffekten her, kan vi altså bare lage en ny variabel som er produktet av de to uavhengige variablene, og gjennomføre en vanlig regresjonsanalyse: compute interact=sex*edlevel. Salnow pred = -7.816 + 9.591*Sex + 1.690*Edlevel + -.992*(Sex*Edlevel) Dersom dere setter inn 0 og 1 og eventuelt noen verdier for Edlevel i ligninga over, så ser dere at a fortsatt må bli forventet Salnow for menn med 0 års utdanning - mens b 3 (interaksjonsleddet) er et ekstra fradrag i lønn som kvinner vil få, og som gir et fradrag som øker med økende Edlevel. Men nå har vi fått en positiv hovedeffekt av Sex kvinner har plutselig høyere lønn enn menn! Ser dere på figuren nedenfor hvor predikerte verdier er plottet, så ser dere hva som skjer.
Siden vi nå har tillatt interaksjon (ikke parallelle linjer) så betyr jo det at effekten av Sex kan være forskjellig på ulike nivåer av Edlevel. Da er det ikke likegyldig lenger hvilket nivå av Edlevel vi velger når vi estimerer effekten av Sex. Ser dere på ligninga over, så uttrykker b 1 effekten av Sex når Edlevel er 0 dvs. den estimerer forskjellen mellom menn og kvinner for personer med 0 års utdanning. Av alle nivåer av Edlevel vi kunne valgt er vel kanskje dette det minst interessante! Vi kan i stedet bruke den sentrerte utgaven av Edlevel (husk å sentrere før dere lager interaksjonsleddet): compute cinteract=sex*cedlevel. Dersom vi nå gjør samme analyse får vi: Sentreringen av Edlevel har ingen konsekvenser for effekten av Edlevel og interaksjonsleddet, men det fører til en annen tolkning av a og b 1 - som nå kan tolkes som henholdsvis forventet Salnow for menn med gjennomsnittlig utdanning og forskjellen mellom kvinner og menn for personer med gjennomsnittlig utdanning og det er jo mye mer interessant.
I tillegg har denne sentreringa en svært nyttig bivirkning. Den reduserer korrelasjonen mellom de uavhengige variablene og interaksjonsleddet, noe som reduserer multi-kollinearitetsproblemet som vi så vidt nevnte. Så konklusjonen er: dersom dere analyserer interaksjonseffekter så bruk sentrerte variabler! Eller for den del bruk sentrerte variabler uansett det gjør jo i det minste konstantleddet tolkbart. Ikke lineære sammenhenger. Et spesialtilfelle av interaksjon der hvor effekten av en variabel er avhengig av nivået på samme variabel, kan løses på samme måte som ved interaksjon mellom to variabler: Dersom X påvirker Y kan vi ivareta dette ved: Y = a + b*x Dersom nå variabelen X påvirker den effekten X har på Y (b), kan vi skrive en lineær modell for dette: b = c + d*x Setter vi inn i den opprinnelige ligningen for effekten av X på Y, får vi: Y = a + (c + d*x)*x eller: Y = a + b 1 *X + b 2 *X 2 Dersom vi har en sammenheng mellom X og Y som best beskrives ved en kurve, kan vi altså ivareta det ved å tilpasse en regresjonsmodell med både X og X 2 som uavhengige variabler.
Dersom vi skal gjøre en slik analyse i vårt eksempel må vi først lage en kvadrert variant av Edlevel: compute edlevel2=edlevel**2. Og resultatet blir slik: Salnow pred = 34.17 + -4.971*Edlevel +.245*Edlevel 2 Tolkningen av a blir som før forventet Salnow når Edlevel=0. Tolkningen av b 1 blir ikke veldig interessant mens tolkningen av b 2 blir at dette gir et tillegg i Salnow som øker når Edlevel øker. Dette er dette leddet som bøyer av kurven. Dersom punktene hadde lagt på en rett linje, ville dette leddet blitt 0. En statistisk signifikant b 2 vil dermed innebære at vi har et statistisk signifikant avvik fra en rett linje. Dersom vi ønsker en annen tolkning av a kan vi eventuelt sentrere Edlevel - og a vil bli å tolke som forventet Salnow ved gjennomsnittlig Edlevel. Vi kan alternativt få a til å bli forventet Salnow ved laveste utdanningsnivå ved å endre Edlevel til: compute edlevel=edlevel 8 og compute edlevel2=edlevel**2. Da får vi følgende resultat: a vil nå være å tolke som forventet Salnow for personer med 8 års utdanning.
Vi kan selvsagt nå enkelt inkludere variabelen Sex i analysen: Og dersom vi plotter de predikerte verdiene ser det slik ut: Effekten av Sex er som tidligere forskjellen mellom kvinner og menn og denne er konstant for alle nivåer av Edlevel (ingen interaksjon). Ser ikke slik ut fra figuren men sånn er det Vi kunne selvsagt nå også inkludere en mulig interaksjon i modellen (kurvene kunne hatt forskjellig hellning og krumning ), men det kan dere eventuelt eksperimentere med selv.