MINIMANUAL FOR SPSS Til bruk i metodeundervisningen ved Høyskolen i Oslo Denne minimanualen viser hvordan analyser i metodeundervisningen på masternivå (master i sosialt arbeid, master i familiebehandling og master i styring og ledelse) foretas i SPSS. Per Arne Tufte 20.04.2010
MINIMANUAL FOR SPSS Til bruk i metodeundervisningen ved Høyskolen i Oslo INNHOLD Innhold Innhold... 1 Hvordan starte SPSS?... 2 Vanlig oppstart... 2 Åpne fil fra Fronter... 4 Skjermbildet i SPSS... 5 Skifte til visning av variabelnavn... 7 Hvor finner jeg resultatene av analysene?... 8 Univariate analyser i spss... 10 Deskriptiv statistikk... 10 Slutningsstatistikk - konfidensintervall... 15 Bivariate analyser i SPSS... 18 Krysstabellanalyse... 18 Gjennomsnittsanalyse sammenlikning av to gjennomsnitt... 23 Gjennomsnittsanalyse sammenlikning av mer enn to gjennomsnitt... 26 Korrelasjonsanalyse Pearsons r... 30 Bivariat regresjonsanalyse... 32 Multivariat analyse... 36 Multippel regresjonsanalyse... 36 Trinnvis multippel regresjonsanalyse... 39 1
HVORDAN STARTE SPSS? Nedenfor skiller vi mellom hvordan vi vanligvis åpner SPSS og hvordan vi åpner SPSS på metodekurset. Vanlig oppstart Vanlig oppstart av SPSS er å klikke på SPSS-ikonet på skrivebordet eller velge SPSS på startmenyen: Hvis det dukker opp meldinger på skjermen før SPSS er oppe, vil en vanligvis kunne klikke OK for å bli kvitt meldingen. Etter en stund (det kan ta litt tid) dukker følgende skjermbilde opp: 2
Her kan en velge å åpne datafiler en har brukt tidligere. Hvis en ikke ønsker dette, klikk på Cancel for å bli kvitt åpningsdialogboksen. For å åpne fil, klikk for å åpne fil: Finn datafilen på vanlig måte i den dialogboksen som dukker opp. 3
Åpne fil fra Fronter For å gjøre ting litt enklere åpner vi datafilen (og følgelig SPSS) fra Fronter på metodeseminarene. Logg inn i Fronter og finn mappen for SPSS-seminaret (den kan hete litt forskjellige ting på ulike studier). Klikk på datafilen. Den kan hete ulike ting, men den vil alltid ha endelsen.sav. Seminarleder vil oppgi hvilken fil som skal åpnes, eller du kan lete etter.sav-filen. En dialogboks dukker da opp som spør om du vil åpne filen. Bekreft at du vil det. Etter en stund åpner SPSS og du vil se datafilen som kolonner og rader med tall (se «Skjermbildet i SPSS»). Noen ganger åpner ikke datafilen. Det kan skyldes at flere har forsøkt å åpne filen samtidig. Gjenta prosedyren og be om å åpne filen på nytt. Klikk på SPSS-vinduet og klikk på Yes hvis det er en dialogboks der. Noen ganger klarer ikke pc-en å kople datafilen til SPSS. Det vil da komme opp en boks som spør om den skal finne (Find) programmet som filen skal åpnes i. I stedet for å velge dette, ber du om å lagre filen (Save). Lagre filen på skrivebordet (desktop). Deretter åpner du SPSS og datafilen som beskrevet i foregående underkapittel («Vanlig oppstart»). Husk at datafilen ligger på skrivebordet. 4
Skjermbildet i SPSS Skjermbildet i SPSS viser datamatrisen, det vil enhetenes (radvis) verdier på de ulike variablene (kolonnevis): En kan også få en oversikt over variablene i datamaterialet ved å klikke på den flippen som heter Variable view: For å komme tilbake til datamatrisen klikker du på flippen som heter Data View. 5
Alle analysekommandoene finner du ved å klikke på Analyze på menyraden øverst i skjermbildet: 6
Skifte til visning av variabelnavn En lur ting å gjøre med en gang en har startet SPSS er å sikre at alle dialogbokser viser variabelnavn og ikke variabelbeskrivelser. Velg kommandoen Options på Edit-menyen: Følgende dialogboks dukker opp. Merk av for Display names i stedet for Display labels. Klikk på OK og deretter på OK i de meldingene som dukker opp etterpå. 7
Hvor finner jeg resultatene av analysene? Analyseresultater i SPSS kommer ikke alltid automatisk opp på skjermen. De legger seg imidlertid alltid i et vindu kalt *Output. Du finner dette vinduet ved å lete på nederste rad i skjermbildet: Klikk på vinduet og du får resultatene opp på skjermen (husk at resultatene fra de siste analysene du gjorde ligger helt nederst i output-filen): 8
9
UNIVARIATE ANALYSER I SPSS Deskriptiv statistikk For å få fram univariate analyser av enkeltvariabler velges analysekommandoen FREQUENCIES: Følgende dialogboks kommer opp: Dobbeltklikk på de variablene du ønsker å analysere. De vil dermed bli flyttet over til det høyre feltet i dialogboksen (rett under tittelen Variable(s)). 10
Klikk på knappen Statistics til høyre i dialogboksen for å velge de statistiske målene du ønsker å få beregnet. Følgende dialogboks kommer opp: Merk av de statistiske målene du ønsker. De vanligste er: Mean (gjennomsnitt), Median eller Mode (modus), Std. deviation (standardavvik), Variance, Range (variasjonsbredde), Quartiles (kvartiler), Skewness og Kurtosis. Husk at målenivået på variabelen avgjør hvilke statistiske mål som er meningsfulle. Etter å ha valgt de ønskede statistiske målene klikker du på Continue-knappen (nederst til venstre). Du er nå tilbake til den første dialogboksen. Hvis du ønsker grafisk presentasjon av variabelen, klikker du på knappen Charts til høyre i dialogboksen. Følgende dialogboks kommer opp: 11
Her velger du den typen diagram du ønsker. Husk at du kan bestemme målenheten i diagrammene ved å velge Frequencies (frekvenser) eller Percentages (prosenter). Hvis du velger histogram, har du også muligheten til å inkludere en normalfordelingskurve slik at du kan se om fordelingen på variabelen er normalfordelt eller ikke. Når du har valgt diagramtype, klikker du på knappen Continue slik at du kommer tilbake til den opprinnelige dialogboksen. Her klikker du på OK-knappen slik at SPSS kan iverksette kommandoen. Resultatene av kommandoene blir vist i output-vinduet. Den første boksen viser de statistiske målene som vi har bedt om. Den neste boksen viser frekvensefordelingen for variabelen: 12
Til slutt vises diagrammer hvis vi har bedt om dette: 13
14
Slutningsstatistikk - konfidensintervall For å få SPSS til å beregne et konfidensintervall rundt et gjennomsnitt kan kommandoen ONE-SAMPLE T-TEST benyttes: Følgende dialogboks kommer opp: Klikk den eller de variablene du ønsker å beregne et konfidensintervall for i feltet kalt Test Variables: 15
Hvis du ikke ønsker et 95 prosent konfidensintervall, kan nivået endres ved å klikke på knappen Options. Følgende dialogboks kommer da opp: Her kan nivået endres (for eksempel til 90 eller 99). Klikk deretter på Continue for å bekrefte valget og komme tilbake til den opprinnelige dialogboksen. Klikk på OK for å gjennomføre beregningen. Den første tabellen i output-filen viser antall observasjoner, gjennomsnitt, standardavvik og standardfeil for variabelen. 16
Den andre tabellen viser blant annet konfidensintervallet i de to siste kolonnene: Den nest siste kolonnen viser nederste verdi i konfidensintervallet mens den siste kolonnen viser øverste i intervallet. 17
BIVARIATE ANALYSER I SPSS Krysstabellanalyse For å få fram en krysstabellanalyse i SPSS velges analysekommandoen CROSSTABS: Følgende dialogboks kommer da opp: 18
Velg uavhengig variabel ved å klikke denne inn i feltet kalt Columns. Velg avhengig variabel ved å klikke denne inn i feltet kalt Rows. Klikk deretter på knappen Cells for å angi prosentueringsretning i tabellen. Følgende dialogboks kommer opp: 19
Merk av for Column under Percentages (dersom uavhengig variabel er kolonnevariabel). Trykk på knappen Continue for å godta valget. Du kommer da tilbake til den opprinnelige dialogboksen. Trykk på knappen Statistics. Følgende dialogboks kommer opp: Hvis du ønsker å hypoteseteste sammenhengen i tabellen, merk av for Chi-square. Hvis du ønsker korrelasjonsmål, merk av for Phi and Cramers V (nominalnivå), og/eller Gamma og Kendalls tau-b og Kendalls tau-c (ordinalnivå). Etter å ha markert de målene du ønsker klikker du på Continue-knappen for å komme tilbake til den opprinnelige dialogboksen. Her klikker du på OK for å beregne krysstabellen. Resultatene av kommandoene blir vist i output-vinduet. Den første boksen viser en oversikt over antall observasjoner i krysstabellen: 20
Den andre tabellen i utskriften er selve krysstabellen: Den tredje tabellen viser resultatet av kjikvadrattesten: Den fjerde tabellen viser korrelasjonsmålene: 21
22
Gjennomsnittsanalyse sammenlikning av to gjennomsnitt For å sammenlikne to gjennomsnitt velges analysekommandoen INDEPENDENT- SAMPLES T-TEST: Følgende dialogboks kommer opp: Den avhengige variabelen (intervall- eller forholdstallsnivå) klikkes inn i feltet kalt Test Variable(s). Den uavhengige variabelen klikkes inn i feltet kalt Grouping Variable. 23
Klikk deretter på knappen Define Groups for å angi verdiene på de to gruppene du vil sammenlikne. Følgende dialogboks kommer opp: Etter Group 1 angis verdien for den første gruppen (i vårt tilfelle er verdien 0 fordi dette er koden for menn i dette datamaterialet). Etter Group 2 angis verdien for den andre gruppen (i vårt tilfelle 1 fordi dette er koden for kvinner i dette datamaterialet). Klikk deretter på knappen Continue for å bekrefte valgene. Du kommer da tilbake til den første dialogboksen. Klikk på OK for å beregne gjennomsnittsanalysen. Den første tabellen i utskriften viser antall observasjoner, gjennomsnitt, standardavvik og standardfeil for den avhengige variabelen i de to gruppene vi sammenlikner: 24
Den andre tabellen er stor og viser resultatet av gjennomsnittsanalysen: Se først etter om Levenes test av variansene er signifikant eller ikke. Dersom denne er signifikant (Sig. < 0.050), velg den nederste linjen i tabellen. Dersom den ikke er signifikant (Sig. > 0.050), velge den øverste linjen. Resultatet av signifikanstesten leses i den femte tallkolonnen i tabellen, kalt Sig (2-tailed). 25
Gjennomsnittsanalyse sammenlikning av mer enn to gjennomsnitt For å sammenlikne mer enn to gjennomsnitt velges kommandoen MEANS: Følgende dialogboks kommer opp: Den avhengige variabelen (intervall- eller forholdstallsnivå) klikkes inn i feltet kalt Dependent list. Den uavhengige variabelen klikkes inn i feltet kalt Independent list: 26
Klikk deretter på knappen Options. Følgende dialogboks kommer opp: 27
Merk av for Anova table and eta. Bekreft deretter valget ved å klikke på Continue. Du kommer da tilbake til den opprinnelige dialogboksen. Klikk på OK for å beregne gjennomsnittsanalysen. Den første boksen i output-filen gir en oversikt over antall observasjoner i analysen: Den andre boksen viser gjennomsnitt, antall observasjoner og standardavvik på den avhengige variabelen for de ulike gruppene vi sammenlikner: Den tredje boksen viser resultatet av F-testen (ANOVA): Den siste boksen viser hvor mye varians i den avhengige variabelen som den uavhengige variabelen forklarer (Eta kvadrert): 28
29
Korrelasjonsanalyse Pearsons r For å foreta korrelasjonsanalyse (Pearsons r som forutsetter intervall- eller forholdstallsnivå på begge variablene) velges kommandoen BIVARIATE CORRELATION: Følgende dialogboks kommer opp: 30
Klikk inn de ønskede variablene i feltet kalt Variables: Klikk deretter på OK for å gjennomføre korrelasjonsanalysen. Det kommer kun en tabell i output-filen. Denne viser korrelasjonene mellom variablene (det øverste tallet i hver rute), signifikanssannsynligheten (p-verdien) for korrelasjonen (det midterste tallet i ruten) og antall observasjoner (den nederste tallet i ruten): 31
Bivariat regresjonsanalyse For å foreta regresjonsanalyse som forutsetter en avhengig variabel med høyt målenivå (intervallnivå eller forholdstallsnivå, evt. ordinalnivå med mange verdier) velges kommandoen LINEAR REGRESSION: Følgende dialogboks kommer opp: 32
Klikk den avhengige variabelen inn i feltet kalt Dependent. Den uavhengige variabelen klikkes inn i feltet kalt Independent(s). Klikk deretter på OK for å utføre regresjonsanalysen. Utskriften består av fire tabeller. Den første tabellen gir rett og slett en oversikt over avhengig og uavhengig variabel i modellen. 33
Den andre tabellen viser korrelasjonskoeffisienten mellom avhengig og uavhengig variabel (R), R 2 (forklart varians), justert R 2 (bruk denne) og standardfeilen til estimatet (denne brukes til å beregne konfidensintervall rundt predikerte verdier). Den tredje tabellen viser ANOVA (F-test) for regresjonsmodellen (identisk med den en får i gjennomsnittsanalyser med mer enn to gjennomsnitt). Tallet lengst til høyre (under Sig.) er signifikanssannsynligheten som avgjør om vi må beholde en nullhypotese om at den uavhengige variabelen ikke forklarer noe variasjon i den avhengige variabelen (hvis p er større enn 0.05), eller om vi må forkaste denne hypotesen til fordel for den alternative hypotesen at den uavhengige variabelen forklarer variasjon i avhengige variabelen (hvis p er lavere enn 0.05). I kolonnen df kan en finne antall observasjoner i analysen ved å legge en til det nederste tallet (i dette tilfellet blir antall observasjoner 4563 = 4562 + 1). Den fjerde tabellen inneholder selve regresjonsanalysen. Første rad i tabellen, med tittelen (Constant), viser resultater for konstantleddet. Den neste raden viser resultater for den uavhengige variabelen, i dette tilfellet alder. Første tallkolonne viser de ustandardiserte regresjonskoeffisientene (det er vanligvis disse vi tolker). Andre tallkolonne viser standardfeilen til koeffisientene, mens fjerde tallkolonne viser t-verdien (i en t-test) og femte tallkolonne viser signifikanssannsynligheten. Vi forkaster en nullhypotese om at koeffisienten (første kolonne) er lik 0 i populasjonen dersom signifikanssannsynligheten (i femte kolonne) er lavere enn 0.05. 34
Den tredje tallkolonnen viser den standardiserte regresjonskoeffisienten. Denne viser hvor mange standardavvik den avhengige variabelen endrer seg når den uavhengige variabelen øker med ett standardavvik. Koeffisienten kan også tolkes som en korrelasjonskoeffisient, og i bivariat regresjonsanalyse vil den være identisk med korrelasjonskoeffisienten i tabell 2 i utskriften (se ovenfor). 35
MULTIVARIAT ANALYSE Multippel regresjonsanalyse For å foreta multippel regresjonsanalyse som forutsetter en avhengig variabel med høyt målenivå (intervallnivå eller forholdstallsnivå, evt. ordinalnivå med mange verdier) velges kommandoen LINEAR REGRESSION: Følgende dialogboks kommer opp: 36
Klikk den avhengige variabelen inn i feltet kalt Dependent. De uavhengige variabelen klikkes inn i feltet kalt Independent(s). Klikk deretter på OK for å utføre regresjonsanalysen. Utskriften består av fire tabeller. Den første tabellen gir rett og slett en oversikt over avhengig og uavhengig variabel i modellen (ikke så veldig nyttig, med mindre noen uavhengige variabler er blitt fjernet fra modellen). 37
Den andre tabellen viser den multiple korrelasjonskoeffisienten (ikke så veldig nyttig) (R), R 2 (forklart varians), justert R 2 (bruk denne) og standardfeilen til estimatet (denne brukes til å beregne konfidensintervall rundt predikerte verdier). Den tredje tabellen viser ANOVA (F-test) for regresjonsmodellen (identisk med den en får i gjennomsnittsanalyser med mer enn to gjennomsnitt). Tallet lengst til høyre (under Sig.) er signifikanssannsynligheten som avgjør om vi må beholde en nullhypotese om at ingen av de uavhengige variablene forklarer noe variasjon i den avhengige variabelen (hvis p er større enn 0.05), eller om vi må forkaste denne hypotesen til fordel for den alternative hypotesen at minst en av de uavhengige variablene forklarer variasjon i avhengige variabelen (hvis p er lavere enn 0.05). I kolonnen df kan en finne antall observasjoner i analysen ved å legge en til det nederste tallet (i dette tilfellet blir antall observasjoner 4563 = 4562 + 1). Den fjerde tabellen inneholder selve regresjonsanalysen. Første rad i tabellen, med tittelen (Constant), viser resultater for konstantleddet. De neste radene viser resultater for hver av de uavhengige variablene, i dette tilfellet kjønn og alder. Første tallkolonne i tabellen viser de ustandardiserte regresjonskoeffisientene (det er vanligvis disse vi tolker). Andre tallkolonne viser standardfeilen til koeffisientene, mens fjerde tallkolonne viser t-verdien (i en t-test) og femte tallkolonne viser signifikanssannsynligheten. Vi forkaster en nullhypotese om at koeffisienten (første kolonne) er lik 0 i populasjonen dersom signifikanssannsynligheten (i femte kolonne) er lavere enn 0.05. 38
Den tredje tallkolonnen viser den standardiserte regresjonskoeffisienten. Denne viser hvor mange standardavvik den avhengige variabelen endrer seg når den uavhengige variabelen øker med ett standardavvik (kontrollert for de andre uavhengige variablene i modellen). Koeffisienten kan også tolkes som en partiell korrelasjonskoeffisient, det vil si hvor sterk korrelasjonen er mellom en uavhengig variabel og den avhengige, når det er kontrollert for de andre uavhengige variablene i modellen. Trinnvis multippel regresjonsanalyse En effektiv måte å bygge opp trinnvise regresjonsanalyser er å legge inn variabler i blokk. Dette sikrer blant annet at antall observasjoner ikke endrer seg etter hvert som nye uavhengige variabler trekkes inn. I dialogboksen for regresjon skjer det på følgende måte: Etter å ha lagt inn avhengig variabel, legg inn de uavhengige variablene som inngår i første modell: 39
Klikk deretter på knappen Next. De uavhengige variablene som skal legges til i modell 2 klikkes inn under Independent(s) i blokk 2: Dette kan gjentas, avhengig av hvor mange regresjonsmodeller en ønsker å beregne. Etter at en ferdig med å legge inn variablene, klikkes OK. Det vil nå dukke opp fem tabeller i output-vinduet. De fire første er utvidelser av de tabellene vi allerede kjenner. Vi ser at hver av disse tabellene innholder en seksjon for hver regresjonsmodell. Den første tabellen viser hvilke uavhengige variabler som inkludert for hver modell. Husk at hver ny modell inneholder de uavhengige variablene fra foregående modell i tillegg til nye som er inkludert. 40
Den andre tabellen viser multippel korrelasjonskoeffisient (R), R2, justert R2 og standardfeilen til estimatet for hver modell. Den tredje tabellen viser ANOVA og F-test for hver modell: 41
Den fjerde tabellen viser regresjonsresultatene for hver modell (legg merke til at koeffisientene for variablene alder og kjønn har sunket fra modell 1 til 2 fordi vi også har kontrollert for variabelen leder): Den femte tabellen analyserer de variablene som ikke er inkludert i en modell. Følgelig viser tabellen nedenfor kun modell 1 fordi modell 2 inkluderer alle variablene. 42