Analyse med uavhengige varialer på nominal- /ordinalnivå Hvordan rue varialer på nominalnivå (eventuelt ordinalnivå) som har flere enn to verdier i en regresjonsanalyse? Svar: omoder til dummyvarialer Es. Sosial status som har fem verdier: areider ufaglært areider faglært Opprinnelig variael 3 funsjonær laveste 4 funsjonær midd. 5 funsjonær høyeste Nye varialer: ar 0 0 0 0 far 0 0 0 0 funlav 0 0 0 0 funmid 0 0 0 0 funhoy 0 0 0 0 Vi an imidlertid ie ta med alle disse dummyvarialene i en regresjonsmodell fordi vi da får perfet ollinearitet. Vi må utte ut en av varialene. Denne lir referanseategorien som estimatene på de andre varialene toles i forhold til. Christian Poppe, SIFO
Esempel: Valid Missing Ufaglært areider Faglært areider Funsjonærer lavt ompetansenivå Funsjonærer middels omptansenivå Funsjonærer høyt omptansenivå System Missing SOSTATUS Valid Cumulative Frequency Percent Percent Percent 446 3,8 4,8 4,8 368,4, 6,9 498 5,4 6,5 43,4 3 37,8 40,5 83,9 486 5,0 6, 00,0 30 93,3 00,0 8 6,7 8 6,7 339 00,0 (=) (SYSMIS=SYSMIS) (ELSE=0) INTO ar. (=) (SYSMIS=SYSMIS) (ELSE=0) INTO far. (3=) (SYSMIS=SYSMIS) (ELSE=0) INTO funlav. (4=) (SYSMIS=SYSMIS) (ELSE=0) INTO funmid. (5=) (SYSMIS=SYSMIS) (ELSE=0) INTO funhoy. EXECUTE. Christian Poppe, SIFO
Areidstid som funsjon av utdanning, jønn og sosial status Variales Entered/Removed Variales Entered FUNKHO Y, KJONN, FARB, FUNKLAV, UTDAAR, FUNKMID a Variales Removed a. All requested variales entered.. Dependent Variale: ARBTID Summary Method, Enter Std. Error Adjusted of the R R Square R Square Estimate,490 a,40,38 8,05 a. Predictors: (Constant), FUNKHOY, KJONN, FARB, FUNKLAV, UTDAAR, FUNKMID Regression Residual ANOVA Sum of Mean Squares df Square F Sig. 6646,753 6 044,5 54,507,000 a 98609, 939 67,577 655,8 945 a. Predictors: (Constant), FUNKHOY, KJONN, FARB, FUNKLAV, UTDAAR, FUNKMID. Dependent Variale: ARBTID (Constant) UTDAAR KJONN FARB FUNKLAV FUNKMID FUNKHOY a. Dependent Variale: ARBTID Coefficients a Unstandardized Coefficients Standardi zed Coefficien ts B Std. Error Beta t Sig. 37,498,47 89,830,000,85,07,078 3,948,000-6,98,344 -,369-0,38,000,965,59,034,63,03 -,794,575 -,07-3,8,00 3,038,497,58 6,6,000 3,787,637,47 5,948,000 Christian Poppe, SIFO 3
Regresjonsresultater: Taelloppsett Taell. Areidstidens lengde. Multippel regresjon. 9XX. Ustandardiserte regresjonsoeffisienter. Variael l I l II l III Utdanning 0,85 *** 0,66 *** 0,9 *** Kjønn 3-7,9 *** - 6,98 *** Sosial status: 4 Faglært areider 0,97 Lav funsjonær -,79 ** Middels funsj. 3,04 *** Høyeste funsj. 3,79 *** Konstant 34,9 *** 38,37 *** 37,5 *** Justert R,06,,4 N 946 946 946 Signifianstester: * p < 0.05; ** p < 0.0; *** p < 0.00. Variaeldefinisjon. 3 Variaeldefinisjon. 4 Variaeldefinisjon. Christian Poppe, SIFO 4
«Firevariat» modell : Kjønn - 6,98 Areidstid Yresstatus 0,9 Utdanning Christian Poppe, SIFO 5
Hypotesetest ved hjelp av t-ratio (t-test) Testoservator: B t SE n Vi tar utgangspunt i den store modellen (modell 3): H 0 : Effeten av utdanning er null Under H 0 er B = 0. Vi får derfor: 0 t SE n SE Fra SPSS-utsriften ser vi at SE = 0.07 t 0.85 3.958 0.07 Kritis verdi for 5%-nivå:.96 %-nivå:.58 0.%-nivå: 3.9 Dersom fordelingen i utvalget ommer fra en populasjon hvor det ie er noen sammenheng mellom utdanning og areidstid, er det svært usannsynlig fatis mindre enn /000 sjanse for å få en t-verdi på 3.9 eller høyere. Vi har en oservert t-verdi på 3.958. Følgelig foraster vi H 0. Det er mindre enn /000 sjanse for å egå type-l-feil. Christian Poppe, SIFO 6
Hypotesetest ved hjelp av estimering Vi tester utdanningseffeten med utgangspunt i den store modellen (modell 3): Her er =.85 og SE =.07 95%KI.96(SE ) H 0 : Effeten av utdanning er null Denne hypotesen an testes på to måter:. Konfidensintervall rundt null: 95% KI 0.96(0.07) 0.4 Den oserverte ligger ie i dette intervallet. Vi foraster H 0. Konfidensintervall rundt : 0.85 +.96(0.07) = 0.45 0.85 +.96(0.07) = 0.45 Intervallet inneholder ie null. Vi foraster derfor H 0 Vi får selvsagt samme onlusjon i egge testene Dessuten får vi - igjen lie selvsagt samme onlusjon som i t-testen Christian Poppe, SIFO 7
F-test: Test av en hel modell Anova-taell (variansanalysetaell) i multippel regresjon: Kilde Kvadratsummer df Gj.sn. v.sum Estimat på: Regresjon (SSR) SSR Yˆ Y SSR Forlart varians SSE Y ˆ Y Residual (SSE) n-- SSE Uforlart varians: se SST Y Y n- (SST) SST N Varians i Y Anova-taell for modell III: ANOVA Regression Residual Sum of Mean Squares df Square F Sig. 6646,753 6 044,5 54,507,000 a 98609, 939 67,577 655,8 945 a. Predictors: (Constant), FUNKHOY, KJONN, FARB, FUNKLAV, UTDAAR, FUNKMID. Dependent Variale: ARBTID Fra statistis teori vet vi at under H 0 hvor regresjonsmodellen altså forlarer ingenting gjelder følgende: SSR SSE F, df (, ) N = ant. os; = antall uavhengige variale Hvis vi fra en populasjon hvor H 0 gjelder treer et representativt utvalg et meget stort antall ganger, og hver gang gjennomfører en estemt regresjonsanalyse hvor vi til slutt regner ut forholdet mellom forlart og uforlart varians, får vi en tallree som er F-fordelt. Når N er stor vil gjennomsnittet i en sli fordeling være. Christian Poppe, SIFO 8
F-test for modell III H 0 : = = 3 = 4 = 5 = 6 = 0 H alt : Minst én oeffisient er uli null Fra statistis teori vet vi at:.. hvis H o er sann og ingenting er forlart vil SSR = SSE = se SSR.. under H 0 er: F, df (, ) SSE Vi får: 6646,8 6 98609, 946 6 54,5 I vår analyse er df = 6, 939 Kritis verdi for p<.05, df = 6, 00:.9 Intuitivt: Forlart varians Uforlart varians F, df (, ) Følgelig an vi velge en alternativ framgangsmåte: R F, df ( R ) (, ).4.04 6 54.76.0006 939 (Forsjellene i de to utregningene, og i forhold til SPSS-utsriften, syldes avrunding) Christian Poppe, SIFO 9