Generelle lineære modeller Regresjonsmodeller med Forskjellige spesialtilfeller Uavhengige variabler Én binær variabel Analysen omtales som Toutvalgs t-test én responsvariabel: Y en eller flere uavhengige variabler: x,..,x k Den betingede fordeling av Y gitt x,..,x k antas at være normal med en forventning som avhenger av x-ene og en varians som er uavhengig av x-ene: E(Y x,x,...,x )= β + β x k - De uavhengige variablene kan være kategorivariabler eller kvantitative. - Kategoriske variabler omkodes som dummyvariabler. - Interaksjoner kan tilføyes i form av produktvariabler. k j= j j Én kategorivariabel med mer enn to kategorier Enveis variansanalyse To eller flere kategorivariabler To- eller flerveis variansanalyser En eller flere kvantitative variabler Lineær regresjon Både kategorivariabler og kvantitative variabler Generelle lineære modeller (*) *) Dekker også en rekke komplekse modeller, multivariabel respons og avhengige observasjoner Generelle lineære modeller i praksis Utføre en analyse av effekten av røykevaner og distraksjon på hyppigheten av feil gjort i utførelsen av visse oppgaver. Designet forsøk, balansert design. Primært problem: Hvilken betydning har de uavhengige variablene for feilhyppighet? Er det interaksjoner (samspill) mellom effekten av de uavhengige variablene? Responsvariabel: Antall feil () Uavhengige: Oppgave (task) Røykevaner (smkgrp) Grad av distraksjon () Sekundære problemer: Er relasjonen mellom grad distraksjon og feilhyppighet lineær? Kan den betingede fordeling av feilhyppighet og de andre variablene antas å være normal? Er variansene homogene? 4
Analyseplan Innledende databeskrivelse Univariat Bivariat Den innledende analyse kan gi ideer til den egentlige analyse, men skal ikke i seg selv føre til endelige analyseresultater pga. risikoen for konfundering. Den egentlige analyse: Trinnvis modellsøking Modellkontroll Estimering av parametrer i den endelige modell 5 task smkgrp 9 7 8.. 97 7 75 6 8 8 64 8 5 7 6 4 54 49 4 48 9 49 96 4 8 65 9 47 5 96 6 7 9 8 4 6 Feilhyppighet i Task = fordelt på røykevaner Error Bars show Mean +/-, SD 6 Bars show Means 4 Descriptives N Mean Std. Deviation Std. Error 95% Confidence Interval for Mean Minimum Maximum NonSmokers 5 8,87 4,687,79,7 7, 4 56 Delayed smokers 5 9,9, 5,98 8,78 5,8 6 7 Active Smokers 5 47,5 4,65,78 9,4 55,65 75 45 8,78 8,55,69,5 44, 4 75 ANOVA NonSmokers Delayed smokers Active Smokers Between Groups Within Groups Sum of 64,78,689 4,744,4 7,4 4 78,58 44,778 44 7 8
Kontraster Contrast NonSmokers Delayed smokers Active Smokers -,5 -,5 Assume equal variances Does not assume equal variances Contrast Tests Contrast - Value of Contrast Std. Error t df Sig. (- tailed) -4,87 5,78 -,87 4,7-7,6 6,95 -,47 4,9-4,87 4,97 -,99,4,5-7,6 6,49 -,8 5,58,48 task smkgrp 9 7 8.. 97 7 75 6 8 8 64 8 5 7 6 4 54 49 4 48 9 49 96 4 8 65 9 47 5 96 6 7 9 8 4 9 Mean Feilhyppighet fordelt på oppgaver og røykevaner 5 4 Patrecog Cognitive Driving Task NonSmokers Delayed smokers Active Smokers Descriptive Statistics Task Mean Std. Deviation N Patrecog NonSmokers 9,4,44 5 Delayed smokers 9,6 4,45 5 Active Smokers 9,9 6,59 5 9,64 4,5 45 Cognitive NonSmokers 8,87 4,687 5 Delayed smokers 9,9, 5 Active Smokers 47,5 4,65 5 8,78 8,55 45 Driving NonSmokers 9,9 6,6 5 Delayed smokers 6,8 5,44 5 Active Smokers,,89 5 6,6 5,7 45 NonSmokers 6,7,88 45 Delayed smokers 8,78 9,59 45 Active Smokers 9,9,975 45 8,6 8,9 5
Samspill Toveis ANOVA-modell error = μ + task + smkgrp + task smkgrp + ε ijk i j ij k 5 Task Patrecog Cognitive Driving Tests of Between-Subjects Effects 4 Mean Source Corrected Model Intercept smkgrp task smkgrp * task Error Corrected Type III Sum of 744,76(a) 8 968,9 6,798, 459,74 459,74 47,89, 54,548 77,74,644,97 866,56 4,76,895, 78,65 4 68,6 6,6, 587, 6 7,85 94, 5 45,96 4 NonSmokers Delayed smokers Active Smokers a R Squared =,7 (Adjusted R Squared =,68) 4 Parameter Estimates Hva betyr alt dette? 95% Confidence Interval Parameter B Std. Error t Sig. Intercept,,68,87,86 -,97 7,69 [smkgrp=] 7,6,79,4,47,96 5,4 [smkgrp=] 4,467,79,78,4 -,7,97 [smkgrp=] (a)..... [task=] 7,6,79,4,47,96 5,4 [task=] 45,,79,9, 7,696 5,74 [task=] (a)..... [smkgrp=] * [task=] -8, 5,6 -,57, -8,745,479 [smkgrp=] * [task=] -6,67 5,6-4,898, -6,879-5,655 [smkgrp=] * [task=] (a)..... [smkgrp=] * [task=] -4,8 5,6 -,895,7-5,4 5,8 [smkgrp=] * [task=] -,67 5,6 -,5,6 -,679 -,455 [smkgrp=] * [task=] (a)..... [smkgrp=] * [task=] (a)..... [smkgrp=] * [task=] (a)..... [smkgrp=] * [task=] (a)..... a This parameter is set to zero because it is redundant. Omkoding av kategorisk variabel Task t t,task= ("Patrecog"), ellers,task= ("Cognitive"), ellers Konsekvens: Dersom Task = ( Driving ), blir t og t begge lik. 5 6
Omkoding av kategorisk variabel Smoke Dummyvariabler for samspill s,smoke= ("Nonsmokers"), ellers Samspill SMKGRP*TASK: s,smoke= ("Delayed smokers"), ellers Konsekvens: Dersom Smoke = ( Active smokers ), blir s og s begge lik. 4 nye indikatorvariabler: ts=t*s, ts=t*s, ts=t*s, ts=t*s Samspill opptrer når effekten av en faktor (f.eks. røykevaner) varierer med nivået til en annen faktor (her TASK). Rent konkret kunne det antas at røyking gav større (el. mindre) feilhyppighet på en kognitiv oppgave, og omvendt på bilkjøring. 7 8 Regresjonsmodell y= α+ βt+ βt+ βs+ βs+ βts + βts + βt s + βt s + ε Model 4 5 6 7 8 ANOVA(b) Sum of Regression 744,76 8 968,9 6,798,(a) Residual 587, 6 7,85 45,96 4 a Predictors: (Constant), ts, ts, ts, ts, t, t, s, s b Coefficients(a) Standardized Unstandardized Coefficients Coefficients Model B Std. Error Beta t Sig. (Constant),,68,87,86 t 7,6,79,96,4,47 t 45,,79,6,9, s 7,6,79,96,4,47 s 4,467,79,5,78,4 ts -8, 5,6 -,9 -,57, ts -4,8 5,6 -,8 -,895,7 ts -6,67 5,6 -,45-4,898, ts -,67 5,6 -,7 -,5,6 9 Patrecog NonSmokers Cognitive NonSmokers Driving NonSmokers 75 5 5 Patrecog Delayed smokers Cognitive Delayed smokers Driving Delayed smokers 75 5 5 Patrecog Active Smokers Cognitive Active Smokers Driving Active Smokers 75 5 5 75 5 5 75 75 5 5 75 75 5 5 75
ANCOVA-modell Inkluderer en kontinuerlig kovariabel, error = μ + task + smkgrp + task smkgrp + δ + ε ijk i j ij k Tests of Between-Subjects Effects Type III Sum of Source Corrected Model 689,6(a) 9 44,89 56,59, Intercept 89,95 89,95,474, 4644,876 4644,876 64,98, task 87,485 95,4 66,86, smkgrp 56,57 8,69,97, task * smkgrp 66,5 4 46,68 5,684, Error 894,4 5 7,59 94, 5 Corrected 45,96 4 a R Squared =,8 (Adjusted R Squared =,789) Parameter Estimates 95% Confidence Interval Parameter B Std. Error t Sig. Intercept -7,9 4,55-6,67, -5,55-8,67,9,6 8,58,,,64 [task=],79,5,96,4 -,447 9,94 [task=] 7,965,6,84,,6 44, [task=] (a)..... [smkgrp=],686,48,85,95 -,545 8,96 [smkgrp=],,9,,8 -, 9, [smkgrp=] (a)..... [task=] * [smkgrp=] -,49 4,45 -,55,58 -,96 6,8 [task=] * [smkgrp=] -,98 4,74 -,669,54 -,584 5,79 [task=] * [smkgrp=] (a)..... [task=] * [smkgrp=] -8,7 4,468-4,86, -7,54-9,859 [task=] * [smkgrp=] -6,45 4,4 -,458,47-5,4, [task=] * [smkgrp=] (a)..... [task=] * [smkgrp=] (a)..... [task=] * [smkgrp=] (a)..... [task=] * [smkgrp=] (a)..... a This parameter is set to zero because it is redundant. Regresjonsmodell y = α+ βt+ βt+ βs+ βs+ βt s + βt s + βt s + βt s + δ + ε ANOVA(b) Model 4 5 6 7 8 Sum of Regression 689,6 9 44,89 56,59,(a) Residual 894,4 5 7,59 45,96 4 a Predictors: (Constant),, t, s, ts, ts, ts, s, ts, t Coefficients(a) Standardized Unstandardized Coefficients Coefficients Model B Std. Error Beta t Sig. (Constant) -7,9 4,55-6,67, t,79,5,96,96,4 t 7,965,6,977,84, s,686,48,69,85,95 s,,9,8,,8 ts -,49 4,45 -,4 -,55,58 ts -,98 4,74 -,5 -,669,54 ts -8,7 4,468 -, -4,86, ts -6,45 4,4 -, -,458,47,9,6,7 8,58, Forlengs seleksjon av regressorer Coefficients(a) Standardized Unstandardized Coefficients Coefficients B Std. Error Beta t Sig. (Constant) 8,,89 6,7, t,778,59,79 4,949, (Constant) -6,6 4, -6,99, t 8,469,78,7 6,67,,,8,59 8,7, (Constant) -5,75,96-6,59, t,7,787,856 8,69,,7,5,54 8,87, ts -4,5,649 -,45-5,44, a Forslag til endelig modell: y=.75+.7t 4.5t s +.7 + ε 4
Sjekk av endelig modell Histogram Normal P-P Plot of Regression Standardized Residual 5, Expected Cum Prob,8,6,4 Frequency 5 5,,,,,4,6,8 Observed Cum Prob, - - - Regression Standardized Residual Mean =5,46E-7 Std. Dev. =,989 N =5 5 6 Scatterplot Regression Standardized Residual - - - - - Regression Standardized Predicted Value Homogen varians? Transformere? Utliggere? Ekskludere? 7 8