Regresjon Multippel lineær regresjon Inger Johanne Bakken Enhet for anvendt klinisk forskning, NTNU Og Avdeling for forebyggende helsearbeid, SINTEF Tilpasse en funksjon til ett sett observasjoner Minst to variable involvert: X (forklaringsvariable, uavhengige variable, kovariater, prediktorer) Y (avhengig variabel, responsvariabel) Y hører sammen med X ene (parede datapunkter) Eksempel Hvor mye endrer fødselsvekt seg med gestasjons? Ideen: Tilpasser en rett linje til datasettet l: En rett linje Kontinuerlig utkom y = konstant + regresjonskoeffisient * x + støy Ved enkel lineær regresjon svarer dette til: y i = α + β*x i + e i 4 Multippel lineær regresjon En teknikk for å estimere den lineære sammenhengen mellom én avhengig variabel og to eller flere uavhengige variable. Utvidelse av univariabel lineær regresjon Synonym: Multivariabel univariat regresjon l: The reasons for the popularity include the following:. A linear model is mathematically simple. Its properties are understood with a minimum of statistical theory. The components of the model are easy to interpret 4. A linear model appears to be appropriate for a large number of situations 5. A linear model naturally serves as a point of departure for more sophisticated analyses Steve Selvin: Epidemiological analyses Oxford University Press 5 6
OBS! Multippel lineær regresjon er ingen vidundermetode Alle modeller er gale, noen er brukbare Forutsetter kjennskap til fenomenet som studeres Beskriver statistiske sammenhenger, ikke nødvendigvis årsakssammenhenger Flere observasjoner per person? Avhengige observasjoner og analysemetoden kan ikke benyttes Outlayers kan påvirke resultatene mye Multivariabel eller multivariat? Univariabel eller univariat? Variabel: Variat: Univariabel: Multivariabel: Univariat: Multivariat: Angår X ene Angår Y én X flere X er én Y flere Y er 7 8 Multippel lineær regresjon Variablene i lineær regresjon Y: normalfordelte Hvor e er normalfordelt med forventningsverdi 0 og varians σ X: Ingen spesielle krav. Kan ha ulike former 9 0 X-verdiene kan ha ulike former Dummyvariable Eksempel Ulike representasjoner av : - kontinuerlig (0,, osv) - dikotom (X= for ung, X=0 for gammel) - ordinale kategorier (,,, 4, 5, angir sgruppe, eks. ti-års) - indikatorverdier (dummy) for hver kategori Eksempel nasjonalitet norsk, fransk eller spansk: X fransk = hvis fransk, 0 ellers X norsk = hvis norsk, 0 ellers Trenger ikke egen variabel for spansk spansk er gitt hvis både X fransk og X norsk er 0.
Polynom Lineær regresjon? Kan også være aktuelt representere X som et polynom: len er fortsatt gitt av β *X + β *X + β *X lineær i denne sammenhengen henspeiler på at modellen er gitt som en sum ( lineær i β ene ) 4 Lineær regresjon? Hensikt med multippel lineær regresjon Tabell.9 s 5 Rosner syst_bp 5 89 4 5 6 7 0 4 90 00 8 05 77 0 4 9 5 5 98 5 8 Beskrive sammenhenger estimering Estimere sammenhenger mellom Y og spesifikk X justert for andre X- variabler som er mulige konfundere 8 05 85 9 0 5 96 0 90 4 95 0 80 95 79 4 5 6 N 0 86 50 4 97 60 9 5 88 6 6 6 Prediksjon Prediksjon av Y basert på flere uavhengige variabler (X-er) Generering av modell som må testes (valideres) i et uavhengig datasett 5 6 Justere Justerer for utenforliggende variabler som blander seg med X- variabelen man ønsker å studere Trenger kunnskap om fenomenet for å vurdere hvilke variable som bør inn i modellen. len bør stemme overens med tidligere erfaring og kunnskap X-variable som ikke er signifikante i univariable analyser kan være av betydning i multivariable analyser Sterkt korrelerte X-variable (kollinearitet) Ved sterkt korrelerte uavhengige variable er det problematisk å inkludere begge i samme modell (dårlig estimerte regresjonskoeffisienter, høyere standardavvik, høyere p-verdier) Sjekk korrelasjon mellom variablene (korrelasjonsmatriser og sunn fornuft) Ved sterk korrelasjon: velg ut én av variablene Vær oppmerksom på mulig kollinearitet (ved sterk avhengighet mellom to X er bør modellen ikke inneholde begge) 7 8
Stratifisering Interaksjon Analyserer ulike strata separat (eks. kjønn) Aktuelt ved mistanke om at sammenhengen mellom Y og én X er forskjellig for ulike nivå av en annen X Alternativ til stratifisering Inkludere interaksjonsledd i modellen (produktet av to uavhengige variable. Med to uavhengige variable blir modellen: y = β 0 + β *x + β *x + β *x *x + e 9 0 Forklart varians R R gir indikasjon for andelen av variansen i den uavhengige variabelen som kan forklares av regresjonen (som i univariabel lineær regresjon) R = indikerer at all variasjonen forklares av regresjonen Jo flere forklaringsvariable, jo høyere R, må derfor være forsiktig med å tolke R. Mettet modell modell med for mange forklaringsvariable i forhold til n Justert R tar hensyn til antallet uavhengige variable i modellen Transformasjoner Kan være aktuelt ved avvik fra normalfordeling Vanligst: ln transformasjon Aktuelt ved avvik fra antagelse om linearitet: Kategorisere X (dummyvariabel) Polynomisk regresjon: a X +a X +a X Ved transformasjon endres tolkning av regresjonskoeffisientene (annen skala) Summary Adjusted Std. Error of R R Square R Square the Estimate,99 a,88,86,479 Ikke alltid at transformasjon gir bedre tilnærming a. Predictors: (Constant),, Om nedre deteksjonsgrense ln(0) er ikke definert. Hva hvis måleverdien faktisk er 0? "... There are no simple solutions to this difficulty. Ad hoc solutions, such as replacing zero values by the limit of detection (or perhaps half the limit of detection) if the limit is known, may prove satisfactorily...." Armitage, P., & al: Statistical Methods in Medical Research. 4th Ed, 00. ISBN 0-6-0557-0 (side ) Ln transformasjon av Y: Fra additiv til multiplikativ modell Additiv modell med to variable: Y = a 0 + a *X + a *X Multiplikativ modell ln transformasjon av y ln(y) = a 0 + a *X + a *X Y = exp(a 0 + a *X + a *X ) = exp(a)*exp(a X )*exp(a X ) 4 4
Additiv versus multiplikativ modell Additiv modell: Y = a 0 + a *X + a *X a =0,007 => Y øker med 0,007 ved én enhets økning i X når X holdes konstant a =0,800 => Y øker med 0,800 ved én enhets økning i X når X holdes konstant Multiplikativ modell: Y = exp(a)*exp(a X )*exp(a X ) a = 0,007 => Y øker med en faktor exp(0,007)=,007 ved én enhets økning i X når X holdes konstant a = 0,800 => Y øker med en faktor exp(0,800)=, ved én enhets økning i X når X holdes konstant Arbeidsflyt Definer hypotesen Deskriptiv statistikk! Vurder hvilke bakgrunnsvariable som bør inn i modellen ut fra kunnskap om fenomenet (Tommelfingerregel: antall X er bør ikke være mer enn 0 % av n) Sjekk forutsetninger normalfordelt Y med konstant varians for alle X lineære sammenhenger X og Y lering Sjekk modellen(e): Er residualene uavhengige og normalfordelte? Hvilken modell er best? (alle modeller er gale, noen er brukbare) Er modellen robust (se etter outlayers og sjekk hvordan disse påvirker koeffisientene i modellen) 5 6 Eksempel fra Rosner Normalfordeling Y? Tabell.9 s 5 Rosner 4 5 6 7 8 9 0 4 5 6 N syst_bp 5 89 0 4 90 00 8 05 77 0 4 9 5 5 98 5 8 05 85 0 5 96 90 4 95 0 80 95 79 0 86 50 4 97 60 9 5 88 6 6 6 En Y: syst_bp To X er: (i oz) og (i dager) Problemstilling: Hvordan påvirker fødselsvekt og systolisk blodtrykk hos nyfødte? Analysemetode: Multippel lineær regresjon 7 8 Lineær sammenheng X er og Y? Univariable analyser Analyze -> regression -> linear regression B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 67,679,9,,000 60,86 74,5 6,5,98,87 6,69,000 4,6 8,45 B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 69, 0,40 6,64,000 46,806 9,460,57,086,44,89,087 -,06,4 9 0 5
Multivariabel analyse Standardiserte koeffisienter Analyze -> regression -> linear regression B Coefficients Std. Error Coefficients Beta t Sig. 95% Lower Confidence Bound Upper Interval Bound for B (Constant) 5,450 4,5,794,000 4,660 6,4 B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 5,450 5,888 4,5,680,8,794 8,656,000,000 4,660 4,48 6,4 7,57 5,888,6,680,04,8,5 8,656,657,000,00 4,48,05 7,57,00 a. Dependent Variable: syst_bp,6,04,5,657,00,05,00 B >> B Betyr dette at har mye større betydning enn? Forskjellig skala for de to parametrene (Constant) B Std. Error Beta t Sig. Lower Bound Upper Bound 5,450 4,5,794,000 4,660 6,4 5,888,680,8 8,656,000 4,48 7,57,6,04,5,657,00,05,00 Standardiserte regresjonskoeffisienter gitt ved b s = b * (s x /s y ) Gjennomsnittlig økning i y (uttrykt i standardavvik enheter av y) per standardavvik enhet økning i x, med alle de andre variablene i modellen holdt konstant. Hypotesetesting Sum of squares SS Tester : H 0 : β = β = β = = β k = 0 mot H : minst én βj 0 Forkaster H 0 hvis hvor og F > F k,n-k-,-α a = signifikansnivået k = antall koeffisienter i modellen n = antall observasjoner F = Reg MS / Res MS SS = Res SS = n i= ( y y) i n ( y ˆ i yi i= Reg SS = SS - Res SS ) hvor yˆ = a + i k j= bjxij 4 Mean squares MS Eksempel fra Rosner Reg MS = Reg SS / (n-k-) Res MS = Reg SS / k The test statistic F Regression Residual a. Predictors: (Constant),, b. Dependent Variable: syst_bp ANOVA b Sum of Squares df Mean Square F Sig. 59,06 95,58 48,08,000 a 79,90 6,46 670,98 5 F = Reg MS / Reg MS Under H 0 er F F-fordelt med k og (n-k-) frihetsgrader 5 6 6
Tester for bidrag fra hver variabel To tester (ekvivalente) ) t-tester med t = b j /se(b j ) Under H 0 (t=0) følger t en t-fordeling med n-k- frihetsgrader ) F-test med F = (Reg SS full modell RegSS alle variablene i modellen unntatt j ) / Res MS full modell Under H 0 følger F en F-fordeling med og n-k- frihetsgrader t-test av bidrag fra hver variabel B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 5,450 4,5,794,000 4,660 6,4 5,888,680,8 8,656,000 4,48 7,57,6,04,5,657,00,05,00 SPSS gir verdier fra t-testene i tabellen, samt konfidensintervall for parametrene 7 8 F-test av variabel F = (Reg SS full modell Reg SS alle variablene i modellen unntatt ) / Res MS full modell Under H 0 følger F en F-fordeling med og n-k-= frihetsgrader Regression Residual a. Predictors: (Constant), b. Dependent Variable: syst_bp ANOVA b Sum of Squares df Mean Square 508,87 508,87 6, 4,580 670,98 5 F = (59,0 508,8)/6,=,5 Regression Residual ANOVA b Sum of Squares df Mean Square 59,06 95,58 79,90 6,46 670,98 5 a. Predictors: (Constant),, b. Dependent Variable: syst_bp Sjekk av modellen Analysis - > regression - > linear regression Save Predicted values unstandardized () Save Residuals Studentized () Scatterplot av () mot () (tilsvarende fig. a) Brukes til å vurdere linearitetsantagelsen og til å se etter outlayers Ett punkt skiller seg ut Fra Excel: p-verdi = FFdist(,5;,) = 0,00 9 40 Sjekk av modellen Analysis - > regression - > linear regression Save Predicted values unstandardized () Save Residuals Studentized () Scatterplot av () mot de to variablene i modellen (tilsvarende fig. b,c) Sjekk av modellen Robust modell? Hvordan blir modellen uten punkt 0? Unstandardized Standardized B Coefficients Std. Error Coefficients Beta t Sig. (Constant) Beta 5,450 B Std. 4,5 Error,794 t Sig.,000 (Constant) 5,450,6 4,5,04,5,794,657,00,000 5,888,6,680,04,8,5 8,656,657,000,00 a. Dependent Variable: syst_bp 5,888,680,8 8,656,000 B Std. Error Beta t Sig. (Constant) 47,98,0 0,89,000,8,08,48 9,955,000 5,8,5,76 5,759,000 4 4 7
Oppsummering Arbeidsflyt: Planlegging, inspeksjon av datasettet Normalfordelt Y Transformasjoner? Scatterplots (Y mot hver X) Linearitet plausibelt? Analyser for hver X (korrelasjoner, univariat regresjon) Regresjon ltilpasning (forklaringsvariable inn/ut, interaksjon) Teste forutsetninger Uavhengige e er? Lineære effekter? Robusthet? Andre forutsetninger: Kunnskap om fenomenet og sunn fornuft NB! Alle modeller er gale men noen er brukbare 4 8