Multippel lineær regresjon



Like dokumenter
Std. Error. ANOVA b. Sum of Squares df Square F Sig , , ,600, , , ,

Lineære modeller i praksis

Multippel lineær regresjon

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

Forelesning 13 Regresjonsanalyse

10.1 Enkel lineær regresjon Multippel regresjon

Høye skårer indikerer høye nivåer av selvkontroll.

Eksamensoppgave i ST3001

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Eksamensoppgave i PSY2017/PSYPRO4317. Statistikk og kvantitative forskningsmetoder. Psykologisk institutt

Generelle lineære modeller i praksis

Klassisk ANOVA/ lineær modell

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Multisample Inference del 2 (Rosner ) Øyvind Salvesen

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Fra krysstabell til regresjon

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Logistisk regresjon 2

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Bakgrunn. KLMED 8006 Anvendt medisinsk statistikk - Vår 2008 Repeterte målinger. Overvekt: løp for livet

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

EKSAMEN I PSY3100 FORSKNINGSMETODE KVANTITATIV HØSTEN 2012

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

PSYC 3101 KVANTITATIV METODE II Eksamen høst 2008

KLMED 8006 Anvendt medisinsk statistikk - Vår 2009 Repeterte målinger

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 03. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Eksamensoppgave i PSY2017/PSYPRO4317. Statistikk og kvantitative forskningsmetoder. Målform/språk: Bokmål Antall sider: 10. Psykologisk institutt

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

Analyse med uavhengige variabler på nominal- /ordinalnivå

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Eksamensoppgave i PSY3100 Forskningsmetode kvantitativ

Korrelasjon og lineær regresjon, litt om resultatpresentasjon

Kapittel 3: Studieopplegg

Eksamensoppgave i PSY3100 Forskningsmetode - kvantitativ

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Til bruk i metodeundervisningen ved Høyskolen i Oslo

UNIVERSITETET I OSLO

EKSAMENSOPPGAVER STAT100 Vår 2011

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

HØGSKOLEN I STAVANGER

Logistisk regresjon 1

Institutt for økonomi og administrasjon

Regresjonsmodeller. HEL 8020 Analyse av registerdata i forskning. Tom Wilsgaard

HØGSKOLEN I STAVANGER

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

SOS 31 MULTIVARIAT ANALYSE

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i TMA4255 Anvendt statistikk

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Variansanalyse. Uke Variansanalyse. ANOVA=ANalysis Of Variance

Kort overblikk over kurset sålangt

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

MA Universitetet i Agder Institutt for matematiske fag EKSAMEN. Emnekode: MA-202 Emnenavn: Statistikk 2

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

TMA4240 Statistikk Høst 2012

Frequencies. Frequencies

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

SOS 31 MULTIVARIAT ANALYSE

EKSAMENSOPPGAVE I IDRSA1004 Samfunnsvitenskapelig forskningsmetode og analyse

Frequencies. Frequencies

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt.

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

SOS3003 Eksamensoppgåver

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

SOS3003 Eksamensoppgåver

Løsningsforslag øving 9, ST1301

Innhold. Multisample inference - del 2 (Rosner, ) Data Effect of Lead Exposure (Eks. i Rosner Kap mm)

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer)

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

Eksamensoppgave i TMA4255 Anvendt statistikk

Multisample Inference del 2 (Rosner )

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Medisinsk statistikk Del I høsten 2009:

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Eksamensoppgave i TMA4255 Anvendt statistikk

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Medisinsk statistikk Del I høsten 2008:

Transkript:

Regresjon Multippel lineær regresjon Inger Johanne Bakken Enhet for anvendt klinisk forskning, NTNU Og Avdeling for forebyggende helsearbeid, SINTEF Tilpasse en funksjon til ett sett observasjoner Minst to variable involvert: X (forklaringsvariable, uavhengige variable, kovariater, prediktorer) Y (avhengig variabel, responsvariabel) Y hører sammen med X ene (parede datapunkter) Eksempel Hvor mye endrer fødselsvekt seg med gestasjons? Ideen: Tilpasser en rett linje til datasettet l: En rett linje Kontinuerlig utkom y = konstant + regresjonskoeffisient * x + støy Ved enkel lineær regresjon svarer dette til: y i = α + β*x i + e i 4 Multippel lineær regresjon En teknikk for å estimere den lineære sammenhengen mellom én avhengig variabel og to eller flere uavhengige variable. Utvidelse av univariabel lineær regresjon Synonym: Multivariabel univariat regresjon l: The reasons for the popularity include the following:. A linear model is mathematically simple. Its properties are understood with a minimum of statistical theory. The components of the model are easy to interpret 4. A linear model appears to be appropriate for a large number of situations 5. A linear model naturally serves as a point of departure for more sophisticated analyses Steve Selvin: Epidemiological analyses Oxford University Press 5 6

OBS! Multippel lineær regresjon er ingen vidundermetode Alle modeller er gale, noen er brukbare Forutsetter kjennskap til fenomenet som studeres Beskriver statistiske sammenhenger, ikke nødvendigvis årsakssammenhenger Flere observasjoner per person? Avhengige observasjoner og analysemetoden kan ikke benyttes Outlayers kan påvirke resultatene mye Multivariabel eller multivariat? Univariabel eller univariat? Variabel: Variat: Univariabel: Multivariabel: Univariat: Multivariat: Angår X ene Angår Y én X flere X er én Y flere Y er 7 8 Multippel lineær regresjon Variablene i lineær regresjon Y: normalfordelte Hvor e er normalfordelt med forventningsverdi 0 og varians σ X: Ingen spesielle krav. Kan ha ulike former 9 0 X-verdiene kan ha ulike former Dummyvariable Eksempel Ulike representasjoner av : - kontinuerlig (0,, osv) - dikotom (X= for ung, X=0 for gammel) - ordinale kategorier (,,, 4, 5, angir sgruppe, eks. ti-års) - indikatorverdier (dummy) for hver kategori Eksempel nasjonalitet norsk, fransk eller spansk: X fransk = hvis fransk, 0 ellers X norsk = hvis norsk, 0 ellers Trenger ikke egen variabel for spansk spansk er gitt hvis både X fransk og X norsk er 0.

Polynom Lineær regresjon? Kan også være aktuelt representere X som et polynom: len er fortsatt gitt av β *X + β *X + β *X lineær i denne sammenhengen henspeiler på at modellen er gitt som en sum ( lineær i β ene ) 4 Lineær regresjon? Hensikt med multippel lineær regresjon Tabell.9 s 5 Rosner syst_bp 5 89 4 5 6 7 0 4 90 00 8 05 77 0 4 9 5 5 98 5 8 Beskrive sammenhenger estimering Estimere sammenhenger mellom Y og spesifikk X justert for andre X- variabler som er mulige konfundere 8 05 85 9 0 5 96 0 90 4 95 0 80 95 79 4 5 6 N 0 86 50 4 97 60 9 5 88 6 6 6 Prediksjon Prediksjon av Y basert på flere uavhengige variabler (X-er) Generering av modell som må testes (valideres) i et uavhengig datasett 5 6 Justere Justerer for utenforliggende variabler som blander seg med X- variabelen man ønsker å studere Trenger kunnskap om fenomenet for å vurdere hvilke variable som bør inn i modellen. len bør stemme overens med tidligere erfaring og kunnskap X-variable som ikke er signifikante i univariable analyser kan være av betydning i multivariable analyser Sterkt korrelerte X-variable (kollinearitet) Ved sterkt korrelerte uavhengige variable er det problematisk å inkludere begge i samme modell (dårlig estimerte regresjonskoeffisienter, høyere standardavvik, høyere p-verdier) Sjekk korrelasjon mellom variablene (korrelasjonsmatriser og sunn fornuft) Ved sterk korrelasjon: velg ut én av variablene Vær oppmerksom på mulig kollinearitet (ved sterk avhengighet mellom to X er bør modellen ikke inneholde begge) 7 8

Stratifisering Interaksjon Analyserer ulike strata separat (eks. kjønn) Aktuelt ved mistanke om at sammenhengen mellom Y og én X er forskjellig for ulike nivå av en annen X Alternativ til stratifisering Inkludere interaksjonsledd i modellen (produktet av to uavhengige variable. Med to uavhengige variable blir modellen: y = β 0 + β *x + β *x + β *x *x + e 9 0 Forklart varians R R gir indikasjon for andelen av variansen i den uavhengige variabelen som kan forklares av regresjonen (som i univariabel lineær regresjon) R = indikerer at all variasjonen forklares av regresjonen Jo flere forklaringsvariable, jo høyere R, må derfor være forsiktig med å tolke R. Mettet modell modell med for mange forklaringsvariable i forhold til n Justert R tar hensyn til antallet uavhengige variable i modellen Transformasjoner Kan være aktuelt ved avvik fra normalfordeling Vanligst: ln transformasjon Aktuelt ved avvik fra antagelse om linearitet: Kategorisere X (dummyvariabel) Polynomisk regresjon: a X +a X +a X Ved transformasjon endres tolkning av regresjonskoeffisientene (annen skala) Summary Adjusted Std. Error of R R Square R Square the Estimate,99 a,88,86,479 Ikke alltid at transformasjon gir bedre tilnærming a. Predictors: (Constant),, Om nedre deteksjonsgrense ln(0) er ikke definert. Hva hvis måleverdien faktisk er 0? "... There are no simple solutions to this difficulty. Ad hoc solutions, such as replacing zero values by the limit of detection (or perhaps half the limit of detection) if the limit is known, may prove satisfactorily...." Armitage, P., & al: Statistical Methods in Medical Research. 4th Ed, 00. ISBN 0-6-0557-0 (side ) Ln transformasjon av Y: Fra additiv til multiplikativ modell Additiv modell med to variable: Y = a 0 + a *X + a *X Multiplikativ modell ln transformasjon av y ln(y) = a 0 + a *X + a *X Y = exp(a 0 + a *X + a *X ) = exp(a)*exp(a X )*exp(a X ) 4 4

Additiv versus multiplikativ modell Additiv modell: Y = a 0 + a *X + a *X a =0,007 => Y øker med 0,007 ved én enhets økning i X når X holdes konstant a =0,800 => Y øker med 0,800 ved én enhets økning i X når X holdes konstant Multiplikativ modell: Y = exp(a)*exp(a X )*exp(a X ) a = 0,007 => Y øker med en faktor exp(0,007)=,007 ved én enhets økning i X når X holdes konstant a = 0,800 => Y øker med en faktor exp(0,800)=, ved én enhets økning i X når X holdes konstant Arbeidsflyt Definer hypotesen Deskriptiv statistikk! Vurder hvilke bakgrunnsvariable som bør inn i modellen ut fra kunnskap om fenomenet (Tommelfingerregel: antall X er bør ikke være mer enn 0 % av n) Sjekk forutsetninger normalfordelt Y med konstant varians for alle X lineære sammenhenger X og Y lering Sjekk modellen(e): Er residualene uavhengige og normalfordelte? Hvilken modell er best? (alle modeller er gale, noen er brukbare) Er modellen robust (se etter outlayers og sjekk hvordan disse påvirker koeffisientene i modellen) 5 6 Eksempel fra Rosner Normalfordeling Y? Tabell.9 s 5 Rosner 4 5 6 7 8 9 0 4 5 6 N syst_bp 5 89 0 4 90 00 8 05 77 0 4 9 5 5 98 5 8 05 85 0 5 96 90 4 95 0 80 95 79 0 86 50 4 97 60 9 5 88 6 6 6 En Y: syst_bp To X er: (i oz) og (i dager) Problemstilling: Hvordan påvirker fødselsvekt og systolisk blodtrykk hos nyfødte? Analysemetode: Multippel lineær regresjon 7 8 Lineær sammenheng X er og Y? Univariable analyser Analyze -> regression -> linear regression B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 67,679,9,,000 60,86 74,5 6,5,98,87 6,69,000 4,6 8,45 B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 69, 0,40 6,64,000 46,806 9,460,57,086,44,89,087 -,06,4 9 0 5

Multivariabel analyse Standardiserte koeffisienter Analyze -> regression -> linear regression B Coefficients Std. Error Coefficients Beta t Sig. 95% Lower Confidence Bound Upper Interval Bound for B (Constant) 5,450 4,5,794,000 4,660 6,4 B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 5,450 5,888 4,5,680,8,794 8,656,000,000 4,660 4,48 6,4 7,57 5,888,6,680,04,8,5 8,656,657,000,00 4,48,05 7,57,00 a. Dependent Variable: syst_bp,6,04,5,657,00,05,00 B >> B Betyr dette at har mye større betydning enn? Forskjellig skala for de to parametrene (Constant) B Std. Error Beta t Sig. Lower Bound Upper Bound 5,450 4,5,794,000 4,660 6,4 5,888,680,8 8,656,000 4,48 7,57,6,04,5,657,00,05,00 Standardiserte regresjonskoeffisienter gitt ved b s = b * (s x /s y ) Gjennomsnittlig økning i y (uttrykt i standardavvik enheter av y) per standardavvik enhet økning i x, med alle de andre variablene i modellen holdt konstant. Hypotesetesting Sum of squares SS Tester : H 0 : β = β = β = = β k = 0 mot H : minst én βj 0 Forkaster H 0 hvis hvor og F > F k,n-k-,-α a = signifikansnivået k = antall koeffisienter i modellen n = antall observasjoner F = Reg MS / Res MS SS = Res SS = n i= ( y y) i n ( y ˆ i yi i= Reg SS = SS - Res SS ) hvor yˆ = a + i k j= bjxij 4 Mean squares MS Eksempel fra Rosner Reg MS = Reg SS / (n-k-) Res MS = Reg SS / k The test statistic F Regression Residual a. Predictors: (Constant),, b. Dependent Variable: syst_bp ANOVA b Sum of Squares df Mean Square F Sig. 59,06 95,58 48,08,000 a 79,90 6,46 670,98 5 F = Reg MS / Reg MS Under H 0 er F F-fordelt med k og (n-k-) frihetsgrader 5 6 6

Tester for bidrag fra hver variabel To tester (ekvivalente) ) t-tester med t = b j /se(b j ) Under H 0 (t=0) følger t en t-fordeling med n-k- frihetsgrader ) F-test med F = (Reg SS full modell RegSS alle variablene i modellen unntatt j ) / Res MS full modell Under H 0 følger F en F-fordeling med og n-k- frihetsgrader t-test av bidrag fra hver variabel B Std. Error Beta t Sig. Lower Bound Upper Bound (Constant) 5,450 4,5,794,000 4,660 6,4 5,888,680,8 8,656,000 4,48 7,57,6,04,5,657,00,05,00 SPSS gir verdier fra t-testene i tabellen, samt konfidensintervall for parametrene 7 8 F-test av variabel F = (Reg SS full modell Reg SS alle variablene i modellen unntatt ) / Res MS full modell Under H 0 følger F en F-fordeling med og n-k-= frihetsgrader Regression Residual a. Predictors: (Constant), b. Dependent Variable: syst_bp ANOVA b Sum of Squares df Mean Square 508,87 508,87 6, 4,580 670,98 5 F = (59,0 508,8)/6,=,5 Regression Residual ANOVA b Sum of Squares df Mean Square 59,06 95,58 79,90 6,46 670,98 5 a. Predictors: (Constant),, b. Dependent Variable: syst_bp Sjekk av modellen Analysis - > regression - > linear regression Save Predicted values unstandardized () Save Residuals Studentized () Scatterplot av () mot () (tilsvarende fig. a) Brukes til å vurdere linearitetsantagelsen og til å se etter outlayers Ett punkt skiller seg ut Fra Excel: p-verdi = FFdist(,5;,) = 0,00 9 40 Sjekk av modellen Analysis - > regression - > linear regression Save Predicted values unstandardized () Save Residuals Studentized () Scatterplot av () mot de to variablene i modellen (tilsvarende fig. b,c) Sjekk av modellen Robust modell? Hvordan blir modellen uten punkt 0? Unstandardized Standardized B Coefficients Std. Error Coefficients Beta t Sig. (Constant) Beta 5,450 B Std. 4,5 Error,794 t Sig.,000 (Constant) 5,450,6 4,5,04,5,794,657,00,000 5,888,6,680,04,8,5 8,656,657,000,00 a. Dependent Variable: syst_bp 5,888,680,8 8,656,000 B Std. Error Beta t Sig. (Constant) 47,98,0 0,89,000,8,08,48 9,955,000 5,8,5,76 5,759,000 4 4 7

Oppsummering Arbeidsflyt: Planlegging, inspeksjon av datasettet Normalfordelt Y Transformasjoner? Scatterplots (Y mot hver X) Linearitet plausibelt? Analyser for hver X (korrelasjoner, univariat regresjon) Regresjon ltilpasning (forklaringsvariable inn/ut, interaksjon) Teste forutsetninger Uavhengige e er? Lineære effekter? Robusthet? Andre forutsetninger: Kunnskap om fenomenet og sunn fornuft NB! Alle modeller er gale men noen er brukbare 4 8