ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon Bo Lindqvist Institutt for matematiske fag http://wiki.math.ntnu.no/st0202/2012h/start

2 Kap. 13: Lineær korrelasjons- og regresjonsanalyse Kap. 13.1-13.2: Lineær korrelasjonsanalyse. Disse avsnitt er ikke pensum, men den lineære korrelasjonskoeffisienten r er behandlet i Kap. 3 (se tidligere slides). I kap. 13.1-13.2 gjøres det statistisk inferens om populasjonskorrelasjonskoeffisienten ρ basert på utvalgskorrelasjonskoeffisienten r.

3 Lineær regresjonsanalyse (13.3) Eksempel fra Kap. 3: Antall push ups og antall sit ups for ti tilfeldig valgte studenter. Student Push-Ups Sit-Ups 1 27 30 2 22 26 3 15 25 4 35 42 5 30 38 6 52 40 7 35 32 8 55 54 9 40 50 10 40 43

Spredningsplott ( scatter diagram ) Plott av antall sit ups mot antall push ups. Idé i lineær regresjonsanalyse: Tilpass en rett linje av formen: ŷ = b 0 + b 1 x der x er antall push-ups og ŷ er predikert (anslått) verdi for sit-ups.

Den beste linjen ŷ = b 0 + b 1 x med b 0 = 14.9 og b 1 = 0.66 er funnet ved minste kvadraters metode ( least squares method ). For x = 40 push ups, anslår (predikerer) vi dermed antall sit-ups til å være ŷ = 14.9 + 0.66 40 = 41.3.

6 Minste kvadraters ( least squares ) metode (fra Kap. 3.3) Har utvalg av n sammenhørende par (x, y). Ønsker en regresjonslinje: ŷ = b 0 + b 1 x Ide: Velg b 0 og b 1 slik at kvadratisk avvik mellom ŷ og y for punktene i spredningsplottet blir minst mulig. Da er der b 1 = SS(xy) SS(x) y b1 x b 0 = n SS(x) = (x x) 2 = x 2 ( x) 2 n SS(xy) = (x x)(y ȳ) = xy ( x)( y) n

7 Observasjoner og linje Ved å plotte observersjonenen og minste kvadratsums-linje kan vi se om det er en lineær sammenheng mellom x og y, eller om det ikke er noe sammenheng. Da er det beste er en horisontal linje, dvs. en rett linje med stigningstall 0.

8 Populasjonsmodell For gitt x observerer vi y, der ɛ er normalfordelt med forventning 0 og varians σ 2 ɛ β 0, β 1 og σ 2 ɛ er ukjente populasjonsparametre. y er dermed normalfordelt med forventet verdi β 0 + β 1 x og varians σ 2 ɛ Antagelse for inferens i lineær regresjon Baserer på et tilfeldig utvalg av n par (x, y). De tilsvarende eksperimentfeilene ɛ kan da antas uavhengige og normalfordelte med samme varians σ 2 ɛ. Dermed vil også de n y-ene være normalfordelte og uavhengige.

9 Eksperimentfeil Modell for populasjonen er altså: y = β 0 + β 1 x + ɛ, dvs. y ligger ideelt sett på en teoretisk linje y = β 0 + β 1 x, men med avvik ɛ som kalles eksperimentfeil eller tilfeldige feil.

10 Eksperimentfeil og residualer Fra vårt utvalg estimerer vi den teoretiske linja ved minste kvadraters metode: ŷ = b 0 + b 1 x og rekonstruerer eksperimentfeilen ɛ med: Estimat for eksperimentfeilen (også kalt residual eller feil) dvs. forskjellen mellom en observert y og det tilsvarende punkt på den estimerte linja.

Illustrasjon av residual e: Linja er ŷ = b 0 + b 1 x. Estimert eksperimentfeil (også kalt residual eller feil ) er e = y ŷ

12 Punktestimater for β 0, β 1 og σ 2 ɛ β 0 og β 1 estimeres ved b 0 og b 1 (minste kvadraters metode) Punktestimat for σ 2 ɛ, i boka kalt Variance of the Estimated Error, e: der n 2 er antall frihetsgrader (for senere bruk). Regneformler: s 2 e = ( y 2 ) (b 0 )( y) (b 1 )( xy) n 2 = SS(y) b 1SS(xy) n 2 der SS(y) = (y ȳ) 2. I læreboka advares det mot å bruke for få desimaler - som kan føre til store unøyaktigheter i beregningen av s 2 e, se side 631: Note.

13 Eksempel 13.5: Reisetid til arbeid mot avstand til arbeid. Estimer regresjonslinje og s 2 e.

SS(x) = (x 2 ) ( x) 2 n = 2616 (184)2 15 = 358.9333 SS(xy) = x y (xy) n = 5623 (184)(403) 15 = 679.5333 b 1 = SS(xy) = 1.893202 = 1.89 b 0 = SS(x) = 679.5333 358.9333 y (b1 x) n = 403 (1.893202)(184) 15 = 3.643387 = 3.64 se 2 = ( y 2 ) (b 0 )( y) (b 1 )( xy) n 2 = 12493 3.643387 403 1.893202 5623 15 2 = 29.17 slik at s e = 29.17 = 5.40 er estimert standardavvik for feilen ɛ.

Estimert regresjonslinje: ŷ = 3.64 + 1.89x.

16 Problemstillinger for statistisk inferens i reisetidseksemplet 1. Har reisetiden tendens til å øke når avstand til arbeid øker? 2. Du bor i en gitt avstand x = x 0 fra jobben. Hva er gjennomsnittlig reisetid for ansatte med denne avstanden? 3. Hva blir din reisetid?

17 Hands-on: Hanford cancer data http://www.statsci.org/data/general/hanford.html Plutonium production in Hanford, Washington, since WW2. Storage of radioactive waste (strontium 90 and cecium 137), leak to the Columbia River, at the state border between Washington and Oregon - ending up in the Pacific Ocean. Exposure index and mortality due to cancer registred for 9 counties in Oregon, 1959-1964.

18 Hanford cancer data County Exposure Mortality Umatilla 2.49 147.1 Morrow 2.57 130.1 Gilliam 3.41 129.9 Sherman 1.25 113.5 Wasco 1.62 137.5 HoodRiver 3.83 162.3 Portland 11.64 207.5 Columbia 6.41 177.9 Clatsop 8.34 210.3

19 Hanford: beregn b 0, b 1 og s e n=9 x= 41.56 y =1416.1 SS(x)=97.50736 SS(y)=9683.502 SS(xy)=900.1349 Tegn regresjonslinja. Hva kan være neste steg i data-analysen?

20 Inferens om stigningstallet β 1 for regresjonslinja y = β 0 + β 1 x (13.4) Populasjonsparameter: β 1 Punktestimat: b 1 Estimat for varians og standardfeil for b 1 : s 2 b 1 = s2 e SS(x), s b 1 = (1 α)-konfidensintervall for β 1 : s 2 e SS(x) b 1 ± t(n 2, α/2) s b1

Testobservator for H 0 : β 1 = c, oftest H 0 : β 1 = 0: t = b 1 c s b1 som er t-fordelt med n 2 frihetsgrader hvis H 0 gjelder. Fortolkning av H 0 : β 1 = 0: x har ingen (lineær) innvirkning på y

Eksempel med reisetid (forts.) Øker reisetid y når avstand x øker? (dvs. er β 1 > 0)? Vi har s 2 b 1 = så testobservatoren blir H 0 : β 1 = 0 mot H a : β 1 > 0 s2 e SS(x) = 29.1723 = 0.081275 = 0.0813 358.9333 t = b 1 s b1 = 1.89 0.0813 = 6.63. α = 0.05 gir kritisk verdi t(15 2, 0.05) = t(13, 0.05) = 1.77 Vi har t = 6.63 > 1.77 så vi forkaster H 0.

23 Hands-on: Hanford Har funnet at b 0 = 114.716 og b 1 = 9.231 og s e = 14.01, og videre at n = 9. Test om det er en lineær sammenheng mellom eksponering og dødlighet.

24 Hanford data lineær regresjon: output fra R > summary(lm(y~x)) Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -16.295-12.755 4.011 9.398 18.594 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 114.716 8.046 14.258 1.98e-06 *** x 9.231 1.419 6.507 0.000332 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 14.01 on 7 degrees of freedom Multiple R-squared: 0.8581,Adjusted R-squared: 0.8378 F-statistic: 42.34 on 1 and 7 DF, p-value: 0.0003321

25 Reiseeksemplet - fortsatt Konfidensintervall for β 1 er presentert tidligere: b 1 ± t(n 2, α/2)s b1 Et 95% konfidensintervall for β 1 i reiseeksemplet blir derfor: 1.89 ± t(13, 0.025) 0.0813 = 1.89 ± 0.62

27 Prediksjon i lineær regresjon (13.5) Spørsmål: Hva kan vi si om en uobservert y for en gitt x-verdi lik x 0? Populasjonsgjennomsnitt: µ y x0 = β 0 + β 1 x 0 Punktestimat for µ y x0 (punktprediksjon for y): ŷ = b 0 + b 1 x 0 (1 α)-konfidensintervall for µ y x0 : 1 ŷ ± t(n 2, α/2)s e n + (x 0 x) 2 SS(x) (1 α)-prediksjonsintervall for den uobserverte y: ŷ ± t(n 2, α/2)s e 1 + 1 n + (x 0 x) 2 SS(x)

Eksempel med reisetid (forts.) Du vurderer å kjøpe et hus i avstand x 0 = 7 miles fra jobben. Hva er forventet reisetid til jobben herfra? Svar: µ y 7 = β 0 + β 1 7. Hva er punktestimatet for µ y 7? Svar: ŷ = 3.64 + 1.89 7 = 16.87 Hva er et 95% konfidensintervall for µ y 7? Svar: 1 ŷ ± t(n 2, α/2)s e n + (x 0 x) 2 SS(x) 1 (7 12.27)2 = 16.87 ± t(13, 0.025)5.40 + 15 358.933 = 16.87 ± 4.43 der vi har brukt at x = 184/15 = 12.27 og t(13, 0.025) = 2.16 fra tabell 6.

Hva er et 95% prediksjonsintervall for µ y 7? ŷ ± t(n 2, α/2)s e 1 + 1 n + (x 0 x) 2 SS(x) = 16.87 ± 2.16 5.40 1 + 1 (7 12.27)2 + = 16.87 ± 12.48 15 358.933

31 Konfidens- vs. prediksjonsintervall 95 % konfidensintervall og prediksjonsintervall ved x = 7 miles: KI: 16.87± 4.43=[12.44, 21.3] og PI:16.87± 12.48=[4.39, 29.35] Hva er forskjellen mellom et konfidens- og prediksjonsintervall? Konfidensintervallet gir et anslag for gjennomsnittlig reisetid for de som bor 7 miles fra jobben. Konfidensintervallet vil bli mer nøyaktig (smalere) jo flere arbeidere (n) som er med i undersøkelsen. Du er imidlertid mer interessert i hva som blir din reisetid, ikke hva som er gjennomsnittet for alle med 7 miles vei. Prediksjonsintervallet er et intervall der din reisetid vil ligge med sannynlighet 95%. Den tar hensyn til eksperimentfeilen σ ɛ, som er usikkerheten i en enkel observasjon av y. Prediksjonsintervallet går ikke mot null i bredde når n vokser.

95 % konfidensintervall (CI) og prediksjonsintervall (PI) tegnet som funksjon av x

Eksamensoppgaver med regresjon: Høst 2009, Oppgave 3 Høst 2008, Oppgave 2 Høst 2007, Oppgave 2 Vår 2006, Oppgave 4 Vår 2004, Oppgave 2e Høst 2003, Oppgave 4d Høst 2002, Oppgave 3d Alvorlige trykkfeil i 10 utgave av boka: (rettet i 11. utgave) Ligning (13.4) side 713: Skal være y istedenfor ŷ Ligning (13.16) side 730: Skal være kvadratrottegn over siste del, dvs. ŷ ± t(n 2, α/2) s e 1 + 1 n + (x 0 x) 2 SS(x) (13.16)