ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Like dokumenter
ST0202 Statistikk for samfunnsvitere

Lineær regresjonsanalyse (13.4)

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Beregning av kvartilen Q 1 (example 2.12) Mer repetisjon. ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

10.1 Enkel lineær regresjon Multippel regresjon

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

Til nå, og så videre... TMA4240 Statistikk H2010 (25) Mette Langaas. Foreleses mandag 15.november, 2010

EKSAMENSOPPGAVER STAT100 Vår 2011

TMA4240 Statistikk Høst 2009

ST0202 Statistikk for samfunnsvitere

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

EKSAMENSOPPGAVE STA-1001.

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Høst 2016

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

TMA4245 Statistikk Eksamen desember 2016

Fra boka: 10.32, 10.33, 10.34, 10.35, 10.3 og (alle er basert på samme datasett).

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Kort overblikk over kurset sålangt

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4240 Statistikk

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Eksamensoppgave i TMA4245 Statistikk

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Inferens i regresjon

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Kapittel 3: Studieopplegg

Kap. 12: Variansanalyse

ST0202 Statistikk for samfunnsvitere

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

UNIVERSITETET I OSLO

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamen i: STAT100 Statistikk. Tid: Tirsdag (3.5 timer)

Bioberegninger, ST1301 Onsdag 1. juni 2005 Løsningsforslag

Eksamensoppgave i TMA4255 Anvendt statistikk

Kp. 12 Multippel regresjon

UNIVERSITETET I OSLO

TMA4245 Statistikk Eksamen desember 2016

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 3. juni Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Fra krysstabell til regresjon

Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler. Oppgaveteksten er på 11 sider.

Oppgave N(0, 1) under H 0. S t n 3

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Forelesning 8 STK3100/4100

Tidspunkt: Fredag 18. mai (3.5 timer) Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler.

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Testobservator for kjikvadrattester

Eksamensoppgave i TMA4255 Anvendt statistikk

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Statistikk og dataanalyse

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

TMA4240 Statistikk H2010 (20)

EKSAMENSOPPGAVE STA-2004.

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

TMA4240 Statistikk 2014

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Tilleggsoppgaver for STK1110 Høst 2015

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

Eksamensoppgåve i TMA4240 Statistikk

Inferens i fordelinger

ST0202 Statistikk for samfunnsvitere

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Løsningsforslag øving 9, ST1301

Transkript:

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon Bo Lindqvist Institutt for matematiske fag http://wiki.math.ntnu.no/st0202/2012h/start

2 Kap. 13: Lineær korrelasjons- og regresjonsanalyse Kap. 13.1-13.2: Lineær korrelasjonsanalyse. Disse avsnitt er ikke pensum, men den lineære korrelasjonskoeffisienten r er behandlet i Kap. 3 (se tidligere slides). I kap. 13.1-13.2 gjøres det statistisk inferens om populasjonskorrelasjonskoeffisienten ρ basert på utvalgskorrelasjonskoeffisienten r.

3 Lineær regresjonsanalyse (13.3) Eksempel fra Kap. 3: Antall push ups og antall sit ups for ti tilfeldig valgte studenter. Student Push-Ups Sit-Ups 1 27 30 2 22 26 3 15 25 4 35 42 5 30 38 6 52 40 7 35 32 8 55 54 9 40 50 10 40 43

Spredningsplott ( scatter diagram ) Plott av antall sit ups mot antall push ups. Idé i lineær regresjonsanalyse: Tilpass en rett linje av formen: ŷ = b 0 + b 1 x der x er antall push-ups og ŷ er predikert (anslått) verdi for sit-ups.

Den beste linjen ŷ = b 0 + b 1 x med b 0 = 14.9 og b 1 = 0.66 er funnet ved minste kvadraters metode ( least squares method ). For x = 40 push ups, anslår (predikerer) vi dermed antall sit-ups til å være ŷ = 14.9 + 0.66 40 = 41.3.

6 Minste kvadraters ( least squares ) metode (fra Kap. 3.3) Har utvalg av n sammenhørende par (x, y). Ønsker en regresjonslinje: ŷ = b 0 + b 1 x Ide: Velg b 0 og b 1 slik at kvadratisk avvik mellom ŷ og y for punktene i spredningsplottet blir minst mulig. Da er der b 1 = SS(xy) SS(x) y b1 x b 0 = n SS(x) = (x x) 2 = x 2 ( x) 2 n SS(xy) = (x x)(y ȳ) = xy ( x)( y) n

7 Observasjoner og linje Ved å plotte observersjonenen og minste kvadratsums-linje kan vi se om det er en lineær sammenheng mellom x og y, eller om det ikke er noe sammenheng. Da er det beste er en horisontal linje, dvs. en rett linje med stigningstall 0.

8 Populasjonsmodell For gitt x observerer vi y, der ɛ er normalfordelt med forventning 0 og varians σ 2 ɛ β 0, β 1 og σ 2 ɛ er ukjente populasjonsparametre. y er dermed normalfordelt med forventet verdi β 0 + β 1 x og varians σ 2 ɛ Antagelse for inferens i lineær regresjon Baserer på et tilfeldig utvalg av n par (x, y). De tilsvarende eksperimentfeilene ɛ kan da antas uavhengige og normalfordelte med samme varians σ 2 ɛ. Dermed vil også de n y-ene være normalfordelte og uavhengige.

9 Eksperimentfeil Modell for populasjonen er altså: y = β 0 + β 1 x + ɛ, dvs. y ligger ideelt sett på en teoretisk linje y = β 0 + β 1 x, men med avvik ɛ som kalles eksperimentfeil eller tilfeldige feil.

10 Eksperimentfeil og residualer Fra vårt utvalg estimerer vi den teoretiske linja ved minste kvadraters metode: ŷ = b 0 + b 1 x og rekonstruerer eksperimentfeilen ɛ med: Estimat for eksperimentfeilen (også kalt residual eller feil) dvs. forskjellen mellom en observert y og det tilsvarende punkt på den estimerte linja.

Illustrasjon av residual e: Linja er ŷ = b 0 + b 1 x. Estimert eksperimentfeil (også kalt residual eller feil ) er e = y ŷ

12 Punktestimater for β 0, β 1 og σ 2 ɛ β 0 og β 1 estimeres ved b 0 og b 1 (minste kvadraters metode) Punktestimat for σ 2 ɛ, i boka kalt Variance of the Estimated Error, e: der n 2 er antall frihetsgrader (for senere bruk). Regneformler: s 2 e = ( y 2 ) (b 0 )( y) (b 1 )( xy) n 2 = SS(y) b 1SS(xy) n 2 der SS(y) = (y ȳ) 2. I læreboka advares det mot å bruke for få desimaler - som kan føre til store unøyaktigheter i beregningen av s 2 e, se side 631: Note.

13 Eksempel 13.5: Reisetid til arbeid mot avstand til arbeid. Estimer regresjonslinje og s 2 e.

SS(x) = (x 2 ) ( x) 2 n = 2616 (184)2 15 = 358.9333 SS(xy) = x y (xy) n = 5623 (184)(403) 15 = 679.5333 b 1 = SS(xy) = 1.893202 = 1.89 b 0 = SS(x) = 679.5333 358.9333 y (b1 x) n = 403 (1.893202)(184) 15 = 3.643387 = 3.64 se 2 = ( y 2 ) (b 0 )( y) (b 1 )( xy) n 2 = 12493 3.643387 403 1.893202 5623 15 2 = 29.17 slik at s e = 29.17 = 5.40 er estimert standardavvik for feilen ɛ.

Estimert regresjonslinje: ŷ = 3.64 + 1.89x.

16 Problemstillinger for statistisk inferens i reisetidseksemplet 1. Har reisetiden tendens til å øke når avstand til arbeid øker? 2. Du bor i en gitt avstand x = x 0 fra jobben. Hva er gjennomsnittlig reisetid for ansatte med denne avstanden? 3. Hva blir din reisetid?

17 Hands-on: Hanford cancer data http://www.statsci.org/data/general/hanford.html Plutonium production in Hanford, Washington, since WW2. Storage of radioactive waste (strontium 90 and cecium 137), leak to the Columbia River, at the state border between Washington and Oregon - ending up in the Pacific Ocean. Exposure index and mortality due to cancer registred for 9 counties in Oregon, 1959-1964.

18 Hanford cancer data County Exposure Mortality Umatilla 2.49 147.1 Morrow 2.57 130.1 Gilliam 3.41 129.9 Sherman 1.25 113.5 Wasco 1.62 137.5 HoodRiver 3.83 162.3 Portland 11.64 207.5 Columbia 6.41 177.9 Clatsop 8.34 210.3

19 Hanford: beregn b 0, b 1 og s e n=9 x= 41.56 y =1416.1 SS(x)=97.50736 SS(y)=9683.502 SS(xy)=900.1349 Tegn regresjonslinja. Hva kan være neste steg i data-analysen?

20 Inferens om stigningstallet β 1 for regresjonslinja y = β 0 + β 1 x (13.4) Populasjonsparameter: β 1 Punktestimat: b 1 Estimat for varians og standardfeil for b 1 : s 2 b 1 = s2 e SS(x), s b 1 = (1 α)-konfidensintervall for β 1 : s 2 e SS(x) b 1 ± t(n 2, α/2) s b1

Testobservator for H 0 : β 1 = c, oftest H 0 : β 1 = 0: t = b 1 c s b1 som er t-fordelt med n 2 frihetsgrader hvis H 0 gjelder. Fortolkning av H 0 : β 1 = 0: x har ingen (lineær) innvirkning på y

Eksempel med reisetid (forts.) Øker reisetid y når avstand x øker? (dvs. er β 1 > 0)? Vi har s 2 b 1 = så testobservatoren blir H 0 : β 1 = 0 mot H a : β 1 > 0 s2 e SS(x) = 29.1723 = 0.081275 = 0.0813 358.9333 t = b 1 s b1 = 1.89 0.0813 = 6.63. α = 0.05 gir kritisk verdi t(15 2, 0.05) = t(13, 0.05) = 1.77 Vi har t = 6.63 > 1.77 så vi forkaster H 0.

23 Hands-on: Hanford Har funnet at b 0 = 114.716 og b 1 = 9.231 og s e = 14.01, og videre at n = 9. Test om det er en lineær sammenheng mellom eksponering og dødlighet.

24 Hanford data lineær regresjon: output fra R > summary(lm(y~x)) Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -16.295-12.755 4.011 9.398 18.594 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 114.716 8.046 14.258 1.98e-06 *** x 9.231 1.419 6.507 0.000332 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 14.01 on 7 degrees of freedom Multiple R-squared: 0.8581,Adjusted R-squared: 0.8378 F-statistic: 42.34 on 1 and 7 DF, p-value: 0.0003321

25 Reiseeksemplet - fortsatt Konfidensintervall for β 1 er presentert tidligere: b 1 ± t(n 2, α/2)s b1 Et 95% konfidensintervall for β 1 i reiseeksemplet blir derfor: 1.89 ± t(13, 0.025) 0.0813 = 1.89 ± 0.62

27 Prediksjon i lineær regresjon (13.5) Spørsmål: Hva kan vi si om en uobservert y for en gitt x-verdi lik x 0? Populasjonsgjennomsnitt: µ y x0 = β 0 + β 1 x 0 Punktestimat for µ y x0 (punktprediksjon for y): ŷ = b 0 + b 1 x 0 (1 α)-konfidensintervall for µ y x0 : 1 ŷ ± t(n 2, α/2)s e n + (x 0 x) 2 SS(x) (1 α)-prediksjonsintervall for den uobserverte y: ŷ ± t(n 2, α/2)s e 1 + 1 n + (x 0 x) 2 SS(x)

Eksempel med reisetid (forts.) Du vurderer å kjøpe et hus i avstand x 0 = 7 miles fra jobben. Hva er forventet reisetid til jobben herfra? Svar: µ y 7 = β 0 + β 1 7. Hva er punktestimatet for µ y 7? Svar: ŷ = 3.64 + 1.89 7 = 16.87 Hva er et 95% konfidensintervall for µ y 7? Svar: 1 ŷ ± t(n 2, α/2)s e n + (x 0 x) 2 SS(x) 1 (7 12.27)2 = 16.87 ± t(13, 0.025)5.40 + 15 358.933 = 16.87 ± 4.43 der vi har brukt at x = 184/15 = 12.27 og t(13, 0.025) = 2.16 fra tabell 6.

Hva er et 95% prediksjonsintervall for µ y 7? ŷ ± t(n 2, α/2)s e 1 + 1 n + (x 0 x) 2 SS(x) = 16.87 ± 2.16 5.40 1 + 1 (7 12.27)2 + = 16.87 ± 12.48 15 358.933

31 Konfidens- vs. prediksjonsintervall 95 % konfidensintervall og prediksjonsintervall ved x = 7 miles: KI: 16.87± 4.43=[12.44, 21.3] og PI:16.87± 12.48=[4.39, 29.35] Hva er forskjellen mellom et konfidens- og prediksjonsintervall? Konfidensintervallet gir et anslag for gjennomsnittlig reisetid for de som bor 7 miles fra jobben. Konfidensintervallet vil bli mer nøyaktig (smalere) jo flere arbeidere (n) som er med i undersøkelsen. Du er imidlertid mer interessert i hva som blir din reisetid, ikke hva som er gjennomsnittet for alle med 7 miles vei. Prediksjonsintervallet er et intervall der din reisetid vil ligge med sannynlighet 95%. Den tar hensyn til eksperimentfeilen σ ɛ, som er usikkerheten i en enkel observasjon av y. Prediksjonsintervallet går ikke mot null i bredde når n vokser.

95 % konfidensintervall (CI) og prediksjonsintervall (PI) tegnet som funksjon av x

Eksamensoppgaver med regresjon: Høst 2009, Oppgave 3 Høst 2008, Oppgave 2 Høst 2007, Oppgave 2 Vår 2006, Oppgave 4 Vår 2004, Oppgave 2e Høst 2003, Oppgave 4d Høst 2002, Oppgave 3d Alvorlige trykkfeil i 10 utgave av boka: (rettet i 11. utgave) Ligning (13.4) side 713: Skal være y istedenfor ŷ Ligning (13.16) side 730: Skal være kvadratrottegn over siste del, dvs. ŷ ± t(n 2, α/2) s e 1 + 1 n + (x 0 x) 2 SS(x) (13.16)