ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag
2 Kap. 13: Lineær korrelasjons- og regresjonsanalyse Kap. 13.1-13.3: Lineær korrelasjonsanalyse. Disse avsnitt er ikke pensum, men den lineære korrelasjonskoeffisienten r er behandlet i Kap. 3 (se tidligere slides). Nytt i kap. 13.1.13.3 er at det gjøres statistisk inferens om populasjonskorrelasjonskoeffisienten ρ basert på utvalgskorrelasjonskoeffisienten r.
3 Lineær regresjonsanalyse (13.4) Eksempel fra Kap. 3: Antall push ups og antall sit ups for ti tilfeldig valgte studenter. Student Push-Ups Sit-Ups 1 27 30 2 22 26 3 15 25 4 35 42 5 30 38 6 52 40 7 35 32 8 55 54 9 40 50 10 40 43
Spredningsplott ( scatter diagram ) Plott av antall sit ups mot antall push ups. Idé i lineær regresjonsanalyse: Tilpass en rett linje av formen: ŷ = b 0 + b 1 x der x er antall push-ups og ŷ er predikert (anslått) verdi for sit-ups.
Den beste linjen ŷ = b 0 + b 1 x med b 0 = 14.9 og b 1 = 0.66 er funnet ved minste kvadraters metode ( least squares method ). For x = 40 push ups, anslår (predikerer) vi dermed antall sit-ups til å være ŷ = 14.9 + 0.66 40 = 41.3.
6 Minste kvadraters ( least squares ) metode (fra Kap. 3.4) Har utvalg av n sammenhørende par (x, y). Ønsker en regresjonslinje: ŷ = b 0 + b 1 x Ide: Velg b 0 og b 1 slik at kvadratisk avvik mellom ŷ og y for punktene i spredningsplottet blir minst mulig. Da er der b 1 = SS(xy) SS(x) y b1 x b 0 = n SS(x) = x 2 ( x) 2 n SS(xy) = xy ( x)( y) n
7 Lineær regresjonsanalyse: Populasjonsmodell For gitt x observerer vi y, der y = β 0 + β 1 x + ɛ ɛ er normalfordelt med forventning 0 og varians σ 2 ɛ β 0, β 1 og σ 2 ɛ er ukjente populasjonsparametre. y er dermed normalfordelt med forventet verdi β 0 + β 1 x og varians σ 2 ɛ Antagelse for inferens i lineær regresjon Baserer på et tilfeldig utvalg av n par (x, y). De tilsvarende ekseperimentfeilene ɛ kan da antas uavhengige og normalfordelte med samme varians σ 2 ɛ. Dermed vil også de n y-ene være normalfordelte og uavhengige.
8 Eksperimentfeil og residualer Modell for populasjonen er altså: y = β 0 + β 1 x + ɛ, dvs. y ligger ideelt sett på en teoretisk linje y = β 0 + β 1 x, men med avvik ɛ som kalles eksperimentfeil eller tilfeldige feil. Fra vårt utvalg estimerer vi den teoretiske linja ved minste kvadraters metode: ŷ = b 0 + b 1 x og rekonstruerer eksperimentfeilen ɛ med: Estimat for eksperimentfeilen (også kalt residual eller feil) e = y ŷ dvs. forskjellen mellom en observert y og det tilsvarende punkt på den estimerte linja.
Illustrasjon av residual e: Linja er ŷ = b 0 + b 1 x. Estimert eksperimentfeil (også kalt residual eller feil ) er e = y ŷ NB! e 3 på figuren er negativ, da punktet ligger under linja.
10 Punktestimater β 0 og β 1 estimeres ved b 0 og b 1 (minste kvadraters metode) Punktestimat for σ 2 ɛ, i boka kalt Variance of the Error, e: s 2 e = (y ŷ) 2 n 2 der n 2 er antall frihetsgrader (for senere bruk). Regneformler: s 2 e = ( y 2 ) (b 0 )( y) (b 1 )( xy) n 2 = SS(y) b 1SS(xy) n 2
Eksempel 13.5: Reisetid til arbeid mot avstand til arbeid. arbeider miles x minutter y 1 3 7 2 5 20 3 7 20 4 8 15 5 10 25 6 11 17 7 12 20 8 12 35 9 13 26 10 15 25 11 15 35 12 16 32 13 18 44 14 19 37 15 20 45
Estimert regresjonslinje: ŷ = 3.64 + 1.89x
SS(x) = (x 2 ) ( x) 2 n = 2616 (184)2 15 = 358.9333 SS(xy) = (xy) x y n = 5623 (184)(403) 15 = 679.5333 b 1 = SS(xy) = 1.893202 = 1.89 b 0 = SS(x) = 679.5333 358.9333 y (b1 x) n = 403 (1.893202)(184) s 2 e = ( y 2 ) (b 0 )( y) (b 1 )( xy) n 2 15 = 3.643387 = 3.64 = 12493 3.643387 403 1.893202 5623 15 2 = 29.17 slik at s e = 29.17 = 5.40 er estimert standardavvik for feilen ɛ.
Problemstillinger for statistisk inferens i reisetidseksemplet: 1. Har reisetiden tendens til å øke når avstand til arbeid øker? 2. Du bor i avstand x fra jobben. Hva er gjennomsnittlig reisetid for ansatte med denne avstanden? 3. Hva blir din reisetid?
15 Inferens om stigningstallet β 1 for regresjonslinja y = β 0 + β 1 x (13.5) Populasjonsparameter β 1 Punktestimat: b 1 Estimat for varians og standardfeil for b 1 : s 2 b 1 = s2 e SS(x), s b 1 = (1 α)-konfidensintervall for β 1 : s 2 e SS(x) b 1 ± t(n 2, α/2) s b1
16 (Forts.) Testobservator for H 0 : β 1 = c, oftest H 0 : β 1 = 0: t = b 1 c s b1 som er t-fordelt med n 2 frihetsgrader hvis H 0 gjelder.
Eksempel med reisetid (forts.) Øker reisetid y når avstand x øker? (dvs. er β 1 > 0)? Vi har s 2 b 1 = så testobservatoren blir H 0 : β 1 = 0 mot H a : β 1 > 0 s2 e SS(x) = 29.1723 = 0.081275 = 0.0813 358.9333 t = b 1 s b1 = 1.89 0.0813 = 6.63. α = 0.05 gir kritisk verdi t(15 2, 0.05) = t(13, 0.05) = 1.77 Vi har t = 6.63 > 1.77 så vi forkaster H 0.
Konfidensintervall for β 1 er presentert tidligere: b 1 ± t(n 2, α/2)s b1 Et 95% konfidensintervall for β 1 i reiseeksemplet blir derfor: 1.89 ± t(13, 0.025) 0.0813 = 1.89 ± 0.62
19 Prediksjon i lineær regresjon (13.6) Spørsmål: Hva kan vi si om en uobservert y for en gitt x-verdi lik x 0? Populasjonsgjennomsnitt: µ y x0 = β 0 + β 1 x 0 Punktestimat for µ y x0 (punktprediksjon for y): ŷ = b 0 + b 1 x 0 (1 α)-konfidensintervall for µ y x0 : 1 ŷ ± t(n 2, α/2)s e n + (x 0 x) 2 SS(x) (1 α)-prediksjonsintervall for den uobserverte y: ŷ ± t(n 2, α/2)s e 1 + 1 n + (x 0 x) 2 SS(x)
Eksempel med reisetid (forts.) Du vurderer å kjøpe et hus i avstand x 0 = 7 miles fra jobben. Hva er forventet reisetid til jobben herfra? Svar: µ y 7 = β 0 + β 1 7. Hva er punktestimatet for µ y 7? Svar: ŷ = 3.64 + 1.89 7 = 16.87 Hva er et 95% konfidensintervall for µ y 7? Svar: 1 ŷ ± t(n 2, α/2)s e n + (x 0 x) 2 SS(x) 1 (7 12.27)2 = 16.87 ± t(13, 0.025)5.40 + 15 358.933 = 16.87 ± 4.43 der vi har brukt at x = 184/15 = 12.27 og t(13, 0.025) = 2.16 fra tabell 6.
Hva er et 95% prediksjonsintervall for µ y 7? Svar: ŷ ± t(n 2, α/2)s e 1 + 1 n + (x 0 x) 2 SS(x) = 16.87 ± 2.16 5.40 1 + 1 (7 12.27)2 + 15 358.933 = 16.87 ± 12.48 Hva er forskjellen mellom et konfidens- og prediksjonsintervall? Konfidensintervallet gir et anslag for gjennomsnittlig reisetid for de som bor 7 miles fra jobben. Konfidensintervallet vil bli mer nøyaktig (smalere) jo flere arbeidere (n) som er med i undersøkelsen. Du er imidlertid mer interessert i hva som blir din reisetid, ikke hva som er gjennomsnittet for alle med 7 miles vei. Prediksjonsintervallet er et intervall der din reisetid vil ligge med sannynlighet 95%. Den tar hensyn til eksperimentfeilen σ ɛ, som er usikkerheten i en enkel observasjon av y. Prediksjonsintervallet går ikke mot null i bredde når n vokser.
95 % konfidensintervall og prediksjonsintervall ved x = 7 miles y.minute 10 20 30 40 5 10 15 20 x.miles
95 % konfidensintervall (CI) og prediksjonsintervall (PI) tegnet som funksjon av x
Eksamensoppgaver med regresjon: Høst 2008, Oppgave 2 Høst 2007, Oppgave 2 Vår 2006, Oppgave 4 Vår 2004, Oppgave 2e Høst 2003, Oppgave 4d Høst 2002, Oppgave 3d Alvorlige trykkfeil i boka: Ligning (13.4) side 713: Skal være y istedenfor ŷ Ligning (13.16) side 730: Skal være kvadratrottegn over siste del, dvs. ŷ ± t(n 2, α/2) s e 1 + 1 n + (x 0 x) 2 (13.16) SS(x)