2 Kap. 13: Lieær korrelasjos- og regresjosaalyse ST0202 Statistikk for samfusvitere Bo Lidqvist Istitutt for matematiske fag Kap. 13.1-13.3: Lieær korrelasjosaalyse. Disse avsitt er ikke pesum, me de lieære korrelasjoskoeffisiete r er behadlet i Kap. 3 (se tidligere slides). I kap. 13.1.13.3 gjøres det statistisk iferes om populasjoskorrelasjoskoeffisiete ρ basert på utvalgskorrelasjoskoeffisiete r. 3 Lieær regresjosaalyse (13.4) Eksempel fra Kap. 3: Atall push ups og atall sit ups for ti tilfeldig valgte studeter. Studet Push-Ups Sit-Ups 1 27 30 2 22 26 3 25 4 35 42 5 30 38 6 52 40 7 35 32 8 55 54 9 40 50 10 40 43 Spredigsplott ( scatter diagram ) Plott av atall sit ups mot atall push ups. Idé i lieær regresjosaalyse: Tilpass e rett lije av forme: ŷ b 0 + b 1 x der x er atall push-ups og ŷ er predikert (aslått) verdi for sit-ups.
De beste lije ŷ b 0 + b 1 x med b 0 14.9 ogb 1 0.66 er fuet ved miste kvadraters metode ( least squares method ). 6 Miste kvadraters ( least squares ) metode (fra Kap. 3.4) Har utvalg av sammehørede par (x, y). Øsker e regresjoslije: ŷ b 0 + b 1 x For x 40 push ups, aslår (predikerer) vi dermed atall sit-ups til å være ŷ 14.9 + 0.66 40 41.3. Ide: Velg b 0 og b 1 slik at kvadratisk avvik mellom ŷ og y for puktee i spredigsplottet blir mist mulig. Da er b 1 SS(xy) y b1 x b 0 der x 2 ( x) 2 SS(xy) xy ( x)( y) 7 Lieær regresjosaalyse: Populasjosmodell For gitt x observerer vi y, dery β 0 + β 1 x + ɛ ɛ er ormalfordelt med forvetig 0 og varias σɛ 2 β 0,β 1 og σɛ 2 er ukjete populasjosparametre. y er dermed ormalfordelt med forvetet verdi β 0 + β 1 x og varias σɛ 2 Atagelse for iferes i lieær regresjo 8 Eksperimetfeil og residualer Modell for populasjoe er altså: y β 0 + β 1 x + ɛ, dvs.y ligger ideelt sett på e teoretisk lije y β 0 + β 1 x,memedavvikɛ som kalles eksperimetfeil eller tilfeldige feil. Fra vårt utvalg estimerer vi de teoretiske lija ved miste kvadraters metode: ŷ b 0 + b 1 x og rekostruerer eksperimetfeile ɛ med: Estimat for eksperimetfeile (også kalt residual eller feil) Baserer på et tilfeldig utvalg av par (x, y). De tilsvarede eksperimetfeilee ɛ ka da atas uavhegige og ormalfordelte med samme varias σ 2 ɛ. Dermed vil også de y-ee være ormalfordelte og uavhegige. e y ŷ dvs. forskjelle mellom e observert y og det tilsvarede pukt på de estimerte lija.
Illustrasjo av residual e: 10 Lija er ŷ b 0 + b 1 x. Estimert eksperimetfeil (også kalt residual eller feil ) er e y ŷ Puktestimater β 0 og β 1 estimeres ved b 0 og b 1 (miste kvadraters metode) Puktestimat for σ 2 ɛ, i boka kalt Variace of the Error, e: s 2 e (y ŷ) 2 2 der 2 er atall frihetsgrader (for seere bruk). Regeformler: s 2 e ( y 2 ) (b 0 )( y) (b 1 )( xy) 2 SS(y) b 1SS(xy) 2 NB! e 3 på figure er egativ, da puktet ligger uder lija. Eksempel 13.5: Reisetid til arbeid mot avstad til arbeid. arbeider miles x miutter y 1 3 7 2 5 20 3 7 20 4 8 5 10 25 6 11 17 7 12 20 8 12 35 9 13 26 10 25 11 35 12 16 32 13 18 44 14 19 37 20 45 Estimert regresjoslije: ŷ 3.64 + 1.89x
(x 2 ) ( x) 2 2616 (184)2 358.9333 SS(xy) (xy) x y 5623 (184)(403) 679.5333 b 1 SS(xy) 679.5333 358.9333 1.893202 1.89 b 0 y (b1 x) 403 (1.893202)(184) 3.643387 3.64 se 2 ( y 2 ) (b 0 )( y) (b 1 )( xy) 2 12493 3.643387 403 1.893202 5623 2 29.17 slik at s e 29.17 5.40 er estimert stadardavvik for feile ɛ. Problemstilliger for statistisk iferes i reisetidseksemplet: 1. Har reisetide tedes til å øke år avstad til arbeid øker? 2. Du bor i e gitt avstad x x 0 fra jobbe. Hva er gjeomsittlig reisetid for asatte med dee avstade? 3. Hva blir di reisetid? Iferes om stigigstallet β 1 for regresjoslija y β 0 + β 1 x (13.5) 16 (Forts.) Populasjosparameter: β 1 Puktestimat: b 1 Estimat for varias og stadardfeil for b 1 : s 2 b 1 s2 e, s b 1 (1 α)-kofidesitervall for β 1 : s 2 e Testobservator for H 0 : β 1 c, oftest H 0 : β 1 0: t b 1 c s b1 som er t-fordelt med 2 frihetsgrader hvis H 0 gjelder. Fortolkig av H 0 : β 1 0: x har ige ivirkig på y b 1 ± t( 2,α/2) s b1
Eksempel med reisetid (forts.) Øker reisetid y år avstad x øker? (dvs. er β 1 > 0)? Vi har s 2 b 1 så testobservatore blir H 0 : β 1 0 mot H a : β 1 > 0 s2 e 29.1723 0.081275 0.0813 358.9333 t b 1 s b1 1.89 0.0813 6.63. Kofidesitervall for β 1 er presetert tidligere: b 1 ± t( 2,α/2)s b1 Et 95% kofidesitervall for β 1 i reiseeksemplet blir derfor: 1.89 ± t(13, 0.025) 0.0813 1.89 ± 0.62 α 0.05 gir kritisk verdi t( 2, 0.05) t(13, 0.05) 1.77 Vi har t 6.63 > 1.77 så vi forkaster H 0. 19 Prediksjo i lieær regresjo (13.6) Spørsmål: Hva ka vi si om e uobservert y for e gitt x-verdi lik x 0? Populasjosgjeomsitt: μ y x0 β 0 + β 1 x 0 Puktestimat for μ y x0 (puktprediksjo for y): ŷ b 0 + b 1 x 0 (1 α)-kofidesitervall for μ y x0 : 1 ŷ ± t( 2,α/2)s e + (x 0 x) 2 (1 α)-prediksjositervall for de uobserverte y: ŷ ± t( 2,α/2)s e 1 + 1 + (x 0 x) 2 Eksempel med reisetid (forts.) Du vurderer å kjøpe et hus i avstad x 0 7 miles fra jobbe. Hva er forvetet reisetid til jobbe herfra? Svar: μ y 7 β 0 + β 1 7. Hva er puktestimatet for μ y 7?Svar:ŷ 3.64 + 1.89 7 16.87 Hva er et 95% kofidesitervall for μ y 7?Svar: 1 ŷ ± t( 2,α/2)s e + (x 0 x) 2 1 (7 12.27)2 16.87 ± t(13, 0.025)5.40 + 16.87 ± 4.43 358.933 der vi har brukt at x 184/ 12.27 og t(13, 0.025) 2.16 fra tabell 6.
Hva er et 95% prediksjositervall for μ y 7?Svar: ŷ ± t( 2,α/2)s e 1 + 1 + (x 0 x) 2 16.87 ± 2.16 5.40 1 + 1 + (7 12.27)2 358.933 16.87 ± 12.48 Hva er forskjelle mellom et kofides- og prediksjositervall? Kofidesitervallet gir et aslag for gjeomsittlig reisetid for de som bor 7 miles fra jobbe. Kofidesitervallet vil bli mer øyaktig (smalere) jo flere arbeidere () som er med i udersøkelse. Du er imidlertid mer iteressert i hva som blir di reisetid, ikke hva som er gjeomsittet for alle med 7 miles vei. Prediksjositervallet er et itervall der di reisetid vil ligge med saylighet 95%. De tar hesy til eksperimetfeile σ ɛ, som er usikkerhete i e ekel observasjo av y. Prediksjositervallet går ikke mot ull i bredde år vokser. 95 % kofidesitervall (CI) og prediksjositervall (PI) teget som fuksjo av x 95 % kofidesitervall og prediksjositervall ved x 7 miles y.miute 10 20 30 40 5 10 20 x.miles Eksamesoppgaver med regresjo: Høst 2009, Oppgave 3 Høst 2008, Oppgave 2 Høst 2007, Oppgave 2 Vår 2006, Oppgave 4 Vår 2004, Oppgave 2e Høst 2003, Oppgave 4d Høst 2002, Oppgave 3d Alvorlige trykkfeil i boka: Ligig (13.4) side 713: Skal være y istedefor ŷ Ligig (13.16) side 730: Skal være kvadratrotteg over siste del, dvs. ŷ ± t( 2,α/2) s e 1 + 1 + (x 0 x) 2 (13.16)