Lineær regresjonsanalyse (13.4)

Like dokumenter
ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =

ECON240 Statistikk og økonometri

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

Kap. 9: Inferens om én populasjon

TMA4245 Statistikk Vår 2015

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

MOT310 Statistiske metoder 1, høsten 2011

Kap. 9: Inferens om én populasjon

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

TMA4245 Statistikk Eksamen mai 2017

Kapittel 8: Estimering

LØSNING: Eksamen 28. mai 2015

TMA4240 Statistikk 2014

AVDELING FOR INGENIØRUTDANNING EKSAMENSOPPGAVE

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

ST1201 Statistiske metoder

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

TMA4240 Statistikk Høst 2016

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

H14 - Hjemmeeksamen i statistikk/ped sensurveiledning

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

EKSAMENSOPPGAVE. Mat-1060 Beregningsorientert programmering og statistikk

Estimering 2. -Konfidensintervall

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ST1201 Statistiske metoder

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

EKSAMEN I TMA4245 Statistikk

Estimering 1 -Punktestimering

Rep.: generelle begrep og definisjoner Kp. 10.1, 10.2 og 10.3

ST0202 Statistikk for samfunnsvitere

TMA4245 Statistikk Eksamen 9. desember 2013

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

TMA4240 Statistikk Høst 2015

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

Løsningsforslag Oppgave 1

TMA4245 Statistikk. Øving nummer 12, blokk II Løsningsskisse. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Estimering 1 -Punktestimering

Løsningsforslag ST2301 øving 3

Løsning TALM1005 (statistikkdel) juni 2017

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Emnenavn: Metode 1, statistikk deleksamen. Eksamenstid: 4 timer. Faglærer: Bjørnar Karlsen Kivedal

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

Sammendrag i statistikk

ST0202 Statistikk for samfunnsvitere

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering.

Statistikk og økonomi, våren 2017

TMA4240 Statistikk Høst 2016

Mer om utvalgsundersøkelser

TMA4240 Statistikk Høst 2015

STK1100 våren 2017 Estimering

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 5 Estimering. Målemodellen.

Transkript:

2 Kap. 13: Lieær korrelasjos- og regresjosaalyse ST0202 Statistikk for samfusvitere Bo Lidqvist Istitutt for matematiske fag Kap. 13.1-13.3: Lieær korrelasjosaalyse. Disse avsitt er ikke pesum, me de lieære korrelasjoskoeffisiete r er behadlet i Kap. 3 (se tidligere slides). I kap. 13.1.13.3 gjøres det statistisk iferes om populasjoskorrelasjoskoeffisiete ρ basert på utvalgskorrelasjoskoeffisiete r. 3 Lieær regresjosaalyse (13.4) Eksempel fra Kap. 3: Atall push ups og atall sit ups for ti tilfeldig valgte studeter. Studet Push-Ups Sit-Ups 1 27 30 2 22 26 3 25 4 35 42 5 30 38 6 52 40 7 35 32 8 55 54 9 40 50 10 40 43 Spredigsplott ( scatter diagram ) Plott av atall sit ups mot atall push ups. Idé i lieær regresjosaalyse: Tilpass e rett lije av forme: ŷ b 0 + b 1 x der x er atall push-ups og ŷ er predikert (aslått) verdi for sit-ups.

De beste lije ŷ b 0 + b 1 x med b 0 14.9 ogb 1 0.66 er fuet ved miste kvadraters metode ( least squares method ). 6 Miste kvadraters ( least squares ) metode (fra Kap. 3.4) Har utvalg av sammehørede par (x, y). Øsker e regresjoslije: ŷ b 0 + b 1 x For x 40 push ups, aslår (predikerer) vi dermed atall sit-ups til å være ŷ 14.9 + 0.66 40 41.3. Ide: Velg b 0 og b 1 slik at kvadratisk avvik mellom ŷ og y for puktee i spredigsplottet blir mist mulig. Da er b 1 SS(xy) y b1 x b 0 der x 2 ( x) 2 SS(xy) xy ( x)( y) 7 Lieær regresjosaalyse: Populasjosmodell For gitt x observerer vi y, dery β 0 + β 1 x + ɛ ɛ er ormalfordelt med forvetig 0 og varias σɛ 2 β 0,β 1 og σɛ 2 er ukjete populasjosparametre. y er dermed ormalfordelt med forvetet verdi β 0 + β 1 x og varias σɛ 2 Atagelse for iferes i lieær regresjo 8 Eksperimetfeil og residualer Modell for populasjoe er altså: y β 0 + β 1 x + ɛ, dvs.y ligger ideelt sett på e teoretisk lije y β 0 + β 1 x,memedavvikɛ som kalles eksperimetfeil eller tilfeldige feil. Fra vårt utvalg estimerer vi de teoretiske lija ved miste kvadraters metode: ŷ b 0 + b 1 x og rekostruerer eksperimetfeile ɛ med: Estimat for eksperimetfeile (også kalt residual eller feil) Baserer på et tilfeldig utvalg av par (x, y). De tilsvarede eksperimetfeilee ɛ ka da atas uavhegige og ormalfordelte med samme varias σ 2 ɛ. Dermed vil også de y-ee være ormalfordelte og uavhegige. e y ŷ dvs. forskjelle mellom e observert y og det tilsvarede pukt på de estimerte lija.

Illustrasjo av residual e: 10 Lija er ŷ b 0 + b 1 x. Estimert eksperimetfeil (også kalt residual eller feil ) er e y ŷ Puktestimater β 0 og β 1 estimeres ved b 0 og b 1 (miste kvadraters metode) Puktestimat for σ 2 ɛ, i boka kalt Variace of the Error, e: s 2 e (y ŷ) 2 2 der 2 er atall frihetsgrader (for seere bruk). Regeformler: s 2 e ( y 2 ) (b 0 )( y) (b 1 )( xy) 2 SS(y) b 1SS(xy) 2 NB! e 3 på figure er egativ, da puktet ligger uder lija. Eksempel 13.5: Reisetid til arbeid mot avstad til arbeid. arbeider miles x miutter y 1 3 7 2 5 20 3 7 20 4 8 5 10 25 6 11 17 7 12 20 8 12 35 9 13 26 10 25 11 35 12 16 32 13 18 44 14 19 37 20 45 Estimert regresjoslije: ŷ 3.64 + 1.89x

(x 2 ) ( x) 2 2616 (184)2 358.9333 SS(xy) (xy) x y 5623 (184)(403) 679.5333 b 1 SS(xy) 679.5333 358.9333 1.893202 1.89 b 0 y (b1 x) 403 (1.893202)(184) 3.643387 3.64 se 2 ( y 2 ) (b 0 )( y) (b 1 )( xy) 2 12493 3.643387 403 1.893202 5623 2 29.17 slik at s e 29.17 5.40 er estimert stadardavvik for feile ɛ. Problemstilliger for statistisk iferes i reisetidseksemplet: 1. Har reisetide tedes til å øke år avstad til arbeid øker? 2. Du bor i e gitt avstad x x 0 fra jobbe. Hva er gjeomsittlig reisetid for asatte med dee avstade? 3. Hva blir di reisetid? Iferes om stigigstallet β 1 for regresjoslija y β 0 + β 1 x (13.5) 16 (Forts.) Populasjosparameter: β 1 Puktestimat: b 1 Estimat for varias og stadardfeil for b 1 : s 2 b 1 s2 e, s b 1 (1 α)-kofidesitervall for β 1 : s 2 e Testobservator for H 0 : β 1 c, oftest H 0 : β 1 0: t b 1 c s b1 som er t-fordelt med 2 frihetsgrader hvis H 0 gjelder. Fortolkig av H 0 : β 1 0: x har ige ivirkig på y b 1 ± t( 2,α/2) s b1

Eksempel med reisetid (forts.) Øker reisetid y år avstad x øker? (dvs. er β 1 > 0)? Vi har s 2 b 1 så testobservatore blir H 0 : β 1 0 mot H a : β 1 > 0 s2 e 29.1723 0.081275 0.0813 358.9333 t b 1 s b1 1.89 0.0813 6.63. Kofidesitervall for β 1 er presetert tidligere: b 1 ± t( 2,α/2)s b1 Et 95% kofidesitervall for β 1 i reiseeksemplet blir derfor: 1.89 ± t(13, 0.025) 0.0813 1.89 ± 0.62 α 0.05 gir kritisk verdi t( 2, 0.05) t(13, 0.05) 1.77 Vi har t 6.63 > 1.77 så vi forkaster H 0. 19 Prediksjo i lieær regresjo (13.6) Spørsmål: Hva ka vi si om e uobservert y for e gitt x-verdi lik x 0? Populasjosgjeomsitt: μ y x0 β 0 + β 1 x 0 Puktestimat for μ y x0 (puktprediksjo for y): ŷ b 0 + b 1 x 0 (1 α)-kofidesitervall for μ y x0 : 1 ŷ ± t( 2,α/2)s e + (x 0 x) 2 (1 α)-prediksjositervall for de uobserverte y: ŷ ± t( 2,α/2)s e 1 + 1 + (x 0 x) 2 Eksempel med reisetid (forts.) Du vurderer å kjøpe et hus i avstad x 0 7 miles fra jobbe. Hva er forvetet reisetid til jobbe herfra? Svar: μ y 7 β 0 + β 1 7. Hva er puktestimatet for μ y 7?Svar:ŷ 3.64 + 1.89 7 16.87 Hva er et 95% kofidesitervall for μ y 7?Svar: 1 ŷ ± t( 2,α/2)s e + (x 0 x) 2 1 (7 12.27)2 16.87 ± t(13, 0.025)5.40 + 16.87 ± 4.43 358.933 der vi har brukt at x 184/ 12.27 og t(13, 0.025) 2.16 fra tabell 6.

Hva er et 95% prediksjositervall for μ y 7?Svar: ŷ ± t( 2,α/2)s e 1 + 1 + (x 0 x) 2 16.87 ± 2.16 5.40 1 + 1 + (7 12.27)2 358.933 16.87 ± 12.48 Hva er forskjelle mellom et kofides- og prediksjositervall? Kofidesitervallet gir et aslag for gjeomsittlig reisetid for de som bor 7 miles fra jobbe. Kofidesitervallet vil bli mer øyaktig (smalere) jo flere arbeidere () som er med i udersøkelse. Du er imidlertid mer iteressert i hva som blir di reisetid, ikke hva som er gjeomsittet for alle med 7 miles vei. Prediksjositervallet er et itervall der di reisetid vil ligge med saylighet 95%. De tar hesy til eksperimetfeile σ ɛ, som er usikkerhete i e ekel observasjo av y. Prediksjositervallet går ikke mot ull i bredde år vokser. 95 % kofidesitervall (CI) og prediksjositervall (PI) teget som fuksjo av x 95 % kofidesitervall og prediksjositervall ved x 7 miles y.miute 10 20 30 40 5 10 20 x.miles Eksamesoppgaver med regresjo: Høst 2009, Oppgave 3 Høst 2008, Oppgave 2 Høst 2007, Oppgave 2 Vår 2006, Oppgave 4 Vår 2004, Oppgave 2e Høst 2003, Oppgave 4d Høst 2002, Oppgave 3d Alvorlige trykkfeil i boka: Ligig (13.4) side 713: Skal være y istedefor ŷ Ligig (13.16) side 730: Skal være kvadratrotteg over siste del, dvs. ŷ ± t( 2,α/2) s e 1 + 1 + (x 0 x) 2 (13.16)