10.1 Enkel lineær regresjon Multippel regresjon

Like dokumenter
Inferens i regresjon

Kort overblikk over kurset sålangt

2.2 Korrelasjon. Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

UNIVERSITETET I OSLO

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4255 Anvendt statistikk

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Kapittel 3: Studieopplegg

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

UNIVERSITETET I OSLO

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

TMA4240 Statistikk Høst 2016

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i TMA4255 Anvendt statistikk

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

UNIVERSITETET I OSLO

Løsningsforslag eksamen STAT100 Høst 2010

Løsningsforslag eksamen 25. november 2003

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

vekt. vol bruk

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

HØGSKOLEN I STAVANGER

UNIVERSITETET I OSLO

Tid: Torsdag 11. desember Emneansvarleg: Trygve Almøy

Fakultet for informasjonsteknologi, Institutt for matematiske fag EKSAMEN I EMNE ST2202 ANVENDT STATISTIKK

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Eksamensoppgåve i TMA4255 Anvendt statistikk

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgave i TMA4245 Statistikk

Tilleggsoppgaver for STK1110 Høst 2015

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

UNIVERSITETET I OSLO

Fasit og løsningsforslag STK 1110

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

UNIVERSITETET I OSLO

STK juni 2016

UNIVERSITETET I OSLO

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Regler i statistikk STAT 100

Oppgave N(0, 1) under H 0. S t n 3

Eksamensoppgåve i TMA4255 Anvendt statistikk

Løsningsforslag eksamen 27. februar 2004

Verdens statistikk-dag.

Statistikk og dataanalyse

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

UNIVERSITETET I OSLO

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Kp. 9.8 Forskjell mellom to forventninger

Om eksamen. Never, never, never give up!

Eksamensoppgave i TMA4255 Anvendt statistikk

Utvalgsfordelinger (Kapittel 5)

Kapittel 2: Hendelser

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Eksamensoppgave i TMA4255 Anvendt statistikk

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Eksamensoppgave i TMA4255 Anvendt statistikk

Kp. 12 Multippel regresjon

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Eksamensoppgave i TMA4240 Statistikk

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

TMA4245 Statistikk Eksamen august 2014

Fasit for tilleggsoppgaver

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

Tidspunkt for eksamen: 12. mai ,5 timer

ECON240 VÅR / 2016 BOKMÅL

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

TMA4240 Statistikk Høst 2018

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

EKSAMENSOPPGAVER STAT100 Vår 2011

Transkript:

Inferens for regresjon 10.1 Enkel lineær regresjon 11.1-11.2 Multippel regresjon 2012 W.H. Freeman and Company

Denne uken: Enkel lineær regresjon Litt repetisjon fra kapittel 2 Statistisk modell for enkel lineær regresjon Estimering av modell-parametre Konfidensintervall og hypotestetesting Prediksjonsintervall

Respons- og forklaringsvariable Ofte har variable ulike roller i en studie Responsvariabel måler utfall av en studie En forklaringsvariabel brukes til å forklare endringer i en responsvariabel Forklaringsvariabelen kan slik brukes til å forklare variasjonen i responsvariabelen Sjøku!

Regresjonslinje En regresjonslinje er en rett linje som beskriver hvordan responsvariabelen y endrer seg når forklaringsvariabelen x skifter verdier Vi sier ofte at regresjonslinjen predikerer verdien av y for en gitt verdi av x En rett linje som relaterer y til x har en likning på formen y=b 0 +b 1 x b 1 kalles stigningstallet, mengden y endrer seg når x endrer seg med en enhet. b 0 kalles skjæringspunktet, verdien y tar for x=0

Minste kvadraters regresjon Hvordan finne «beste» b 0 og b 1 fra data? Ingen linje vil gi perfekt tilpasning Ønsker vertikal avstand mellom linje og observert y verdi minst mulig Minste kvadraters regresjonslinje: Linjen som gjør kvadratsummen av vertikale avstander minst mulig Observasjoner (x1,y1),...,(xn,yn) Minimerer ˆ y = 0.125x 41.4

Likninger for minste kvadraters regresjonslinje

Regresjon og korrelasjon forklarer andelen av variasjon i y som kan forklares av x To kilder til variasjon, variasjon langs linjen (forklart av x) og variasjon rundt linjen (ikke forklart av x)

Residualer Residualer er differensen mellom observert verdi og predikert verdi: residual=observert y - predikert y= Resten, det vi ikke har forklart ved forklaringsvariabelen gjennom regresjonslinjen Residual for hver observasjon: Residualer summerer seg til 0 Nyttige for modell-sjekk

10.1 Inferens for enkel lineær regresjon Data i et scatterplot er tilfeldig utvalg fra en populasjon med en linær sammenheng mellom x og y. Et annet utvalg litt annet scatterplot Det er egentlig populasjonsforventningen µ y vi modellerer som en lineær funksjon av x: µ y = β 0 + β 1 x. Vi skal nå finne ut om den observerte sammenhengen er statistisk signifikant (og ikke et resultat av tilfeldigheter).

Sammenligning av respons på to behandlinger: Forventet respons varierer med type behandling

Regresjon: Sub-populasjoner, en for hver verdi av forklaringsvariabelen x Forventningen er en rettlinjet funksjon av x Observerte y-er for gitt verdi av x vil variere rundt denne forventningen gitt av x: Data = Forventning gitt av linjen + Residual Modellen antar at denne variasjonen rundt linjen, målt ved standardavviket σ, er den samme for alle verdier av x

Statistisk modell for lineær regresjon I populasjonen er den lineære regresjonsligningen µ y = β 0 + β 1 x. Data er observajoner fra modellen: Data = fit + residual y i = (β 0 + β 1 x i )+ (ε i ) For enhver gitt verdi x, følger responsen y en normalfordeling med standardavvik σ hvor ε i er uavhengige og Normalfordelte N(0,σ). Enkel lineær regresjon antar lik varians for alle y (homoskedasitet = σ er den samme for alle verdier av x).

Modell for enkel lineær regresjon Modell: μ y =β 0 +β 1 x Vil forvente variasjoner rundt μ y Har n parvise observasjoner av forklarings- og responsvariablene (x 1,y 1 ),...,(x n,y n ) Modell for y i : y i = β 0 +β 1 x i + ε i ε i antas uavhengige og N(0,σ) Parametre: β 0, β 1, σ Statistisk modell for enkel lineær regresjon

Sammenheng med minste kvadraters metode Observasjoner (x 1,y 1 ),...,(x n,y n ) Regresjonslinje y = b 0 + b 1 x Minimere (error) 2 = (y i -b 0 -b 1 x i ) 2 b 1 =rs y /s x, b 0 =y -b 1 x Modell for forventningen til y gitt x: μ y =β 0 + β 1 x b 0,b 1 er estimater for β 0,β 1

Inferens Inferens om + estimering av σ Stigningstall β 1 Skjæringspukt β 0 Forventet respons μ y for gitt verdi x Individuell fremtidig respons y for gitt verdi x Antakelser: observasjonene er uavhengige Sammenhengen er lineær y er normalfordelt rundt sin forventning Variansen til y er konstant

Estimering Modell: μ y =β 0 +β 1 x Minste-kvadraters estimater: b 1 =rs y /s x, b 0 =y -b 1 x b 0 og b 1 er forventningsrette estimater for β 0 og β 1 b 0 og b 1 er normalfordelte hvis ε i er N(0,σ) Tilnærmet normalfordelte generelt Forventningsrett estimat for μ y for x = x*: Prediksjon for x = x*:

Residualer

Estimering av σ

Eksempel: Sammenhengen mellom drivstoff-forbruk målt ved «miles per gallon» (MPG) og hastighet målt av «miles per hour» (MPH)

MPG versus MPH Start alltid med grafisk fremstilling av data Eksempel indikerer ikke-lineær sammenheng Kan få lineær sammenheng ved transformasjoner I eksempel: log (ln) transformasjon av MPH

Eksempelet analysert i Minitab

Residualplott- mot forklaringsvariabelen

Residualplott - kvantilplott

Konfidensintervall Estimatorene b 0 og b 1 for regresjonskoeffisientene er normalfordelte med forventning β 0, β 1. Vi må estimere variansene deres Vi bruker t-fordeling med n 2 frihetsgrader. b 1 har estimert standardavvik SE b1 b 0 har estimert standardavvik SE b0 Estimat t* SE estimat t* er kritisk verdi i t(n 2)-fordelingen med areal C mellom t* og +t*.

SE b0 og SE b1 avhenger blant annet av s Dere finner dem ved bruk av dataprogram

Konfidensintervall - eksempel

Konfidensintervall - eksempel

Signifikanstester Ofte: Ønsker å teste H 0 :β 1 =0 Svarer til at det ikke er noen sammenheng mellom x og y μ y =β 0 Testobservator Software tester også: H 0 :β 0 =0 Sjeldent av interesse

Signifikanstest for b 1 - eksempel

Eksempel

Konfidensintervall for forventet respons

Regression Analysis: MPG versus LOGMPH The regression equation is MPG = - 7,80 + 7,87 LOGMPH Predictor Coef SE Coef T P Constant -7,796 1,155-6,75 0,000 LOGMPH 7,8742 0,3541 22,24 0,000 S = 0,999516 R-Sq = 89,5% R-Sq(adj) = 89,3% Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 18,976 0,141 (18,694; 19,258) (16,956; 20,997) Values of Predictors for New Observations New Obs LOGMPH 1 3,40

Eksempel

Konfidensgrenser for forventet respons (stiplede linjer). Viser konfidensintervall for gitt x-verdi

Hvorfor er konfidensintervallene for x* i midten smalere enn for x* langt fra midten?

Prediksjonsintervall Formler for SE i kap. 10.2

Prediksjonsgrenser (stiplede linjer). Viser prediksjonsintervall for gitt x-verdi