2.2 Korrelasjon. Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål

Like dokumenter
Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

10.1 Enkel lineær regresjon Multippel regresjon

Sammenhenger. I dette kapitlet er emnet måter å studere sammenheng mellom to variable. Som tidligere er grunnleggende spørsmål:

Sammenhenger. I dette kapitlet er emnet måter å studere sammenheng mellom to variable. Som tidligere er grunnleggende spørsmål:

Kort overblikk over kurset sålangt

UNIVERSITETET I OSLO

Inferens i regresjon

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Statistikk og dataanalyse

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

Fra krysstabell til regresjon

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

ST0202 Statistikk for samfunnsvitere

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Befolkning og velferd ECON 1730, H2016. Regresjonsanalyse

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Beregning av kvartilen Q 1 (example 2.12) Mer repetisjon. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

1 10-2: Korrelasjon : Regresjon

UNIVERSITETET I OSLO

Øving 1 TMA Grunnleggende dataanalyse i Matlab

6.2 Signifikanstester

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Seksjon 1.3 Tetthetskurver og normalfordelingen

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Regresjon med GeoGebra

Øving 1 TMA Grunnleggende dataanalyse i Matlab

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4245 Statistikk Eksamen desember 2016

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

UNIVERSITETET I OSLO

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt.

STK juni 2016

UNIVERSITETET I OSLO

Eksamen PSYC3101 Kvantitativ metode II Vår 2015

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Universitetet i Agder Fakultet for økonomi og samfunnsfag E K S A M E N

Løsningsforslag eksamen 25. november 2003

EKSAMENSOPPGAVE I SØK1004 STATISTIKK FOR ØKONOMER

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Faktor - en eksamensavis utgitt av ECONnect

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

UNIVERSITETET I OSLO

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Løsningsforslag eksamen STAT100 Høst 2010

Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

FØRSTE OBLIGATORISKE OPPGAVE STK1000 HØSTEN 2009

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

Utvalgsfordelinger (Kapittel 5)

Ordinær lineær regresjon (OLR) Deming, uvektet og vektet

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

Eksamensoppgave i TMA4240 Statistikk

UNIVERSITETET I OSLO

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Eksamensoppgave i TMA4255 Anvendt statistikk

Forelesning 13 Regresjonsanalyse

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Ridge regresjon og lasso notat til STK2120

Kapittel 8. Inntekter og kostnader. Løsninger

Eksamen i. MAT110 Statistikk 1

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

Profil Lavpris Supermarked Hypermarked Totalt. Coop Prix 4 4. Coop Extra Coop Mega 7 7. Coop Obs Rimi Ica Supermarked 7 7

TMA4240 Statistikk Høst 2012

Løsninger til innlæringsoppgavene

Kap. 10: Løsningsforslag

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Eksamensoppgave i TMA4255 Anvendt statistikk

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

vekt. vol bruk

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Oppgave N(0, 1) under H 0. S t n 3

Seksjon 1.3 Tetthetskurver og normalfordelingen

Regler i statistikk STAT 100

Eksamensoppgave i PSY3100 Forskningsmetode kvantitativ

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

Lineær regresjon: introduksjon

Oppgavesett nr. 5. MAT110 Statistikk 1, Et transportfirma har et varemottak for lastebiler med spesialgods, se figur 1.

b) i) Finn sannsynligheten for at nøyaktig 2 av 120 slike firmaer går konkurs.

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Transkript:

2.2 Korrelasjon Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål

Korrelasjon Korrelasjon: Kvantitativt mål på lineær sammenheng mellom to kvantitative variable Data på variablene x og y (n individier) x i x y i y 1 r= n 1 sx sy

Egenskaper korrelasjon Positiv r svarer til positiv sammenheng og vv r ligger mellom -1 og 1 Perfekt korrelasjon, r=1 eller -1, svarer til alle punkt på en rett linje Bruker standardiserte verdier, uavhengig av senterpunkt, skala Måler styrke av lineær sammenheng Lite robust for ekstreme verdier Skiller ikke mellom forklarings- og respons-variable Krever at begge variable er kvantitative

Regresjonslinje En regresjonslinje er en rett linje som beskriver hvordan responsvariabelen y endrer seg når forklaringsvariabelen x skifter verdier. Vi sier ofte at regresjonslinjen predikerer verdien av y for en gitt verdi av x. Krever en responsvariabel og en forklaringsvariabel

Rette (lineære) linjer En rett linje som relaterer y til x har en likning på formen y=a+bx b kalles stigningstallet, mengden y endrer seg når x endrer seg med en enhet. a kalles skjæringspunktet, verdien y tar for x=0

Rastløshet og vekt Vil rastløshet påvirke vekt? Figur 2.11: r=-0.7786 y = fettøkning, x = ikke-fysisk aktivitet y = 3.505 0.00344 x

Prediksjon Regresjonslinje kan brukes til å predikere respons y for en gitt verdi av forklaringsvariabel x x =400 kalorier y = 3.505-0.00344 * 400 = 2.13 kg

Ekstrapolering Ekstrapolering er å bruke regresjonslinjen langt utenfor området av verdier på x i datasettet x=1500 gir y = 3.505-0.00344*1500=-1.66 kg Slike prediksjoner ofte ikke særlig presise!!!

Minste kvadraters regresjon Hvordan finne «beste» a og b fra data? Ingen linje vil gi perfekt tilpasning Ønsker vertikal avstand mellom linje og observert y verdi minst mulig Minste kvadraters regresjonslinje: Linjen som gjør kvadratsummen av vertikale avstander minst mulig Observasjoner (x1,y1),...,(xn,yn) error = y i a bx i 2 2

Likninger for minste kvadraters regresjonslinje Regresjonslinje y =a bx der stigningstallet b=r s y / s x og skjæringspunktet a= y b x Her er x gjennomsnittet av x verdiene og s x tilhørende standardavvik

Vekt og ikke-fysiske aktiviteter x =324.8 og s x =257.66 r = 0.7786 y =2.388 og s y =1.1389 b=r s y / s x = 0.7786 1.1389/ 257.66= 0.00344 a= y b x =2.388 0.00344 324.8=3.505 y =3.505 0.00344x

Egenskaper regresjonslinje Stigningstall og skjæringspunkt avhenger av skala Verdiene i seg kan ikke brukes til å konkludere noe Perfekt tilpasning hvis r=-1 eller 1 Linjen går alltid gjennom x, y

Regresjon og korrelasjon Regresjonslinje basert på y respons og x forklaringsvariabel Korrelasjon symmetrisk i x og y 2 r forklarer andelen av variasjon i y som kan forklares av x To kilder til variasjon, variasjon langs linjen og variasjon rundt linjen r= 0.7786, r 2=0.606 I eksempel,

Residualer Residualer er forskjellen mellom observert verdi og predikert verdi: residual = y y = y a bx Resten som vi ikke har forklart Residual for hver observasjon: e i = y i a bx i Residualer summerer seg til 0 Nyttige for modell-sjekk

Residualplott Kryssplott av residualer mot forklaringsvariabel Hjelper til å vurdere tilpasningen av en regresjonslinje Legger gjerne på en horisontal linje gjennom 0 Bør ikke være noe mønster i residualene

Uvanlige tilfeller

r=0.4819

Uteliggere og inflytelsesrike punkter En uteligger er et punkt som ligger utenfor det overordnede mønster av observasjoner. Punkter som er uteliggere i y retningen har store residualer, mens uteliggere i x retningen behøver ikke å ha store residualer En observasjon er inflytelsesrik hvis fjerning av den resulterer i en klar endring av resultatene. Punkter som er uteliggere i x retningen er ofte inflytelsesrike

r 15=0.5684, r 18=0.3837

Vær varsom! Korrelasjon måler kun lineær sammenheng Ekstrapolering (bruke modellen utenfor området en har data) gir ofte upålitelige prediksjoner Korrelasjon og minste kvadraters linjer er lite robuste Plott alltid data og se etter inflytelsesrike punkter

Underliggende variabel En underliggende variabel er en variabel som ikke er bland forklarings- eller responsvariablene men som kan ha inflytelse på tolkningen av sammenhengen mellom disse variablene.

Eksempel Stor korrelasjon mellom hvor mye matte studenter tar på college og suksess senere Mulige underliggende variabel Familieforhold Legger vekt på utdanning Kan betale utdanning

Sammenheng og kausalitet Sammenheng impliserer ikke kausalitet Andre underliggende variable kan forklare sammenhengen Kan også gjemme faktisk sammenheng

Housing conditions and health x=overcrowding, y=index of lack of toilets, z =amount of public houses