2.2 Korrelasjon Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål
Korrelasjon Korrelasjon: Kvantitativt mål på lineær sammenheng mellom to kvantitative variable Data på variablene x og y (n individier) x i x y i y 1 r= n 1 sx sy
Egenskaper korrelasjon Positiv r svarer til positiv sammenheng og vv r ligger mellom -1 og 1 Perfekt korrelasjon, r=1 eller -1, svarer til alle punkt på en rett linje Bruker standardiserte verdier, uavhengig av senterpunkt, skala Måler styrke av lineær sammenheng Lite robust for ekstreme verdier Skiller ikke mellom forklarings- og respons-variable Krever at begge variable er kvantitative
Regresjonslinje En regresjonslinje er en rett linje som beskriver hvordan responsvariabelen y endrer seg når forklaringsvariabelen x skifter verdier. Vi sier ofte at regresjonslinjen predikerer verdien av y for en gitt verdi av x. Krever en responsvariabel og en forklaringsvariabel
Rette (lineære) linjer En rett linje som relaterer y til x har en likning på formen y=a+bx b kalles stigningstallet, mengden y endrer seg når x endrer seg med en enhet. a kalles skjæringspunktet, verdien y tar for x=0
Rastløshet og vekt Vil rastløshet påvirke vekt? Figur 2.11: r=-0.7786 y = fettøkning, x = ikke-fysisk aktivitet y = 3.505 0.00344 x
Prediksjon Regresjonslinje kan brukes til å predikere respons y for en gitt verdi av forklaringsvariabel x x =400 kalorier y = 3.505-0.00344 * 400 = 2.13 kg
Ekstrapolering Ekstrapolering er å bruke regresjonslinjen langt utenfor området av verdier på x i datasettet x=1500 gir y = 3.505-0.00344*1500=-1.66 kg Slike prediksjoner ofte ikke særlig presise!!!
Minste kvadraters regresjon Hvordan finne «beste» a og b fra data? Ingen linje vil gi perfekt tilpasning Ønsker vertikal avstand mellom linje og observert y verdi minst mulig Minste kvadraters regresjonslinje: Linjen som gjør kvadratsummen av vertikale avstander minst mulig Observasjoner (x1,y1),...,(xn,yn) error = y i a bx i 2 2
Likninger for minste kvadraters regresjonslinje Regresjonslinje y =a bx der stigningstallet b=r s y / s x og skjæringspunktet a= y b x Her er x gjennomsnittet av x verdiene og s x tilhørende standardavvik
Vekt og ikke-fysiske aktiviteter x =324.8 og s x =257.66 r = 0.7786 y =2.388 og s y =1.1389 b=r s y / s x = 0.7786 1.1389/ 257.66= 0.00344 a= y b x =2.388 0.00344 324.8=3.505 y =3.505 0.00344x
Egenskaper regresjonslinje Stigningstall og skjæringspunkt avhenger av skala Verdiene i seg kan ikke brukes til å konkludere noe Perfekt tilpasning hvis r=-1 eller 1 Linjen går alltid gjennom x, y
Regresjon og korrelasjon Regresjonslinje basert på y respons og x forklaringsvariabel Korrelasjon symmetrisk i x og y 2 r forklarer andelen av variasjon i y som kan forklares av x To kilder til variasjon, variasjon langs linjen og variasjon rundt linjen r= 0.7786, r 2=0.606 I eksempel,
Residualer Residualer er forskjellen mellom observert verdi og predikert verdi: residual = y y = y a bx Resten som vi ikke har forklart Residual for hver observasjon: e i = y i a bx i Residualer summerer seg til 0 Nyttige for modell-sjekk
Residualplott Kryssplott av residualer mot forklaringsvariabel Hjelper til å vurdere tilpasningen av en regresjonslinje Legger gjerne på en horisontal linje gjennom 0 Bør ikke være noe mønster i residualene
Uvanlige tilfeller
r=0.4819
Uteliggere og inflytelsesrike punkter En uteligger er et punkt som ligger utenfor det overordnede mønster av observasjoner. Punkter som er uteliggere i y retningen har store residualer, mens uteliggere i x retningen behøver ikke å ha store residualer En observasjon er inflytelsesrik hvis fjerning av den resulterer i en klar endring av resultatene. Punkter som er uteliggere i x retningen er ofte inflytelsesrike
r 15=0.5684, r 18=0.3837
Vær varsom! Korrelasjon måler kun lineær sammenheng Ekstrapolering (bruke modellen utenfor området en har data) gir ofte upålitelige prediksjoner Korrelasjon og minste kvadraters linjer er lite robuste Plott alltid data og se etter inflytelsesrike punkter
Underliggende variabel En underliggende variabel er en variabel som ikke er bland forklarings- eller responsvariablene men som kan ha inflytelse på tolkningen av sammenhengen mellom disse variablene.
Eksempel Stor korrelasjon mellom hvor mye matte studenter tar på college og suksess senere Mulige underliggende variabel Familieforhold Legger vekt på utdanning Kan betale utdanning
Sammenheng og kausalitet Sammenheng impliserer ikke kausalitet Andre underliggende variable kan forklare sammenhengen Kan også gjemme faktisk sammenheng
Housing conditions and health x=overcrowding, y=index of lack of toilets, z =amount of public houses