Befolkning og velferd ECON 1730, H2016. Regresjonsanalyse

Like dokumenter
Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Kort overblikk over kurset sålangt

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Løsningsforslag til obligatorisk oppgave i ECON 2130

ST0202 Statistikk for samfunnsvitere

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Inferens i regresjon

10.1 Enkel lineær regresjon Multippel regresjon

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

EKSAMEN I SOS4020 KVANTITATIV METODE 8. april (4 timer)

Fasit for tilleggsoppgaver

Fra krysstabell til regresjon

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Statistikk og dataanalyse

Statistisk behandling av kalibreringsresultatene Del 3. v/ Rune Øverland, Trainor Elsikkerhet AS

Formelsamling i medisinsk statistikk

2.2 Korrelasjon. Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

EKSAMENSOPPGAVER STAT100 Vår 2011

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

UNIVERSITETET I OSLO

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Universitetet i Agder Fakultet for økonomi og samfunnsfag E K S A M E N

Mulige sammenhenger for plassering på samfunnsstigen

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Profil Lavpris Supermarked Hypermarked Totalt. Coop Prix 4 4. Coop Extra Coop Mega 7 7. Coop Obs Rimi Ica Supermarked 7 7

TMA4245 Statistikk Eksamen desember 2016

Eksamen i. MAT110 Statistikk 1

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

QED Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Skoleeksamen i SOS Kvantitativ metode

HØGSKOLEN I STAVANGER

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt.

EKSAMEN I SOS4020 KVANTITATIV METODE (MASTER) 14. MAI 2004 (4 timer)

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Regresjon med GeoGebra

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

Forelesning 13 Regresjonsanalyse

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

1 10-2: Korrelasjon : Regresjon

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

Høye skårer indikerer høye nivåer av selvkontroll.

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Kap. 10: Løsningsforslag

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

EKSAMENSOPPGAVE I SØK1004 STATISTIKK FOR ØKONOMER

EKSAMEN I SOSIOLOGI SOS KVANTITATIV METODE. ORDINÆR SKOLEEKSAMEN 4. april 2011 (4 timer)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Løsninger til kapitteltesten i læreboka

6.5 Minste kvadraters problemer

Faktor - en eksamensavis utgitt av ECONnect

Oppgave 1. Vi må forutsette at dataene kommer fra uavhengige og normalfordelte tilfeldige variable,

Eksamensoppgave i TMA4240 Statistikk

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Kalibreringskurver; på jakt etter statistisk signifikante datapar

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Ordinær lineær regresjon (OLR) Deming, uvektet og vektet

Løsningsforslag Eksamen S2, høsten 2015 Laget av Tommy O. Sist oppdatert: 25. mai 2017

Statistisk behandling av kalibreringsresultatene Del 2. v/ Rune Øverland, Trainor Elsikkerhet AS

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

2T kapittel 3 Modellering og bevis Løsninger til innlæringsoppgavene

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

Weibullfordelingen. Kjetil L. Nielsen. Innhold. 1 Teori. 1.1 Tetthetsfunksjon og fordelingsfunksjon

Eksamensoppgave i TMA4245 Statistikk

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

ME Vitenskapsteori og kvantitativ metode

LØSNING: Eksamen 22. mai 2018

Høgskolen i Sør-Trøndelag Avdeling Trondheim Økonomisk Høgskole EKSAMENSOPPGAVE

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Befolkningsvekst. Nico Keilman. Demografi grunnemne ECON 1710 Høst 2015

3.A IKKE-STASJONARITET

Introduksjon til Generaliserte Lineære Modeller (GLM)

Ulikheter. Vi gir her eksempel på hvordan man kan finne ut hvornår ulikheter er sanne på forskjellige måter.

Forelesning 17 Logistisk regresjonsanalyse

Kapittel 4.4: Forventning og varians til stokastiske variable

ECON2130 Kommentarer til oblig

Transkript:

Netto innfl. Befolkning og velferd ECON 1730, H2016 Regresjonsanalyse Problem: Gitt planer for 60 nye boliger i kommunen neste år, hvor mange innflyttere kan vi forvente? Tabell Vestby kommune Nye boliger Netto innfl. 1984 56 104 1985 56 235 1986 59 211 1987 42-61 1988 51 22 1989 28-123 1990 27-147 1991 75-8 1992 36-107 1993 38-34 1994 20 9 1995 46 1 1996 24 14 1997 17 61 1998 16 25 250 200 150 100 50 0-50 -100-150 Spredningsdiagram Boligbygging og innflytting Vestby kommune, 1984-1998 0 20 40 60 80 Nye boliger I spredningsdiagrammet ser vi en svak sammenheng mellom boligbygging og innflytting: det er en tendens til at år med forholdsvis mange nye boliger (dvs. flere enn gjennomsnittet den loddrette stiplede linjen) også har forholdsvis mye innflytting (over gjennomsnittet den vannrette stiplede linjen). Også omvendt: år med få nye boliger har en tendens til å ha lav innflytting til og med utflytting! Men: hvor mye netto innflytting gir 60 nye boliger? Eller generelt et visst antall X nye boliger? Regresjonsanalyse er en teknikk som finner en sammenheng mellom en variabel X og en variabel Y når vi antar at X påvirker Y: X Y. Den enkleste forutsetningen for en slik sammenheng er at X og Y henger lineært sammen. Dette blir en rett linje i spredningsdiagrammet. Algebraisk: Y = a + b*x, eller netto innflytting = a + b*boliger. Variabelen X (her boligbygging) kalles for den uavhengige variabelen, variabel Y (netto innflytting) er den avhengige variabelen. Når vi antar en slik lineær sammenheng kaller vi metoden for lineær regresjon. 1

Netto innfl. Størrelsene a og b kalles for parametrene. De bestemmer hvordan den lineære sammenhengen ser ut. a: netto innflytting når ingen boliger bygges (X = 0). Kan være negativ! b: ekstra innflytting når 1 ekstra bolig bygges. Mulig sammenheng mellom boligbygging og innflytting Vestby kommune 250 200 150 100 50 0 0 20 40 60 80 100-50 -100-150 Nye boliger a kalles også for skjæringspunkt eller konstant, b for stigningstall eller koeffisient. Gitt en rekke tall med observerte verdier for X og Y (f.eks. som i tabellen) finnes det statistiske metoder som beregner ("estimerer") optimale verdier for a og b. Hvordan er ikke pensum (jf. "minstekvadratersmetode" i håndbøker). Men viktig er tolkningen av resultatene. I dette tilfellet regnet regresjonsfunksjon i Excel ut følgende resultater for Vestby: a = -85,1 og b = 2,5. slik at sammenhengen blir: netto innflytting = -85,1 +2,5*boliger. Tolkning: uten boligbygging (dvs. X = 0) blir det en netto utflytting på 85 personer (avrundet); 1 ekstra bolig medfører i snitt 2,5 personer ekstra som flytter inn i kommunen. 60 nye boliger ville medføre en netto innflytting som er lik (-85,1 + 2,5*60) = 65 personer (avrundet). Spørsmål: var verdien 2,5 et rimelig estimat for b? 2

Et annet eksempel Fra Daatlands pensumartikkel «Komparative perspektiver på omsorgstjenestene Norge i en internasjonal sammenheng» 3

Netto innfl. Boligbygging og innflytting Vestby kommune, 1984-1998 250 200 150 Observert Regresjonslinje 100 50 0 0 20 40 60 80-50 -100-150 Nye boliger Statistisk usikkerhet Mange av de observerte datapunkter ligger på stor avstand fra den estimerte linjen. Sagt på en annen måte: den estimerte sammenhengen (rett linje; netto innflytting = -85,1 +2,5*boliger) er langt fra perfekt, sammenlignet med de observerte tallene. Det må ha vært andre faktorer enn boligbygging som har påvirket innflytting, for eksempel arbeidsmarkedsforhold i Vestby eller i fraflyttingskommunene. Linjen representerer en tenkt sammenheng, m.a.o. en modell. Avvikene er modellfeil. Modellfeilene gjør at estimatene for a og b er usikre. Med litt andre observerte verdier ville også a og b fått andre estimerte verdier. Med andre ord: de estimerte verdiene for a og b (skrives som hhv â og ˆb ) har en statistisk fordeling. Hvis vi antar en viss fordeling for modellfeilene, kan vi regne ut fordelingen til estimatene â og ˆb. Det er vanlig å anta at modellfeilene er normalfordelte ("klokkekurve") med forventning ("gjennomsnitt") lik null. Med denne forutsetningen har estimatene â og ˆb en bestemt fordeling (NB ikke nødvendigvis en normalfordeling!), med en bestemt forventning/gjennomsnitt og et bestemt standardavvik. Forventningen til ˆb er lik den ukjente verdien b. Standardavviket kan beregnes (bl.a. i Excel). Dette standardavviket kalles for estimatets standardfeil. Stor standardfeil medfører at sjansen er stor for at estimatet ˆb blir nokså forskjellig fra den virkelige (men ukjente) verdien for b. 4

Standardfeilen til ˆb må sees i sammenheng med selve ˆb -verdien. En stor standardfeil er mindre alvorlig når ˆb er stor, sammenlignet med en liten ˆb. Det samme gjelder estimatet â, men det er særlig viktig for ˆb : hvis vi ikke kan stole på verdien til ˆb, vet vi ikke om den sanne b'en er positiv, negativ, eller kanskje null (ingen lineær sammenheng mellom X og Y!). Sannsynligheten på at den virkelige b har motsatt fortegn, øker når standardfeilen til ˆb øker i forhold til ˆb ˆb. Derfor er det vanlig å se på brøken standardfeil for b ˆ. Denne brøken kalles for t-verdien til ˆb, og Excel regner den ut sammen med ˆb. Tommelfingerregel: når t er større enn +2, eller mindre enn 2, er det bare maks. 2½ % sannsynlig at den virkelige b har motsatt fortegn sammenlignet med ˆb. Det er akseptabelt. I vårt eksempel er t-verdien for ˆb lik 1,60. Det betyr at sannsynligheten for en negativ verdi for b er større enn 2½%. (Den er faktisk rundt 6-7 prosent.) R 2 En viktig størrelse som brukes for å karakterisere hvor godt modellen passer til dataene er R 2 ("coefficient of determination"). Den forteller oss hvor mye usikkerheten er blitt redusert etter at vi estimerte modellen. R 2 ligger mellom 0 og 1. R 2 = 1: perfekt lineær sammenheng mellom X og Y. Alle observerte datapunkter ligger på regresjonslinjen Y = â + ˆb *X. R 2 = 0: ingen lineær sammenheng mellom X og Y. Når den estimerte helningen ˆb er positiv, er R, d.v.s. kvadratroten av R 2 også positiv. Når ˆb er negativ, har regresjonslinjen Y= â + ˆb *X en negativ helning. I dette tilfellet er også R negativ. Både R = +1 og R = -1 avspeiler en perfekt lineær sammenheng. I begge tilfeller blir R 2 lik +1. Jo nærmere R 2 ligger 1, desto bedre er modellens forklaringskraft. I vårt eksempel for Vestby er R 2 lik 0,16. Det betyr at mye av variasjonen i innflytting henger sammen med andre faktorer enn boligbygging. NB1: Å finne en modell med størst mulig verdi for R 2 er ikke mål i seg selv i analysen. Det nytter ikke å finne to variabler X og Y som har veldig høy R 2, med mindre vi kan forklare hvorfor. F.eks. modellen Y = a + b*x har like stor R 2 som X = c + d*y! NB2. En kan bevise at R 2 har samme verdi som kvadraten av utvalgets korrelasjonskoeffisient r XY : R 2 2 = r XY. 5

Generalisering Multivariat regresjonsmodell: flere uavhengige variabler samtidig Formel: Y = a + b*x + c*z Uavhengige variabler: X og Z. Konstant a, stigningstall b og stigningstall c estimeres fra data. Z kan f.eks. være kommunens befolkningsstørrelse: jo større kommunen, desto mer innflytting. Framgangsmåte i multivariat regresjon er den samme som før: 1) estimer verdiene av a, b og c; 2) sjekk t-verdiene for a, ˆ b ˆ og c; ˆ 3) beregn R 2. Jfr. PC-øvelse i uke 42. Anbefalt literatur: M.S. Lewis-Beck: Applied Regression: An Introduction. Series Quantitative Applications in the Social Sciences nr. 22. Beverly Hills: Sage Publications 1980. 6