Overskt. forelesnng ECON40 Statstkk og økonometr Arld Aakvk, professor Insttutt for økonom Hva er statstkk og økonometr? Hvorfor studerer v fagområdet? Statstkk Metoder, teknkker og verktøy tl å produsere lettfattelg nformasjon ut av komplekse datasett: «Bg data», komplekse data (regsterdata, surveydata, etc), komplekse (datagenererende) prosesser (makrodata), dynamsk atferd, etc. Økonometr Anvendelse på samfunnsøkonomske problemstllnger Hvordan kan v forstå «verden» (samfunnsøkonomen)? Kan v predkere hendelser? Men modellapparatet tl økonomer er ofte svært forskjellg fra det som statstkere bruker Fokus: endogentet, seleksjon, målefel, omvendt kausaltet, dentfkasjon, etc. 3 Valutasvngnnger prosent over td Systematkk eller tlfeldgheter? Datannsamlng; utdannng og nntekt Hypotese: V tror det er en postv sammenheng mellom utdannng og lønn. Lønner det seg å ta en mastergrad forhold tl bachelorgrad? La oss anta at v går rundt på gata og spør hver enkelt person hvlket utdannngsnvå de har og hvlken årsnntekt de har:. observasjon: 6 års utdannng, kr 500.000 nntekt, kvnne. observasjon: 3 års utdannng, kr 400.000 nntekt, mann 3. observasjon: 8 års utdannng, kr 600.000 nntekt, mann etc La oss plotte data et fgur 4 5 lønn Utdannng og lønn Forsknng Hva kan v lære av denne fguren? kr 600.000 ett ndvd sn observasjon av utdannngsnvå og lønn. Det ser ut som at det er en postv sammenheng mellom utdannng og lønn De som har høyere utdannng ser ut tl også å ha høyere nntekt. Det er ngen superklar tendens (dvs det er mye støy data) Noen har høy utdannng og lav nntekt, og noen har lav utdannng og høy nntekt, selv om det kke er hovedtendensen 8 års utdannng utdannng 6 3. Er det alt v kan s? 7
Statstkk og økonometr Formålet er å trekke ut så mye nformasjon fra dette datasettet som mulg Rapportere resultatene på en lettfattelg måte ( hvert fall for de som kan faget) Sentraltendenser (gjennomsntt, andel, medan, typetall, estmat, etc.) Varasjon (standardavvk, standardfel, varans, skjevhet, volatltet, etc.) Sammenhenger/samvarasjon (korrelasjon, kovarans, etc.) Regresjonsanalyse (regresjonskoeffsent, kausale effekter mellom varabler) Hypotesetestng/nferens (hvlke konklusjoner kan v trekke fra analysen?) Økonomsk sgnfkans? Er effektene store? Statstsk sgnfkans? Kan v konkludere med at effektene er forskjellg fra null? lønn kr 600.000 Utdannng og lønn Regresjonslnje (rett lnje som størst mulg grad representerer/beskrver datapunktene) 8 års utdannng utdannng 8 0 lønn Utdannng og lønn Statstkk og økonometr kr 60.000 kr 50.000 7 år 8 år lønn β = ---------------- = kr 00.000 utdannng Datapunkt Modell Analyse Antakelser utdannng V bruker statstkk og økonometr som grunnlag for beslutnnger (både på ndvd- og samfunnsnvå) tl å forstå verden (økonomen) tl å test og (utvkle) økonomsk teor Økonometr Kvanttatv metode og estmerng samfunnsøkonomfaget Vktge spørsmål Hvlke problem skal v analysere? Hvlke data v skal samle nn? Hvordan trekker v ut nformasjon fra et datasett? Hvordan skal v formulere problemstllngene emprsk? Hvordan skal v estmere effekten av økonomsk poltkk på best mulg måte (kausalestmerng) Hvordan kan v bruke modellene og resultatene tl å s noe om framtdg økonomsk poltkk Mange ulke problemstllnger Makroøkonometr Estmere sammenhenger mellom størrelser som rente, nflasjon, arbedsledghet, valutakurs, nntektsulkhet, etc. «Dynamsk stokastske lkevektsmodeller» Hvordan beveger makroøkonomske størrelser seg sammen? Mkroøkonometr Estmere effekten av ulke ntervensjoner (tltaksevaluerng) Hvordan påvrkes folk av nsentver? Atferdsrelasjoner (beslutnngsmodeller) Eksempler Teste og estmere emprsk regulartet Konsumtlbøyelghet makro Rentefølsomhet Tlbuds- og etterspørselskurver Effekter av utdannng, arbedsmarkedstltak, helsetltak, etc på nntekt og jobbmulgheter Famlebakgrunn og suksess på arbedsmarkedet Generasjonsmobltet Effekt av økt tmelønn på arbedstlbud Substtusjons- og nntektseffekt Effekt av ulke sosoøkonomske karakterstka på tlpasnng og atferd 3 4
Vktge begrep Datatyper Målenvå: Nomnal, ordnal, ntervall, skala/forholdstall Alle typer varabler kan analyseres med økonometrsk metode Sentraltendenser gjennomsntt, andel, medan, typetall, estmat, etc. Varasjon standardavvk, varans, skjevhet, etc. Sammenhenger korrelasjon, kovarans, etc. Regresjonsanalyse regresjonskoeffsent, kausale effekter mellom varabler Hypotesetestng/nferens hvlke konklusjoner kan v trekke fra analysen mhp økonomsk og statstsk sgnfkans? 5 7 Ltt om kurssdene https://mtt.ub.no/courses/6947 8 9 Hovedformål med statstkk og økonometr Trekke ut nformasjon fra komplekse sammenhenger (økonomen) på en effektv måte for å besvare poltkkrelevante spørsmål Vktge begrep og defnsjoner Populasjon alle tenkelge observasjoner en komplett mengde av elementer lønna tl alle Norge som har en utdannng Utvalg en undermengde av hele populasjonen helst et tlfeldg trukket utvalg fra populasjonen helst mer enn 30 observasjoner Karakterstka/kjennetegn varabler som ser noe om utvalget eller populasjonen varabel : utdannng x =utdannng varabel : lønn/nntekt x =nntekt Varabel 3: kjønn x 3=kjønn Data/datasett samlng av alle observasjon som har bltt samlet nn (bltt regstrert) 3
Datatyper Kvaltatve data (kategorske data) Data som kke kan måles eller tallfestes (kjønn, hårfarge, blodtype, relgon, utdannngstype, etc) Obs! V kan kke måle dsse varablene, men v kan analysere dem Kvanttatve data Data som kan måles (høyde, vekt, nntekt, temperatur, etc) Kontnuerlge varabler (nntekt, ulkhetsmål (Gn-koeffsent), etc) Dskrete varabler (begrenset mengde med utfall/verder, for eksempel antall barn, transportmddel, etc). Deskrptv versus modellbasert analyse Statstkk utføres gjerne to blokker Deskrptv/beskrvende/summerende statstkk Gjennomsnttsverd, medan, standardavvk/varans, mn-maks-verd, etc., av varabler som nkluderes analysen Graf, plot, etc. Modellbasert analyse/regresjonsanalyse Tar hensyn tl at varablene påvrker hverandre på komplserte måter Betnget analyse (condtonal analyss) Hva er forskjellen nntekt mellom menn og kvnner med samme utdannng og yrke? 3 4 Ltt algebra: summasjon Hva er lønnen tl arbederne en bedrft? n=000 (antall arbedere bedrfter) Totale lønnsutbetalnger en måned = lønn tl person + lønn tl person + lønn tl person 3 + + lønn tl person 000 X = lønn og X tot = totale lønnsutbetalnger en måned X tot = X + X +... + X000 000 = X = = 000 = X 5 Egenskaper tl summasjon Hva skjer dersom alle får en lønnsøknng på 0%? Da kan v gange lønnen deres med,=α X tot = αx + αx +... + αx 000 = α X = 000 6 Summasjon Hva hvs v spltter lønnen fastsatt lønn (X) og overtdslønn (Y) tl hver enkelt ansatt? 000 ( X + Y ) = ( X + Y ) + K+ ( X + Y = 000 = X + Y = 000 000) 000 = Summasjon Hva hvs arbederne får α=, på fast lønn (lønnsøknng på 0%) og β=,05 (lønnsøknng på overtdslønn er bare 5%)? N ( αx + βy ) = αx + βy = N = N = α X + β Y = N = N = 7 8 4
Redusere notasjon der v kan Summe-notasjonen går gjen over alt n n = = = = = Når v samler nn data legger v dsse vanlgvs nn et regneark (Excel/Stata) Da vl data være organsert på en spesell måte Anta at v samler nn 0 observasjoner hvor v spør om personen sn alder (A), nntekt (Y) og utdannngsnvå (E) V vl da lage et regneark som ser slk ut 9 30 Summerer over alle observasjonene 3 3 Gjennomsntt (mean/average) Slk ser det ut Stata-regnearket: Sorterer slk at yngste kommer først, etc X... X X + X + + X 0 = 0 n = = n A = 4, Y = 577.000 E = 3,7 33 34 5
Medan Hva er medanen tl E, dvs M E? Medanen (M) er det mdterste tallet når varabelen er rangert fra den mnste verden tl den største I dette tlfellet ekssterer det kke noe «mdterste tall» (ved n=partall). Må ta sntt av de to mdterste tallene: M A = A (5+6)/ = (35+40)/=37,5 35 36 Typetall/modalverd (mode) Det tallet som går oftest gjen, dvs mest vanlge observasjon Hva er typetallet tl E? 37 38 Frekvenstabell/hstogram Varans Varans = kvadrerte avvk rundt gjennomsnttet (delt på n): n Varans = ( X X ) = v 39 40 6
Varans Hva mener v egentlg med varans og hvordan kan v bruke estmatene? Standardavvk: St. dev. = ( X X ) = v = v n Varans = 63,96 4 Standard avvk vser gjennomsnttlg avvk fra gjennomsnttet, dvs hvor mye en observasjon gjennomsntt avvker fra gjennomsnttet Standard avvk =,8 4 Mean absolute devaton mdev = X X n Mål på varasjon Varans vser hvor mye varabelen varerer rundt en størrelse (gjennomsntt, medan, estmat, etc) Mange varanter av dsse målene brukes analyse av ulkhet og fattgdom (f.eks. Gnkoeffsenten) Vktg størrelse ved hypotesetestng (kap 3) 43 44 Oppsummerng så langt Hva er statstkk og økonometr og hvorfor studerer v fagområdet? Termnolog: populasjon, utvalg, kvaltatve data, kvanttatve data, dskrete og kontnuerlge varabler Mål på sentraltendenser (gjennomsntt, modaltall, medan) Mål på varasjon (varans, standardavvk) Frekvenstabeller Mål med emprsk analyse Analysere komplekse data Presentere resultatene på en lettfattelg måte Være poltkkrelevante Gjennomsntt og varans ser ltt om varablene v analyserer, men kanskje v kan gjøre enda mer Inntektsfordelngen Norge: Gjennomsnttsnntekt = kr 50.000 Medan = kr 49.000 Mer relevant: For eksempel, hvor mange har nntekt under 50.000? Eller frekvenstabeller 45 46 7
Frekvenstabell/hstogram Frekvenstabell for E: Frekvenstabell/Hstogram Ved svært mange observasjoner (her n=000) blr hstogrammet (ofte) lgnende på en symmetrsk fordelng 47 48 Denne varabelen er tlnærmet «normalfordelt» Hstogram kan ta mange forskjellge former 49 50 Gjennomsntt versus medan Dersom gjennomsntt og medan er lke vl det ndkere at fordelngen tl varabelen er symmetrsk (har lke haler) Høyreskjev fordelng (hale langt mot høyre). Hva kan v s om forholdet mellom gjennomsntt, medan og typetall (modalverd)? Gjennomsntt=0 Medan=0 Modalverd=0 5 5 8
Høyreskjeve fordelnger Mange fordelnger ser slk ut Inntektsfordelngen Norge Prs på bl Gjennomsntt > Medan > Typetall Varans Hvor mye varerer observasjonene rundt stt gjennomsntt? To fordelnger med samme gjennomsntt (00) (gjennomsntt = medan = typetall) 53 54 Relatv frekvens Kumulatv frekvens - Mest vanlg med relatv frekvens. - Da kan ulke datasett sammenlgnes uten at antall observasjoner er lk. - Fordelnger bruker relatv frekvens (arealet under kurven er lk ). - De relatve frekvensene summerer seg tl - Relatv frekvens = andel - Andel = sannsynlghet (ved store utvalg) 55 56 Anvendelse (valuta-volatltet) 0 57 58 9
Andel og sannsynlghet Kaster en mynt 0 ganger, og teller opp antall «krone» (sden med blde av kongen) og antall «mynt» (sden med tallverd på mynten) Antall mynt = 4, antall krone = 6 Hvs jeg gjør dette 000 ganger (n=000) vl andel mynt være ganske lk 0,5 Hva om n = mll kast? Teor Pr( mynt) = lm( f / n) = 0,5 n f = antallmynt n = antallkast f / n = relatv frekvens 59 60 NRK-program I et NRK-program vste de et opptak av en person som kastet myntsden opp 0 ganger på rad (uten å jukse/klppe) Hva er sannsynlgheten for det? 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 = 0,000977 (=0,5 0 ) I sntt må en da prøve ca 000 ganger for å få 0 mynt på rad (sannsynlghet = 0, prosent) Programlederen brukte ca dag på å få tl klppet Kaster to ternnger Utfallsrom - 36 mulge utfall - Hvert utfall har lke sannsynlghet, dvs /36 = 0,077 - Hva er sannsynlgheten for a summen på ternngene er 0? 6 6 Hendelser (events) E : summen av ternngene er 0 E : en av ternngene vser E Pr(E )=3/36 = / Pr(E )=/36 E E og E kan kke skje samtdg Hendelsene er gjensdg utelukkende (mutually exclusve) 63 64 0
Hendelser Sannsynlgheten for at begge skjer samtdg kan skrves som: Pr(E og E ) = Pr(E E ) = 0 Boksen = utfallsrommet = «36» Venn-dagram E Sannsynlgheten for at v enten får E eller E kan skrves som Pr(E eller E ) = Pr(E U E ) = 3/36 + /36 = 4/36 E «U» er unon og er sntt (ntersecton) 66 67 Hendelser E : summen av ternngene er 0 E 3 : en av ternngene vser 6 Pr(E )=3/36, Pr(E 3 )=/36 Pr(E eller E 3 ) = Pr(E U E 3 ) = /36 Pr(E og E 3 ) = Pr(E E 3 ) = /36 Generell regel mengdelære Pr(E eller E 3 ) = Pr(E ) + Pr(E 3 ) - Pr(E og E 3 ) E og E 3 er kke gjensdg utelukkende 68 69 Venn-dagram Summen av to ternnger (E =0) Pr(E ) + Pr(E 3 ) = 4/36 E E 9 Det er som regel struktur alle type data 3/36 = 0,083 70 7
Betnga sannsynlghet Sannsynlghet for en hendelse gtt at en annen hendelse allerede har nntruffet E = summen av to ternnger er 0 E = en av ternngene vser 6 Pr(E E ) for er gtt Pr( E E) / 36 Pr( E E) = = = / Pr( E ) / 36 Uavhengge hendelser E =få en 6 på første ternng E =få en 6 på andre ternng Pr(E E ) = (/36)/(/6) = (/36)/(6/36) = /6 I dette tlfellet er Pr(E E )=Pr(E ) ford hendelsene er uavhengge Pr( E ) = 3/ = 9 / 36 Pr( E) = / 36 Pr( E E ) = Pr( E ) + Pr( E ) Pr( E E ) = 0 / 36 8/ 36 = / 36 7 73 Uavhengghet Pr( E E ) = Pr( E E ) Pr( E ) Pr( E E ) = Pr( E ) Pr( E ) Skrvemåte: E =4 på første ternng E =3 på andre ternng ved uavhengghet Oppsummerng så lang Frekvenstabeller og hstogram Relatv frekvens (andel) og sannsynlghet Venn-dagram, gjensdg utelukkende hendelser, betnga sannsynlgheter, uavhengghet Pr(E og E ) = Pr(E E ) = Pr(4,3) = /6 /6 74 75 Kahoot! https://create.kahoot.t (lærerpåloggng) (econ40@o) https://kahoot.t/ (studentpåloggng) (trenger ngen konto) 76