ECON240 Statistikk og økonometri. Arild Aakvik, professor Institutt for økonomi

ECON240 Statistikk og økonometri Arild Aakvik, professor Institutt for økonomi 1

Oversikt 1. forelesning Hva er statistikk og økonometri? Hvorfor studerer vi fagområdet? Statistikk Metoder, teknikker og verktøy til å produsere lettfattelig informasjon ut av komplekse datasett: «Big data» (nettransaksjoner, kunderegistrering, (nett)overvåkning, børskurser, Google, Amazon, Machine Learning/algoritmer, etc.) Komplekse data (registerdata, spørreundersøkelser, etc.) Dynamiske prosesser (makrodata) Markedsdata (tilbud og etterspørsel), beslutningsdata, adferd, eksperiment, etc. Skille mellom informasjon og støy Økonometri Anvendelse på samfunnsøkonomiske problemstillinger Hvordan kan vi forstå «verden» (samfunnsøkonomien)? Kan vi predikere hendelser? Hvordan kan vi knytte sammen økonomisk teori og data? 3

Valutasvingninger i prosent over tid Systematikk eller tilfeldigheter? 4

Støy/variasjon 5

Visuell/grafisk presentasjon av data Kan vi presentere data på en måte som gir oss mer informasjon? Stolpediagram Sentraltendenser (gjennomsnitt, median, typetall) Variasjon (standardavvik, varians, skjevhet) Menti.com Stolpediagram (1a) Enkle stolpediagram Stolpediagram for undergrupper (betinga analyse)

Datainnsamling; utdanning og inntekt Hypotese: Vi tror det er en positiv sammenheng mellom utdanning og lønn. Lønner det seg å ta en mastergrad i forhold til bachelorgrad? La oss anta at vi går rundt på gata og spør hver enkelt person hvilket utdanningsnivå de har og hvilken årsinntekt de har: 1. observasjon: 16 års utdanning, kr 500.000 i inntekt, kvinne 2. observasjon: 13 års utdanning, kr 400.000 i inntekt, mann 3. observasjon: 18 års utdanning, kr 600.000 i inntekt, mann 4. observasjon: 15 års utdanning, kr 590.000 i inntekt, kvinne.. La oss plotte data i et figur 7

lønn Utdanning og lønn kr 600.000 ett individ sin observasjon av utdanningsnivå og lønn 18 års utdanning utdanning 8

Forskning Hva kan vi lære av denne figuren? 1. Det ser ut som at det er en positiv sammenheng mellom utdanning og lønn De som har høyere utdanning ser ut til også å ha høyere inntekt 2. Det er ingen superklar tendens (dvs det er mye støy i data) Noen har høy utdanning og lav inntekt, og noen har lav utdanning og høy inntekt, selv om det ikke er hovedtendensen 3. Er det alt vi kan si? 9

Statistikk og økonometri Formålet er å trekke ut så mye informasjon fra dette datasettet som mulig Rapportere resultatene på en lettfattelig måte (i hvert fall for de som kan faget) Sentraltendenser (gjennomsnitt, andel, median, typetall, estimat, etc.) Variasjon (standardavvik, standardfeil, varians, skjevhet, volatilitet, etc.) Sammenhenger/samvariasjon (korrelasjon, kovarians, etc.) Regresjonsanalyse (regresjonskoeffisient, kausale effekter mellom variabler) Hypotesetesting/inferens (hvilke konklusjoner kan vi trekke fra analysen?) Økonomisk signifikans? Er effektene store? Statistisk signifikans? Kan vi konkludere med at effektene er forskjellig fra null? 10

lønn Utdanning og lønn kr 600.000 Regresjonslinje (rett linje som i størst mulig grad representerer/beskriver datapunktene) 18 års utdanning utdanning 12

lønn Utdanning og lønn kr 620.000 Δlønn β 1 = ---------------- = kr 100.000 Δutdanning kr 520.000 Datapunkt Modell Analyse Antakelser 17 år 18 år utdanning 13

Statistikk og økonometri Vi bruker statistikk og økonometri som grunnlag for beslutninger (både på individ- og samfunnsnivå) til å forstå verden (økonomien) til å test og (utvikle) økonomisk teori Økonometri Kvantitativ metode og estimering i samfunnsøkonomifaget Viktige spørsmål Hvilke problem skal vi analysere? Hvilke data vi skal samle inn? Hvordan trekker vi ut informasjon fra et datasett? Hvordan skal vi formulere problemstillingene empirisk? Hvordan skal vi estimere effekten av økonomisk politikk på best mulig måte (kausalestimering) Hvordan kan vi bruke modellene og resultatene til å si noe om framtidig økonomisk politikk 14

Mange ulike problemstillinger Makroøkonometri Estimere sammenhenger mellom størrelser som rente, inflasjon, arbeidsledighet, valutakurs, inntektsulikhet, etc. «Dynamisk stokastiske likevektsmodeller» Hvordan beveger makroøkonomiske størrelser seg sammen? Mikroøkonometri Estimere effekten av ulike intervensjoner (tiltaksevaluering) Hvordan påvirkes folk av insentiver? Atferdsrelasjoner (beslutningsmodeller) 15

Eksempler Teste og estimere empirisk regularitet Konsumtilbøyelighet i makro Rentefølsomhet Tilbuds- og etterspørselskurver Effekter av utdanning, arbeidsmarkedstiltak, helsetiltak, etc på inntekt og jobbmuligheter Familiebakgrunn og suksess på arbeidsmarkedet Generasjonsmobilitet Effekt av økt timelønn på arbeidstilbud Substitusjons- og inntektseffekt Effekt av ulike sosioøkonomiske karakteristika på tilpasning og atferd 16

Viktige begrep Datatyper Målenivå: Nominal, ordinal, intervall, skala/forholdstall Alle typer variabler kan analyseres med økonometrisk metode Sentraltendenser gjennomsnitt, andel, median, typetall, estimat, etc. Variasjon standardavvik, varians, skjevhet, etc. Sammenhenger korrelasjon, kovarians, etc. Regresjonsanalyse regresjonskoeffisient, kausale effekter mellom variabler Hypotesetesting/inferens hvilke konklusjoner kan vi trekke fra analysen mhp økonomisk og statistisk signifikans? 17

Hovedformål med statistikk og økonometri Trekke ut informasjon fra komplekse sammenhenger (økonomien) og data på en effektiv måte for å besvare politikkrelevante spørsmål 21

Viktige begrep og definisjoner Populasjon alle tenkelige observasjoner en komplett mengde av elementer lønna til alle i Norge som har en utdanning alle samf.øk.studenter i Norge Utvalg/sample en undermengde av hele populasjonen helst et tilfeldig trukket utvalg fra populasjonen helst mer enn 30 observasjoner dere som sitter her er en undermengde av alle samf.øk.studenter i Norge (men kanskje ikke et tilfeldig utvalg) Karakteristika/kjennetegn variabler som sier noe om utvalget eller populasjonen variabel 1: utdanning x 1 =utdanning variabel 2: lønn/inntekt x 2 =inntekt Variabel 3: kjønn x 3 =kjønn Data/datasett samling av alle observasjon som har blitt samlet inn (blitt registrert) 22

Datatyper Kvalitative data (kategoriske data) Data som ikke kan måles eller tallfestes (kjønn, hårfarge, blodtype, religion, utdanningstype, transportmåte, etc.) Obs! Vi kan ikke måle disse variablene langs en tall-akse, men vi kan analysere dem Kvantitative data (numeriske data) Data som kan måles (høyde, vekt, inntekt, pris, utgift, temperatur, etc) Kontinuerlige variabler (inntekt, ulikhetsmål (Gini-koeffisient), etc) Diskrete variabler (begrenset mengde med utfall/verdier, for eksempel antall barn, transportmiddel, etc). 23

Datatyper I eksempelet med «gå til UiB» og «husleie» er den første variabelen kvalitativ (vi kan dele alternativene inn i ulike kategorier) og den andre kvantitativ (vi kan sette en verdi på husleien) 24

Data Kategorisk Numerisk Eksempel: Kjønn Sivil status (Definerte kategorier eller grupper) Eksempel: Diskret Antall barn Antall øyne på terning (Begrenset tellbart) Kontinuerlig Eksempel: Inntekt Kommunestørrelse (Nøyaktig målbare karakteristika) 25

Deskriptiv versus modellbasert analyse Statistikk utføres gjerne i to blokker Deskriptiv/beskrivende/summerende statistikk Gjennomsnittsverdi, median, standardavvik/varians, min-maks-verdi, etc., av variabler som inkluderes i analysen Graf, plot, etc. Betinget beskrivende statistikk Menti.com (1b): Fordeling av en variabel for ulike undergrupper i datasettet Modellbasert analyse/regresjonsanalyse Tar hensyn til at variablene påvirker hverandre på kompliserte måter Betinget analyse (conditional analysis) Hva er forskjellen i inntekt mellom menn og kvinner med samme utdanning og yrke? 26

Hvor presise er svarene vi gir? Menti.com 1b 27

Litt algebra: summasjon Hva er lønnen til arbeiderne i en bedrift? n=1000 (antall arbeidere i bedrifter) Totale lønnsutbetalinger en måned = lønn til person 1 + lønn til person 2 + lønn til person 3 + + lønn til person 1000 X i = lønn og X tot = totale lønnsutbetalinger en måned X tot X X... 1 2 1000 i1 X i 1000 i1 X X i 1000 29

Egenskaper til summasjon Hva skjer dersom alle får en lønnsøkning på 10%? Da kan vi gange lønnen deres med 1,1=α X tot X X... 1 2 1000 i1 X i X 1000 30

Summasjon Hva hvis arbeiderne får α=1,1 på fast lønn (lønnsøkning på 10%) og β=1,05 (lønnsøkning på overtidslønn er bare 5%)? 32 N i i N i i N i i N i i N i i i Y X Y X Y X 1 1 1 1 1 ) (

Redusere notasjon der vi kan n i1 n i1 i betyr det samme 33

Summe-notasjonen går igjen over alt Når vi samler inn data legger vi disse vanligvis inn i et regneark (Excel/Stata) Da vil data være organisert på en spesiell måte Anta at vi samler inn 10 observasjoner hvor vi spør om personen sin alder (A), inntekt (Y) og utdanningsnivå (E) Vi vil da lage et regneark som ser slik ut 34

A = Alder Y = Årsinntekt E = Utdanning i antall år 35

Summerer over alle observasjonene 36

Gjennomsnitt (mean/average) X X 1 X 2 X... X10 i1 10 n n i A Y E 42,2 577.000 13,7 37

Slik ser det ut i Stata-regnearket: Sorterer slik at yngste kommer først, etc 38

Median Medianen (M) er det midterste tallet når variabelen er rangert fra den minste verdien til den største I dette tilfellet eksisterer det ikke noe «midterste tall» (ved n=partall). Må ta snitt av de to midterste tallene: M A = A (5+6)/2 = (35+40)/2=37,5 40

Hva er medianen til E, dvs M E? 41

Typetall/modalverdi (mode) Det tallet som går oftest igjen, dvs mest vanlige observasjon Hva er typetallet til E? 43

Frekvenstabell/histogram 44

Oppsummert så langt Sentraltendens Gj.snitt Median Mode x n i1 n x Aritmetisk gjennomsnitt i Midtpunkt for rangerte verdier Mest gjentatte verdi 45

Huspriser: 20.000.000 5.000.000 3.000.000 1.000.000 1.000.000 Sum 30.000.000 Gj.snitt: (30.000.000/5) = kr 6.000.000 Median: middelverdi for rangerte data = kr 3.000.000 Mode/typetall: mest gjentatte verdi = kr 1.000.000

Eksempel En investering på 100.000 økte til 150.000 på slutten av første året og til 180.000 på slutten av år to X 100.000 X2 150.000 X3 1 180.000 50% økning 20% økning Hva er gjennomsnittlig avkastning over tid? X (50%) (20%) 2 35% Feil! r g (x 1 x 2 ) 1/n 1 [(50) (20)] 1/2 1 Riktig! (1000) 1/2 1 31.623 1 30.623%

Varians Varians = summen kvadrerte avvik rundt gjennomsnittet, delt på n: Varians 1 ( X X) 2 n i i v 2 49

Varians = 163,96 50

Varians Hva mener vi egentlig med varians og hvordan kan vi bruke estimatene? Standardavvik: St. dev. 1 n 2 ) ( X X v i i 2 v Standard avvik viser gjennomsnittlig avvik fra gjennomsnittet, dvs hvor mye en observasjon i gjennomsnitt avviker fra gjennomsnittet Standard avvik = 12,8 51

52 X gj.snittet av X gj.snitt gj.snitt ) ( ) ( 1 1 2 1 1 2 1 1 ) ( 1 2 2 2 2 2 2 2 2 2 2 2 2 2 X X X X X X X n X X n X X X X n X n X X n X n X X n i i i i i i i i i i i i i i Varians: Kvadratsetning: (a-b) 2 = a 2-2ab + b 2

2 1 ( X n i i X) 2 X 2 ( X) 2 1944,8 42,2 42,2 163,96 53

Mean absolute deviation mdev 1 X X ( X i i n 42,2) 54

Mål på variasjon Varians viser hvor mye variabelen varierer rundt en størrelse (gjennomsnitt, median, estimat, etc) Mange varianter av disse målene brukes i analyse av ulikhet og fattigdom (f.eks. Ginikoeffisienten) Viktig størrelse ved hypotesetesting (kap 3) 55

Oppsummering så langt Hva er statistikk og økonometri og hvorfor studerer vi fagområdet? Terminologi: populasjon, utvalg, kvalitative data, kvantitative data, diskrete og kontinuerlige variabler Mål på sentraltendenser (gjennomsnitt, modaltall, median) Mål på variasjon (varians, standardavvik) 56

Frekvenstabeller Mål med empirisk analyse Analysere komplekse data Presentere resultatene på en lettfattelig måte Være politikkrelevante Gjennomsnitt og varians sier litt om variablene vi analyserer, men kanskje vi kan gjøre enda mer Inntektsfordelingen i Norge: Gjennomsnittsinntekt = kr 520.000 Median = kr 491.000 Mer relevant: For eksempel, hvor mange har inntekt under 250.000? Eller frekvenstabeller 57

Frekvenstabell/histogram Frekvenstabell for E: 58

Frekvenstabell/Histogram Ved svært mange observasjoner (her n=1000) blir histogrammet (ofte) lignende på en symmetrisk fordeling 13 12 14 59

Denne variabelen er tilnærmet «normalfordelt» Normalfordelingen er en funksjon: f(x) «Data blir til fordeling» 60

Histogram kan ta mange forskjellige former Kan hende utdanningsvariabelen ser slik ut 61

Gjennomsnitt versus median Dersom gjennomsnitt og median er like vil det indikere at fordelingen til variabelen er symmetrisk (har like haler) Gjennomsnitt=0 Median=0 Modalverdi=0 62

Høyreskjev fordeling (hale langt mot høyre). Hva kan vi si om forholdet mellom gjennomsnitt, median og typetall (modalverdi)? 63

Høyreskjeve fordelinger Mange fordelinger ser slik ut Inntektsfordelingen i Norge Pris på bil Gjennomsnitt > Median > Typetall 64

Menti.com: 1c 65

Uniform fordeling Summen av prosentene = 100% Summen av andelene = 1 «Arealet under kurven/fordelingen er 1» 66

Arealet under kurva er 1, dvs 100% 67

Varians Hvor mye varierer observasjonene rundt sitt gjennomsnitt? To fordelinger med samme gjennomsnitt (200) (gjennomsnitt = median = typetall) Ulik varians Samme «areal» 68

Relativ frekvens - Mest vanlig med relativ frekvens. - Da kan ulike datasett sammenlignes uten at antall observasjoner er lik. - Fordelinger bruker relativ frekvens (arealet under kurven er lik 1). - Relativ frekvens = andel - Andel = sannsynlighet (ved store utvalg) 69

Kumulativ frekvens 70

Anvendelse (valuta-volatilitet) 0 72

P.3 Sannsynlighet (side 19) Andel frekvens Relativ frekvens = andel Relativ frekvensfordeling Sannsynlighet = relav frekvens når n 73

Andel og sannsynlighet Kaster en mynt 10 ganger, og teller opp antall «krone» (siden med bilde av kongen) og antall «mynt» (siden med tallverdi på mynten) Antall mynt = 4, antall krone = 6 Hvis jeg gjør dette 1000 ganger (n=1000) vil andel mynt være ganske lik 0,5 Hva om n = 1 mill kast? 74

Teori (side 20) Pr( mynt) lim n ( f / n) 0,5 f n f antallmynt antallkast / n relativ frekvens 75

NRK-program I et NRK-program viste de et opptak av en person som kastet myntsiden opp 10 ganger på rad (uten å jukse/klippe) Hva er sannsynligheten for det? 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 = 0,000977 (=0,5 10 ) I snitt må en da prøve ca. 1000 ganger for å få 10 mynt på rad (sannsynlighet = 0,1 prosent) Programlederen brukte ca. 1 dag på å få til klippet 76

Kaster to terninger Utfallsrom - 36 mulige utfall - Hvert utfall har like sannsynlighet, dvs 1/36 = 0,0277 - Hva er sannsynligheten for a summen på terningene er 10? 77

Hendelser (events) E 1 : summen av terningene er 10 E 2 : en av terningene viser 2 Pr(E 1 )=3/36 = 1/12 Pr(E 2 )=11/36 E 1 og E 2 kan ikke skje samtidig Hendelsene er gjensidig utelukkende (mutually exclusive) 78

E 2 E 1 79

Hendelser Sannsynligheten for at begge skjer samtidig kan skrives som: Pr(E 1 og E 2 ) = Pr(E 1 E 2 ) = 0 Sannsynligheten for at vi enten får E1 eller E2 kan skrives som Pr(E 1 eller E 2 ) = Pr(E 1 U E 2 ) = 3/36 + 11/36 = 14/36 «U» er union og er snitt (intersection) 81

Venn-diagram Boksen = utfallsrommet = «36» E 1 E 2 82

Hendelser E 1 : summen av terningene er 10 E 3 : en av terningene viser 6 Pr(E 1 )=3/36, Pr(E 3 )=11/36 Pr(E 1 eller E 3 ) = Pr(E 1 U E 3 ) = 12/36 Pr(E 1 og E 3 ) = Pr(E 1 E 3 ) = 2/36 E 1 og E 3 er ikke gjensidig utelukkende 83

E 1 E 3 85

Generell regel i mengdelære Pr(E 1 eller E 3 ) = Pr(E 1 ) + Pr(E 3 ) - Pr(E 1 og E 3 ) 86

Venn-diagram Pr(E 1 ) + Pr(E 3 ) = 14/36 E 1 1 2 E 2 9 87

Summen av to terninger (E 1 =10) Det er som regel struktur i alle type data 3/36 = 0,083 88

Betinga sannsynlighet (side 24) Sannsynlighet for en hendelse gitt at en annen hendelse allerede har inntruffet E 1 = summen av to terninger er 10 E 2 = en av terningene viser 6 Pr(E 1 E 2 ) hvor er gitt Pr( E 1 E 2 ) Pr( E1 E Pr( E ) 2 2 ) 2 / 36 11/ 36 2 /11 Pr( E Pr( E Pr( E 1 2 1 ) 3/12 9 / 36 ) 11/ 36 E ) Pr( E ) 2 1 Pr( E 2 ) Pr( E 1 E 2 ) 20 / 36 18/ 36 2 / 36 89

Uavhengige hendelser E 1 =få en 6 på første terning E 2 =få en 6 på andre terning Pr(E 2 E 1 ) = (1/36)/(1/6) = (1/36)/(6/36) = 1/6 I dette tilfellet er Pr(E 2 E 1 )=Pr(E 2 ) fordi hendelsene er uavhengige 90

Uavhengighet Pr( E 1 E 2 ) Pr( E 1 E 2 ) Pr( E 2 ) Pr( E 1 E 2 ) Pr( E 1 ) Pr( E 2 ) ved uavhengighet Skrivemåte: E 1 =4 på første terning E 2 =3 på andre terning Pr(E 1 og E 2 ) = Pr(E 1 E 2 ) = Pr(4,3) = 1/6 1/6 91

Oppgave: 92

Oppsummering så lang (side 1-30) Frekvenstabeller og histogram Relativ frekvens (andel) og sannsynlighet Venn-diagram, gjensidig utelukkende hendelser, betinga sannsynligheter, uavhengighet 1d) (Menti.com) 94