ECON Statistikk 1 Forelesning 2: Innledning

Like dokumenter
ECON Statistikk 1 Forelesning 1: Innledning

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Statistikk. Forkurs 2017

Statistikk. Forkurs 2018

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

ØVINGER 2017 Løsninger til oppgaver. Øving 1

Kapittel 1: Data og fordelinger

Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

Sannsynlighetsregning og Statistikk.

Forkurs i kvantitative metoder ILP 2019

Introduksjon til statistikk og dataanalyse

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Øving 1 TMA Grunnleggende dataanalyse i Matlab

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

Sentralmål og spredningsmål

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Et lite notat om og rundt normalfordelingen.

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Når du har arbeidet deg gjennom dette kapittelet, er målet at du skal kunne

Et lite notat om og rundt normalfordelingen.

ST0103 Brukerkurs i statistikk Høst 2014

Sentralmål og spredningsmål

Statistikk 2P, Prøve 2 løsning

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Statistikk. Mål. for opplæringen er at eleven skal kunne. planlegge, gjennomføre og vurdere statistiske undersøkelser

Statistikk 2P, Prøve 1 løsning

Seksjon 1.3 Tetthetskurver og normalfordelingen

ST0202 Statistikk for samfunnsvitere

ECON240 Høst 2017 Oppgaveseminar 1 (uke 35)

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

Sentralmål og spredningsmål

LØSNING: Oppgavesett nr. 1

INNHOLD. Matematikk for ungdomstrinnet

Statistikk for språk- og musikkvitere 1

Analyseoversikt, Uke 35

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

Statistikk er begripelig

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Seksjon 1.3 Tetthetskurver og normalfordelingen

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

Kapittel 4.4: Forventning og varians til stokastiske variable

Forslag til endringar

Kap. 8: Utvalsfordelingar og databeskrivelse

2P kapittel 3 Statistikk Løsninger til innlæringsoppgavene

ECON Statistikk 1 Forelesning 3: Sannsynlighet. Jo Thori Lind

2P, Statistikk Quiz. Test, 2 Statistikk

Basisoppgaver til 2P kap. 3 Statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Løsningsforslag til obligatorisk oppgave i ECON 2130

Grunnleggende kurs i Excel. Langnes skole

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Eksempel på data: Karakterer i «Stat class» Introduksjon

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

UNIVERSITETET I OSLO

SPED4010/eksamen i statistikk: Fredag 30.september 2011 kl

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 16. april 2015 kl

Repeterbarhetskrav vs antall Trails

Kort overblikk over kurset sålangt

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

STK1000 Innføring i anvendt statistikk

GeoGebra-opplæring i Matematikk 2P

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Utvalgsfordelinger (Kapittel 5)

Beskrivende statistikk.

STUDIEÅRET 2016/2017. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 27. april 2017 kl

Tema. Beskrivelse. Husk!

Kan vi stole på resultater fra «liten N»?

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Statistikk Løsninger. Innhold. Statistikk Vg2P

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

ÅMA110 Sannsynlighetsregning med statistikk, våren

Kapittel 1: Introduksjon til statistikk og dataanalyse

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Transkript:

ECON2130 - Statistikk 1 Forelesning 2: Innledning Data, beskrivende statistikk, visualisering Jo Thori Lind j.t.lind@econ.uio.no

1. Beskrivende statistikk

Typer variable Nominelle: Gjensidig utelukkende kategorier Kjønn, etnisk gruppe NB Binære vs. mange verdier Ordinale: Gjensidig utelukkende grupper som kan rangeres Enig litt enig litt uenig uenig Landsby småby storby megalopolis Kontinuerlige: Alle former for tallverdier Inntekt, alder, års skolegang

Hva er beskrivende statistikk? Mål som sier noe om verdiene på en variabel Beskriver hvordan utvalget «ser ut» Hvis vi har hele universet er beskrivende statistikk ofte tilstrekkelig Med et utvalg trenger vi mer teori for å si noe om hele universet Men ofte er målene fra beskrivende statistikk de målene vi bruker Disse målene vil gå igjen i hele kurset

Sentrum av data Ofte interessant å vite hva typiske verdier er Er typisk inntekt rundt 100 kr eller 1 million? Ikke alle er like, så noen vil være over og noen under dette målet Vanlige mål: Gjennomsnitt Median Typetall

Gjennomsnitt Legge sammen alle og dele på antallet Si vi har N observasjoner, kall dem i = 1,2,3,, N La verdien på observasjon i være x i Da er gjennomsnittet x ҧ = x 1+x 2 + +x N Kan også skrive x ҧ = 1 σ N i=1 N x i N

Summetegn Hvor vi summerer til N Gresk sigma x i Hva vi summerer i=1 Hvor vi begynner å summere

Eksempel Anta vi har følgende inntektsdata (i 10 000): 56, 45, 38, 29, 74, 69, 66 Her har vi N = 7 Summen er σ i=1 N x i = 56+45+38+29+74+69+66=377 Da blir gjennomsnittet 377 7 = 57.86

Beregne det i R Først må vi få dataene inn i R En serie med verdier kalles en vektor Kan lage vektorer med funksjonen c() La oss kalle vektoren vår inntekt inntekt<-c(56, 45, 38, 29, 74, 69, 66) Så kan vi beregne summen eller gjennomsnittet sum(inntekt) mean(inntekt)

Medianen motivasjon Hva skjer med gjennomsnittet om en av personene er steinrik? Vi har data 56, 45, 38, 29, 74, 69, 4277 Nå blir gjennomsnittet 655.4 Høyere enn nesten alle verdiene Sier lite om den typiske inntekten Hvis det er noen ekstreme verdier eller uteliggere kan gjennomsnittet være lite informativt Lite robust overfor uteliggere

Medianen Et alternativt mål på sentrum er medianen Den verdien som ligger i midten Begynn med å sortere dataene fra lavest til høyest: sort(inntekt) 29, 38, 45, 56, 66, 69, 74 Finn verdien i midten Hva om vi har partall antall observasjoner så ingen er i midten? Ta gjennomsnittet av de to i midten Hva er medianen i dataene med en uteligger?

Typetallet Den verdien som forekommer hyppigst Relevant for «vanlige» verdier, men ikke så mye brukt ellers Nyttig hvis man ikke kan rangere og summere dataene

Spredning Verdien av å vite hvor sentrum av data er avhenger av hvor stor spredning det er rundt sentrum Hvis de aller fleste er i nærheten forteller sentrum oss mye His det er stor spredning er ikke målet så informativt Derfor er det nyttig med mål på spredning i dataene Mål som sier hvor store forskjeller det er mellom ulike verdier

Variasjonsbredde Hvilke verdier forekommer i dataene Finn den største og den minste Variasjonsbredden er differansen I inntektsdataene: range(inntekt) 29 74 Da blir variasjonsbredden 74-29=45 Reagerer sterkt på noen få ekstreme observasjoner

Variansen Hvor langt fra gjennomsnittet er en typisk observasjon? Gitt av differansen x i xҧ Dette vil være både positive og negative tall Men både store positive og store negative tall betyr at observasjonen er langt fra gjennomsnittet Må «ta bort minusen» Kan gange med seg selv (opphøye i annen) Da blir avviket fra gjennomsnittet x i xҧ 2

Variansen (forts.) Gjennomsnittet av disse avvikene kalles variansen Var = 1 N N 1 x i xҧ 2 i=1 Hvorfor dele på N-1? Kommer tilbake til det seinere For at den skal treffe en teoretisk varians (forventningsrett)

Standardavvik Siden vi opphøyer i annen blir variansen «kroner i annen» Hvis vi vil ha noe i «kroner» tar vi kvadratroten det kalles standardavvik sd = Var = 1 N 1 i=1 N x i xҧ 2

Kvartiler Kan noen ganger være nyttig å si mer enn hvor «midten» er For kvartiler stiller vi alle på rekke og deler i fire grupper 7 10 13 14 24 26 27 35 41 43 49 56 62 65 69 78 84 93 94 100 1. kvartil 24 + 26 = 25 2 Median 43 + 49 = 46 2 3. kvartil 69 + 78 = 73.5 2

Persentiler og andre kvantiler Persentiler er å dele i hundre grupper Andelen av inntekt som går til den øverste persentilen, dvs. de rikeste 1 % er et mål på ulikhet Popularisert av Piketty: Kapitalen i det 21. århundre Andre kvantiler som brukes er Kvintiler dele i 5 Desiler dele i 10 Ventiler dele i 20

2. Visualisering

Åpne data i R Velge riktig katalog setwd("m:/dok/undervisning/econ2130") Lese inn data innt<-read.csv("inntekter.csv") inntekter.csv "kjonn","inntekt" "Mann",80.1051941735921 "Mann",69.3573778982704 "Mann",86.1316191211497 "Kvinne",22.8885333360885 "Kvinne",38.1725426407846 "Mann",52.4796398493451 "Mann",68.6431678267916 "Kvinne",36.0540191904963

Frekvenstabeller I innt er det en variabel kjonn Må bruke innt$kjonn for å få tak i den Bruker table(innt$kjonn) Gir Kvinne Mann 46 54

Søylediagram 0 10 20 30 40 50 Kvinne Mann barplot(table(innt$kjonn))

Søylediagram (forts.) 0 1 2 3 4 5 23 30 33 36 41 44 47 49 52 54 56 58 60 66 69 71 74 76 80 82 86 88 92 94 118 122 141 barplot(table(round(innt$inntekt)))

Histogram Frequency 0 10 20 30 40 Histogram of innt$inntekt Hvor mange observasjoner er i intervallet Ser på intervallet 40-60 20 40 60 80 100 120 140 160 hist(innt$inntekt) innt$inntekt

Histogram (forts.) Histogram of innt$inntekt Density 0.000 0.005 0.010 0.015 0.020 20 40 60 80 100 120 140 160 innt$inntekt hist(innt$inntekt,breaks = c(20,30,40,50,60,70,80,100,120,160))

Boksplott Uteliggere Nesten største verdi 20 40 60 80 100 120 140 3. kvartil Median 1. kvartil boxplot(innt$inntekt) Nesten minste verdi

Uteliggere Boksplottet viser ekstremt store og ekstremt små verdier som punkter Dette kalles uteliggere Kan være lurt å sjekke dem er det feil i data? Kan ha stor påvirkning på resultatene våre I beregning av boksplott er uteliggere definert som: Finn 1. og 3. kvartil Finn kvartilbredden, dvs. avstanden mellom de to kvartilene Et stort tall er en uteligger hvis det er mer enn 1.5 kvartilbredden over 3. kvartil Et lite tall er en uteligger hvis det er mer enn 1.5 kvartilbredden under 1. kvartil

Hva skal vi med boksplott? 20 40 60 80 100 120 140 Kvinne Mann boxplot(inntekt~kjonn,data=innt)

Spredningsdiagram Utgift på mat (1000 rupee 0 50 100 150 0 100 200 300 400 500 600 700 plot(mat~tot_utg,data=mat) Totalt forbruk (1000 rupee)

Tidsseriediagram