ECON2130 - Statistikk 1 Forelesning 2: Innledning Data, beskrivende statistikk, visualisering Jo Thori Lind j.t.lind@econ.uio.no
1. Beskrivende statistikk
Typer variable Nominelle: Gjensidig utelukkende kategorier Kjønn, etnisk gruppe NB Binære vs. mange verdier Ordinale: Gjensidig utelukkende grupper som kan rangeres Enig litt enig litt uenig uenig Landsby småby storby megalopolis Kontinuerlige: Alle former for tallverdier Inntekt, alder, års skolegang
Hva er beskrivende statistikk? Mål som sier noe om verdiene på en variabel Beskriver hvordan utvalget «ser ut» Hvis vi har hele universet er beskrivende statistikk ofte tilstrekkelig Med et utvalg trenger vi mer teori for å si noe om hele universet Men ofte er målene fra beskrivende statistikk de målene vi bruker Disse målene vil gå igjen i hele kurset
Sentrum av data Ofte interessant å vite hva typiske verdier er Er typisk inntekt rundt 100 kr eller 1 million? Ikke alle er like, så noen vil være over og noen under dette målet Vanlige mål: Gjennomsnitt Median Typetall
Gjennomsnitt Legge sammen alle og dele på antallet Si vi har N observasjoner, kall dem i = 1,2,3,, N La verdien på observasjon i være x i Da er gjennomsnittet x ҧ = x 1+x 2 + +x N Kan også skrive x ҧ = 1 σ N i=1 N x i N
Summetegn Hvor vi summerer til N Gresk sigma x i Hva vi summerer i=1 Hvor vi begynner å summere
Eksempel Anta vi har følgende inntektsdata (i 10 000): 56, 45, 38, 29, 74, 69, 66 Her har vi N = 7 Summen er σ i=1 N x i = 56+45+38+29+74+69+66=377 Da blir gjennomsnittet 377 7 = 57.86
Beregne det i R Først må vi få dataene inn i R En serie med verdier kalles en vektor Kan lage vektorer med funksjonen c() La oss kalle vektoren vår inntekt inntekt<-c(56, 45, 38, 29, 74, 69, 66) Så kan vi beregne summen eller gjennomsnittet sum(inntekt) mean(inntekt)
Medianen motivasjon Hva skjer med gjennomsnittet om en av personene er steinrik? Vi har data 56, 45, 38, 29, 74, 69, 4277 Nå blir gjennomsnittet 655.4 Høyere enn nesten alle verdiene Sier lite om den typiske inntekten Hvis det er noen ekstreme verdier eller uteliggere kan gjennomsnittet være lite informativt Lite robust overfor uteliggere
Medianen Et alternativt mål på sentrum er medianen Den verdien som ligger i midten Begynn med å sortere dataene fra lavest til høyest: sort(inntekt) 29, 38, 45, 56, 66, 69, 74 Finn verdien i midten Hva om vi har partall antall observasjoner så ingen er i midten? Ta gjennomsnittet av de to i midten Hva er medianen i dataene med en uteligger?
Typetallet Den verdien som forekommer hyppigst Relevant for «vanlige» verdier, men ikke så mye brukt ellers Nyttig hvis man ikke kan rangere og summere dataene
Spredning Verdien av å vite hvor sentrum av data er avhenger av hvor stor spredning det er rundt sentrum Hvis de aller fleste er i nærheten forteller sentrum oss mye His det er stor spredning er ikke målet så informativt Derfor er det nyttig med mål på spredning i dataene Mål som sier hvor store forskjeller det er mellom ulike verdier
Variasjonsbredde Hvilke verdier forekommer i dataene Finn den største og den minste Variasjonsbredden er differansen I inntektsdataene: range(inntekt) 29 74 Da blir variasjonsbredden 74-29=45 Reagerer sterkt på noen få ekstreme observasjoner
Variansen Hvor langt fra gjennomsnittet er en typisk observasjon? Gitt av differansen x i xҧ Dette vil være både positive og negative tall Men både store positive og store negative tall betyr at observasjonen er langt fra gjennomsnittet Må «ta bort minusen» Kan gange med seg selv (opphøye i annen) Da blir avviket fra gjennomsnittet x i xҧ 2
Variansen (forts.) Gjennomsnittet av disse avvikene kalles variansen Var = 1 N N 1 x i xҧ 2 i=1 Hvorfor dele på N-1? Kommer tilbake til det seinere For at den skal treffe en teoretisk varians (forventningsrett)
Standardavvik Siden vi opphøyer i annen blir variansen «kroner i annen» Hvis vi vil ha noe i «kroner» tar vi kvadratroten det kalles standardavvik sd = Var = 1 N 1 i=1 N x i xҧ 2
Kvartiler Kan noen ganger være nyttig å si mer enn hvor «midten» er For kvartiler stiller vi alle på rekke og deler i fire grupper 7 10 13 14 24 26 27 35 41 43 49 56 62 65 69 78 84 93 94 100 1. kvartil 24 + 26 = 25 2 Median 43 + 49 = 46 2 3. kvartil 69 + 78 = 73.5 2
Persentiler og andre kvantiler Persentiler er å dele i hundre grupper Andelen av inntekt som går til den øverste persentilen, dvs. de rikeste 1 % er et mål på ulikhet Popularisert av Piketty: Kapitalen i det 21. århundre Andre kvantiler som brukes er Kvintiler dele i 5 Desiler dele i 10 Ventiler dele i 20
2. Visualisering
Åpne data i R Velge riktig katalog setwd("m:/dok/undervisning/econ2130") Lese inn data innt<-read.csv("inntekter.csv") inntekter.csv "kjonn","inntekt" "Mann",80.1051941735921 "Mann",69.3573778982704 "Mann",86.1316191211497 "Kvinne",22.8885333360885 "Kvinne",38.1725426407846 "Mann",52.4796398493451 "Mann",68.6431678267916 "Kvinne",36.0540191904963
Frekvenstabeller I innt er det en variabel kjonn Må bruke innt$kjonn for å få tak i den Bruker table(innt$kjonn) Gir Kvinne Mann 46 54
Søylediagram 0 10 20 30 40 50 Kvinne Mann barplot(table(innt$kjonn))
Søylediagram (forts.) 0 1 2 3 4 5 23 30 33 36 41 44 47 49 52 54 56 58 60 66 69 71 74 76 80 82 86 88 92 94 118 122 141 barplot(table(round(innt$inntekt)))
Histogram Frequency 0 10 20 30 40 Histogram of innt$inntekt Hvor mange observasjoner er i intervallet Ser på intervallet 40-60 20 40 60 80 100 120 140 160 hist(innt$inntekt) innt$inntekt
Histogram (forts.) Histogram of innt$inntekt Density 0.000 0.005 0.010 0.015 0.020 20 40 60 80 100 120 140 160 innt$inntekt hist(innt$inntekt,breaks = c(20,30,40,50,60,70,80,100,120,160))
Boksplott Uteliggere Nesten største verdi 20 40 60 80 100 120 140 3. kvartil Median 1. kvartil boxplot(innt$inntekt) Nesten minste verdi
Uteliggere Boksplottet viser ekstremt store og ekstremt små verdier som punkter Dette kalles uteliggere Kan være lurt å sjekke dem er det feil i data? Kan ha stor påvirkning på resultatene våre I beregning av boksplott er uteliggere definert som: Finn 1. og 3. kvartil Finn kvartilbredden, dvs. avstanden mellom de to kvartilene Et stort tall er en uteligger hvis det er mer enn 1.5 kvartilbredden over 3. kvartil Et lite tall er en uteligger hvis det er mer enn 1.5 kvartilbredden under 1. kvartil
Hva skal vi med boksplott? 20 40 60 80 100 120 140 Kvinne Mann boxplot(inntekt~kjonn,data=innt)
Spredningsdiagram Utgift på mat (1000 rupee 0 50 100 150 0 100 200 300 400 500 600 700 plot(mat~tot_utg,data=mat) Totalt forbruk (1000 rupee)
Tidsseriediagram