ECON Statistikk 1 Forelesning 1: Innledning

Like dokumenter
ECON Statistikk 1 Forelesning 2: Innledning

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

Statistikk. Forkurs 2018

Statistikk. Forkurs 2017

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Kapittel 1: Data og fordelinger

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Forkurs i kvantitative metoder ILP 2019

Sentralmål og spredningsmål

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

ECON Statistikk 1 Forelesning 3: Sannsynlighet. Jo Thori Lind

Sannsynlighetsregning og Statistikk.

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

UNIVERSITETET I OSLO

ØVINGER 2017 Løsninger til oppgaver. Øving 1

Forelesning 4 Populasjon og utvalg. Hvorfor er utvalgsteori viktig? Kjent tabbe før det amerikanske presidentvalget i 1936

Kan vi stole på resultater fra «liten N»?

Kapittel 4.4: Forventning og varians til stokastiske variable

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

STK1100 våren Generell introduksjon. Omhandler delvis stoffet i avsnitt 1.1 i læreboka (resten av kapittel 1 blir gjennomgått ved behov)

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Beskrivende statistikk.

ST0103 Brukerkurs i statistikk Høst 2014

MET 3431: Statistikk (våren 2011) Introduksjon. Genaro Sucarrat. Institutt for samfunnsøkonomi, BI.

Kvantitative metoder datainnsamling

Når du har arbeidet deg gjennom dette kapittelet, er målet at du skal kunne

Øving 1 TMA Grunnleggende dataanalyse i Matlab

TMA4240 Statistikk Høst 2018

STUDIEÅRET 2016/2017. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 27. april 2017 kl

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

UNIVERSITETET I OSLO

Statistikk og dataanalyse

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Seksjon 1.3 Tetthetskurver og normalfordelingen

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

1. Hvordan operasjonalisere studenttilfredshet? Vis tre eksempler.

Innhold. Innledning. Del I

Frivillig respons utvalg

UNIVERSITETET I OSLO Matematisk Institutt

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

ÅMA110 Sannsynlighetsregning med statistikk, våren

Hedmark fylkeskommune NÆRMILJØ OG INKLUDERING Deltakelse i aktiviteter

Et lite notat om og rundt normalfordelingen.

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Statistikk 2P, Prøve 2 løsning

UNIVERSITETET I OSLO

Et lite notat om og rundt normalfordelingen.

, Velkommen til TMA4240

ST0202 Statistikk for samfunnsvitere

, Velkommen til TMA4240

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Test, 3 Sannsynlighet og statistikk

INNHOLD. Matematikk for ungdomstrinnet

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Fra første forelesning:

UNIVERSITETET I OSLO

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

ST0202 Statistikk for samfunnsvitere

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Velkommen til TMA4240. Velkommen til TMA / 18

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

TMA4240 Statistikk Eksamen desember 2015

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

LØSNING: Oppgavesett nr. 1

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

ST0202 Statistikk for samfunnsvitere

TMA4245 Statistikk Eksamen desember 2016

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Introduksjon til statistikk og dataanalyse

ST0202 Statistikk for samfunnsvitere

Trygghet og innflytelse. i Fredrikstad kommune

TMA4240 Statistikk H2010 (22)

Sentralmål og spredningsmål

Tilfeldighetenes spill Undervisningsopplegg for ungdomstrinnet

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Transkript:

ECON2130 - Statistikk 1 Forelesning 1: Innledning Hva er statistikk, data, beskrivende statistikk Jo Thori Lind j.t.lind@econ.uio.no

Kursstruktur Undervisning Forelesninger 13 ganger Teori og illustrasjoner Teoriseminar 8 ganger Oppgaveløsing R-seminar 8 ganger Data-lab Evaluering Semesteroppgave Bestått/ikke bestått Mye R Avsluttende eksamen Penn og papir Trekker på anvendelser så mye som mulig

Pensum

Plan for forelesningen 1. Hva skal vi med statistikk? 2. Hva er statistikk? 3. Hva lærer du i dette kurset? 4. Hva er R og hva skal vi med det? 5. Datakilder og datatyper 6. Utvalg og univers 7. Beskrivende statistikk

1. Hva skal vi med statistikk?

Lære fra observasjon For å finne ut hvordan verden henger sammen må vi observere samle data Så kan vi prøve å trekke lærdom fra observasjonene Statistikk handler om å gjøre det på en systematisk måte

Samle data noen eksempler Gjennomføre et eksperimet Prøve ut en ny medisin, samle inn data på forbedret helse Hjelper medisinen? Gjenomføre en spørreundersøkelse Hvor mange ville stemt Ap hvis det var valg i dag? Er det færre en før Giske-saken? Bruke data fra offentlige kilder Personinntekt fra Selvangivelsen Har ulikheten gått opp?

Vite når vi ikke lærer så mye Det kan være at økologisk mat hjelper mot diabetes 2 Men at en økobonde er blitt frisk forteller oss ikke så mye

Vite når vi ikke lærer så mye Mye mulig gode frokostvaner er bra Men det er ikke tilfeldig hvem som har gode frokostvaner Har de andre gode vaner også?

2. Hva er statistikk?

Analyse av data Gå fra en samling data til mål som beskriver dataene F. eks. beregne gjennomsnitt Vise dataene i en figur: Visualisering Spredningsdiagram

Sannsynlighetsregning Beregne sannsynligheter Hva er sannsynligheten for 7 rette i Lotto? Har en modell for hvordan utfallet skapes Trekke 7 baller tilfeldig fra en bøtte med 34 baller Kan så regne ut sannsynligheten for forskjellige utfall Det er 5 379 616 mulige utfall som alle er like sannsynlige

Sette data og sannsynlighet sammen Vanligvis vil vi studere et utvalg Intervjuer 1000 personer for å lære noe om hele Norges befolkning Hvilke data en får vil avhenge av nøyaktig hvem som ble trukket ut Men kan si en god del Men det vil alltid være noe usikkerhet Sannsynlighetsregning kan hjelpe oss å si noe om hvor stor den er

Fagfelt som bruker statistikk Økonometri læren om å tallfeste økonomiske størrelser Begrep skapt av Ragnar Frisch Samfunnsvitenskapelig metode Maskinlæring og datavitenskap Diverse felt innen med/nat

3.Hva lærer du i dette kurset?

Forelesningsplanen

4. Hva er R og hva skal vi med det?

Dataanalyse i praksis Analyse av data krever beregninger For å ta gjennomsnittet legger vi sammen alle verdiene, deler på antall Så må legge sammen mange tall Avanserte analyser og store datasett kan føre til store og tunge beregninger

Calculators - regnedamer

Datamaskiner Statistiske beregninger var blant de første oppgavene datamaskiner ble satt til Først brukte man hullkort Først brukt til den amerikanske folketellingen 1890 Elektroniske datamaskiner begynner å komme i 1945

Statistikkprogram Datamaskiner må programmeres for å gjøre noe med data I starten laget man et program for hver analyse Veldig tungvint i lengden Etter hvert kom generelle program for å analysere data OmniForm, OmniTab fra 1960 (nå MiniTab) SAS i 1965: Analyse av landbruksdata SPSS i 1968: Samfunnsfag S i 1975: Generell statistikk R fra 1992

R er en åpen kilde-variant av S-spåket Kan lastes ned gratis (på diverse platformer) Anbefaler å bruke R-studio sammen med R Veldig generelle bruksområder Bruken har eksplodert de siste årene Erfaring med R vil være nyttig på arbeidsmarkedet

Hva skal vi bruke R til? Forholdsvis enkle dataanalyser Bedre å lære om det ved å gjøre det selv Jobbe med tilfeldighet Kan regne på sannsynligheter med penn og papir, men kan bli grisete regnestykker Ofte mye lettere å bruke datamaskin Simuleringer Tror kurset blir mer interessant og mer relevant med R

Hvorfor bruker vi ikke heller X? Excel Mangler gode statistikk-funksjoner, tungvint å jobbe med Stata Lite tilgjengelig utenfor akademia og dyrt SAS, SPSS Også lite tilgjengelig og dyrt, ikke så godt egnet for økonometri OxMetrics, Eviews Uegnet til generell statistikk Python Litt for generelt, fokuserer på andre ting enn statistikk

5. Datakilder og datatyper

Hvor kan vi finne data? (Spørre)undersøkelser av personer, bedrifter, kommuner, Kan suppleres med målinger (personens vekt, areal på et jorde) Eksperimentelle data Lab-eksperiment i samfunnsfag Administrative data Årlige BNP-tall Data fra Selvangivelsen registerdata

Eksotiske data Kart og geografi Bilder Google StreetView for å analysere fattige nabolag Høyre-partier har penere politikere enn venstre-partier Tekst Avisartikler for å predikere konjunkturer Nettverk Telefonkontakt, Facebook-venner Skanner-data fra butikker: Alle kjøp

Eksempel på data Alder Kjønn Inntekt 45 Kvinne 650 000 36 Mann 375 000 63 Mann 754 000 55 Kvinne 854 000 41 Kvinne 454 000 Observasjon Variabel

Datastrukturer 1. Tverrsnitt Flere individer intervjuet samtidig Alle verdens land i 2000 2. Tidsserie Bruttonasjonalprodukt i Norge hvert år 1960-2000 3. Panel Intervjue flere personer flere ganger Alle verdens land i 1980, 1990 og 2000

7. Utvalg og univers

Universet Universet er det vi ønsker å lære noe om Alle innbyggerne i Norge Alle land i verden Ofte er det for dyrt og tidkrevende å undersøke hele universet Kan vi undersøke hele universet er statistisk analyse veldig enkel

Utvalget Vanligvis kan vi bare undersøke en del av universet Gjør et utvalg: Studerer bare noen For å studere alle borgere i Norge kan vi undersøke 1000 nordmenn Så forsøker vi å bruke utvalget til å si noe om hele universet Her kommer statistikk inn

Hvordan trekke et utvalg Den enkleste måten er et tilfeldig utvalg Trekk så mange observasjoner vi vil ha slik at alle i universet har like stor sannsynlighet for å bli trukket Trekk 1000 tilfeldige navn fra Folkeregisteret Stort sett krever dette at vi har en liste over alle som er i universet

Representative utvalg For at utvalget skal gi oss korrekt informasjon om universet må utvalget være representativt Samme sammensetning som i universet Samme andel kvinner og menn, gamle og unge Hvis noen er overrepresentert kan vi få skjevhet i resultatene Telefonintervju ved meningsmålinger før 1936-valget i USA Roosevelt skulle tape med 43 %, vant med 62 % Hvem hadde telefon i 1936?

Noen andre måter å trekke utvalg Stratifisert utvalg Forsikre seg om sammensetningen av noen karakteristika på forhånd Trekke 500 kvinner og 500 menn Cluster sampling Først trekke noen grupper å studere, så studere innen hver av gruppene Velge noen landsbyer, så studere 40 personer i hver Snøball-utvalg Først intervjue noen få personer Spørre om deres venner, for så å intervjue dem Nyttig hvis universet er ukjent Kriminelle Vanligvis ikke representativt!

7. Beskrivende statistikk

Hva er beskrivende statistikk? Mål som sier noe om verdiene på en variabel Beskriver hvordan utvalget «ser ut» Hvis vi har hele universet er beskrivende statistikk ofte tilstrekkelig Med et utvalg trenger vi mer teori for å si noe om hele universet Men ofte er målene fra beskrivende statistikk de målene vi bruker Disse målene vil gå igjen i hele kurset

Sentrum av data Ofte interessant å vite hva typiske verdier er Er typisk inntekt rundt 100 kr eller 1 million? Ikke alle er like, så noen vil være over og noen under dette målet Vanlige mål: Gjennomsnitt Median Typetall

Gjennomsnitt Legge sammen alle og dele på antallet Si vi har N observasjoner, kall dem i = 1,2,3,, N La verdien på observasjon i være x i Da er gjennomsnittet x ҧ = x 1+x 2 + +x N Kan også skrive x ҧ = 1 σ N i=1 N x i N

Summetegn Hvor vi summerer til N Gresk sigma x i Hva vi summerer i=1 Hvor vi begynner å summere

Eksempel Anta vi har følgende inntektsdata (i 10 000): 56, 45, 38, 29, 74, 69, 66 Her har vi N = 7 Summen er σ i=1 N x i = 56+45+38+29+74+69+66=377 Da blir gjennomsnittet 377 7 = 57.86

Beregne det i R Først må vi få dataene inn i R En serie med verdier kalles en vektor Kan lage vektorer med funksjonen c() La oss kalle vektoren vår inntekt inntekt<-c(56, 45, 38, 29, 74, 69, 66) Så kan vi beregne summen eller gjennomsnittet sum(inntekt) mean(inntekt)

Medianen motivasjon Hva skjer med gjennomsnittet om en av personene er steinrik? Vi har data 56, 45, 38, 29, 74, 69, 4277 Nå blir gjennomsnittet 655.4 Høyere enn nesten alle verdiene Sier lite om den typiske inntekten Hvis det er noen ekstreme verdier eller uteliggere kan gjennomsnittet være lite informativt Lite robust overfor uteliggere

Medianen Et alternativt mål på sentrum er medianen Den verdien som ligger i midten Begynn med å sortere dataene fra lavest til høyest: sort(inntekt) 29, 38, 45, 56, 66, 69, 74 Finn verdien i midten Hva om vi har partall antall observasjoner så ingen er i midten? Ta gjennomsnittet av de to i midten Hva er medianen i dataene med en uteligger?

Typetallet Den verdien som forekommer hyppigst Relevant for «vanlige» verdier, men ikke så mye brukt ellers Nyttig hvis man ikke kan rangere og summere dataene

Spredning Verdien av å vite hvor sentrum av data er avhenger av hvor stor spredning det er rundt sentrum Hvis de aller fleste er i nærheten forteller sentrum oss mye His det er stor spredning er ikke målet så informativt Derfor er det nyttig med mål på spredning i dataene Mål som sier hvor store forskjeller det er mellom ulike verdier

Variasjonsbredde Hvilke verdier forekommer i dataene Finn den største og den minste Variasjonsbredden er differansen I inntektsdataene: range(inntekt) 29 74 Da blir variasjonsbredden 74-29=45 Reagerer sterkt på noen få ekstreme observasjoner

Variansen Hvor langt fra gjennomsnittet er en typisk observasjon? Gitt av differansen x i xҧ Dette vil være både positive og negative tall Men både store positive og store negative tall betyr at observasjonen er langt fra gjennomsnittet Må «ta bort minusen» Kan gange med seg selv (opphøye i annen) Da blir avviket fra gjennomsnittet x i xҧ 2

Variansen (forts.) Gjennomsnittet av disse avvikene kalles variansen Var = 1 N N 1 x i xҧ 2 i=1 Hvorfor dele på N-1? Kommer tilbake til det seinere For at den skal treffe en teoretisk varians (forventningsrett)

Standardavvik Siden vi opphøyer i annen blir variansen «kroner i annen» Hvis vi vil ha noe i «kroner» tar vi kvadratroten det kalles standardavvik sd = Var = 1 N 1 i=1 N x i xҧ 2