ECON240 Statistikk og økonometri. Arild Aakvik, professor Institutt for økonomi

Like dokumenter
Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ECON240 Vår 2018 Oppgaveseminar 1 (uke 6)

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6

Statistikk og dataanalyse

ECON240 Høst 2017 Oppgaveseminar 1 (uke 35)

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

ST0202 Statistikk for samfunnsvitere

Forkurs i kvantitative metoder ILP 2019

Fra første forelesning:

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0103 Brukerkurs i statistikk Høst 2014

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Statistikk. Forkurs 2017

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

Kapittel 1: Data og fordelinger

Statistikk. Forkurs 2018

Et lite notat om og rundt normalfordelingen.

UNIVERSITETET I OSLO

Statistikk er begripelig

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Oppfriskning av blokk 1 i TMA4240

Sannsynlighetsregning og Statistikk.

Et lite notat om og rundt normalfordelingen.

ÅMA110 Sannsynlighetsregning med statistikk, våren

TMA4245 Statistikk Eksamen desember 2016

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Innhold. Innledning. Del I

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

Kapittel 4.4: Forventning og varians til stokastiske variable

Eksamensoppgave i TMA4240 Statistikk

UNIVERSITETET I OSLO

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

ØVINGER 2017 Løsninger til oppgaver. Øving 1

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

TMA4240 Statistikk H2010

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

ST0202 Statistikk for samfunnsvitere

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Kort overblikk over kurset sålangt

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Forelening 1, kapittel 4 Stokastiske variable

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Kapittel 3: Studieopplegg

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

Seksjon 1.3 Tetthetskurver og normalfordelingen

ST0202 Statistikk for samfunnsvitere

Analyseoversikt, Uke 35

Statistikk i klinikken. Arild Vaktskjold 2015

DEL 1 GRUNNLEGGENDE STATISTIKK

MET 3431: Statistikk (våren 2011) Introduksjon. Genaro Sucarrat. Institutt for samfunnsøkonomi, BI.

Kan vi stole på resultater fra «liten N»?

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Betinget sannsynlighet

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

Skoleeksamen i SOS Kvantitativ metode

ST0202 Statistikk for samfunnsvitere

Tabell 1: Beskrivende statistikker for dataene

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

Test, 3 Sannsynlighet og statistikk

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

Innhold. Innledning. Del I

Øving 1 TMA Grunnleggende dataanalyse i Matlab

ST0202 Statistikk for samfunnsvitere Introduksjon til ST0202 høsten 2012 Kapittel 1: Statistikk

STUDIEÅRET 2016/2017. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 27. april 2017 kl

statistikk, våren 2011

UNIVERSITETET I OSLO

Beskrivende statistikk.

UNIVERSITETET I OSLO

Sannsynlighet og statistikk

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Kapittel 4.3: Tilfeldige/stokastiske variable

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Øving 1 TMA Grunnleggende dataanalyse i Matlab

UNIVERSITETET I OSLO

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

ST0202 Statistikk for samfunnsvitere

Statistikk for språk- og musikkvitere 1

Transkript:

ECON240 Statistikk og økonometri Arild Aakvik, professor Institutt for økonomi 1

Oversikt 1. forelesning Hva er statistikk og økonometri? Hvorfor studerer vi fagområdet? Statistikk Metoder, teknikker og verktøy til å produsere lettfattelig informasjon ut av komplekse datasett: «Big data» (nettransaksjoner, kunderegistrering, (nett)overvåkning, børskurser, Google, Amazon, Machine Learning/algoritmer, etc.) Komplekse data (registerdata, spørreundersøkelser, etc.) Dynamiske prosesser (makrodata) Markedsdata (tilbud og etterspørsel), beslutningsdata, adferd, eksperiment, etc. Skille mellom informasjon og støy Økonometri Anvendelse på samfunnsøkonomiske problemstillinger Hvordan kan vi forstå «verden» (samfunnsøkonomien)? Kan vi predikere hendelser? Hvordan kan vi knytte sammen økonomisk teori og data? 3

Valutasvingninger i prosent over tid Systematikk eller tilfeldigheter? 4

Støy/variasjon 5

Visuell/grafisk presentasjon av data Kan vi presentere data på en måte som gir oss mer informasjon? Stolpediagram Sentraltendenser (gjennomsnitt, median, typetall) Variasjon (standardavvik, varians, skjevhet) Menti.com Stolpediagram (1a) Enkle stolpediagram Stolpediagram for undergrupper (betinga analyse)

Datainnsamling; utdanning og inntekt Hypotese: Vi tror det er en positiv sammenheng mellom utdanning og lønn. Lønner det seg å ta en mastergrad i forhold til bachelorgrad? La oss anta at vi går rundt på gata og spør hver enkelt person hvilket utdanningsnivå de har og hvilken årsinntekt de har: 1. observasjon: 16 års utdanning, kr 500.000 i inntekt, kvinne 2. observasjon: 13 års utdanning, kr 400.000 i inntekt, mann 3. observasjon: 18 års utdanning, kr 600.000 i inntekt, mann 4. observasjon: 15 års utdanning, kr 590.000 i inntekt, kvinne.. La oss plotte data i et figur 7

lønn Utdanning og lønn kr 600.000 ett individ sin observasjon av utdanningsnivå og lønn 18 års utdanning utdanning 8

Forskning Hva kan vi lære av denne figuren? 1. Det ser ut som at det er en positiv sammenheng mellom utdanning og lønn De som har høyere utdanning ser ut til også å ha høyere inntekt 2. Det er ingen superklar tendens (dvs det er mye støy i data) Noen har høy utdanning og lav inntekt, og noen har lav utdanning og høy inntekt, selv om det ikke er hovedtendensen 3. Er det alt vi kan si? 9

Statistikk og økonometri Formålet er å trekke ut så mye informasjon fra dette datasettet som mulig Rapportere resultatene på en lettfattelig måte (i hvert fall for de som kan faget) Sentraltendenser (gjennomsnitt, andel, median, typetall, estimat, etc.) Variasjon (standardavvik, standardfeil, varians, skjevhet, volatilitet, etc.) Sammenhenger/samvariasjon (korrelasjon, kovarians, etc.) Regresjonsanalyse (regresjonskoeffisient, kausale effekter mellom variabler) Hypotesetesting/inferens (hvilke konklusjoner kan vi trekke fra analysen?) Økonomisk signifikans? Er effektene store? Statistisk signifikans? Kan vi konkludere med at effektene er forskjellig fra null? 10

lønn Utdanning og lønn kr 600.000 Regresjonslinje (rett linje som i størst mulig grad representerer/beskriver datapunktene) 18 års utdanning utdanning 12

lønn Utdanning og lønn kr 620.000 Δlønn β 1 = ---------------- = kr 100.000 Δutdanning kr 520.000 Datapunkt Modell Analyse Antakelser 17 år 18 år utdanning 13

Statistikk og økonometri Vi bruker statistikk og økonometri som grunnlag for beslutninger (både på individ- og samfunnsnivå) til å forstå verden (økonomien) til å test og (utvikle) økonomisk teori Økonometri Kvantitativ metode og estimering i samfunnsøkonomifaget Viktige spørsmål Hvilke problem skal vi analysere? Hvilke data vi skal samle inn? Hvordan trekker vi ut informasjon fra et datasett? Hvordan skal vi formulere problemstillingene empirisk? Hvordan skal vi estimere effekten av økonomisk politikk på best mulig måte (kausalestimering) Hvordan kan vi bruke modellene og resultatene til å si noe om framtidig økonomisk politikk 14

Mange ulike problemstillinger Makroøkonometri Estimere sammenhenger mellom størrelser som rente, inflasjon, arbeidsledighet, valutakurs, inntektsulikhet, etc. «Dynamisk stokastiske likevektsmodeller» Hvordan beveger makroøkonomiske størrelser seg sammen? Mikroøkonometri Estimere effekten av ulike intervensjoner (tiltaksevaluering) Hvordan påvirkes folk av insentiver? Atferdsrelasjoner (beslutningsmodeller) 15

Eksempler Teste og estimere empirisk regularitet Konsumtilbøyelighet i makro Rentefølsomhet Tilbuds- og etterspørselskurver Effekter av utdanning, arbeidsmarkedstiltak, helsetiltak, etc på inntekt og jobbmuligheter Familiebakgrunn og suksess på arbeidsmarkedet Generasjonsmobilitet Effekt av økt timelønn på arbeidstilbud Substitusjons- og inntektseffekt Effekt av ulike sosioøkonomiske karakteristika på tilpasning og atferd 16

Viktige begrep Datatyper Målenivå: Nominal, ordinal, intervall, skala/forholdstall Alle typer variabler kan analyseres med økonometrisk metode Sentraltendenser gjennomsnitt, andel, median, typetall, estimat, etc. Variasjon standardavvik, varians, skjevhet, etc. Sammenhenger korrelasjon, kovarians, etc. Regresjonsanalyse regresjonskoeffisient, kausale effekter mellom variabler Hypotesetesting/inferens hvilke konklusjoner kan vi trekke fra analysen mhp økonomisk og statistisk signifikans? 17

Hovedformål med statistikk og økonometri Trekke ut informasjon fra komplekse sammenhenger (økonomien) og data på en effektiv måte for å besvare politikkrelevante spørsmål 21

Viktige begrep og definisjoner Populasjon alle tenkelige observasjoner en komplett mengde av elementer lønna til alle i Norge som har en utdanning alle samf.øk.studenter i Norge Utvalg/sample en undermengde av hele populasjonen helst et tilfeldig trukket utvalg fra populasjonen helst mer enn 30 observasjoner dere som sitter her er en undermengde av alle samf.øk.studenter i Norge (men kanskje ikke et tilfeldig utvalg) Karakteristika/kjennetegn variabler som sier noe om utvalget eller populasjonen variabel 1: utdanning x 1 =utdanning variabel 2: lønn/inntekt x 2 =inntekt Variabel 3: kjønn x 3 =kjønn Data/datasett samling av alle observasjon som har blitt samlet inn (blitt registrert) 22

Datatyper Kvalitative data (kategoriske data) Data som ikke kan måles eller tallfestes (kjønn, hårfarge, blodtype, religion, utdanningstype, transportmåte, etc.) Obs! Vi kan ikke måle disse variablene langs en tall-akse, men vi kan analysere dem Kvantitative data (numeriske data) Data som kan måles (høyde, vekt, inntekt, pris, utgift, temperatur, etc) Kontinuerlige variabler (inntekt, ulikhetsmål (Gini-koeffisient), etc) Diskrete variabler (begrenset mengde med utfall/verdier, for eksempel antall barn, transportmiddel, etc). 23

Datatyper I eksempelet med «gå til UiB» og «husleie» er den første variabelen kvalitativ (vi kan dele alternativene inn i ulike kategorier) og den andre kvantitativ (vi kan sette en verdi på husleien) 24

Data Kategorisk Numerisk Eksempel: Kjønn Sivil status (Definerte kategorier eller grupper) Eksempel: Diskret Antall barn Antall øyne på terning (Begrenset tellbart) Kontinuerlig Eksempel: Inntekt Kommunestørrelse (Nøyaktig målbare karakteristika) 25

Deskriptiv versus modellbasert analyse Statistikk utføres gjerne i to blokker Deskriptiv/beskrivende/summerende statistikk Gjennomsnittsverdi, median, standardavvik/varians, min-maks-verdi, etc., av variabler som inkluderes i analysen Graf, plot, etc. Betinget beskrivende statistikk Menti.com (1b): Fordeling av en variabel for ulike undergrupper i datasettet Modellbasert analyse/regresjonsanalyse Tar hensyn til at variablene påvirker hverandre på kompliserte måter Betinget analyse (conditional analysis) Hva er forskjellen i inntekt mellom menn og kvinner med samme utdanning og yrke? 26

Hvor presise er svarene vi gir? Menti.com 1b 27

Litt algebra: summasjon Hva er lønnen til arbeiderne i en bedrift? n=1000 (antall arbeidere i bedrifter) Totale lønnsutbetalinger en måned = lønn til person 1 + lønn til person 2 + lønn til person 3 + + lønn til person 1000 X i = lønn og X tot = totale lønnsutbetalinger en måned X tot X X... 1 2 1000 i1 X i 1000 i1 X X i 1000 29

Egenskaper til summasjon Hva skjer dersom alle får en lønnsøkning på 10%? Da kan vi gange lønnen deres med 1,1=α X tot X X... 1 2 1000 i1 X i X 1000 30

31

Summasjon Hva hvis arbeiderne får α=1,1 på fast lønn (lønnsøkning på 10%) og β=1,05 (lønnsøkning på overtidslønn er bare 5%)? 32 N i i N i i N i i N i i N i i i Y X Y X Y X 1 1 1 1 1 ) (

Redusere notasjon der vi kan n i1 n i1 i betyr det samme 33

Summe-notasjonen går igjen over alt Når vi samler inn data legger vi disse vanligvis inn i et regneark (Excel/Stata) Da vil data være organisert på en spesiell måte Anta at vi samler inn 10 observasjoner hvor vi spør om personen sin alder (A), inntekt (Y) og utdanningsnivå (E) Vi vil da lage et regneark som ser slik ut 34

A = Alder Y = Årsinntekt E = Utdanning i antall år 35

Summerer over alle observasjonene 36

Gjennomsnitt (mean/average) X X 1 X 2 X... X10 i1 10 n n i A Y E 42,2 577.000 13,7 37

Slik ser det ut i Stata-regnearket: Sorterer slik at yngste kommer først, etc 38

39

Median Medianen (M) er det midterste tallet når variabelen er rangert fra den minste verdien til den største I dette tilfellet eksisterer det ikke noe «midterste tall» (ved n=partall). Må ta snitt av de to midterste tallene: M A = A (5+6)/2 = (35+40)/2=37,5 40

Hva er medianen til E, dvs M E? 41

42

Typetall/modalverdi (mode) Det tallet som går oftest igjen, dvs mest vanlige observasjon Hva er typetallet til E? 43

Frekvenstabell/histogram 44

Oppsummert så langt Sentraltendens Gj.snitt Median Mode x n i1 n x Aritmetisk gjennomsnitt i Midtpunkt for rangerte verdier Mest gjentatte verdi 45

Huspriser: 20.000.000 5.000.000 3.000.000 1.000.000 1.000.000 Sum 30.000.000 Gj.snitt: (30.000.000/5) = kr 6.000.000 Median: middelverdi for rangerte data = kr 3.000.000 Mode/typetall: mest gjentatte verdi = kr 1.000.000

47

Eksempel En investering på 100.000 økte til 150.000 på slutten av første året og til 180.000 på slutten av år to X 100.000 X2 150.000 X3 1 180.000 50% økning 20% økning Hva er gjennomsnittlig avkastning over tid? X (50%) (20%) 2 35% Feil! r g (x 1 x 2 ) 1/n 1 [(50) (20)] 1/2 1 Riktig! (1000) 1/2 1 31.623 1 30.623%

Varians Varians = summen kvadrerte avvik rundt gjennomsnittet, delt på n: Varians 1 ( X X) 2 n i i v 2 49

Varians = 163,96 50

Varians Hva mener vi egentlig med varians og hvordan kan vi bruke estimatene? Standardavvik: St. dev. 1 n 2 ) ( X X v i i 2 v Standard avvik viser gjennomsnittlig avvik fra gjennomsnittet, dvs hvor mye en observasjon i gjennomsnitt avviker fra gjennomsnittet Standard avvik = 12,8 51

52 X gj.snittet av X gj.snitt gj.snitt ) ( ) ( 1 1 2 1 1 2 1 1 ) ( 1 2 2 2 2 2 2 2 2 2 2 2 2 2 X X X X X X X n X X n X X X X n X n X X n X n X X n i i i i i i i i i i i i i i Varians: Kvadratsetning: (a-b) 2 = a 2-2ab + b 2

2 1 ( X n i i X) 2 X 2 ( X) 2 1944,8 42,2 42,2 163,96 53

Mean absolute deviation mdev 1 X X ( X i i n 42,2) 54

Mål på variasjon Varians viser hvor mye variabelen varierer rundt en størrelse (gjennomsnitt, median, estimat, etc) Mange varianter av disse målene brukes i analyse av ulikhet og fattigdom (f.eks. Ginikoeffisienten) Viktig størrelse ved hypotesetesting (kap 3) 55

Oppsummering så langt Hva er statistikk og økonometri og hvorfor studerer vi fagområdet? Terminologi: populasjon, utvalg, kvalitative data, kvantitative data, diskrete og kontinuerlige variabler Mål på sentraltendenser (gjennomsnitt, modaltall, median) Mål på variasjon (varians, standardavvik) 56

Frekvenstabeller Mål med empirisk analyse Analysere komplekse data Presentere resultatene på en lettfattelig måte Være politikkrelevante Gjennomsnitt og varians sier litt om variablene vi analyserer, men kanskje vi kan gjøre enda mer Inntektsfordelingen i Norge: Gjennomsnittsinntekt = kr 520.000 Median = kr 491.000 Mer relevant: For eksempel, hvor mange har inntekt under 250.000? Eller frekvenstabeller 57

Frekvenstabell/histogram Frekvenstabell for E: 58

Frekvenstabell/Histogram Ved svært mange observasjoner (her n=1000) blir histogrammet (ofte) lignende på en symmetrisk fordeling 13 12 14 59

Denne variabelen er tilnærmet «normalfordelt» Normalfordelingen er en funksjon: f(x) «Data blir til fordeling» 60

Histogram kan ta mange forskjellige former Kan hende utdanningsvariabelen ser slik ut 61

Gjennomsnitt versus median Dersom gjennomsnitt og median er like vil det indikere at fordelingen til variabelen er symmetrisk (har like haler) Gjennomsnitt=0 Median=0 Modalverdi=0 62

Høyreskjev fordeling (hale langt mot høyre). Hva kan vi si om forholdet mellom gjennomsnitt, median og typetall (modalverdi)? 63

Høyreskjeve fordelinger Mange fordelinger ser slik ut Inntektsfordelingen i Norge Pris på bil Gjennomsnitt > Median > Typetall 64

Menti.com: 1c 65

Uniform fordeling Summen av prosentene = 100% Summen av andelene = 1 «Arealet under kurven/fordelingen er 1» 66

Arealet under kurva er 1, dvs 100% 67

Varians Hvor mye varierer observasjonene rundt sitt gjennomsnitt? To fordelinger med samme gjennomsnitt (200) (gjennomsnitt = median = typetall) Ulik varians Samme «areal» 68

Relativ frekvens - Mest vanlig med relativ frekvens. - Da kan ulike datasett sammenlignes uten at antall observasjoner er lik. - Fordelinger bruker relativ frekvens (arealet under kurven er lik 1). - Relativ frekvens = andel - Andel = sannsynlighet (ved store utvalg) 69

Kumulativ frekvens 70

71

Anvendelse (valuta-volatilitet) 0 72

P.3 Sannsynlighet (side 19) Andel frekvens Relativ frekvens = andel Relativ frekvensfordeling Sannsynlighet = relav frekvens når n 73

Andel og sannsynlighet Kaster en mynt 10 ganger, og teller opp antall «krone» (siden med bilde av kongen) og antall «mynt» (siden med tallverdi på mynten) Antall mynt = 4, antall krone = 6 Hvis jeg gjør dette 1000 ganger (n=1000) vil andel mynt være ganske lik 0,5 Hva om n = 1 mill kast? 74

Teori (side 20) Pr( mynt) lim n ( f / n) 0,5 f n f antallmynt antallkast / n relativ frekvens 75

NRK-program I et NRK-program viste de et opptak av en person som kastet myntsiden opp 10 ganger på rad (uten å jukse/klippe) Hva er sannsynligheten for det? 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 = 0,000977 (=0,5 10 ) I snitt må en da prøve ca. 1000 ganger for å få 10 mynt på rad (sannsynlighet = 0,1 prosent) Programlederen brukte ca. 1 dag på å få til klippet 76

Kaster to terninger Utfallsrom - 36 mulige utfall - Hvert utfall har like sannsynlighet, dvs 1/36 = 0,0277 - Hva er sannsynligheten for a summen på terningene er 10? 77

Hendelser (events) E 1 : summen av terningene er 10 E 2 : en av terningene viser 2 Pr(E 1 )=3/36 = 1/12 Pr(E 2 )=11/36 E 1 og E 2 kan ikke skje samtidig Hendelsene er gjensidig utelukkende (mutually exclusive) 78

E 2 E 1 79

Hendelser Sannsynligheten for at begge skjer samtidig kan skrives som: Pr(E 1 og E 2 ) = Pr(E 1 E 2 ) = 0 Sannsynligheten for at vi enten får E1 eller E2 kan skrives som Pr(E 1 eller E 2 ) = Pr(E 1 U E 2 ) = 3/36 + 11/36 = 14/36 «U» er union og er snitt (intersection) 81

Venn-diagram Boksen = utfallsrommet = «36» E 1 E 2 82

Hendelser E 1 : summen av terningene er 10 E 3 : en av terningene viser 6 Pr(E 1 )=3/36, Pr(E 3 )=11/36 Pr(E 1 eller E 3 ) = Pr(E 1 U E 3 ) = 12/36 Pr(E 1 og E 3 ) = Pr(E 1 E 3 ) = 2/36 E 1 og E 3 er ikke gjensidig utelukkende 83

84

E 1 E 3 85

Generell regel i mengdelære Pr(E 1 eller E 3 ) = Pr(E 1 ) + Pr(E 3 ) - Pr(E 1 og E 3 ) 86

Venn-diagram Pr(E 1 ) + Pr(E 3 ) = 14/36 E 1 1 2 E 2 9 87

Summen av to terninger (E 1 =10) Det er som regel struktur i alle type data 3/36 = 0,083 88

Betinga sannsynlighet (side 24) Sannsynlighet for en hendelse gitt at en annen hendelse allerede har inntruffet E 1 = summen av to terninger er 10 E 2 = en av terningene viser 6 Pr(E 1 E 2 ) hvor er gitt Pr( E 1 E 2 ) Pr( E1 E Pr( E ) 2 2 ) 2 / 36 11/ 36 2 /11 Pr( E Pr( E Pr( E 1 2 1 ) 3/12 9 / 36 ) 11/ 36 E ) Pr( E ) 2 1 Pr( E 2 ) Pr( E 1 E 2 ) 20 / 36 18/ 36 2 / 36 89

Uavhengige hendelser E 1 =få en 6 på første terning E 2 =få en 6 på andre terning Pr(E 2 E 1 ) = (1/36)/(1/6) = (1/36)/(6/36) = 1/6 I dette tilfellet er Pr(E 2 E 1 )=Pr(E 2 ) fordi hendelsene er uavhengige 90

Uavhengighet Pr( E 1 E 2 ) Pr( E 1 E 2 ) Pr( E 2 ) Pr( E 1 E 2 ) Pr( E 1 ) Pr( E 2 ) ved uavhengighet Skrivemåte: E 1 =4 på første terning E 2 =3 på andre terning Pr(E 1 og E 2 ) = Pr(E 1 E 2 ) = Pr(4,3) = 1/6 1/6 91

Oppgave: 92

Oppsummering så lang (side 1-30) Frekvenstabeller og histogram Relativ frekvens (andel) og sannsynlighet Venn-diagram, gjensidig utelukkende hendelser, betinga sannsynligheter, uavhengighet 1d) (Menti.com) 94