ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

Save this PDF as:
 WORD  PNG  TXT  JPG

Størrelse: px
Begynne med side:

Download "ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind"

Transkript

1 ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger Jo Thori Lind

2 Oversikt 1. Betinget sannsynlighet 2. Stokastiske variable 3. Forventning og varians 4. Regneregler for forventning og varians 5. Binomisk fordeling 6. Poisson-fordelingen 7. Kontinuerlige fordelinger

3 1. Betinget sannsynlighet

4 Betinget sannsynlighet Hvis vi vet at B har inntruffet, hvor sannsynlig er det da et også A inntreffer? Sannsynligheten for A gitt B er P A B = P(A og B) P(B) Ω A B

5 Hva skal vi med betinget sannsynlighet Ofte det vi bruker for å sette sammen informasjon Hva er sannsynligheten for at hovedindeksen på Oslo børs er over 850 ved utgangen av året Gitt at den på 1. desember er nede i 720 Hva er sannsynligheten for at en arbeidstaker tjener mer enn Gitt at hun jobber som barnehageassistent

6 Uavhengighet Vi sier at A og B er uavhengige hvis sannsynligheten for A ikke avhenger av om B har inntruffet Det vil si hvis P A = P(A B) Hvis A og B er uavhengige har vi P A og B = P A P(B) Eksempel: Sannsynligheten for at to terninger begge viser 6 er = 1 36

7 Linda-problemet (Kahneman og Tversky) Linda er 31 år gammel, single, åpenhjertig og svært intelligent. Hun har en mastergrad i filosofi. Som stundet var hun opptatt av diskriminering og rettferdighet, og deltok flere ganger i fredsdemonstrasjoner Hva er mest sannsynlig: 1. Linda jobber i bank 2. Linda jobber i bank og er aktiv feminist Pr Bank = Pr Bank og feminist + Pr(Bank og ikke feminist)

8 2. Stokastiske variable

9 Hva er stokastiske variable Når vi gjennomfører et eksperiment (def. forrige uke) kan vi definere en variabel hvor verdien avhenger av utfallet Vanligvis et tall Dette er en stokastisk variabel Noen eksempler: Kaste kron og mynt 10 ganger, telle antall kron Trekke 100 tilfeldige personer fra et univers, telle antall kvinner Trekke 10 tilfeldige personer fra et univers, beregne total inntekt

10 Stokastisk variabel vs. utfall En stokastisk variabel er variabelen før vi har trukket en verdi Hva ligger «oppi hatten» Hvordan er universet vi trekker fra Kan tenke på en stokastisk variabel som en slags maskin (enarmet banditt) som genererer verdier Når vi har trukket en verdi er det et utfall Det er ikke lenger tilfeldig

11 Beskrive en stokastisk variabel Vi trenger to ting for å beskrive en stokastisk variabel 1. Utfallsrom: Hvilke verdier er mulige 2. Sannsynlighet for hvert utfall Kaste kron og mynt 2 ganger, telle opp antall kron 1. Utfallsrom: Kan få 0, 1, eller 2 kron 2. Sannsynligheter Verdi Sannsynlighet NB: Sannsynlighetene summerer seg alltid til 1

12 Stokastiske variable i R R kan trekke utfall fra en stokastisk variabel En måte er å bruke sample() Skal vi trekke utfall fra utfallsrommet {0,1,2} med sannsynlighetene {0.25,0.5,0.25} bruker vi sample(c(0,1,2),1,prob = c(0.25,0.5,0.25),replace = TRUE) Utfallsrom Sannsynligheter

13 Vise fordelingen til variabelen Bruker sample(c(0,1,2),1000,prob = c(0.25,0.5,0.25),replace = TRUE) Tabell Graf Verdi Hyppighet table(sample(c(0, 1, 2), 1000, prob = c(0.25, 0.5, 0.25), replace = TRUE))

14 Kumulativ fordeling Si vi har en stokastisk variable X En trekning fra X er x som er et tall Den kumulative fordelingen F(x) er sannsynligheten for å trekke en verdi mindre enn x Formelt F x = Pr(X x) Kan tegnes som en funksjon For 2 kast med kron er da den kumulative fordelingen sannsynligheten for å få mindre enn x kron -1 F(x) x

15 Hva skal vi med stokastiske variable? Et stokastisk variabel er en modell for en virkelig fenomen Myntkast: Ganske presis modell Antall trafikkulykker på en veistrekning per år Verdien på hovedindeksen på børsen på et gitt tidspunkt En gitt modell er en mer eller mindre god til å beskrive et fenomen Avveining enkelthet mot realisme Kjenner vi alle faktorene? Alltid en forenkling

16 3. Forventning og varians

17 Forventningen Da vi beskrev datasett så vi på «typiske verdier» Gjennomsnittet ofte greit for å beskrive typiske verdier Kan være interessant å beskrive «typiske verdier» for en stokastisk variabel også Et slags gjennomsnitt Men siden en stokastisk variabel er en teoretisk konstruksjon kan vi ikke beregne dette som et ordentlig gjennomsnitt Dette kalles forventning, skrives ofte μ μ er den greske bokstaven my, «m» (for mean)

18 Forventningen (forts.) La X være en stokastisk variabel med utfallsrom x 1,, x N sannsynligheter p 1,, p N Da er forventningen μ = EX = Vi kaller E forventningsoperatoren En funksjon på stokastiske variable N i=1 p i x i og

19 Forventningen til kron og mynt Forventningen i tilfellet hvor vi teller antall kron i to kron og mynt kast: μ = EX = Dette gir EX = 1 Verdi Sannsynlighet

20 Beregne forventning i R Vi kan simulere trekninger av den stokastiske variabelen Bruke disse for å beregne forventningen 1. Trekk mange verdier fra den stokastiske variabelen Jo flere, jo høyere presisjon 2. Regn ut gjennomsnittet I kron og mynt mean(sample(c(0,1,2),100000,prob = c(0.25,0.5,0.25),replace = TRUE))

21 Varians Den empiriske variansen beregne vi med Var = 1 σ N 1 i=1 N Hva blir det teoretiske motstykket? Erstatte xҧ med EX Erstatte 1 σ N N 1 i=1 med forventning E Da blir den teoretiske variansen til en stokastisk variabel X Var = E X EX 2 x i xҧ 2

22 Variansen med kron og mynt I tilfellet hvor X er antall kron i to kast med kron og mynt vet vi at EX = 1 Da kan vi sette opp Sannsynlighet x x EX x EX Da blir variansen Var = = 0.5

23 Standardavvik Standardavviket er kvadratrota av variansen Sd = E x EX 2 Regne ut variansen og standardavviket i R: var(sample(c(0,1,2),100000,prob = c(0.25,0.5,0.25),replace = TRUE)) sd(sample(c(0,1,2),100000,prob = c(0.25,0.5,0.25),replace = TRUE))

24 4. Regneregler for forventning og varians

25 Regneregler for forventning La a og b være to tall og X og Y to stokastisk variable. Da gjelder 1. E(a) = a Forventningen av et tall er tallet selv 2. E(aX) = a(ex) Tall kan flyttes ut av forventningen 3. E ax + b = a EX + b også additivt 4. E ax + by = a EX + b EY Forventningen til en sum er summen av forventninger

26 Regneregler for varians La a og b være to tall og X en stokastisk variabel. Da gjelder 1. Var(a) =0 Et tall har ingen varians 2. Var(aX) = a 2 Var(X) Multiplikasjon skal opphøyes i andre 3. Var ax + b = a 2 Var X Summen av de to over

27 Resultater som ikke er sanne La X og Y være to stokastisk variable. Da gjelder 1. E X Y EX (EY) med mindre X og Y er uavhengige 2. Var X + Y Var X + Var(Y) med mindre X og Y er uavhengige

28 5. Binomisk fordeling

29 Fordelinger Så langt har vi beskrevet en stokastisk variabel ved å liste opp Hele utfallsrommet Alle sannsynlighetene I mange tilfeller er en stokastisk variabel en del av en familie med noen felles egenskaper Nyttig å se på familier av fordelinger Kan ofte vise mye felles for alle stokastiske variable med samme type fordeling

30 Bernoulli-forsøk En veldig enkel type fordeling er Bernoulli-forsøk Oppkalt etter Jacob Bernoulli ( ) Hvis X følger en Bernoulli-fordeling med sannsynlighet p er X = ቊ 0 med sannsynlighet 1 p 1 medsannsynlighet p Et kast med kron og mynt hvor kron teller som 1 og mynt som 0 er et Bernoulli-forsøk med sannsynlighet ½ Et terningkast hvor sekser er suksess (=1) er et Bernoulli-forsøk med sannsynlighet 1/6

31 Egenskaper ved Bernoulli-forsøk Hvis X er et Bernoulli-forsøkt med sannsynlighet p gjelder: EX = p Var X = p(1 p) Utfallsrommet er 0,1

32 Binomisk fordeling En binomisk fordeling er summen av flere uavhengige Bernoulli-forsøk med samme sannsynlighet Hvis X er summen av n Bernoulli-forsøk med sannsynlighet p skriver vi X Binomisk(n, p) Vi vil finne sannsynlighetene Pr(X = x)

33 Kron og mynt fire kast Verdi Muligheter Sannsynlighet 0 MMMM 1/16 1 KMMM,MKMM,MMKM,MMMK 4/16=1/4 2 KKMM,KMKM,KMMK,MKKM,MKMK,MMKK 6/16=3/8 3 MKKK,KMKK,KKMK,KKKM 4/16=1/4 4 KKKK 1/16 Sannsynligheten for X = 2 avhenger av hvor mange måter man kan kaste to kron og to mynt på Gitt ved kombinasjoner: 4 2 = 6 Sannsynligheten for hver kombinasjon er p 2 1 p 2 = 1 16

34 Binomisk fordeling sannsynligheten for X = x n Hvis vi trekker n ganger er det rekkefølger som gir X = x x Hver av dem har sannsynlighet p x 1 p n x Derfor har vi Pr X = x = n x px 1 p n x

35 Binomiske sannsynligheter i R R kan regne ut dette for oss enkelt Sannsynligheten for 2 kron i 4 kast dbinom(2,size = 4,prob =.5) Alle sannsynlighetene dbinom(0:4,size = 4,prob =.5) Binomisk(10,p)

36 Egenskaper ved binomiske fordelinger Hvis X Binomisk n, p har vi EX = np Var X = np(1 p) Utfallsrommet til X er 0,1,2,, n

37 Bruk av binomiske fordelinger Hvis 40 % av arbeidsstyrken jobber i offentlig sektor og vi trekker 100 personer tilfeldig, hvor mange jobber i offentlig sektor Svaret er fordelt binomisk(100,0.4) Anta at vanligvis vil 1 av 10 passasjerer ikke dukker opp til flyavgang. Et flyselskap har solgt 105 billetter til et 100 seters fly. Hva er sannsynligheten for at alle får plass? Antall som dukker opp er fordelt binomisk(105,0.9) Må legge sammen sannsynligheten for utfallene 101,..,105 I R bruker vi sum(dbinom(101:105,size = 105,prob =.9)) Svaret er

38 Bruk av binomiske fordelinger (forts.) Anta at sannsynligheten for at en bilfører kommer i en ulykke i løpet av et år er 1/100. Et forsikringsselskap tar en premie på 1000 kr fra hver kunde, og må betale ut i tilfelle en bilulykke. Selskapet har 1000 kunder. 1. Hva er selskapets forventede profitt? La antall ulykker være U. Da er profitten π = U Antall ulykker er fordelt binomisk(1000,0.01) Forventet antall ulykker er = 10 Da er forventet profitt Eπ = = Hva er sannsynligheten for at selskapet taper penger et år? Selskapet taper penger hvis π < 0 U > = Må finne Pr U 13. I R bruker vi sum(dbinom(13:1000,size = 1000,prob =.01)) Svaret er 0.201

39 6. Poisson-fordelingen

40 Poisson-fordelingen Hvis vi trekker mange Bernoulli-eksperiment med lav sannsynlighet kan vi bruke en binomisk fordeling Men når n blir veldig stor blir regnestykkene tunge Ekstremtilfellet er når n og p 0 Hvis det også er et tall λ slik at np λ har vi en Poisson-fordeling Oppkalt etter Siméon Denis Poisson ( )

41 Binomiske og Poisson-fordelinger Se på en binomisk(n, p) fordeling Hvis n er stor kan vi tilnærme fordelingen med en Poisson-fordeling Hvilken paramter λ skal vi velge? Sett λ = np Når n er stor gir dette en god tilnærming

42 Poisson-fordeling sannsynligheten for X = x Hvordan regner vi ut sannsynligheter i Poisson-fordelingen? Hvis X Poisson(λ) har vi Pr X = x = e λ λ x x! Her er e grunntallet for naturlige logaritmer For å regne ut sannsynligheten i R bruker vi dpois Hvis vi vil vite sannsynligheten for 4 når λ = 2 bruker vi dpois(4, lambda = 2)

43 Hestespark i den prøyssiske hær Hestespark kan være dødelig Skjer sjelden, men mange var i sin tid potensielt utsatt Uavhengige hendelser Derfor bør dødsfall grunnet hestespark følge en Poissonfordeling Kilde: Ladislaus von Bortkiewicz (1898), Das Gesetz der kleinen Zahlen

44 Egenskaper ved Poisson-fordelingen Hvis X Poisson(λ) har vi EX = λ Var X = λ Utfallsrommet til X er 0,1,2,3,

45 Hestespark i den prøyssiske hær er de Poisson-fordelt? Hvis vi viste λ kunne vi sammenlikne teoretisk fordeling og observert fordeling Vet at EX = λ Bruke gjennomsnittlig antall hestespark for å gjette på λ Gir λ = 0.7 Da kan vi regne ut teoretisk fordeling med 280*dpois(0:4,lambda = 0.7) Utfall Observert Teoretisk eller mer - 1

46 Simulere fra fordelinger R kan trekke tilfeldige tall med mange gitte fordelinger Kommandoer som begynner med r (random) Trekke hestespark i 40 simulerte avdelinger rpois(40,lambda = 0.7) Trekke profitt i 10 forsikringsselskap pi< *rbinom(40,1000,prob = 0.01)

47 7. Kontinuerlige fordelinger

48 Diskrete og kontinuerlige fordelinger De stokastiske variablene og fordelingene vi har sett på så langt kunne bare ta distinkte verdier Kron eller mynt/suksess eller fiasko Heltallene 0,1,,10 Alle positive tall 0,1,2, Slike fordelinger kalles diskrete I en del tilfeller er alle verdier (i et intervall) mulige Høyden på personer Tid brukt på å løpe 100m Disse sier vi har en kontinuerlig fordeling

49 Uniform fordeling En enkelt kontinuerlig fordeling er den uniforme fordelingn Tar verdier mellom a og b, vi skriver U(a, b) Hvis X U(a, b) kan X ta alle verdier mellom a og b, alle er like sannsynlige Hva er sannsynligheten Pr(X = x)? Den er 0 Utfallet x er mulig, men et av uendelig mange så sannsynligheten er 0 I kontinuerlige fordelinger er sannsynligheten for et gitt tall alltid 0 I stedet må vi se på et intervall

50 Uniform fordeling (forts.) Si at X U(0,1) Hva er sannsynligheten Pr X 1? 2 Siden alle verdier er like sannsynlige vil halvparten være under ½ Derfor er Pr X 1 = 1 2 2

51 Regne på uniforme sannsynligheter Variabelen x U(a, b) Areal= y x b a Areal=1 Hele det lyseblå området er tegnet så det har areal=1 1 b a Hva er sannsynligheten for å komme mellom x og y? Hvor stort er y-x i forhold til b-a Det er y x b a Kan finne det ved å regne ut arealet av det mørkeblå området a x y b

52 Sannsynlighetstettheter Kurven i rødt kalles sansynlighetstettheten For den uniforme fordelingen er den 0 hvis x < a f x = 1 b a hvis x < a x b 0 hvis x > b Finnes mange andre kontinuerlige fordelinger med andre tettheter f(x) 1 b a f(x) a b