Statistikk 1 kapittel 4

Like dokumenter
Statistikk 1 kapittel 4

statistikk, våren 2011

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Statistikk 1 kapittel 5

Statistikk 1 kapittel 5

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

3.4: Simultanfordelinger (siste rest) 4.1,4.2,4.3: Multivariat del (ferdig med kapittel 3 og 4 etter denne forelesningen)

Statistikk 1 kapittel 5

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

Forelesning 13. mars, 2017

Statistikk 1 kapittel 5

Kapittel 4.4: Forventning og varians til stokastiske variable

Foreleses onsdag 8. september 2010

Regneregler for forventning og varians

Kapittel 5: Tilfeldige variable, forventning og varians.

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

TMA4240 Statistikk Høst 2008

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Forelening 1, kapittel 4 Stokastiske variable

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

To-dimensjonale kontinuerlige fordelinger

FORMELSAMLING TIL STK1100 OG STK1110

Betinget sannsynlighet

ØVINGER 2017 Løsninger til oppgaver. Lineærkombinasjonen Z = 5X + 8Y har forventningsverdi

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

TMA4240 Statistikk H2010

3.1 Stokastisk variabel (repetisjon)

Oppfriskning av blokk 1 i TMA4240

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

Forventning og varians.

Forventning og varians.

Kapittel 4: Matematisk forventning

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

STK1100 våren Forventningsverdi. Forventning, varians og standardavvik

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

TMA4240 Statistikk H2015

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Bernoulli forsøksrekke og binomisk fordeling

Litt om forventet nytte og risikoaversjon. Eksempler på økonomisk anvendelse av forventning og varians.

6 x P (X = x) = x=1 = P (X 2 = 6)P (X 2 = 6)P (X 3 = 6) =

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

ÅMA110 Sannsynlighetsregning med statistikk, våren

Kapittel 2: Hendelser

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Eksempel: kast med to terninger

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Kap. 7 - Sannsynlighetsfordelinger

FORMELSAMLING TIL STK1100 OG STK1110

Løsningsforslag Eksamen S2, høsten 2017 Laget av Tommy O. Sist oppdatert: 26. november 2017

Formelsamling i medisinsk statistikk

Stokastisk variabel. Eksempel augefarge

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

Løsningsforslag, eksamen statistikk, juni 2015

Fasit for tilleggsoppgaver

Denne uken: Kapittel 4.3 og 4.4

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6

Forelesning 7. mars, 2017

Høgskoleni østfold EKSAMEN

TMA4240 Statistikk H2010

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

La U og V være uavhengige standard normalfordelte variable og definer

ST0202 Statistikk for samfunnsvitere

Høgskoleni Øs fold EKSAMEN. Om noe er uklart eller mangelfullt i oppgaven inngår det som en del av oppgaven å ta de nødvendige forutsetninger.

Test, 3 Sannsynlighet og statistikk

µ = E(X) = Ʃ P(X = x) x

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

HØGSKOLEN I STAVANGER

TMA4245 Statistikk Høst 2016

Prøvemidtveiseksamen TMA4240 Statistikk H2004

Kontinuerlige sannsynlighetsfordelinger.

Løsningskisse seminaroppgaver uke 11 ( mars)

Sum to terninger forts. Eksempel: kast med to terninger. Sum to terninger forts. Kapittel 3. TMA4240 H2006: Eirik Mo

TMA4245 Statistikk Eksamen desember 2016

HØGSKOLEN I STAVANGER

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

UNIVERSITETET I OSLO

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Midtveiseksamen i STK1100 våren 2017

Kapittel 4.3: Tilfeldige/stokastiske variable

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

Løsningsforslag Eksamen S2, våren 2017 Laget av Tommy O. Sist oppdatert: 25. mai 2017

= 5, forventet inntekt er 26

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

Løsningsforslag til obligatorisk oppgave i ECON 2130

ST0202 Statistikk for samfunnsvitere

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

TMA4240 Statistikk H2015

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

Et lite notat om og rundt normalfordelingen.

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Transkript:

Statistikk 1 kapittel 4 Nico Keilman ECON 2130 Vår 2017

Kapittel 4 Stokastiske (tilfeldige) variabler Anta 1) Vi kjenner sannsynligheter for ulike utfall knyttet til et forsøk 2) Hvert utfall har en (meningsfull) tallverdi Nå kan vi beregne forventede tallstørrelser, og deres variasjon Eksempel: levealder (antall år i live) til en tilfeldig valgt 50-åring. Det er en viss sjanse på at vedkommende dør på alder 50, 51, 52,, 110. Levealder er en stokastisk (tilfeldig) variabel. Det er usikkert hvilken verdi variabelen vil få. Stokastiske variabler skrives vanligvis som X, Y, Z, Definisjon: En stokastisk variabel (s.v.) X er en variabel som får en bestemt tallverdi for hvert utfall i utfallsrommet S

Kaster to terninger. X = sum av øyne, s.v. Hva er sannsynligheten P(X=8)? Antall gunstige utfall = 5, antall mulige utfall = 36 P(X=8) = 5/36 Hva med andre verdier av X? Tabellen gir P(X=x) og P(X x) for x = 2, 3, 12 Verdi x Sannsynlighet P(X=x) Kumulativ sannsynlighet P(X x) 2 1/36 1/36 3 2/36 3/36 4 3/36 6/36 5 4/36 10/36 6 5/36 15/36 7 6/36 21/36 8 5/36 26/36 9 4/36 30/36 10 3/36 33/36 11 2/36 35/36 12 1/36 36/36 = 1 3

Dette var et eksempel på et forsøk der den stokastiske variabelen er diskret. Levealder: her er den stokastiske variabelen kontinuerlig (i hvert fall i teori i praksis bruker vi ofte kun hele fullførte år) To typer sannsynlighetsmodeller -diskrete (enklere å forstå) -kontinuerlige 4

Sannsynlighetsmodeller for diskrete stokastiske variabler Definisjon: Sannsynlighetsfordeling (for en diskret s.v. X): samlet representasjon av alle verdiene en s.v. X kan ha, sammen med tilhørende sannsynligheter P(X=x) for alle x. Kan ta form av en tabell eller en formel. Eksempel: tabell for sum øyne. En sannsynlighet P(X=x) for en bestemt verdi x kalles også for punktsannsynlighet. 5

Eksempel 4.2. Fire barn, 16 mulige sammensetninger av barneflokken (se tabell 4.2) Definer stokastisk variabel X = antall jenter Tabell P(X=0) = P(ingen jenter) = (½) 4 = 1/16 P(X=1) = P(en jente) P(X=2) = P(to jenter) = 4 2 16 P(X=3) = P(tre jenter) = P(en gutt) = 4*(½) 4 = ¼ = 6/16 = ¼ P(X=4) = P(fire jenter) = = 1/16 Sjekk: sum = (1+4+6+4+1)/16 = 1 Formel: P(X=x) = 4 x 16 x = 0, 1, 2, 3, 4 6

Kumulativ sannsynlighetsfordeling Gitt en sannsynlighetsfordeling P(X=x) for alle verdier x Den kumulative fordelingen er definert som F(x) = P(X x) Forklaring: la x 1, x 2, x 3, x n være verdiene som X kan ha i ordnet rekkefølge, slik at x 1 < x 2 < x 3 < x n. Da er F(x i ) = P(X x i ) = P(X=x 1 ) + P(X=x 2 ) + P(X=x 3 ) + + P(X=x i ) for en bestemt i, 1 i n Eksempler: 1) Tabell 4.1 2) Jente-eksemplet 7

Jente-eksemplet F(0) = P(X=0) = 1/16 F(1) = P(X=0) + P(X=1) = 5/16 F(2) = 11/16 F(3) = 15/16 F(4) = 16/16 = 1 F(x) 16/16=1 15/16 14/16 13/16 12/16 11/16 10/16 9/16 8/16 7/16 6/16 5/16 4/16 3/16 2/16 1/16 0 0 1 2 3 4 5 x 8

Gitt sannsynlighetsfordelingen P(X=x), er det lett å finne den kumulative fordelingen F(x) for en bestemt x i, ved å legge sammen F(x i ) = P(X x i ) = P(X=x 1 ) + P(X=x 2 ) + P(X=x 3 ) + P(X=x i ) Omvendt, gitt F(x) for alle verdier av x, hvordan kan vi finne en bestemt punktsannsynlighet P(X=x i )? Beregn forskjeller: F(x i ) = P(X=x 1 ) + P(X=x 2 ) + P(X=x 3 ) + + P(X=x i-1 ) + P(X=x i ) F(x i-1 ) = P(X=x 1 ) + P(X=x 2 ) + P(X=x 3 ) + + P(X=x i-1 ) F(x i ) F(x i-1 ) = P(X=x i ) Også: for to generelle verdier x j og x k (x j < x k ): P(x j < X x k ) = F(x k ) F(x j ) < 9

Jente-eksemplet: P(flere enn 1 jente men maks 3 jenter) = = P(1 < X 3) = F(3) F(1) = 15/16 5/16 = 10/16 Sjekk: P(1 < X 3) = P(X=2 eller X=3) = 6/16 + 4/16 = 10/16 OK 10

Forventning Gitt en stokastisk variabel (s.v.) X med sannsynlighetsfordeling P(X=x) En rekke forsøk resulterer i mange verdier for X. Gjennomsnitt for denne tallserien heter forventning til X Forteller meg hvor «midtpunktet» av sannsynlighetsfordelingen ligger Eksempel: et spill over flere runder. Du taper 10 kr. med 60% sjanse i hver runde, og vinner 40 kr. med 40% sjanse. Deltar du? 60% av rundene taper du 10 kr. 40% av rundene vinner du 40 kr. Forventet resultat etter mange runder = 0,6. (-10) + 0,4. (+40) = +10 kr. i snitt pr. runde 11

X = resultat i en runde P(X= -10) = 0,6 og P(X= +40) = 0,4 Forventet resultat = (-10). P(X= -10) + (40). P(X= +40) = = (-10). 0,6 + (40). 0,4 = 10 kr Definisjon Gitt en diskret s.v. X med utfall x 1, x 2,, x n og punktsannsynligheter P(X=x i ) Forventningsverdi (forventning) til X er definert som E(X) = alle i [x i. P(X=x i )] Forventning E(X) er et fast tall, ikke stokastisk 12

1) Jente-eksemplet: Y = antall jenter i en firebarns familie Forventet antall jenter? Jfr. tabell 4.2 E(Y) = 0 x 1/16 + 1 x ¼ + 2 x 6/16 + 3 x ¼ + 4 x 1/16 = 32/16 = 2. 2) Terning, X = antall øyne er en s.v. E(X) = 1 x 1/6 + 2 x 1/6 + + 6 x 1/6 = 3½ Forventet verdi behøver ikke å være med i utfallsrommet! Du må ikke forveksle E(X) med et bestemt utfall Tolkning E(X): kaster du 1000 ganger, kan du forvente at antall øyne totalt går mot 3500 13

Stokastisk variabel deskriptiv statistikk forventning gjennomsnitt X må være tellbar for å kunne beregne forventningen E(X) E(X) gir ikke mening når X er kategorisk (nominal, ordinal). Jfr X = bokommune, hårfarge etc. 14

St. Petersburg paradoks (eks. 4.8) En mynt kastes gjentatte ganger, inntil første gang resultatet er «kron» Du får 2 kroner utbetalt ved «kron» i 1. kast 4 2. 8 3... 2 k k. kast Hvor stor er forventet gevinst? X = gevinst, s.v. Utfall x kan være alt fra 0, 2, 4, 2 k, «kron» i runde k betyr at det var «mynt» i rundene 1,2,,k-1. P(«kron» i runde k) = (½) k-1. ½ = (½) k E(X) = k=1 2 k.(½) k = 2.½ + 4.(½) 2 + 8.(½) 3 +. = = k=11 = 1+1+1+ =??? Forventet gevinst er uendelig stor! Men du må være villig til å delta i uendelig mange runder. Jfr Løvås for forklaring 15

Egenskaper for forventet verdi (regel 4.7) X og Y er stokastiske variabler, a og b er konstanter. Det er lett å bevise at E(a) = a E(b.X) = b.e(x) E(aX + by) = a.e(x) + b.e(y) ************************** Forventning mer generelt: X er en diskret s.v., g(x) er en generell funksjon E[g(X)] = alle i g(x i ).P(X=x i ) NB E(X 2 ) = alle i (x i ) 2.P(X=xi) {E(X)} 2 = { alle i x i.p(x=x i )} 2 16

Varians og standardavvik En bestemt type forventning forekommer ofte: varians X er en s.v.. Varians til X defineres som forventet verdi til avvikskvadraten Avvik = avstand mellom X og dens forventning Definisjon: Var(X) = E[(X μ) 2 ] der μ = E(X) er forventning til X Egenskap: Var(X) = E[X 2 ] - μ 2 = alle i (x i ) 2.P(X=x i ) - μ 2 Bevis: Var(X) = E[(X μ) 2 ] = E[X 2-2μX + μ 2 ] = E[X 2 ] - 2μE[X] + μ 2 = E[X 2 ] - μ 2 Definisjon: standardavvik = kvadratrot av varians SD(X) = Var(X) Standardavvik skrives ofte som σ, varians som σ 2 17

Eksempel 4.10, tabell 4.7 Papirfabrikk X = antall dager med produksjonsstans i løpet av en uke Verdi x Sannsynlighet P(X=x) Verdi.Sannsynlighet x.p(x=x) Verdi 2.Sannsynlighet x 2.P(X=x) 0 0,11 0 0 1 0,22 0,22 0,22 2 0,27 0,54 1,08 3 0,17 0,51 1,53 4 0,12 0,48 1,92 5 0,07 0,35 1,75 6 0,03 0,18 1,08 7 0,01 0,07 0,49 Sum 1 E(X) = 2,35 E(X 2 ) = 8,07 E(X) = μ = forventet antall dager med produksjonsstans i løpet av en uke = 2,35 Tolkning: 100 uker, kan forvente 235 dager med produksjonsstans Var(X) = E[X 2 ] μ 2 = 8,07 2,35 2 = 2,55 dager 2 SD(X) = 2,55 = 1,60 dager (trykkfeil i boka) NB Måle-enhet for SD(X) er den samme som for X her: dager 18

Egenskaper for varians og standardavvik: forskyvning og skala-endring (Fig. 4.9) X er en s.v., E(X)=4, Var(X)=2, SD(X)=1,41 Forskyvning: Definer en ny s.v.: Y = X + 15 Nå er E(Y) = E(X) + 15 = 19 Var(X) = Var(Y) = 2 Skala-endring: Definer W = 2X E(W) = E(2X) = 2E(X) = 8 Var(W) = E[W 2 ] {E(W)} 2 = E[(2X) 2 ] 4.{E(X)} 2 = 4.Var(X) = 8 SD(W) = Var(W) = (4.Var(X)) = 2. Var(X) = 2.SD(X) = 2,81 19

Forskyvning og skala-endring samtidig Z= X E(X) SD(X) Lett å bevise at E(Z) = 0, SD(Z) = 1 Vi kaller Z for den standardiserte s.v. m.h.t. X: Z har forventning null og varians/standardavvik lik én 20

Generelt : X er en s.v., a,b er konstanter Var(X) 0 Var(X+a) = Var(X) Var(bX) = b 2.Var(X) SD(X) 0 SD(X+a) = SD(X) SD(bX) = b.sd(x) NB: Absoluttverdi til b F. eks. SD(-2.X) = 2.SD(X) 21

Kontinuerlige sannsynlighetsmodeller s.v. X: kroppshøyde til en tilfeldig mann Histogrammet blir mer nøyaktig med flere intervaller Konturen nærmer seg en glatt kurve Sannsynlighetsfordelingen for en kontinuerlig variabel heter sannsynlighetstetthet 22

Sannsynlighetstetthet f(x) for en kontinuerlig s.v. X beskriver sannsynlighetsfordelingen til X, og har følgende egenskaper: a) det totale arealet under kurven f(x) er lik 1; b) P(a X b) er lik arealet under kurven f(x) mellom x=a og x=b; c) f(x) 0. Alternativt for b): P(a X b) = b a f x dx areal bestemt integral X og x er kontinuerlige variabler. Dermed er P(X = x) lik null! Arealet til et uendelig smalt intervall er null. Det gir ikke mening å snakke om sannsynligheten for at en kontinuerlig variabel X har en bestemt verdi x. Intervaller! 23

Prognose for Norges befolkning i 2050 publisert i 2012 SSB: «Framskrevet folkemengde 1. jan. 2050 er 6 680 814 personer» http://www.ssb.no/a/kortnavn/folkfram/tab-2012-06-20-01.html X: folkemengde Norge i 2050, s.v. X er en kontinuerlig variabel (i praksis): P(X=x) 0 Sjansen er nærmest null at SSBs prognose treffer mål! Bedre å gi prognose i form av et intervall. Stokastisk befolkningsprognose: f. eks. P(6 mln X 7 mln) = 59% også P(5 937 217 X 7 531 679) = 80% «80% prognoseintervall» http://www.ssb.no/befolkning/artikler-og-publikasjoner/stokastiskebefolkningsprognoser-for-norge-2012-2060 24

Kumulativ sannsynlighetsfordeling F X er en kontinuerlig s.v. Definisjon: F(x i ) = P(X x i ) = x i f x dx areal under f(x)-kurven til venstre for et fast punkt x i Derfor f(x) = F (x) tetthet f(x) = første deriverte av fordeling F(x) NB Integraler ikke pensum, tolk P(a<X<b) eller P(X<b) som areal under tetthetskurven 25

Kroppshøyde er en kontinuerlig s.v. Skriv denne s.v. som X Fordelingsfunksjon F(x) viser sannsynligheten for at en tilfeldig valgt person har kroppshøyde mindre eller lik x cm. m.a.o. F(x) = P(X x) 26

Regneregler for kumulativ fordeling F(x) P(X b) = P(X < b) = F(b) P(X > b) = 1- F(b) P(a X b) = F(b) F(a) (a < b) 27

Forventning og varians for en kontinuerlig s.v. Forventning og varians defineres på samme måte som for en diskret s.v., men integral ( ) i stedet for sum ( ) E(X) = μ = + x.f x dx Var(X) = σ 2 + = x μ 2 +.f x dx=[ x 2.f x dx] μ 2 28

Eksempel 4.12 joggetur X er punktet der nøkkelen ligger, 0 X 9, med like stor sannsynlighet for hver X. X måles i km fra startpunktet. Tettheten til X må være f(x) = 1/9, 0 x 9 f(x) = 0 ellers P(4,6 < X < 6,3) = F(6,3) F(4,6) Hva er F? F(x) er arealet under «kurven» f(x) til venstre for punktet X=x. = høyde. bredde = 1/9. (x-0) = x/9, 0 x 9 Sjekk: F(9) må være 1, F(0) må være 0 stemmer F(6,3) F(4,6) = 6,3/9 4,6/9 = 1,7/9 = 0,188 19% sjanse for at nøkkelen ligger mellom X = 4,6 km og X = 6,3 km 29

Dessuten forventning 9 9 E X = x.f x dx = x. 1 9 dx = 1 9.½x2 9 0 = 81 0 18 0 0 Forventer å finne nøkkelen ca. halvveis = 4,5 km Også varians 9 σ 2 = x 2 f x dx 4,5 2 = x 2 1 9 dx 4,52 = 1 9.⅓x3 ] 9 0 (4,5)2 = 6,75 km 2 0 9 0 slik at standardavvik SD(X) = 6,75 = 2,60 km. Stor spredning rundt midtpunktet 4,5. Langt fra sikkert at nøkkelen ligger i nærheten av midtpunktet på 4,5 km. 30

Uniform fordeling Fordelingen til X i dette eksemplet kalles for en «uniform fordeling» Generelt: Tettheten til en uniform fordelt variabel X er f(x) = 1/(b-a), a x b f(x) = 0 ellers E(X) = (a + b)/2 Var(X) = (b a) 2 /12 Flere slike sannsynlighetsmodeller (f. eks. binomisk fordeling, Poissonfordeling, normalfordeling) i kap. 5 31

Median og prosentiler for en kontinuerlig s.v. X Medianen x deler tettheten i to deler, hver med areal lik ½ M.a.o. F(x) = ½ Median kalles også for 50-prosentil Generelt: p-prosentil (0<p<100) deler tettheten i to deler. Delen til venstre for p-prosentilet har areal p%, til høyre (100-p)% F(p) = p/100 Jfr. kap. 2 32

Oppsummering P(X = x i ) f(x) Både diskret og kontinuerlig: Forventning E(X) skrives ofte som μ Kontinuerlig: V x har uendelig mange verdier for X, selv på et begrenset intervall Varians Var(X) skrives ofte som σ 2 33

To eller flere stokastiske variabler samtidig Fokus på to stokastiske variabler, stort sett diskrete s.v. X Y P(X=x og Y=y) for alle x og y heter den simultane fordelingen til X og Y Er en funksjon av både x og y Sier noe om sammenhengen mellom s.v. ene X og Y 34

Eksempel trykkeribedrift: tabell 4.8, fig. 4.18 X: antall henvendelser i morgen Y: antall nye bestillinger i morgen Vi ser at X og Y henger sammen: det er en tendens til at store verdier for X går sammen med store verdier for Y, og omvendt x 0 1 y 2 3 4 P(X=x) P(X=x,Y=y) 0 0.09 P(X=x,Y=y) 0.09 1 0.11 0.09 0.20 2 0.07 0.12 0.07 0.26 3 0.05 0.09 0.03 0.01 0.18 4 0.01 0.03 0.05 0.02 0.11 5 0.01 0.01 0.03 0.02 0.01 0.08 6 0.01 0.01 0.02 0.01 0.05 7 0.02 0.01 0.03 P(Y=y) 0.34 0.35 0.19 0.09 0.03 1 35

Legg merke til 1) sum over alle x og alle y av P(X=x,Y=y) = 1, alle x alle y P(X=x,Y=y) = 1 2) P(X=x) = alle y P(X=x,Y=y) er den marginale fordelingen til X (funksjon av x, ikke av y) på samme måte: P(Y=y) = alle x P(X=x,Y=y) marginal fordeling til Y x 0 1 y 2 3 4 P(X=x) 0 0.09 P(X=x,Y=y) 0.09 1 0.11 0.09 0.20 2 0.07 0.12 0.07 0.26 3 0.05 0.09 0.03 0.01 0.18 4 0.01 0.03 0.05 0.02 0.11 5 0.01 0.01 0.03 0.02 0.01 0.08 6 0.01 0.01 0.02 0.01 0.05 7 0.02 0.01 0.03 P(Y=y) 0.34 0.35 0.19 0.09 0.03 1 36

3) Forventningene til X og til Y beregnes på vanlig måte, basert på de marginale fordelingene til X og Y μ X = 0 * 0,09 + 1 * 0,20 + 2 * 0,26 + 3 * 0,18 + + 7 * 0,03 = 2,61 μ Y = 0 * 0,34 + 1 * 0,35 + 2 * 0,19 + 3 * 0,09 + 4 * 0,03 = 1,12 også variansene σ 2 X og σ 2 Y fra de marginale fordelingene x 0 1 y 2 3 4 P(X=x) 0 0.09 P(X=x,Y=y) 0.09 1 0.11 0.09 0.20 2 0.07 0.12 0.07 0.26 3 0.05 0.09 0.03 0.01 0.18 4 0.01 0.03 0.05 0.02 0.11 5 0.01 0.01 0.03 0.02 0.01 0.08 6 0.01 0.01 0.02 0.01 0.05 7 0.02 0.01 0.03 P(Y=y) 0.34 0.35 0.19 0.09 0.03 1 37

4) Hendelser der både X og Y er involvert, f. eks. X + Y = 4 P(X+Y=4) = 0,01 + 0,09 + 0,07 = 0,17 Generelt kan vi definere sannsynligheten P(X+Y = z) for z = 0, 1, 2,, 11 og utlede sannsynlighetsfordelingen for Z=X+Y ved hjelp av P(X=x,Y=y) x 0 1 y 2 3 4 P(X=x) 0 0.09 P(X=x,Y=y) 0.09 1 0.11 0.09 0.20 2 0.07 0.12 0.07 0.26 3 0.05 0.09 0.03 0.01 0.18 4 0.01 0.03 0.05 0.02 0.11 5 0.01 0.01 0.03 0.02 0.01 0.08 6 0.01 0.01 0.02 0.01 0.05 7 0.02 0.01 0.03 P(Y=y) 0.34 0.35 0.19 0.09 0.03 1 38

5) Betinget sannsynlighetsfordeling P(X=x Y=y) bruk definisjon for betinget sannsynlighet f. eks. P(X=3 Y=2) = P(X=3 og Y=2)/P(Y=2) = 0,03/0,19 = 0,158 16% sjanse for at X = 3, gitt at Y = 2 Betinget forventning til X beregnes ved hjelp av betinget fordeling P(X=x Y=y), er derfor en funksjon av y; skrives som E(X y) Samme for betinget varians Var(X y) Også omvendt: P(Y=y X=x), betinget forventning/varians til Y etc. x 0 1 y 2 3 4 P(X=x) 0 0.09 P(X=x,Y=y) 0.09 1 0.11 0.09 0.20 2 0.07 0.12 0.07 0.26 3 0.05 0.09 0.03 0.01 0.18 4 0.01 0.03 0.05 0.02 0.11 5 0.01 0.01 0.03 0.02 0.01 0.08 6 0.01 0.01 0.02 0.01 0.05 7 0.02 0.01 0.03 P(Y=y) 0.34 0.35 0.19 0.09 0.03 1 39

Definer ny s.v. som Z = X + Y E(Z) = E(X) + E(Y) Mer generelt Regel 4.12: gitt en rekke s.v. er X i og konstanter a i, i = 1,2, n E(a 1 X 1 +a 2 X 2 + +a n X n ) = a 1 E(X 1 ) + a 2 E(X 2 ) + + a n E(X n ) gjelder både for diskrete og kontinuerlige variabler Eksempel: befolkningsprognose 2050 X, Y, Z er s.v. er som representerer befolkningen i aldersgruppene 0-19, 20-64 og 65+ i år 2050 E(X) = 1 570 699 E(Y) = 3 557 428 E(Z) = 1 566 713 Folkemengde totalt i 2050 har forventning E(X+Y+Z) = E(X) + E(Y) + E(Z) = 6 694 841 40

Kovarians og korrelasjon Samvariasjon for to (eller flere) s.v. er X og Y (Z, ) Variablene kan være diskrete eller kontinuerlige Grad av samvariasjon uttrykkes ved hjelp av begrepet kovarians («varierer samtidig»). Skrives som Cov(X,Y) Definisjon: Cov(X,Y) = E[(X-μ X )(Y- μ Y )], der μ X =E(X) og μ Y =E(Y) Egenskap: Cov(X,Y) = E(X.Y) - μ X.μ Y (vis selv) To diskrete s.v. er X og Y: E(X.Y) = alle x alle y x.y.p(x=x,y=y) Kovarians trenges når du skal beregne varians til en sum av to eller flere s.v. er 41

Trykkeri-eksemplet: beregn Cov(X,Y) E(X.Y) = 1.1.0,09 + 2.1.0,12 + 3.1.0,09 + + 7.4.0,01 = 4,24 (lilla celler bidrar ikke til produktet X.Y) Fra før hadde vi at μ X = 2,61, μ Y = 1,12 Cov(X,Y) = E(X.Y) - μ X.μ Y = 4,24 2,61.1,12 = 1,32 Vanskelig å tolke. Lettere hvis vi tar høyde for SD(X) og SD(Y). Da innfører vi begrepet korrelasjon x 0 1 y 2 3 4 P(X=x) 0 0.09 P(X=x,Y=y) 0.09 1 0.11 0.09 0.20 2 0.07 0.12 0.07 0.26 3 0.05 0.09 0.03 0.01 0.18 4 0.01 0.03 0.05 0.02 0.11 5 0.01 0.01 0.03 0.02 0.01 0.08 6 0.01 0.01 0.02 0.01 0.05 7 0.02 0.01 0.03 P(Y=y) 0.34 0.35 0.19 0.09 0.03 1 42

Korrelasjon mellom X og Y Corr X,Y = Cov(X,Y) SD X.SD(Y) den skrives også som ρ(x,y) Uttrykker hvor sterk lineær sammenheng det er mellom X og Y -1 ρ +1 ρ > 0 positiv sammenheng mellom X og Y: store verdier for X går sammen med store verdier for Y ρ = +1 perfekt lineær positiv sammenheng ρ < 0 negativ sammenheng mellom X og Y: store verdier for X går sammen med små verdier for Y, og omvendt ρ = -1 perfekt lineær negativ sammenheng ρ = 0 ingen (lineær) sammenheng mellom X og Y 43

Trykkeri-eksemplet Cov(X,Y) = 1,32 Var(X) = 3,08 => SD(X) = 1,755 Var(Y) = 1,15 => SD(Y) = 1,072 Nå blir ρ(x,y) lik 1,32/(1,755 x 1,072) = 0,70 Rimelig sterk grad av positiv sammenheng NB Cov(X,X) =? ρ(x,x)=? 44

Eksempel: befolkningsprognose 2050 X, Y, Z er s.v. er som hhv. representerer befolkning i aldersgruppene 0-19, 20-64 og 65+ i år 2050 Det viser seg at Corr(X,Y) = 0,537. Befolkning i alder 0-19 positivt korrelert med befolkning i alder 20-64. Corr(Y,Z) = 0,190. Aldersgruppene 20-64 og 65+ er svakt korrelerte (men positivt) 45

Varians til en sum av s.v. er (regel 4.15) Var(X + Y) = Var(X) + Var(Y) + 2.Cov(X,Y) Positiv (negativ) kovarians øker (reduserer) varians i summen Generelt: Var(aX + by) = a 2.Var(X) + b 2.Var(Y) + 2.a.b.Cov(X,Y) 46

Trykkeri-eksemplet X = antall henvendelser kostnader 20 kr / henvendelse Y = antall bestillinger fortjeneste 100 kr / bestilling konstante kostnader 10 kr Forventet overskudd? Definer s.v. Z: Z = 100Y 20X 10 E(Z) = 100.E(Y) 20.E(X) 10 = = 100.1,12 20.2,61-10 = 49,8 kr. Fra før har vi Var(X) = 3,08 Var(Y) = 1,15 Cov(X,Y) = 1,32 Hvor stor er variansen til Z? Var(Z) = Var(100Y 20X 10) = 100 2 Var(Y) + 20 2 Var(X) +2.( 20).100 Cov(X,Y) = 11500 + 1232-5280 = 7452 SD(Z) = 86,3 kr.: stor spredning rundt forventet overskudd på 49,8 kr. 47

Uavhengige stokastiske variabler Fra før: to hendelser A og B er uavhengige når P(A B) = P(A) eller P(B A) = P(B) eller P(A B) = P(A). P(B) Helt analogt for to stokastiske variabler: Definisjon: X og Y er uavhengige hvis og bare hvis P(X=x,Y=y) = P(X=x). P(Y=y) for alle (x,y) Mao den simultane sannsynligheten kan skrives som produkt av sannsynlighetene for X og Y 48

Egenskap: To uavhengige s.v er X og Y er ukorrelerte, d.v.s. ρ(x,y)=0 Bevis: Cov(X,Y) = E(X.Y) - μ X.μ Y (definisjon av kovarians) = [Σ x Σ y x.y.p(x=x,y=y)] - μ X.μ Y (definisjon av forventning) = [Σ x Σ y x.y.p(x=x).p(y=y)] - μ X.μ Y (pga antatt uavhengighet) = [Σ x Σ y x.p(x=x).y.p(y=y)] - μ X.μ Y = [Σ x x.p(x=x)].[σ y y.p(y=y)] - μ X.μ Y = μ X.μ Y - μ X.μ Y = 0 Dermed blir også korrelasjonen lik null. Men: når ρ(x,y)= 0, er X og Y ikke nødvendigvis uavhengige 49

Regneregel Hvis X 1, X 2,, X n er uavhengige s.v. er, og a 1, a 2,, a n er konstanter, så er Var(a 1 X 1 + a 2 X 2 + a n X n ) = a 12 Var(X 1 ) + a 22 Var(X 2 ) + + a n2 Var(X n ) fordi alle parvise kovarianser er lik null. 50

Eksempel 4.10, tabell 4.7 en gang til. Papirfabrikk X i = antall dager med produksjonsstans i uke nr. i. Vi fant at E(X i ) = 2,35 dager og at Var(X i ) = 2,55 dager 2 Definer s.v. T som antall dager med stans i løpet av et år. Beregn E(T) og SD(T) T = X 1 + X 2 + X 52 E(T) = 52.E(X i ) = 122,2 dager Var(T) = Var( i X i ). Anta at X i -ene er uavhengige (drøft) Var( i X i ) = i Var(X i ) = 52.Var(X i ) = 132,6 og SD(T) = 11,5 dager NB Ett år: SD(T)/E(T) = 11,5/122,2 = 0,094 = 9,4% En uke: SD(X i )/E(X i ) = 1,56/2,35 = 0,664 = 66,4% Den relative variasjonen over en lang periode er mindre enn over en kort periode, p.g.a. (antatt) uavhengighet. 51

Forventning til et produkt av uavhengige variabler Anta at X og Y er uavhengige stokastiske variabler. Da er E(X.Y) = E(X). E(Y) Bevis: X og Y er uavhengige Cov(X,Y) = 0 = E(X.Y) - E(X).E(Y) Gjelder også flere uavhengige s.v. er E(X 1. X 2. X 3. X n ) = E(X 1 ). E(X 2 ). E(X 3 ). E(X n ). 52