Statistikk 1 kapittel 4

Like dokumenter
Statistikk 1 kapittel 4

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

statistikk, våren 2011

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

Statistikk 1 kapittel 5

Statistikk 1 kapittel 5

3.4: Simultanfordelinger (siste rest) 4.1,4.2,4.3: Multivariat del (ferdig med kapittel 3 og 4 etter denne forelesningen)

Statistikk 1 kapittel 5

Statistikk 1 kapittel 5

Forelesning 13. mars, 2017

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

Kapittel 5: Tilfeldige variable, forventning og varians.

Løsningsforslag til seminar 4 Undervisningsfri uke

Foreleses onsdag 8. september 2010

Regneregler for forventning og varians

Binomisk fordeling. Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

TMA4240 Statistikk H2010

3.1 Stokastisk variabel (repetisjon)

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

Betinget sannsynlighet

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

To-dimensjonale kontinuerlige fordelinger

Forventning og varians.

Forventning og varians.

Forelening 1, kapittel 4 Stokastiske variable

TMA4240 Statistikk Høst 2008

ØVINGER 2017 Løsninger til oppgaver. Lineærkombinasjonen Z = 5X + 8Y har forventningsverdi

6 x P (X = x) = x=1 = P (X 2 = 6)P (X 2 = 6)P (X 3 = 6) =

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

Kontinuerlige sannsynlighetsfordelinger.

FORMELSAMLING TIL STK1100 OG STK1110

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

TMA4240 Statistikk H2015

Oppfriskning av blokk 1 i TMA4240

Kapittel 4.4: Forventning og varians til stokastiske variable

Kapittel 4: Matematisk forventning

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

Litt om forventet nytte og risikoaversjon. Eksempler på økonomisk anvendelse av forventning og varians.

TMA4245 Statistikk Vår 2007

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Eksempel: kast med to terninger

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

STK1100 våren Forventningsverdi. Forventning, varians og standardavvik

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

TMA4240 Statistikk H2010

Kap. 7 - Sannsynlighetsfordelinger

Kontinuerlige stokastiske variable.

Kapittel 2: Hendelser

ÅMA110 Sannsynlighetsregning med statistikk, våren

TMA4245 Statistikk Høst 2016

Høgskoleni østfold EKSAMEN

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

Motivasjon for kurset. ÅMA110 Sannsynlighetsregning med statistikk, våren Oppsummering. ÅMA110 Sannsynlighetsregning med statistikk våren 2008

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x x 12 ) = 1 ( ) = 8813/12 = 734.4

Stokastisk variabel. Eksempel augefarge

Høgskoleni Øs fold EKSAMEN. Om noe er uklart eller mangelfullt i oppgaven inngår det som en del av oppgaven å ta de nødvendige forutsetninger.

Løsningsforslag, eksamen statistikk, juni 2015

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Sum to terninger forts. Eksempel: kast med to terninger. Sum to terninger forts. Kapittel 3. TMA4240 H2006: Eirik Mo

Medisinsk statistikk Del I høsten 2008:

Bernoulli forsøksrekke og binomisk fordeling

Forelesning 7. mars, 2017

Denne uken: Kapittel 4.3 og 4.4

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Løsningskisse seminaroppgaver uke 11 ( mars)

Sannsynlighetsregning og Statistikk.

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6

Repeterbarhetskrav vs antall Trails

Løsningsforslag Eksamen S2, høsten 2017 Laget av Tommy O. Sist oppdatert: 26. november 2017

FORMELSAMLING TIL STK1100 OG STK1110

µ = E(X) = Ʃ P(X = x) x

Prøvemidtveiseksamen TMA4240 Statistikk H2004

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

Kapittel 4: Sannsynlighet - Studiet av tilfeldighet

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

= 5, forventet inntekt er 26

HØGSKOLEN I STAVANGER

Formelsamling i medisinsk statistikk

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

HØGSKOLEN I STAVANGER

Løsningsforslag til underveisvurdering i MAT111 vår 2005

Test, 3 Sannsynlighet og statistikk

Oppgavesettet består av 11 sider inklusiv denne forsiden, hvorav de 7 siste er formelsamling og tabeller.

UNIVERSITETET I OSLO

Løsningsforslag Eksamen S2, våren 2017 Laget av Tommy O. Sist oppdatert: 25. mai 2017

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger

TMA4240 Statistikk Høst 2016

Fasit for tilleggsoppgaver

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

TMA4240 Statistikk Høst 2009

Transkript:

Statistikk 1 kapittel 4 Nico Keilman ECON 2130 Vår 2015

Kapittel 4 Stokastiske (tilfeldige) variabler Anta 1) Vi kjenner sannsynligheter for ulike utfall knyttet til et forsøk 2) Hvert utfall har en (meningsfull) tallverdi Nå kan vi beregne forventede tallstørrelser, og deres variasjon Eksempel: levealder (antall år i live) til en tilfeldig valgt 50-åring. Det er en viss sjanse på at vedkommende dør på alder 50, 51, 52,, 110. Levealder er en stokastisk (tilfeldig) variabel. Det er usikkert hvilken verdi variabelen vil få. Stokastiske variabler skrives vanligvis som X, Y, Z, Definisjon: En stokastisk variabel (s.v.) X er en variabel som får en bestemt tallverdi for hvert utfall i utfallsrommet S

Kaster to terninger. X = sum av øyne, s.v. Hva er sannsynligheten P(X=8)? Antall gunstige utfall = 5, antall mulige utfall = 36 P(X=8) = 5/36 Hva med andre verdier av X? Tabellen gir P(X=x) og P(X x) for x = 2, 3, 12 Verdi x Sannsynlighet P(X=x) Kumulativ sannsynlighet P(X x) 2 1/36 1/36 3 2/36 3/36 4 3/36 6/36 5 4/36 10/36 6 5/36 15/36 7 6/36 21/36 8 5/36 26/36 9 4/36 30/36 10 3/36 33/36 11 2/36 35/36 12 1/36 36/36 = 1 3

Dette var et eksempel på et forsøk der den stokastiske variabelen er diskret. Levealder: her er den stokastiske variabelen kontinuerlig (i hvert fall i teori i praksis bruker vi ofte kun hele fullførte år) To typer sannsynlighetsmodeller -diskrete (enklere å forstå) -kontinuerlige 4

Sannsynlighetsmodeller for diskrete stokastiske variabler Definisjon: Sannsynlighetsfordeling (for en diskret s.v. X): samlet representasjon av alle verdiene en s.v. X kan ha, sammen med tilhørende sannsynligheter P(X=x) for alle x. Kan ta form av en tabell eller en formel. Eksempel: tabell for sum øyne. En sannsynlighet P(X=x) for en bestemt verdi x kalles også for punktsannsynlighet. 5

Eksempel 4.2. Fire barn, 16 mulige sammensetninger av barneflokken (se tabell 4.2) Definer stokastisk variabel X = antall jenter Tabell P(X=0) = P(ingen jenter) = (½) 4 = 1/16 P(X=1) = P(en jente) P(X=2) = P(to jenter) = 4 2 16 P(X=3) = P(tre jenter) = P(en gutt) = 4*(½) 4 = ¼ = 6/16 = ¼ P(X=4) = P(fire jenter) = = 1/16 Sjekk: sum = (1+4+6+4+1)/16 = 1 Formel: P(X=x) = 4 x 16 x = 0, 1, 2, 3, 4 6

Kumulativ sannsynlighetsfordeling Gitt en sannsynlighetsfordeling P(X=x) Den kumulative fordelingen er definert som F(x) = P(X x) Forklaring: la x 1, x 2, x 3, x n være verdiene som X kan ha i ordnet rekkefølge, slik at x 1 < x 2 < x 3 < x n. Da er F(x i ) = P(X x i ) = P(X=x 1 )+P(X=x 2 )+P(X=x 3 )+ P(X=x i ) for en bestemt i, 1 i n Eksempler: 1) Tabell 4.1 2) Jente-eksemplet 7

Jente-eksemplet F(0) = P(X=0) = 1/16 F(1) = P(X=0) + P(X=1) = 5/16 F(2) = 11/16 F(3) = 15/16 F(4) = 16/16 = 1 8

Gitt sannsynlighetsfordelingen P(X=x), er det lett å finne den kumulative fordelingen F(x) for en bestemt x i, ved å legge sammen F(x i ) = P(X x i ) = P(X=x 1 ) + P(X=x 2 ) + P(X=x 3 ) + P(X=x i ) Omvendt, gitt F(x) for alle verdier av x, hvordan kan vi finne en bestemt punktsannsynlighet P(X=x i )? Beregn forskjeller: F(x i ) = P(X=x 1 ) + P(X=x 2 ) + P(X=x 3 ) + + P(X=x i-1 ) + P(X=x i ) F(x i-1 ) = P(X=x 1 ) + P(X=x 2 ) + P(X=x 3 ) + + P(X=x i-1 ) F(x i ) F(x i-1 ) = P(X=x i ) Også: for to ulike verdier x j og x k (x j < x k ): P(x j < X x k ) = F(x k ) F(x j ) < 9

Jente-eksemplet: P(flere enn 1 jente men maks 4 jenter) = = P(1 < X 4) = F(4) F(1) = 16/16 5/16 = 11/16 Sjekk: P(1 < X 4) = P(X=2 eller X=3 eller X=4) = 6/16 + 4/16 + 1/16 = 11/16 OK 10

Forventning Gitt en stokastisk variabel (s.v.) X med sannsynlighetsfordeling P(X=x) En rekke forsøk resulterer i mange verdier for X. Gjennomsnitt for denne tallserien heter forventning til X Forteller meg hvor «midtpunktet» av sannsynlighetsfordelingen ligger Eksempel: et spill over flere runder. Du taper 10 kr. med 50% sjanse i hver runde, og vinner 40 kr. med 50% sjanse. Deltar du? 50% av rundene taper du 10 kr. 50% av rundene vinner du 40 kr. Forventet resultat etter mange runder = ½ x (-10) + ½ x (+40) = +15 kr. i snitt pr. runde 11

X = resultat i en runde P(X= -10) = ½, P(X= +40) = ½ Forventet resultat = (-10). P(X= -10) + (40). P(X= +40) = = (-10). ½ + (40). ½ = 15 Definisjon Gitt en diskret s.v. X med utfall x 1, x 2,, x n og punktsannsynligheter P(X=x i ) Forventningsverdi (forventning) til X er E(X) = alle i x i. P(X=x i ) Forventning E(X) er et tall, ikke stokastisk 12

1) Jente-eksemplet: Y = antall jenter i en firebarns familie Forventet antall jenter? Jfr. tabell 4.2 E(Y) = 0.1/16 + 1.¼ + 2.6/16 + 3.¼ + 4.1/16 = 32/16 = 2. 2) Terning, X = antall øyne er en s.v. E(X) = 1.1/6 + 2.1/6 + + 6.1/6 = 3½ Forventet verdi behøver ikke å være med i utfallsrommet! Du må ikke forveksle E(X) med et bestemt utfall Tolkning E(X): kaster du 1000 ganger, kan du forvente at antall øyne totalt går mot 3500 13

Stokastisk variabel deskriptiv statistikk forventning gjennomsnitt X må være tellbar for å kunne beregne forventningen E(X) E(X) gir ikke mening når X er kategorisk (nominal, ordinal). Jfr X = bokommune 14

St. Petersburg paradoks (eks. 4.8) En mynt kastes gjentatte ganger, inntil første gang resultatet er «kron» Du får 2 kroner utbetalt ved «kron» i 1. kast 4 2. 8 3... 2 k k. kast Hvor stor er forventet gevinst? X = gevinst, s.v. Utfall x kan være alt fra 0, 2, 4, 2 k, «kron» i runde k betyr «mynt» i rundene 1,2,,k-1 og «kron» i runde k. P(«kron» i runde k) = (½) k-1 x ½ = (½) k. E(X) = k=1 2 k x (½) k = k=11 = 1+1+1+ =??? Forventet gevinst er uendelig stor! Men du må være villig til å delta i uendelig mange runder. Jfr Løvås for forklaring 15

Egenskaper for forventet verdi (regel 4.7) X og Y er stokastiske variabler, a og b er konstanter. Det er lett å bevise at E(a) = a E(b.X) = b.e(x) E(aX + by) = a.e(x) + b.e(y) ************************** Forventning mer generelt: X er en diskret s.v., g(x) er en generell funksjon E[g(X)] = alle i g(x i ).P(X=x i ) NB E(X 2 ) {E(X)} 2 16

Varians og standardavvik En bestemt type forventning forekommer ofte: varians X er en s.v.. Varians til X defineres som forventet verdi til avvikskvadraten Avvik = avstand mellom X og dens forventning Definisjon: Var(X) = E[(X μ) 2 ] der μ = E(X) er forventning til X Egenskap: Var(X) = E[X 2 ] - μ 2 = alle i (x i ) 2 P(X=x i ) - μ 2 Bevis: Var(X) = E[(X μ) 2 ] = E[X 2-2μX + μ 2 ] = E[X 2 ] - 2μE[X] + μ 2 = E[X 2 ] - μ 2 Definisjon: standardavvik = kvadratrot av varians SD(X) = Var(X) Standardavvik skrives ofte som σ, varians som σ 2 17

Eksempel 4.10, tabell 4.7 Papirfabrikk X = antall dager i løpet av en uke med produksjonsstans Verdi x Sannsynlighet P(X=x) Verdi. Sannsynlighet x. P(X=x) Verdi 2. Sannsynlighet x 2. P(X=x) 0 0,11 0 0 1 0,22 0,22 0,22 2 0,27 0,54 1,08 3 0,17 0,51 1,53 4 0,12 0,48 1,92 5 0,07 0,35 1,75 6 0,03 0,18 1,08 7 0,01 0,07 0,49 Sum 1 E(X) = 2,35 E(X 2 ) = 8,07 E(X) = μ = forventet antall dager per uke med produksjonsstans = 2,35 Tolkning: 100 uker, kan forvente 235 dager med produksjonsstans Var(X) = E[X 2 ] μ 2 = 8,07 2,35 2 = 2,55 dager 2 SD(X) = 2,55 = 1,56 dager NB Måle-enhet for SD(X) er den samme som for X her: dager 18

Egenskaper for varians og standardavvik: forskyvning og skala-endring (Fig. 4.9) X er en s.v., E(X)=4, Var(X)=2, SD(X)=1,41 Forskyvning: Definer en ny s.v.: Y = X + 15 Nå er E(Y) = E(X) + 15 = 19 Var(X) = Var(Y) = 2 Skala-endring: Definer W = 2X E(W) = E(2X) = 2E(X) = 8 Var(W) = E[W 2 ] {E(W)} 2 = E[4.X 2 ] 4.{E(X)} 2 = 4.Var(X) = 8 SD(W) = 2.SD(X) = 2,81 19

Forskyvning og skala-endring samtidig Z= X E(X) SD(X) Lett å bevise at E(Z) = 0, SD(Z) = 1 Vi kaller Z for den standardiserte s.v. m.h.t. X: Z har forventning null og varians/standardavvik lik én 20

Generelt : X er en s.v., a,b er konstanter Var(X) 0 Var(X+a) = Var(X) Var(bX) = b 2.Var(X) SD(X) 0 SD(X+a) = SD(X) SD(bX) = b.sd(x) NB: Absoluttverdi til b F. eks. SD(-2.X) = 2.SD(X) 21

Kontinuerlige sannsynlighetsmodeller s.v. X: kroppshøyde til en tilfeldig mann Histogrammet blir mer nøyaktig med flere intervaller Konturen nærmer seg en glatt kurve Sannsynlighetsfordelingen for en kontinuerlig variabel heter sannsynlighetstetthet 22

Sannsynlighetstetthet f(x) for en kontinuerlig s.v. X beskriver sannsynlighetsfordelingen til X, og har følgende egenskaper: a) det totale arealet under kurven f(x) er lik 1; b) P(a X b) er lik arealet under kurven f(x) mellom x=a og x=b; c) f(x) 0. Alternativt for b): P(a X b) = b a f x dx areal bestemt integral X og x er kontinuerlige variabler. Dermed er P(X = x) lik null! Arealet til et uendelig smalt intervall er null. Det gir ikke mening å snakke om sannsynligheten for at en kontinuerlig variabel X har en bestemt verdi x. Intervaller! 23

Prognose for Norges befolkning i 2050 SSB: «Framskrevet folkemengde 1. jan. 2050 er 6 680 814 personer» http://www.ssb.no/a/kortnavn/folkfram/tab-2012-06-20-01.html Denne prognosen må tolkes som forventning X: folkemengde Norge i 2050, s.v. X er en kontinuerlig variabel (i praksis): P(X=x) 0 Gi prognose i form av et intervall. Stokastisk befolkningsprognose: f. eks. P(6 mln X 7 mln) = 59% også P(5 937 217 X 7 531 679) = 80% «80% prognoseintervall» http://www.ssb.no/befolkning/artikler-og-publikasjoner/stokastiskebefolkningsprognoser-for-norge-2012-2060 24

Kumulativ sannsynlighetsfordeling F X er en kontinuerlig s.v. Definisjon: F(x i ) = P(X x i ) = x i f x dx areal under f(x)-kurven til venstre for et fast punkt x i Derfor f(x) = F (x) tetthet f(x) = første deriverte av fordeling F(x) 25

Regneregler for kumulativ fordeling F(x) P(X b) = P(X < b) = F(b) P(X > b) = 1- F(b) P(a X b) = F(b) F(a) (a < b) 26

Forventning og varians for en kontinuerlig s.v. Forventning og varians defineres på samme måte som for en diskret s.v., men integral ( ) i stedet for sum ( ) E(X) = μ = + x.f x dx Var(X) = σ 2 + = x μ 2 +.f x dx=[ x 2.f x dx] μ 2 27

Eksempel 4.12 joggetur X er punktet der nøkkelen ligger, 0 X 9, med like stor sannsynlighet for hver X. X måles i km fra startpunktet. Tettheten til X må være f(x) = 1/9, 0 x 9 f(x) = 0 ellers P(4,6 < X < 6,3) = F(6,3) F(4,6) Hva er F? F(x) er arealet under «kurven» f(x) til venstre for punktet X=x. = høyde. bredde = 1/9. (x-0) = x/9, 0 x 9 Sjekk: F(9) må være 1, F(0) må være 0 stemmer F(6,3) F(4,6) = 6,3/9 4,6/9 = 1,7/9 = 0,188 19% sjanse for at nøkkelen ligger mellom X = 4,6 km og X = 6,3 km 28

Dessuten forventning 9 9 E X = x.f x dx = x. 1 9 dx = 1 9.½x2 9 0 = 81 0 18 0 0 Forventer å finne nøkkelen ca. halvveis = 4,5 km Også varians 9 σ 2 = x 2 f x dx (4,5)2 = x 2 1 9 dx (4,5)2= 1 9.⅓x3 ] 9 0 (4,5)2 = 6,75 km 2 0 9 0 slik at standardavvik SD(X) = 6,75 = 2,60 km. Stor spredning rundt midtpunktet 4,5. Langt fra sikkert at nøkkelen ligger i nærheten av X=4,5 km. 29

Uniform fordeling Fordelingen til X i dette eksemplet kalles for en «uniform fordeling» Generelt: Tettheten til en uniform fordelt variabel X er f(x) = 1/(b-a), a x b f(x) = 0 ellers E(X) = (a + b)/2 Var(X) = (b a) 2 /12 Flere slike sannsynlighetsmodeller (f. eks. normalfordeling) i kap. 5 30

Median og prosentiler for en kontinuerlig s.v. X Medianen x deler tettheten i to deler, hver med areal lik ½ M.a.o. F(x) = ½ Median kalles også for 50-prosentil Generelt: p-prosentil (0<p<100) deler tettheten i to deler. Delen til venstre for p-prosentilet har areal p%, til høyre (100-p)% F(p) = p/100 Jfr. kap. 2 31

Oppsummering P(X = x i ) f(x) Både diskret og kontinuerlig: Forventning E(X) skrives også som μ Kontinuerlig: V x har uendelig mange verdier for X, selv på et begrenset intervall Varians Var(X) skrives også som σ 2 32

To eller flere stokastiske variabler samtidig Fokus på to stokastiske variabler, stort sett diskrete s.v. X Y P(X=x og Y=y) for alle x og y heter den simultane fordelingen til X og Y Er en funksjon av både x og y Sier noe om sammenhengen mellom s.v. ene X og Y 33

Eksempel trykkeribedrift: tabell 4.8, fig. 4.18 X: antall henvendelser i morgen Y: antall nye bestillinger i morgen Vi ser at X og Y henger sammen: det er en tendens til at store verdier for X går sammen med store verdier for Y, og omvendt x 0 1 y 2 3 4 P(X=x) P(X=x,Y=y) 0 0.09 P(X=x,Y=y) 0.09 1 0.11 0.09 0.20 2 0.07 0.12 0.07 0.26 3 0.05 0.09 0.03 0.01 0.18 4 0.01 0.03 0.05 0.02 0.11 5 0.01 0.01 0.03 0.02 0.01 0.08 6 0.01 0.01 0.02 0.01 0.05 7 0.02 0.01 0.03 P(Y=y) 0.34 0.35 0.19 0.09 0.03 1 34

Legg merke til 1) sum over alle x og alle y av P(X=x,Y=y) = 1, alle x alle y P(X=x,Y=y) = 1 2) P(X=x) = alle y P(X=x,Y=y) marginal fordeling til X (funksjon av x, ikke av y) på samme måte: P(Y=y) = alle x P(X=x,Y=y) marginal fordeling til Y x 0 1 y 2 3 4 P(X=x) 0 0.09 P(X=x,Y=y) 0.09 1 0.11 0.09 0.20 2 0.07 0.12 0.07 0.26 3 0.05 0.09 0.03 0.01 0.18 4 0.01 0.03 0.05 0.02 0.11 5 0.01 0.01 0.03 0.02 0.01 0.08 6 0.01 0.01 0.02 0.01 0.05 7 0.02 0.01 0.03 P(Y=y) 0.34 0.35 0.19 0.09 0.03 1 35

3) Forventningene til X og til Y beregnes på vanlig måte, basert på de marginale fordelingene til X og Y μ X = 0 * 0,09 + 1 * 0,20 + 2 * 0,26 + 3 * 0,18 + + 7 * 0,03 = 2,61 μ Y = 0 * 0,34 + 1 * 0,35 + 2 * 0,19 + 3 * 0,09 + 4 * 0,03 = 1,12 også variansene σ 2 X og σ 2 Y fra de marginale fordelingene x 0 1 y 2 3 4 P(X=x) 0 0.09 P(X=x,Y=y) 0.09 1 0.11 0.09 0.20 2 0.07 0.12 0.07 0.26 3 0.05 0.09 0.03 0.01 0.18 4 0.01 0.03 0.05 0.02 0.11 5 0.01 0.01 0.03 0.02 0.01 0.08 6 0.01 0.01 0.02 0.01 0.05 7 0.02 0.01 0.03 P(Y=y) 0.34 0.35 0.19 0.09 0.03 1 36

4) Hendelser der både X og Y er involvert, f. eks. X + Y = 4 P(X+Y=4) = 0,01 + 0,09 + 0,07 = 0,17 Generelt kan vi definere sannsynligheten P(X+Y = z) for z = 0, 1, 2,, 11, og utlede sannsynlighetsfordelingen for Z=X+Y ved hjelp av P(X=x,Y=y) x 0 1 y 2 3 4 P(X=x) 0 0.09 P(X=x,Y=y) 0.09 1 0.11 0.09 0.20 2 0.07 0.12 0.07 0.26 3 0.05 0.09 0.03 0.01 0.18 4 0.01 0.03 0.05 0.02 0.11 5 0.01 0.01 0.03 0.02 0.01 0.08 6 0.01 0.01 0.02 0.01 0.05 7 0.02 0.01 0.03 P(Y=y) 0.34 0.35 0.19 0.09 0.03 1 37

5) Betinget sannsynlighetsfordeling P(X=x Y=y) bruk definisjon for betinget sannsynlighet f. eks. P(X=3 Y=2) = P(X=3 og Y=2)/P(Y=2) = 0,03/0,19 = 0,158 16% sjanse for at X = 3, gitt at Y = 2 Betinget forventning til X beregnes ved hjelp av betinget fordeling P(X=x Y=y), er derfor en funksjon av y; skrives som E(X y) Samme for betinget varians Var(X y) Også omvendt: P(Y=y X=x), betinget forventning/varians til Y etc. x 0 1 y 2 3 4 P(X=x) 0 0.09 P(X=x,Y=y) 0.09 1 0.11 0.09 0.20 2 0.07 0.12 0.07 0.26 3 0.05 0.09 0.03 0.01 0.18 4 0.01 0.03 0.05 0.02 0.11 5 0.01 0.01 0.03 0.02 0.01 0.08 6 0.01 0.01 0.02 0.01 0.05 7 0.02 0.01 0.03 P(Y=y) 0.34 0.35 0.19 0.09 0.03 1 38

Definer ny s.v. som Z = X + Y E(Z) = E(X) + E(Y) Mer generelt Regel 4.12: gitt en rekke s.v. er X i og konstanter a i, i = 1,2, n E(a 1 X 1 +a 2 X 2 + +a n X n ) = a 1 E(X 1 ) + a 2 E(X 2 ) + + a n E(X n ) gjelder både for diskrete og kontinuerlige variabler Eksempel: befolkningsprognose 2050 X, Y, Z er s.v. er som representerer befolkningen i aldersgruppene 0-19, 20-64 og 65+ i år 2050 E(X) = 1 570 699 E(Y) = 3 557 428 E(Z) = 1 566 713 Folkemengde totalt i 2050 har forventning E(X+Y+Z) = E(X) + E(Y) + E(Z) = 6 694 841 39

Kovarians og korrelasjon Samvariasjon for to (eller flere) s.v. er X og Y (Z, ) Variablene kan være diskrete eller kontinuerlige Grad av samvariasjon uttrykkes ved hjelp av begrepet kovarians («varierer samtidig»). Skrives som Cov(X,Y) Definisjon: Cov(X,Y) = E[(X-μ X )(Y- μ Y )], der μ X =E(X) og μ Y =E(Y) Egenskap: Cov(X,Y) = E(X.Y) - μ X.μ Y (vis selv) To diskrete s.v. er X og Y: E(X.Y) = alle x alle y x.y.p(x=x,y=y) Kovarians trenges når du skal beregne varians til en sum av to eller flere s.v. er 40

Trykkeri-eksemplet: beregn Cov(X,Y) E(X * Y) = 1 * 1 * 0,09 + 2 * 1 * 0,12 + 3 * 1 * 0,09 + + 7 * 4 * 0,01 = 4,24 (lilla celler bidrar ikke til produktet X * Y) Fra før hadde vi at μ X = 2,61, μ Y = 1,12 Cov(X,Y) = E(X * Y) - μ X * μ Y = 4,24 2,61 * 1,12 = 1,32 Vanskelig å tolke. Lettere hvis vi tar høyde for SD(X) og SD(Y). Da innfører vi begrepet korrelasjon x 0 1 y 2 3 4 P(X=x) 0 0.09 P(X=x,Y=y) 0.09 1 0.11 0.09 0.20 2 0.07 0.12 0.07 0.26 3 0.05 0.09 0.03 0.01 0.18 4 0.01 0.03 0.05 0.02 0.11 5 0.01 0.01 0.03 0.02 0.01 0.08 6 0.01 0.01 0.02 0.01 0.05 7 0.02 0.01 0.03 P(Y=y) 0.34 0.35 0.19 0.09 0.03 1 41

Korrelasjon mellom X og Y Corr X,Y = Cov(X,Y) SD X.SD(Y) den skrives også som ρ(x,y) Uttrykker hvor sterk lineær sammenheng det er mellom X og Y -1 ρ +1 ρ > 0 positiv sammenheng mellom X og Y: store verdier for X går sammen med store verdier for Y ρ = +1 perfekt lineær positiv sammenheng ρ < 0 negativ sammenheng mellom X og Y: store verdier for X går sammen med små verdier for Y, og omvendt ρ = -1 perfekt lineær negativ sammenheng ρ = 0 ingen (lineær) sammenheng mellom X og Y 42

Trykkeri-eksemplet Cov(X,Y) = 1,32 Var(X) = 3,08 => SD(X) = 1,755 Var(Y) = 1,15 => SD(Y) = 1,072 Nå blir ρ(x,y) lik 1,32/(1,755 x 1,072) = 0,70 Rimelig sterk grad av positiv sammenheng NB Cov(X,X) =? ρ(x,x)=? 43

Eksempel: befolkningsprognose 2050 X, Y, Z er s.v. er som hhv. representerer befolkning i aldersgruppene 0-19, 20-64 og 65+ i år 2050 Det viser seg at Corr(X,Y) = 0,537. Befolkning i alder 0-19 positivt korrelert med befolkning i alder 20-64. Corr(Y,Z) = 0,190. Aldersgruppene 20-64 og 65+ er svakt korrelerte (men positivt) 44

Varians til en sum av s.v. er (regel 4.15) Var(X + Y) = Var(X) + Var(Y) + 2.Cov(X,Y) Positiv (negativ) kovarians øker (reduserer) varians i summen Generelt: Var(aX + by) = a 2.Var(X) + b 2.Var(Y) + 2.a.b.Cov(X,Y) 45

Trykkeri-eksemplet X = antall henvendelser kostnader 20 kr / henvendelse Y = antall bestillinger fortjeneste 100 kr / bestilling konstante kostnader 10 kr Forventet overskudd? Definer s.v. Z: Z = 100Y 20X 10 E(Z) = 100.E(Y) 20.E(X) 10 = = 100 x 1,12 20 x 2,61-10 = 49,8 kr. Fra før har vi Var(X) = 3,08 Var(Y) = 1,15 Cov(X,Y) = 1,32 Hvor stor er variansen til Z? Var(Z) = Var(100Y 20X 10) = 100 2 Var(Y) + 20 2 Var(X) +2.( 20).100 Cov(X,Y) = 11500 + 1232-5280 = 7452 SD(Z) = 86,3 kr.: stor spredning rundt forventet overskudd på 49,8 kr. 46

Uavhengige stokastiske variabler Fra før: to hendelser A og B er uavhengige når P(A B) = P(A) eller P(B A) = P(B) eller P(A B) = P(A). P(B) Helt analogt for to stokastiske variabler: Definisjon: X og Y er uavhengige hvis og bare hvis P(X=x,Y=y) = P(X=x). P(Y=y) for alle (x,y) Egenskap: To uavhengige s.v er X og Y er ukorrelerte, d.v.s. ρ(x,y)=0 Men: når ρ(x,y)= 0, er X og Y ikke nødvendigvis uavhengige 47

Regneregel Hvis X 1, X 2,, X n er uavhengige s.v. er, og a 1, a 2,, a n er konstanter, så er Var(a 1 X 1 + a 2 X 2 + a n X n ) = a 12 Var(X 1 ) + a 22 Var(X 2 ) + + a n2 Var(X n ) fordi alle parvise kovarianser er lik null. 48

Eksempel 4.10, tabell 4.7 en gang til. Papirfabrikk X i = antall dager med produksjonsstans i uke nr. i. Vi fant at E(X i ) = 2,35 dager og at Var(X i ) = 2,55 dager 2 Definer s.v. T som antall dager med stans i løpet av et år. Beregn E(T) og SD(T) T = X 1 + X 2 + X 52 E(T) = 52.E(X i ) = 122,2 dager Var(T) = Var( i X i ). Anta at X i -ene er uavhengige (drøft) Var( i X i ) = i Var(X i ) = 52.Var(X i ) = 132,6 og SD(T) = 11,5 dager NB Ett år: SD(T)/E(T) = 11,5/122,2 = 0,094 = 9,4% En uke: SD(X i )/E(X i ) = 1,56/2,35 = 0,664 = 66,4% Den relative variasjonen over en lang periode er mindre enn over en kort periode, p.g.a. (antatt) uavhengighet. 49

Forventning til et produkt av uavhengige variabler Anta at X og Y er uavhengige stokastiske variabler. Da er E(X.Y) = E(X). E(Y) Bevis: X og Y er uavhengige Cov(X,Y) = 0 = E(X.Y) - E(X).E(Y) Gjelder også flere uavhengige s.v. er E(X 1. X 2. X 3. X n ) = E(X 1 ). E(X 2 ). E(X 3 ). E(X n ). 50