statistikk, våren 2011

ÅMA110 Sannsynlighetsregning med statistikk, våren 011 Kp. 3 Diskrete tilfeldige variable 1 Diskrete tilfeldige variable, innledning Hva er en tilfeldig variabel (stokastisk variabel)? Diskret tilfeldig variabel... Kontinuerlig tilfeldig variabel... Først: enkle diskrete tilfeldige ldi variable

Diskrete tilfeldige variable, innledning Eks.: Tre kast med pengestykke; vi betrakter rekkefølge av kron (K) og mynt (M). {KKK, KKM, KMK, MKK, KMM, MKM, MMK, MMM} = { u 1, u, u 3, u 4, u 5, u 6, u 7, u 8 } Vi vil kvantifisere bestemte egenskaper ved utfallene. (numeriske beskrivelser og behandling av resultatene) F.eks.: vi ser på antall mynt (i tre kast) Definer: X = antall mynt i tre kast med pengestykke 3 Diskrete tilfeldige variable, innledning Eks.: Tre kast med pengestykke; vi betrakter rekkefølge av kron (K) og mynt (M). {KKK, KKM, KMK, MKK, KMM, MKM, MMK, MMM} = { u 1, u, u 3, u 4, u 5, u 6, u 7, u 8 } 0 1 1 1 3 X = antall mynt i tre kast med pengestykke 4

Diskrete tilfeldige variable, innledning {KKK, KKM, KMK, MKK, KMM, MKM, MMK, MMM} = { u1, u, u3, u4, u5, u6, u7, u8 } 0 1 1 1 3 X = antall mynt i tre kast med pengestykke Mulige verdier for X: 0, 1, eller 3 Matematisk: 5 Diskrete tilfeldige variable, innledning {KKK, KKM, KMK, MKK, KMM, MKM, MMK, MMM} = { u 1, u, u 3, u 4, u 5, u 6, u 7, u 8 } 0 1 1 1 3 X = antall mynt i tre kast med pengestykke Mulige verdier for X: 0, 1, eller 3 Sannsynlighetene knyttet til utfallene gir bestemte sannsynligheter for de ulike verdiene X kan anta. Dette er sannsynlighetsfordelingen til X 6

Diskrete tilfeldige variable, innledning {KKK, KKM, KMK, MKK, KMM, MKM, MMK, MMM} = { u 1, u, u 3, u 4, u 5, u 6, u 7, u 8 } 0 1 1 1 3 X = antall mynt i tre kast med pengestykke Mulige verdier for X: 0, 1, eller 3 En diskret sannsynlighetsfordeling gis ofte i tabell. Fordeling til X: (Obs: sannsynlighetene i en fordeling må summere seg til 1!) 7 Diskrete tilfeldige variable, innledning Eks.: Y = resultatet i et terningkast y 1 3 4 5 6 P(Y=y) 1/6 1/6 1/6 1/6 1/6 1/6 En tilfeldig variabel er en abstrakt størrelse som kan bli ulike verdier. Resultat/data kan vi oppfatte som utfall av tilfeldige ldi variable. (Mer om dette seinere i kurset.) 8

Diskrete tilfeldige variable, innledning x 0 1 3 P(X=x) 1/8 3/8 3/8 1/8 y 1 3 4 5 6 P(Y=y) 1/6 1/6 1/6 1/6 1/6 1/6 9 Diskrete tilfeldige variable, innledning To viktige størrelser i forbindelse med tilfeldige variable / sannsynlighetsfordelinger: g Forventning Varians 10

Diskrete tilfeldige variable, forventning Def.: For en diskret tilfeldig variabel Y som kan anta verdiene y 1, y, y 3,..., defineres forventingen til Y ved: E(Y) = y 1 P(Y= y 1 ) + y P(Y= y ) + y 3 P(Y= y 3 ) +... ( sum av ledd på formen: verdi*sannsynlighet ) Eks.: E(X) = 11 Diskrete tilfeldige variable, forventning Eks.: E(X) = 0(1/8)+1(3/8)+(3/8)+3(1/8) = 1.5 Obs. 1: forventningsverdien er gjennomsnittsverdien i det lange løp Obs. : forventningsverdien viser sentrum i sannsynlighetsfordelingen. 04 0,4 0,3 0, 01 0,1 0 0 1 3 1

Diskrete tilfeldige variable, forventning Eks.: E(X) = 0(1/8)+1(3/8)+(3/8)+3(1/8) = 1.5 Obs. 3: forventingsverdien behøver ikke være et av utfallene til den tilfeldige variable! Obs. 4: forventingsverdien er ikke det samme som modalverdien (mest sannsynlig verdi) eller medianen (median i sannsynlighetsfordelingen). 13 Diskrete tilfeldige variable, forventning Eks.: Spill; vinner mill. med sanns. 1/5 000 000; ellers vinnes ingenting. Forventet gevinst? 14

Diskrete tilfeldige variable, regneregler for forventning Vi får ofte behov for å finne forventning til uttrykk der tilfeldige variable inngår. Det er derfor viktig å vite hvordan vi skal håndtere dette. 15 Diskrete tilfeldige variable, regneregler for forventning E1: E(aX+b) = ae(x) + b, (X: tilf.var., a,b:konstanter) E3: E(X 1 +X ) = E(X 1 ) + E(X ), (X 1 og X :tilf.var.) E5 (generelt): E(a 1 X 1 +...+ a n X n ) = a 1 E(X 1 ) +...+ a n E(X n ), (X 1,..., X n :tilf.var., og a 1,..., a n : konstanter) 16

Diskrete tilfeldige variable, regneregler for forventning Def.: Dersom X en diskret tilfeldig variabel som kan anta verdiene x 1 1, x, x 3 3,..., og g er en funksjon, defineres forventingen til g(x) ved: E[g(X)] = g(x 1 ) P(X=x 1 ) + g(x ) P(X=x ) +... Eks.: Forventingen til X : g(x) = X ; E[X ] = x 1 P(X=x 1 ) + x P(X=x ) +... 17 Diskrete tilfeldige variable, regneregler for forventning Eks.: Fordeling til X: x 0 1 3 P(X=x) 1/8 3/8 3/8 1/8 E[X ] = x 1 P(X=x 1 ) + x P(X=x ) +... E(X ) = 18

Diskrete tilfeldige variable, forventning Eks.: Firma selger el.artikler; innkjøp fra grossist i parti på 50 stk. To tilbud. Grossist A: 3500,- grossist B: 3570,-. Noen defekte; omkostninger: 35,- pr defekt enhet. X=antall defekte fra A, Y=antall defekte fra B; Har at: x 0 1 3 4 P(X=x) 0.1 0. 0.3 0.3 0.1 Y 0 1 P(Y=y) 0.4 0.4 0. Hvilken grossist bør velges? 19 Kp. 3 Diskrete tilfeldige variable Har sett på (tidligere): begrep/definisjoner; tilfeldig (stokastisk) variabel sannsynlighetsfordeling forventning 0

Diskrete tilfeldige variable, varians (kp. 3.4) Varians måler spredning i sannsynlighetsfordelingen. (Empirisk varians måler spredning i data.) Def.: Variansen til en tilfeldig variabel X defineres ved : Var(X) = E{(X - μ) }, der μ = E(X). Obs.: Dersom X er en diskret tilf. var. verdiene x, x, x, K, 1 3 så har vi : som kan anta Var(X) = (x - μ) P(X = x ) + (x - μ) P(X = x ) + (x - μ) P(X = x ) + 1 3 3 1 L. 1 Diskrete tilfeldige variable, varians (kp. 3.4) Varians måler spredning i sannsynlighetsfordelingen. Var(X) = (x -μ) P(X = x1) + (x -μ) P(X = x ) + (x3 -μ) P(X = x3) + 1 L. avvik mellom verdi, kvadrerte avvik x i, og sentrum, summert, vektet med sannsynlighet for verdi, P(X=x i ) μ

Diskrete tilfeldige variable, varians (kp. 3.4) Varians måler spredning i sannsynlighetsfordelingen. Var(X) = (x - μ) ) P(X = x ) + (x - μ) ) P(X = x ) + (x - μ) ) P(X = x ) + 1 3 3 Eks.: 1 L. U 0 1 V 0 1 P(U=u) 0.3 0.4 0.3 P(V=v) 0.1 0.8 0.1 3 Diskrete tilfeldige variable, varians (kp. 3.4) Eks.: Hvilken fordeling har størst varians? U 1 3 P(U=u) 0.3 0.4 0.3 V 0 1 3 4 P(V=v) 0.1 0. 0.4 0. 0.1 05 0,5 0,4 0,5 0,4 0,3 0,3 0 0, 0 0, 0,1 0,1 0 0 1 3 4 0 0 1 3 4 4

Diskrete tilfeldige variable, standardavvik Def.: Standardavviket til X defineres ved : SD(X) = VAR(X) Obs.: Standardavviket måler spredning i fordelingen (som varians). 5 Regneregler for varians Var(X) 0, X : tilfeldig variabel Var(k) = 0, k : konstant V1: Var(X) = E(X ) { E(X)} V3: Var(aX + b) = a Var(X), a,b : konstanter Eks.: Innkjøp av el.artikler; varians til kostnad. 6

Regneregler for varians Bevis for V1: 7 Regneregler for varians Bevis for V3: V3: Var(aX + b) a = Var(X), 8

Diskrete tilfeldige variable, varians Eks.: X er tilfeldig variabel med en bestemt fordeling og varians, Var(X). La Y 1 = X og Y = 0.5 X. Etter regneregel V3 er Var(Y ) Var(X) 1 = = variansen til Y 1 større enn Var(Y ) Var(0.5X) variansen til Y 4Var(X) 4 (16 ganger større). = = = 16 Intuitiv forklaring?? 0.5Var(X) 0.5 9 Diskrete tilfeldige variable, varians Eks.: Y 1 = X og Y = 0.5 X. 14 1 10 8 6 0.5X X 4 0 0 4 6 X 30

Varians til sum; kovarians (Sidene 106 114 i boken: vi gjør dette litt annerledes og litt forenklet.) Dersom vi skal regne ut Var(X+Y), kommer det inn et ledd i uttrykket som ser slik ut: E[(X μ )(Y μ )], ( der μ = E[X], og μ = E[Y] ). = X Y X Y Var(X + Y) = Var(X) + Var(Y) + E[(X μ X )(Y μ Y )] 31 Varians til sum; kovarians Def.: Kovariansen mellom to tilfeldige variable defineres ved: Cov( X,Y ) = E[(X μ )(Y μ )], X Y der μ = E[X], og μ E[Y]. = X Y Kovarians er et viktig mål på statistisk samvariasjon 3

Varians til sum; kovarians Statistisk samvariasjon Eks. 1: Betrakt f.eks. bensinstasj. i madlakrossen. X=temp. en tilfeldig sommerdag Y=ant. solgte is den dagen Utfall (x,y) av (X,Y): 430 380 330 antall is 80 30 180 130 80 8,0 13,0 18,0 3,0 temperatur 33 Varians til sum; kovarians Eks. : Betrakt f.eks. bensinstasj. i madlakrossen. X=temp temp. en tilfeldig vinterdag Y=ant. solgte sekker ved den dagen 18 Utfall (x,y) av (X,Y): 16 14 r tall vedsekke ant 1 10 8 6 4 0-10,0-5,0 0,0 5,0 10,0 temperatur 34

Varians til sum; kovarians Kovarians, fortolkning av definisjonen Cov( X,Y ) = E[(X μ X )(Y μ Y )], der μ X = E[X], og μ Y = E[Y]. Cov(X, Y) er forventning til produktet mellom (X μx) og (Y μy) 35 Kovarians Ingen (lineær) statistisk sammenheng: Cov( X, Y ) = 0 36

Varians til sum; kovarians Regneregler: V4+: Dersom Cov(X,Y) = 0, så Var(X+Y) = Var(X) + Var(Y) V5+: Dersom alle X 1, X,..., X n har parvis kovarians null, så Var(X 1 +X +...+X n ) = Var(X 1 )+...+Var(X n ) 37 Varians til sum; kovarians Hva med Var( X-Y )?? (med og uten kovarians) 38

Uavhengige tilfeldige variable Kovarians måler en form for (lineær) avhengighet mellom tilfeldige variable. I svært mange situasjoner vil kovarians være tilstrekkelig for å fange opp interessant statistisk samvariasjon. Den generelle definisjonen for sammenheng mellom tilfeldige variable er inneholdt i definisjonen av uavhengige/avhengige tilfeldige variable. 39 Uavhengige tilfeldige variable Husk: Begivenhetene A og B uavhengige dersom P(AB)=P(A)P(B) Def.: To tilfeldige variable X og Y sies å være statistisk uavhengige dersom 40

Uavhengige tilfeldige variable At X og Y er statistisk uavhengige tilfeldige variable betyr at de har ingen sammenheng. Obs. 1: Statistisk uavhengighet er ikke det samme som kovarians lik null! Obs. : Følgende gjelder: Dersom X og Y er uavhengige, gg så: Cov(X,Y)=0. (Det omvendte er gjelder ikke!) 41 Korrelasjon Def.: Korrelasjonen mellom to tilfeldige variable X og Y er definert ved: Cov ( X,Y ( ) X,Y) = Corr ( X,Y ) ρ = SD(X)SD(Y) 4

Korrelasjon Obs.: Korrelasjonen - er alltid mellom 1 og 1, - har samme fortegn som kovariansen, og - er også et mål på styrken av samvariasjonen Corr(X,Y) = 1 (eller 1): komplett (lineær) sammenheng Corr(X,Y) = 0: ingen (lineær) sammenheng 43 Korrelasjon Eks.: Vi vil studere variasjonen i gjennomsnittlig oljepris over en periode. Betrakter to-dagers gjennomsnitt. X 1=oljepris (pr. fat) dag 1 X =oljepris (pr. fat) dag Antar: E(X 1 ) = E(X ) = 30$, og Var(X = = 1 ) Var(X ) 4($ ) 44