Kapittel 4 Forventningsverdi, varians, kovarians for én stokastisk variabel og funksjoner av stokastiske variabler TMA4245 V2007: Eirik Mo 2 4.1 Forventing til en stokastisk variabel DEF 4.1: La X være en stokastisk variabel med sannsynlighetsfordeling f(x). Forventningsverdien (mean, expected value) til X er µ = E(X) = x x f(x) hvis X er diskret, og µ = E(X) = x f(x)dx hvis X er kontinuerlig.
3 Tyngdepunkt 4 Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at 0 x r e ax dx = r! når a > 0 og r er et heltall 0 ar+1 Vi betrakter ankomst- og oppholdstider for et bestemt lokaltog på en jernbanestasjon. Toget skal etter rutetabellen ankomme hver hverdag klokka 8:00, men kommer alltid etter dette tidspunktet. La X (minutter) betegne togets forsinkelse på en tilfeldig valgt hverdag. Vi antar at X er en stokastisk variabel med sannsynlighetstetthet { kxe 2x for x > 0 g(x) = 0 for x 0 der k > 0 er en konstant. i) Har vist at k = 4. ii) Hva er forventingsverdien til X?
5 Prosjektstyring X = tid for å samle inn data (i påbegynte timer) Y = tid for å analysere data 1 2 3 f X (x) 0.10 0.60 0.30 1 2 3 4 f Y (y) 0.10 0.20 0.30 0.40 6 Prosjektstyring (forts.) Ser på tid brukt til datainnsamling (X) Kunden har betalt 1200 kr for datainnsamlingen, og prosjektarbeideren som skal utføre datainnsamlingen får 500 kr timen. Hva er forventet inntekt for datainnsamlingen? 1 2 3 f X (x) 0.10 0.60 0.30
7 Forventing til funksjon av en stokastisk variabel TEO 4.1: La X være en stokastisk variabel med sannsynlighetsfordeling f(x). Forventningsverdien til den stokastiske variablen g(x) er µ g(x) = E[g(X)] = x g(x)f(x) hvis X er diskret, og µ g(x) = E[g(X)] = g(x)f(x)dx hvis X er kontinuerlig. 8 E(aX + b) TEO 4.5: Hvis a og b er konstanter, så er E(aX + b) = ae(x) + b COR 1: Setter vi a = 0 ser vi at E(b) = b COR 2: Setter vi b = 0 ser vi at E(aX) = ae(x)
9 E(sum eller differanse) TEO 4.6: Forventningsverdien til summen eller differansen av to eller flere funksjoner av den stokastiske variablen X, er summen eller differansen til forventningsverdiene til funksjonene. Det vil si, siden E[g 1 (X) ± g 2 (X)] = E[g 1 (X)] ± E[g 2 (X)]. g(x) = g 1 (X) ± g 2 (X) E(g(X)) = E(g 1 (X) ± g 2 (X)) = [g 1 (x) ± g 2 (x)] f(x)dx = E[g 1 (X)] ± E[g 2 (X)]. 10 4.2 Varians (og kovarians) DEF 4.3: La X være en stokastisk variabel med sannsynlighetsfordeling f(x) og forventning µ = E(X). Variansen til X er σ 2 = Var(X) = E[(X µ) 2 ] = x hvis X er diskret, og σ 2 = Var(X) = E[(X µ) 2 ] = (x µ) 2 f(x) (x µ) 2 f(x)dx hvis X er kontinuerlig. Den positive kvadratroten av variansen, σ = SD(X), kalles standard avviket til X. TEO 4.2: Variansen til en stokastisk variabel X er σ 2 = Var(X) = E(X 2 ) [E(X)] 2 = E(X 2 ) µ 2
11 Togforsinkelsen (forts.) 0 x r e ax dx = r! når a > 0 og r er et heltall 0 ar+1 { 4xe 2x for x > 0 f X (x) = 0 for x 0 E(X) = 1 Hva er variansen til X? 12 Varians til en funksjon av en stokastisk variabel TEO 4.3: La X være en stokastisk variabel med sannsynlighetsfordeling f(x). Variansen til den stokastiske variablen g(x) er σ 2 g(x) = E[(g(X) µ g(x)) 2 ] = x [g(x) µ g(x) ] 2 f(x) hvis X er diskret, og σ 2 g(x) = E[(g(X) µ g(x)) 2 ] = [g(x) µ g(x) ] 2 f(x)dx hvis X er kontinuerlig.
13 Varians til en lineær funksjon av en stokastisk variabel TEO 4.9: Hvis a og b er konstanter, så er σax+b 2 = Var(aX + b) = a2 Var(X) = a 2 σx 2 COR 1: Setter vi a = 1 ser vi at Var(X + b) = Var(X) = σx 2. COR 2: Setter vi b = 0 ser vi at Var(aX) = a 2 Var(X) = a 2 σx 2. 14 Prosjektstyring (forts.) Ser på aktivitet A. Kunden har betalt 1200 kr for aktivitet A, og prosjektarbeideren som skal utføre aktivitet A får 500 kr timen. Inntekt for aktivitet A: g(x) = 1200 500 X Forventning: E(g(X)) = 100. Hva er Var(g(X))? 1 2 3 f X (x) 0.10 0.60 0.30
15 Forventning og varians, univariat Diskret stokastisk variabel Kontinuerlig stokastisk variabel Forventning: E(X), tyngdepunkt i fordelingen, beste gjett på ny fremtidig observasjon µ = E(X) = x xf(x) µ = E(X) = xf(x)dx µ g(x) = E[g(X)] = x g(x)f(x) µ g(x) = E[g(X)] = g(x)f(x)dxx E(aX + b) = ae(x) + b Varians: Var(X), mål for spredning σ 2 = Var(X) = E[(X µ) 2 ] = E(X 2 ) µ 2 σ 2 = x (x µ)2 f(x) σ 2 = (x µ)2 f(x)dx σg(x) 2 = Var[g(X)] = E[(g(X) µ g(x)) 2 ] σg(x) 2 = x (g(x) µ g(x)) 2 f(x) σg(x) 2 = [g(x) µ g(x)] 2 f(x)dx Var(aX + b) = a 2 Var(X) Standardavvik: SD(X) = Var(X) Mål for spredning på samme skala som originalobservasjonenen. 16 4.4. Chebyshevs teorem TEO 4.11: Chebyshevs teorem Sannsynligheten for at en stokastisk variabel X vil anta en verdi innen k standardavvik fra forventningsverdien er minst 1 1/k 2. Det vil si, P(µ kσ < X < µ + kσ) 1 1 k 2 k=1: P(µ σ < X < µ + σ) 1 1 1 2 = 0 k=2: P(µ 2σ < X < µ + 2σ) 1 1 2 2 = 0.75 k=3: P(µ 3σ < X < µ + 3σ) 1 1 3 2 = 0.89
17 Chebyshevs teorem og Normalfordelingen Nøyaktig for normalfordelingen: k=1: P(µ σ < X < µ + σ) = 0.683 k=2: P(µ 2σ < X < µ + 2σ) = 0.954 k=3: P(µ 3σ < X < µ + 3σ) = 0.997 18 Forventning til funksjon av flere stokastiske variabler DEF 4.2: La X og Y være stokastisk variable med simultan sannsynlighetsfordeling f(x, y). Forventningsverdien til den stokastiske variabelen g(x, Y) er µ g(x,y) = E[g(X, Y)] = x hvis X og Y er diskrete, og g(x, y)f(x, y) y µ g(x,y) = E[g(X, Y)] = g(x, y)f(x, y)dxdy hvis X og Y er kontinuerlige.
19 Prosjektstyring (forts.) X = tid for datainnsamling (i påbegynte timer) Y = tid for dataanalyse. x 1 2 3 f Y (y) 1 0.03 0.05 0.02 0.10 2 0.03 0.14 0.03 0.20 y 3 0.03 0.17 0.10 0.30 4 0.01 0.24 0.15 0.40 f X (x) 0.10 0.60 0.30 1.00 µ X = E(X) = 1 0.10 + 2 0.60 + 3 0.30 = 2.2 µ Y = E(Y) = 1 0.10 + 2 0.20 + 3 0.30 + 4 0.40 = 3.0 Hva er E(X + Y)? Hva er E( Y X )? 20 E(funksjoner av flere SV) TEO 4.7: Forventningsverdien til summen eller differansen av to eller flere funksjoner av de stokastiske variablene X og Y, er summen eller differansen til forventningsverdiene til funksjonene. Det vil si, E[g(X, Y) ± h(x, Y)] = E[g(X, Y)] ± E[h(X, Y)]. COR 1: Setter vi g(x, Y) = g(x) og h(x, Y) = h(y) E[g(X) ± h(x)] = E[g(X)] ± E[h(Y)]. COR 2: Setter vi g(x, Y) = X og h(x, Y) = Y E[X ± Y] = E[X] ± E[Y].
21 Generalisering Y = E(Y) = n a i X i + b i=1 n a i E(X i ) + b i=1 Formelsamlingen s 34. 22 Prosjektstyring (forts.) x 1 2 3 f Y (y) 1 0.03 0.05 0.02 0.10 2 0.03 0.14 0.03 0.20 y 3 0.03 0.17 0.10 0.30 4 0.01 0.24 0.15 0.40 f X (x) 0.10 0.60 0.30 1.00 Er interessert i forholdet g(x, Y) = Y X datainnsamling og dataanalyse. E [ ] Y X = x y mellom varigheten av y f(x, y) x NB: E [ Y X = 1 0.03 + (1/2) 0.05 + (1/3) 0.02 + 2 0.03 + 1 0.14 + (2/3) 0.03 = 1.44 ] E(X) E(Y). + 3 0.03 + (3/2) 0.17 + 1 0.10 + 4 0.01 + 2 0.24 + (4/3) 0.15
23 4.2 Varians og kovarians DEF 4.4: La X og Y være to stokastisk variable med simultan sannsynlighetsfordeling f(x, y), og forventninger hhv. µ X = E(X) og µ Y = E(Y). Kovariansen til X og Y er σ XY = Cov(X, Y) = E[(X µ X )(Y µ Y )] = (x µ X )(y µ Y )f(x, y) x y hvis X og Y er diskrete, og σ XY = Cov(X, Y) = E[(X µ X )(Y µ Y )] = hvis X og Y er kontinuerlige. (x µ X )(y µ Y )f(x, y)dxdy 24 Kovarians TEO 4.4: Kovariansen til to stokastiske variabler X og Y med forventninger hhv. µ X = E(X) og µ Y = E(Y), er gitt ved σ XY = Cov(X, Y) = E(X Y) E(X) E(Y) = E(X Y) µ X µ Y TEO 4.8: La X og Y være to uavhengige stokastiske variabler. Da er E(X Y) = E(X) E(Y). Når X og Y er uavhengige er E(X Y) = E(X) E(Y) = µ X µ Y. Dermed når X og Y er uavhengige er Cov(X, Y) = µ X µ Y µ X µ Y = 0. Men, hvis Cov(X, Y) betyr det nødvendigvis IKKE at X og Y er uavhengige.
25 Korrelasjon DEF 4.5: La X og Y være to stokastisk variable med kovarians σ XY og varianser hhv. σ 2 X og σ2 Y. Korrelasjonskoeffisienten til X og Y er ρ XY = Cov(X, Y) Var(X) Var(Y) = σ XY σ X σ Y Tolkning : Hvis Y = ax + b og a > 0 ρ XY = 1 Hvis Y = ax + b og a < 0 ρ XY = 1 Hvis X og Y er uavhengige ρ XY = 0 1 ρ XY 1. Korrelasjon = 0.95 Korrelasjon = 0.5 0.6 0.4 0.2 0.0 0.2 0.4 0.6 1.0 0.5 0.0 0.5 1.0 1.5 2.0 3 2 1 0 1 2 3 2 1 0 1 2 Korrelasjon = 0.7 Korrelasjon = 0 4 3 2 1 0 1 2 3 0 1 2 3 4 2 1 0 1 2 3 2 1 0 1 2
27 Aksjekurs, eksamen juni 2004, 2c 210 208 206 aksjeverdi i kroner 204 202 200 198 196 0 5 10 15 20 25 30 35 40 dager Figuren viser utviklingen av aksjekursen til Agderfrukt (stiplet) sammen med aksjekursen til Trønderfrukt (heltrukket). 28 Aksjekurs, forts. Kursendringen dag i for Agderfrukt kaller vi X i, og vi antar at X i har forventning µ X = 0.15 kroner og standardavvik σ X = 0.60 kroner. Kursendringen dag i for Trønderfrukt kaller vi Y i, og vi antar at Y i har forventning µ Y = 0.15 kroner og standardavvik σ Y = 0.80 kroner. Kursendringer for ulike dager antas å være uavhengige. Vi sammenlikner de to selskapene ved å måle differansen mellom de daglige kursendringene, D i = X i Y i, og ta gjennomsnitt. Vi ser på 10 dager og får D = 1 10 10 i=1 D i = 1 10 10 i=1 (X i Y i ). Gir figuren grunn til å tro at endringene i de to aksjekursene samme dag, X i og Y i, er uavhengige? Korrelasjonen mellom X i og Y i for disse to selskapene, ρ(x i, Y i ), er enten -0.5, 0.0 eller 0.5. Hvilken av disse verdiene virker mest rimelig fra figuren? Begrunn kort. Hva blir forventningsverdi og varians for D? Benytt verdien for korrelasjonen, ρ(x i, Y i ), som du valgte over.
29 Varians til lineærkombinasjon av to stokastiske variabler TEO 4.10: La X og Y være to stokastisk variable med simultan sannsynlighetsfordeling f(x, y), da er σ 2 ax+by = Var(aX + by) = a 2 Var(X) + b 2 Var(Y) + 2abCov(X, Y) = a 2 σ 2 X + b2 σ 2 Y + 2ab σ XY COR 1: Hvis X og Y er uavhengige stokastiske variable, så er Cov(X, Y) = 0 og Var(aX + by) = a 2 Var(X) + b 2 Var(Y) = a 2 σ 2 X + b 2 σ 2 Y COR 2: Hvis X og Y er uavhengige stokastiske variable, så er Cov(X, Y) = 0 og Var(aX by) = a 2 Var(X) + b 2 Var(Y) = a 2 σ 2 X + b 2 σ 2 Y COR 3: Hvis X 1, X 2,..., X n er uavhengige stokastiske variable, så er Var(a 1 X 1 + + a n X n ) = a 2 1Var(X 1 ) + + a 2 nvar(x n ) 30 Generalisering Y = E(Y) = Var(Y) = + 2 n a i X i + b i=1 n a i E(X i ) + b i=1 n a 2 i Var(X i) i=1 n i=1 i 1 j=1 a i a j Cov(X i, X j ) Formelsamlingen s 34.
31 Prosjektstyring: tid Total varighet av aktiviteter er X + Y, hva er Var(X + Y)? µ X = E(X) = 1 0.10 + 2 0.60 + 3 0.30 = 2.2 µ Y = E(Y) = 1 0.10 + 2 0.20 + 3 0.30 + 4 0.40 = 3.0 E(X + Y) = E(X) + E(Y) = 2.2 + 3.0 = 5.2 σ 2 X = Var(X) = E(X 2 ) µ 2 X = 12 0.10 + 2 2 0.60 + 3 2 0.30 2.2 2 = 5.2 4.84 = 0.36 σy 2 = Var(Y) = E(Y 2 ) µ 2 Y = 1 2 0.10 + 2 2 0.20 + 3 2 0.30 + 4 2 0.40 3.0 2 = 10.00 9.00 = 1.00 32 Prosjektstyring: tid (forts.) σ XY = Cov(X, Y) = E(XY) µ X µ Y = 1 1 0.03 + 2 1 0.05 +... 2.2 3.0 = 6.76 6.6 = 0.16 Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y) = 0.36 + 1.00 + 2 0.16 = 1.68 SD(X + Y) = Var(X + Y) = 1.68 = 1.3
33 Prosjektstyring: penger Inntekt for datainnsamling er: 1200 500X Inntekt for dataanalyse er: 2000 500Y Totalt inntekt er Z = 500 X 500 Y + 3200 = a Y X + a Y Y + b der a X = 500, a Y = 500 og b = 3200. µ X = E(X) = 1 0.10 + 2 0.60 + 3 0.30 = 2.2 µ Y = E(Y) = 1 0.10 + 2 0.20 + 3 0.30 + 4 0.40 = 3.0 E(a x X + a Y Y + b) = a X E(X) + a Y E(Y) + b E(Z) = ( 500) 2.2 + ( 500) 3.0 + 3200 = 600 σ 2 X = Var(X) = 0.36 σ 2 Y = Var(Y) = 1.00 σ XY = Cov(X, Y) = 0.16 Var(a X + a Y Y + b) = a 2 X Var(X) + a2 Y Var(Y) + 2a X a Y Cov(X, Y) Var(Z) = ( 500) 2 0.36 + ( 500) 2 1.00 + 2 ( 500) ( 500)0.16 = 420000 q SD(X + Y) = Var(Z) = 420000 = 648.1 34 Kapittel 4.5 : nytt i 8. utgave Kapittel 4 er som kapittel 3 grunnleggende. Kapittel 3 fortalte om generelle egenskaper ved fordelinger, kapittel 4 tar opp mål for fundamentale parametre som karakteriserer systemet og som vi vil bruke videre. Gjennomsnittet til en fordeling antyder tendensen, og variansen eller standardavviket antyder variabiliteten til systemet. Videre angir kovariansen tendensen til at to stokastiske variabler følger hverandre i et system.
35 Kapittel 4.5 : nytt i 8. utgave NB: Fordelingen er ofte gitt basert på naturlover e.l., men parameterverdiene må ofte estimeres fra målte data. Selv om vi i flere oppgaver oppgir en forventningsverdi (µ), vil den i praksis være funnet fra eksperimentelle data. Kapittel 9 tar opp estimering, for situasjonene når parametre er kjente og ukjente.