TMA4240 Statistikk H200 4.2: Varians (univariat del) 4.4: Chebyshevs teorem 3.4: Simultanfordelinger Mette Langaas Foreleses onsdag 8. september 200 Mette.Langaas@math.ntnu.no, TMA4240H200 2 4.2 Varians (og kovarians) DEF 4.3: La X være en stokastisk variabel med sannsynlighetsfordeling f (x) og forventning µ = E(X). Variansen til X er σ 2 = Var(X) = E[(X µ) 2 ] = x (x µ) 2 f (x) hvis X er diskret, og σ 2 = Var(X) = E[(X µ) 2 ] = (x µ) 2 f (x)dx hvis X er kontinuerlig. Den positive kvadratroten av variansen, σ = SD(X), kalles standard avviket til X. TEO 4.2: Variansen til en stokastisk variabel X er σ 2 = Var(X) = E(X 2 ) [E(X)] 2 = E(X 2 ) µ 2 Mette.Langaas@math.ntnu.no, TMA4240H200
3 Togforsinkelsen (forts.) 0 x r e ax dx = r! når a > 0 og r er et heltall 0 ar+ { 4xe 2x for x > 0 f X (x) = 0 for x 0 E(X)= Hva er variansen til X? Mette.Langaas@math.ntnu.no, TMA4240H200 4 4.4. Chebyshevs teorem TEO 4.: Chebyshevs teorem Sannsynligheten for at en stokastisk variabel X vil anta en verdi innen k standardavvik fra forventningsverdien er minst /k 2. Det vil si, P(µ kσ < X < µ + kσ) k 2 k=: P(µ σ < X < µ + σ) 2 = 0 k=2: P(µ 2σ < X < µ + 2σ) 2 2 = 0.75 k=3: P(µ 3σ < X < µ + 3σ) 3 2 = 0.89 Mette.Langaas@math.ntnu.no, TMA4240H200
5 (4.2 forts): Varians til en funksjon av en stokastisk variabel TEO 4.3: La X være en stokastisk variabel med sannsynlighetsfordeling f (x). Variansen til den stokastiske variablen g(x) er σ 2 g(x) = E[(g(X) µ g(x)) 2 ] = x [g(x) µ g(x) ] 2 f (x) hvis X er diskret, og σ 2 g(x) = E[(g(X) µ g(x)) 2 ] = [g(x) µ g(x) ] 2 f (x)dx hvis X er kontinuerlig. Mette.Langaas@math.ntnu.no, TMA4240H200 Varians til en lineær funksjon av en stokastisk variabel TEO 4.9: Hvis a og b er konstanter, så er σax+b 2 = Var(aX + b) = a2 Var(X) = a 2 σx 2 COR : Setter vi a = ser vi at Var(X + b) = Var(X) = σx 2. COR 2: Setter vi b = 0 ser vi at Var(aX) = a 2 Var(X) = a 2 σx 2. Mette.Langaas@math.ntnu.no, TMA4240H200
7 Prosjektstyring (forts.) Ser på aktivitet A. Kunden har betalt 200 kr for aktivitet A, og prosjektarbeideren som skal utføre aktivitet A får 500 kr timen. Inntekt for aktivitet A: g(x) = 200 500 X Forventning: E(g(X)) = 00. Hva er Var(g(X))? 2 3 f X (x) 0.0 0.0 0.30 Mette.Langaas@math.ntnu.no, TMA4240H200 8 Forventning og varians, univariat Diskret stokastisk variabel Kontinuerlig stokastisk variabel Forventning: E(X), tyngdepunkt i fordelingen, beste gjett på ny fremtidig observasjon µ = E(X) = x xf (x) µ = E(X) = xf (x)dx µ g(x) = E[g(X)] = x g(x)f (x) µ g(x) = E[g(X)] = g(x)f (x)dxx E(aX + b) = ae(x) + b Varians: Var(X), mål for spredning σ 2 = Var(X) = E[(X µ) 2 ] = E(X 2 ) µ 2 σ 2 = x (x µ)2 f (x) σ 2 = (x µ)2 f (x)dx σg(x) 2 = Var[g(X)] = E[(g(X) µ g(x)) 2 ] σg(x) 2 = x (g(x) µ g(x)) 2 f (x) σg(x) 2 = [g(x) µ g(x)] 2 f (x)dx Var(aX + b) = a 2 Var(X) Standardavvik: SD(X) = Var(X) Mål for spredning på samme skala som originalobservasjonenen. Mette.Langaas@math.ntnu.no, TMA4240H200
9 3.4 Flerdimensjonale sannsynlighetsfordelinger Hittil: en stokastisk variabel ad gangen. Nå: hva om vi i et eksperiment observerer to eller flere stokastiske variable. Burde vi se på dem hver for seg, eller mister vi informasjon hvis vi ikke ser på dem sammen? Situasjoner: Togforsinkelse og opphold på stasjon (eksamen desember 2003) Høyde og vekt av personer. Aktivitet av gen A og gen B ved stimulus med hormon C. Gasstrykk, gassvolum og temperatur i kjemisk forsøk. Aksjekurs for Trønderfrukt og Agderfrukt (eksamen juni 2004) Mette.Langaas@math.ntnu.no, TMA4240H200 0 Kast med to terninger X = maksimum antall øyne Y = absoluttverdi av differanse i antall øyne Utfallsrom og verdier av X og (Y ) (i parentes) første terning 2 3 4 5 (0) 2 () 3 (2) 4 (3) 5 (4) (5) 2 2 () 2 (0) 3 () 4 (2) 5 (3) (4) Andre 3 3 (2) 3 () 3 (0) 4 () 5 (2) (3) terning 4 4 (3) 4 (2) 4 () 4 (0) 5 () (2) 5 5 (4) 5 (3) 5 (2) 5 () 5 (0) () (5) (4) (3) (2) () (0) Mette.Langaas@math.ntnu.no, TMA4240H200
Kast med to terninger (forts.) f(x,y) x 2 3 4 5 0 / / / / / / 0 2/ 2/ 2/ 2/ 2/ 2 0 0 2/ 2/ 2/ 2/ y 3 0 0 0 2/ 2/ 2/ 4 0 0 0 0 2/ 2/ 5 0 0 0 0 0 2/ Mette.Langaas@math.ntnu.no, TMA4240H200 2 Simultanfordeling f (x, y) (diskret) DEF 3.8: Funksjonen f (x, y), er simultanfordelingen til to diskrete stokastiske variable X og Y, dersom. f (x, y) 0 for alle (x, y) 2. x y f (x, y) = 3. P(X = x Y = y) = P(X = x, Y = y) = f (x, y) (punktsannsynlighet) For enhver region A is xy-rommet så er P[(X, Y ) A] = A f (x, y). Mette.Langaas@math.ntnu.no, TMA4240H200
3 Simultanfordeling f (x, y) (kontinuerlig) DEF 3.9: Funksjonen f (x, y), er simultan sannsynlighetstetthet til to kontinuerlige stokastiske variable X og Y, dersom. f (x, y) 0 for alle (x, y) 2. f (x, y)dxdy = 3. P[(X, Y ) A] = A f (x, y)dxdy for enhver region A i (x, y)-planet. Mette.Langaas@math.ntnu.no, TMA4240H200 4 Elektriske komponenter X =levetid elektrisk komponent nr Y =levetid elektrisk komponent nr 2 f (x, y) = e (x+y) for x > 0 og y > 0 og 0 ellers. Oppfyller f (x, y) kravene til en simultan sannsynlighetstetthet? Hva er P(0 < X <, 0 < Y < ) Mette.Langaas@math.ntnu.no, TMA4240H200
5 Elektriske komponenter Mette.Langaas@math.ntnu.no, TMA4240H200 Marginalfordelinger DEF 3.0: Marginalfordelingen for X alene og for Y alene er for det diskrete tilfellet: g(x) = y f (x, y) og h(y) = x f (x, y) og for det kontinuerlige tilfellet: g(x) = f (x, y)dy og h(y) = f (x, y)dx Mette.Langaas@math.ntnu.no, TMA4240H200
7 Kast med to terninger (igjen) X = maksimum antall øyne Y = absoluttverdi av differanse i antall øyne Simultan sannsynlighetsfordeling f (x, y) x 2 3 4 5 h(y) 0 / / / / / / / 0 2/ 2/ 2/ 2/ 2/ 0/ 2 0 0 2/ 2/ 2/ 2/ 8/ y 3 0 0 0 2/ 2/ 2/ / 4 0 0 0 0 2/ 2/ 4/ 5 0 0 0 0 0 2/ 2/ g(x) / 3/ 5/ 7/ 9/ / / Mette.Langaas@math.ntnu.no, TMA4240H200 8 Betingede fordelinger DEF 3.: La X og Y være to stokastiske variable, diskrete eller kontinuerlige. Den betingede fordelingen for den stokastiske variablen Y gitt at X = x er f (y x) = f (x, y) g(x), g(x) > 0 Den betingede fordelingen for den stokastiske variablen X gitt at Y = y er f (x y) = f (x, y) h(y), h(y) > 0 Mette.Langaas@math.ntnu.no, TMA4240H200
9 Uavhengighet DEF 3.2: La X og Y være to stokastiske variable, diskrete eller kontinuerlige, med simultan sannsynlighetsfordeling f (x, y), og marginale fordelinger g(x) og h(y). Da er X og Y uavhengige hvis og bare hvis for alle (x, y). f (x, y) = g(x) h(y) DEF 3.3: La X, X 2,..., X n være n stokastiske variable, diskrete eller kontinuerlige, med simultan sannsynlighetsfordeling f (x, x 2,..., x n ), og marginale fordelinger f (x ), f 2 (x 2 ),..., f n (x n ). Da er X, X 2,..., X n innbyrdes uavhengige hvis og bare hvis f (x, x 2,..., x n ) = f (x ) f 2 (x 2 ) f n (x n ) for alle (x, x 2,..., x n ). Mette.Langaas@math.ntnu.no, TMA4240H200 20 To terninger, antall øyne X = antall øyne på terning Y = antall øyne på terning 2 Simultan sannsynlighetsfordeling f (x, y). 2 Andre 3 terning 4 Første terning 2 3 4 5 h(y) 5 g(x) Mette.Langaas@math.ntnu.no, TMA4240H200
2 Togforsinkelsen, forts. La X (minutter) betegne togets forsinkelse på en tilfeldig valgt hverdag. Vi antar at X er en stokastisk variabel med sannsynlighetstetthet { 4xe 2x for x > 0 g(x) = 0 for x 0 La Y (minutter) være den tiden toget står på stasjonen. Oppholdstiden Y vil være influert av forsinkelsen, og vi antar at den betingede sannsynlighetstetthet f (y x) for Y, gitt at forsinkelsen X er lik x (> 0), er gitt ved { (x/2) e xy/2 for y > 0 f (y x) = 0 for y 0 ) Sett opp simultantettheten f (x, y) for X og Y. 2) Finn sannsynlighetstettheten h(y) for oppholdstiden Y. Mette.Langaas@math.ntnu.no, TMA4240H200 22 Togforsinkelsen: fordelinger f (y x) g(x) f (x, y) h(y) Mette.Langaas@math.ntnu.no, TMA4240H200
23 Oppsummering 3.4 Funksjonen f (x, y), er simultan sannsynlighetsfordeling for X og Y. Marginalfordelinger: g(x) = y f (x, y) og h(y) = x f (x, y) diskret g(x) = f (x, y)dy og h(y) = f (x, y)dx kontinuerlig Betingede fordelinger: f (y x) = f (x, y)/g(x), g(x) > 0 f (x y) = f (x, y)/h(y), h(y) > 0 Uavhengighet: X og Y uavhengige hvis og bare hvis f (x, y) = g(x) h(y) for alle (x, y). Mette.Langaas@math.ntnu.no, TMA4240H200