TMA4240 Statistikk H2010 Kapittel 6: Kontinuerlige sannsynlighetsfordelinger 6.4-5.7: Normalfordelingen, normalapproksimasjon, eksponensial og gamma. Mette Langaas Foreleses mandag 27. september 2010 2 Normalfordelingen
3 Chebyshevs teorem og normalfordelingen Chebyshevs teorem:p(µ kσ < X < µ + kσ) 1 1 k 2 Nøyaktig for normalfordelingen: k=1: P(µ σ < X < µ + σ) = 0.683 mot Chebyshev 0. k=2: P(µ 2σ < X < µ + 2σ) = 0.954 mot Chebyshev 0.75 k=3: P(µ 3σ < X < µ + 3σ) = 0.997 mot Chebyshev 0.89 4 6.5 Normalapproksimasjon til binomisk fordeling TEO 6.2 Hvis X er en binomisk stokastisk variabel med forventning µ = np og varians σ 2 = np(1 p), så vil den stokastiske variabelen Z = X µ σ = X np np(1 p) når n være tilnærmet standard normalfordelt, n(z; 0, 1).
5 6.5 Normalapproksimasjon til binomisk fordeling 6 Regneeksempel fra Cartoon Guide Binomisk med n = 25, p = 0.5. Hva er P(X 14)?
7 Approksimasjon Figsur fra Cartoon Guide to Statistics. 8 Kontinuitetskorreksjon Figsur fra Cartoon Guide to Statistics.
9 Eksempel: Trafikk-kontroll, mobilbruk Politiet vil aksjonere mot ulovlig mobilbruk i bil, og gjennomfører kontroll ved Lerkendal-rundkjøringen. Antar at antall bilførere som blir bøtelagt i løpet av t timer er Poisson-fordelt med intensitet λ = 5, dvs. med forventning λ t = 5 t. 1. Antall hendelser i disjunkte tidsintervall er uavhengige. 2. Sannsynligheten for at en enkelt hendelse inntreffer innenfor et kort tidsintervall av lengde t er tilnærmet λ t. 3. Sannsynligheten for at mer enn en hendelse skal inntreffe innenfor et kort tidsintervall av lengde t er neglisjerbar. Y=antall hendelser i intervallet [0, t], er Poisson-fordelt p(y; λt) = e λt (λt) y y! y = 0, 1, 2,... hvor λ er gjennomsnittlig antall hendelser per enhet (intervall eller region). 10 Trafikk-kontroll (forts.) La X være tid fra kontrollen starter til første bilfører blir bøtelagt. X=tid til første hendelse, er eksponensialfordelt med forventning E(X) = 1 λ. Tid mellom to påfølgende hendelser har samme fordeling som tid til første hendelse.
11 Eksponensial fordelingen DEF: En kontinuerlig stokastisk variabel X har en eksponensialfordeling med parameter β, hvis sannsynlighetstettheten er gitt ved f (x; β) = { 1 β e x/β, x > 0 0 ellers. hvor β > 0. TEO 6.3, COR 1: Forventing og varians i ekponentialfordelingen er µ = E(X) = β σ 2 = Var(X) = β 2 Annen parameterisering: λ = 1 β brukes også. 12 Eksponensial fordelingen, f (x) f (x; β) for β = 1, 2, 3, 4, 5 (eller λ = 1, 1 2, 1 3, 1 4, 1 5 )
13 Eksempel: Trafikk-kontroll (forts.) 1. Hva er forventet tid til første bøtelegging? 2. Hvor sannsynlig er det at første bot blir skrevet ut før det er gått 20 min? 3. Hva er sannynligheten for at det tar mer enn 3 timer til første bot skrives ut? 4. Dersom ingen er bøtelagt etter 20 min., hva er sannsynligheten for at den første bot ikke blir skrevet ut i løpet av de neste 20 min.? 5. Hva er sannsynligheten for at det tar mer enn en time før 2 bøter er skrevet ut? 14 Ingen hukommelse En lyspære har levetid X, som er eksponentialfordelt med parameter β. f (x; β) = { 1 β e x/β, x > 0 0 ellers. Vi vet at lyspæra har virket i s timer, hva er da sannsynligheten for at den virker t timer til? Har at P(X > s + t X > s) = P(X > s + t s) = 1 F(t), der F (t) = P(X t) er kumulativ fordeling for X, innsatt t.
15 Tid til nte hendelse Trafikk-kontroll:Hva er sannsynligheten for at det tar mer enn en time før 2 bøter er skrevet ut? Lyspærer: Jeg kjøper en pakke med 10 lyspærer til stekeovnen min. Hvor lang tid holder de? SMS til basestasjon: Hvor lang til går det til basestasjonen har mottatt 100 SMS? Trafikk-kontroll: Foto-boks står montert i tunnel. Den kan ta 36 bilder (?). Hvor langt tid tar det før veivesenet bør skifte film? Promillekontroll: Hvor lenge må politiet stå på post før de har fått 5 personer som har blåst rødt? 16 Gamma-fordelingen DEF: En kontinuerlig stokastisk variabel X følger en gammafordeling med parametere α og β, hvis sannsynlighetstettheten er gitt ved f (x; α, β) = { 1 β α Γ(α) x α 1 e x/β, x > 0 0 ellers. hvor α > 0 og β > 0. Parametere: α er formparameter, β er skalaparameter. Eksponensial: er Gamma med α = 1. Erlang: er Gamma med α heltall.
17 Gamma fordelingen (forts.) DEF 6.2: Gammafunksjonen er definert som Γ(α) = 0 x α 1 e x dx for α > 0. Γ(1) = 1. For α positivt naturlig tall: Γ(α) = (α 1) (α 2) (α n) Γ(α n). For α positivt heltall: Γ(α) = (α 1)! TEO 6.3: Forventing og varians i gammafordelingen: µ = E(X) = αβ σ 2 = Var(X) = αβ 2 18 Gammafordelingen, f (x) α=1 α=10 β = 1 β = 4
19 Trafikk-kontroll, mobilbruk (forts.) Hva er sannsynligheten for at det tar mer enn en time før 2 bøter er skrevet ut? La X være antall timar til andre bøtelegging. X er Gammafordelt med α = 2, β = 1 λ = 1 5. P(X > 1) = 1 P(X 1) P(X 1) = 1 0 = 25 1 ( ) 2 1 Γ(2)x 1 e 5x dx 1 0 5 xe 5x dx = delvis integrasjon... = 0.96 P(X > 1) = 1 P(X 1) = 1 0.96 = 0.04 20 6.8 Kjikvadrat fordelingen (mer fullstendig sammen med statistisk inferens) DEF En kontinuerlig stokastisk variabel X er kji-kvadrat fordelt parameter ν (kalt frihetgrader), hvis sannsynlighetstettheten er gitt ved f (x; ν) = { hvor ν er et positivt heltall. 1 2 ν/2 Γ(ν/2) x ν/2 1 e x/2, x > 0 0 ellers. Kji-kvadrat vs. gamma: Kji-kvadrat er gamma med α = ν/2 og β = 2.
21 Kjikvadrat fordelingen (forts.) Forventing og varians i kji-kvadrat fordelingen er µ = E(X) = ν σ 2 = Var(X) = 2 ν 22 6.10 Weibull fordelingen ikke pensum, men mye brukt! DEF: En kontinuerlig stokastisk variabel X er Weibull-fordelt, med parametere α og β, med sannsynlighetstetthet gitt ved f (x) = { αβx β 1 e αx β, x > 0 0 ellers. der α > 0 og β > 0. Eksponensial: spesialtilfelle for β = 1