6.2 Normalfordeling. Høyde kvinner og menn. 6.1 Kontinuerlig uniform fordeling. Kapittel 6

3 6.2 Normalfordeling Kapittel 6 Noen kontinuerlige sannsynlighetsfordelinger TMA4245 V2007: Eirik Mo Normalfordeling: Sannsynlighetstettheten til en normalfordelt stokastisk variabel, X, med forventning E(X) = µ og varians Var(X) = 2, er gitt ved n(;µ,) = e ( µ) 2 2 2, 2 π for < <, der π=3.42 og e = 2.78. 2 4 6. Kontinuerlig uniform fordeling Høyde kvinner og menn Kontinuerlig uniform fordeling: Sannsynlighetstettheten til den kontinuerlige uniforme stokastiske variabelen X på intervallet [A, B] er f(; A, B) = B A, A B = 0 ellers. f() µ = E(X) = A + B 2 F() og 2 = Var(X) = (B A)2 2 Frequency 0 5 0 5 50 60 70 80 90 200 20

5 7 Høyde kvinner og menn Utvalg fra normalfordeling Density 0.00 0.02 0.04 0.06 0.08 Density 0.00 0.02 0.04 0.06 0.08 65 70 75 80 85 90 95 hogde, menn 60 65 70 75 80 85 hogde, kvinner Eksempel fra notat av Dimakos & Løland, Norsk Regnesentral 6 8 Normalfordelingen Historisk sett Matematisk form av normalfordlingen vist av demoivre i 733. Laplace brukte normalfordelingen til analyse av måleusikkerhet i eksperimenter rundt 800. C.F. Gauss publikasjon 809 matematisk behandling av måleusikkerhet i eksperimenter. Navnet normalfordeling kom rundt 875 (Peirce, Galton, Leis) "No scientific discovery is named after its original discoverer."

Eksempel fra notat av Dimakos & Løland, Norsk Regnesentral Cartoon Guide to Statistics 0 Lokasjon og spredning f 0.0 0. 0.2 0.3 0.4 N(,) N(0,) N(,) N(0,0.5) f3 N(0,) N(0,2) 2 4 2 0 2 4 4 2 0 4 0.0 0.2 0.4 0.6 0.8 2 IQ Poengsummen fra en IQ-test antas ofte å være normalfordelt, og flere av IQ-testene har en forventningsverdi på 00 og et standardavvik på 6. 40 and over Genius or near genius 20-40 Very superior intelligence 0-20 Superior intelligence 90-0 Normal or average intelligence 80-90 Dullness 70-80 Borderline deficiency Below 70 Definite feeble-mindedness f 0.0 0. 0.2 0.3 0.4 N(,) N(,2) 4 2 0 2 4 6 Hva er sannsynligheten for å ha en IQ lavere enn 00? Hva er sannsynligheten for å ha en IQ mellom 80 og 20? For å bli med i Mensa må man oppnå en poengsum høyere enn 98 percentilen i fordelingen for testen. Hvor høy poengsum må man ha for å blir medlem av Mensa?

3 Standard normalfordeling DFF 6.: Fordelingen til en normalfordelt stokastisk variabel, Z, med forventning E(Z) = 0 og varians Var(Z) = kalles en standard normalfordeling. 0.0 0. 0.2 0.3 0.4 3 2 0 2 3 f Z (z) = 2 π e 2 2 z2, f for < z <, der π=3.42 og e = 2.78. 0.0 0.2 0.4 0.6 0.8.0 3 2 0 2 3 5 N(µ, ) og N(0, ) X har fordeling n(;µ,) Z = X µ har fordeling n(z; 0, ) 0.0 0. 0.2 0.3 0.4 P( < X < 2 ) = P( µ 3 2 0 2 3 F = F( 2 µ = Φ( 2 µ 0.0 0.2 0.4 0.6 0.8.0 < Z < 2 µ ) ) F( µ ) ) Φ( µ ) 3 2 0 2 3 6 Fra halesannsynlighet til verdi Cartoon Guide to Statistics X er normalfordelt (µ, ). Finn slik at P(X ) = α. Gitt α finner vi i tabell for standard normalfordling verdien z som oppfyller P(Z z) = α. Sammenheng mellom Z og X: Z = X µ og dermed X = µ + Z. Verdi for X finner vi fra = µ + z.

0.5 0.0 0.5.0.5 2.0 2.5 0 2 3 4 0 2 3 4 0 2 4 6 8 0 0 2 4 6 8 0 2 4 0 0 20 30 40 7 Chebyshevs teorem og normalfordelingen 9 6.5 Normalapproksimasjon til binomisk fordeling Chebyshevs teorem:p(µ k < X < µ + k) k 2 Nøyaktig for normalfordelingen: k=: P(µ < X < µ + ) = 0.683 mot Chebyshev 0. k=2: P(µ 2 < X < µ + 2) = 0.954 mot Chebyshev 0.75 k=3: P(µ 3 < X < µ + 3) = 0.997 mot Chebyshev 0.89 0.0 0.2 0.4 0.6 0.8 n= 2, p= 0. 0.0 0. 0.2 0.3 0.4 n= 0, p= 0. 0.00 0.05 0.0 0.5 n= 50, p= 0. n= 2, p= 0.5 n= 0, p= 0.5 n= 50, p= 0.5 0.0 0. 0.2 0.3 0.4 0.5 0.00 0.05 0.0 0.5 0.20 0.25 0.00 0.02 0.04 0.06 0.08 0.0 8 6.5 Normalapproksimasjon til binomisk fordeling TEO 6.2 Hvis X er en binomisk stokastisk variabel med forventning µ = np og varians 2 = np( p), så vil den stokastiske variabelen Z = X µ = X np np( p) når n være tilnærmet standard normalfordelt, n(z; 0, ). 20 Regneeksempel fra Cartoon Guide Binomisk med n = 25, p = 0.5. Hva er P(X 4)? 0.00 0.05 0.0 0.5 0 5 0 5 20 25

2 Approksimasjon Figur fra Cartoon Guide to Statistics. 23 Togforsinkelsen, forts. La X (minutter) betegne togets forsinkelse på en tilfeldig valgt hverdag. Vi antar at X er en stokastisk variabel med sannsynlighetstetthet { 4e 2 for > 0 g() = 0 for 0 Har tidligere regnet ut at P(X > 2) = 0.09. La V være antall ganger i løpet av en måned (= 22 hverdager) at toget er mer enn 2 minutter forsinket. Foreslå en sannsynlighetsfordeling for V og sett opp de forutsetninger som ligger til grunn for denne. Hva er sannsynligheten for at toget er mer enn 2 minutter forsinket minst 2 ganger i løpet av en måned (= 22 hverdager)? Hva er (tilnærmet) sannsynligheten for at toget er mer enn 2 minutter forsinket mer enn 30 ganger i løpet av 220 hverdager? 22 Kontinuitetskorreksjon Figur fra Cartoon Guide to Statistics. 24 Eksempel: Trafikk-kontroll, mobilbruk Politiet vil aksjonere mot ulovlig mobilbruk i bil, og gjennomfører kontroll ved Lerkendal-rundkjøringen. Antar at antall bilførere som blir bøtelagt i løpet av t timer er Poisson-fordelt med intensitet λ = 5, dvs. med forventning λ t = 5 t.. Antall hendelser i disjunkte tidsintervall er uavhengige. 2. Sannsynligheten for at en enkelt hendelse inntreffer innenfor et kort tidsintervall av lengde t er tilnærmet λ t. 3. Sannsynligheten for at mer enn en hendelse skal inntreffe innenfor et kort tidsintervall av lengde t er neglisjerbar. Y=antall hendelser i intervallet [0, t], er Poisson-fordelt p(y; λt) = e λt (λt) y y! y = 0,, 2,... hvor λ er gjennomsnittlig antall hendelser per enhet (intervall eller region).

25 27 Trafikk-kontroll (forts.) Eksponensial fordelingen, f() f(;β) for β =, 2, 3, 4, 5 (eller λ =, 2, 3, 4, 5 ) La X være tid fra kontrollen starter til første bilfører blir bøtelagt. X=tid til første hendelse, er eksponensialfordelt med forventning E(X) = λ. Tid mellom to påfølgende hendelser har samme fordeling som tid til første hendelse. f() 0.0 0.2 0.4 0.6 0.8.0 beta= beta=2 beta=3 beta=4 beta=5 0 2 4 6 8 0 26 28 Eksponensial fordelingen Eksempel: Trafikk-kontroll (forts.) DEF: En kontinuerlig stokastisk variabel X har en eksponentialfordeling med parameter β, hvis sannsynlighetstettheten er gitt ved hvor β > 0. f(;β) = { β e /β, > 0 0 ellers. TEO 6.3, COR : Forventing og varians i ekponentialfordelingen er µ = E(X) = β 2 = Var(X) = β 2. Hva er forventet tid til første bøtelegging? 2. Hvor sannsynlig er det at første bot blir skrevet ut før det er gått 20 min? 3. Hva er sannynligheten for at det tar mer enn 3 timer til første bot skrives ut? 4. Dersom ingen er bøtelagt etter 20 min., hva er sannsynligheten for at den første bot ikke blir skrevet ut i løpet av de neste 20 min.? 5. Hva er sannsynligheten for at det tar mer enn en time før 2 bøter er skrevet ut? Annen parameterisering: λ = β brukes også.

29 Ingen hukommelse 3 Tid til nte hendelse En lyspære har levetid X, som er eksponentialfordelt med parameter β. f(;β) = { β e /β, > 0 0 ellers. Vi vet at lyspæra har virket i s timer, hva er da sannsynligheten for at den virker t timer til? Har at P(X > s + t X > s) = P(X > s + t s) = F(t), der F(t) = P(X t) er kumulativ fordeling for X, innsatt t. Trafikk-kontroll:Hva er sannsynligheten for at det tar mer enn en time før 2 bøter er skrevet ut? Lyspærer: Jeg kjøper en pakke med 0 lyspærer til stekeovnen min. Hvor lang tid holder de? SMS til basestasjon: Hvor lang til går det til basestasjonen har mottatt 00 SMS? Trafikk-kontroll: Foto-boks står montert i tunnel. Den kan ta 36 bilder (?). Hvor langt tid tar det før veivesenet bør skifte film? Promillekontroll: Hvor lenge må politiet stå på post før de har fått 5 personer som har blåst rødt? 30 Eksempel: Trafikk-kontroll, mobilbruk 32 Gamma-fordelingen Løsning: X er eksponensialfordelt med parameter β = /λ = 5.. E(X) = β = /λ = /5 t = 2 min. 2. P(X 3 ) = F( 3 ) = e β 3 = e 5/3 = 0.9 = 0.8 3. P(X > 3) = P(X 3) = ( e 3/β ) = e 3 5 = 0.0000003 4. P(X > 2 3 X > 3 ) = P(X > 2 3 3 ) = P(X > 3 ) = P(X ) = 0.8 = 0.9 3 DEF: En kontinuerlig stokastisk variabel X følger en gammafordeling med parametere α og β, hvis sannsynlighetstettheten er gitt ved f(;α,β) = { hvor α > 0 og β > 0. β α Γ(α) α e /β, > 0 0 ellers. Parametere: α er formparameter, β er skalaparameter. Eksponensial: er Gamma med α =. Erlang: er Gamma med α heltall.

f f f f 33 Gamma fordelingen (forts.) DEF 6.2: Gammafunksjonen er definert som Γ(α) = 0 α e d for α > 0. Γ() =. For α positivt naturlig tall: Γ(α) = (α ) (α 2) (α n) Γ(α n). For α positivt heltall: Γ(α) = (α )! TEO 6.3: Forventing og varians i gammafordelingen: µ = E(X) = αβ 2 = Var(X) = αβ 2 35 Trafikk-kontroll, mobilbruk (forts.) Hva er sannsynligheten for at det tar mer enn en time før 2 bøter er skrevet ut? La X være antall timar til andre bøtelegging. X er Gammafordelt med α = 2, β = λ = 5. P(X > ) = P(X ) P(X ) = 0 = 25 ( ) 2 e 5 d Γ(2) 0 5 e 5 d = delvis integrasjon... = 0.96 P(X > ) = P(X ) = 0.96 = 0.04 34 Gammafordelingen, f() α= α=0 β = β = 4 0.00 0.05 0.0 0.5 0.20 0.25 0.0 0.2 0.4 0.6 0.8.0 Eksponensial beta= 0 2 4 6 8 f(gamma) alpha= beta= 4 0.000 0.005 0.00 0.05 0.020 0.025 0.030 0.00 0.02 0.04 0.06 0.08 0.0 0.2 f(gamma) alpha= 0 beta= 0 5 0 5 20 25 f(gamma) alpha= 0 beta= 4 36 6.8 Kjikvadrat fordelingen (mer fullstendig sammen med statistisk inferens) DEF En kontinuerlig stokastisk variabel X er kji-kvadrat fordelt parameter ν (kalt frihetgrader), hvis sannsynlighetstettheten er gitt ved f(;ν) = { hvor ν er et positivt heltall. 2 ν/2 Γ(ν/2) ν/2 e /2, > 0 0 ellers. Kji-kvadrat vs. gamma: Kji-kvadrat er gamma med α = ν/2 og β = 2. 0 0 20 30 0 20 40 60 80 00

37 Kjikvadrat fordelingen (forts.) Forventing og varians i kji-kvadrat fordelingen er µ = E(X) = ν 2 = Var(X) = 2 ν Kjikvadrat,5,0,20 0 0.00 0.05 0.0 0.5 0.20 0.25 0.30 0 5 0 5 20 0 38 6.0 Weibull fordelingen (Ikke pensum, men mye brukt!) DEF: En kontinuerlig stokastisk variabel X er Weibull-fordelt, med parametere α og β, med sannsynlighetstetthet gitt ved { αβ f() = β e αβ, > 0 0 ellers. der α > 0 og β > 0. Eksponensial: spesialtilfelle for β = f 0.0 0.2 0.4 0.6 0.8.0.2 0.0 0.5.0.5 2.0