Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling 1

Geometrisk fordeling Binomisk forsøks-serie En serie likeartete forsøk med to mulige utfall, S og F, i hvert. (Modell) forutsetninger (i) PS ( ) = p konstant i alle forsøk (ii) Uavhengige utfall i forskjellige forsøk. n x (i) X = antall S-er i n forsøk X~ bin( np, ) og PX ( = x) = p(1 p) x (ii) X = antall forsøk til første S X ~ geometrisk ( p) fordelt n x 2

Eksempel. Satser 100 forskjellige rekker i lotto hver uke. Hver uke representerer ett forsøk. S = minst en toppgevinst F = ingen toppgevinst Forutsetningene for en binomisk forsøksrekke er klart realistiske. p= PS ( ) = P(rekke 1 toppg.) + P(rekke 2 toppg.) + + P(rekke 100 toppg.) = 1 1 1 100 100 = + + + = = = 0.00001859 34 34 34 34 5 379 616 7 7 7 7 La X være antall uker i et år som gir toppgevinst X ~ bin( n= 52, p) 52 P(minst en toppg. i et år) PX ( 0) 1 PX ( 0) 1 p(1 p) 0 0 52 0 = > = = = = = = = 52 52 1 (1 p) 1 (1 0,00001859...) 0.000966 0.001 3

Geometrisk fordeling: La nå X være antall forsøk til første S. Mulige verdier: { 1,2,3,4, } Fordeling: f( x) = PX ( = x) for x= 1,2, f(1) = PX ( = 1) = PS ( ) f(2) = PX ( = 2) = PF ( S) = PFPS ( ) ( ) = (1 pp ) x 1 uavh. forsøk f( x) = PF ( F F S) = x 1 PFPF PF PS = x 1 p = ( ) ( ) ( ) ( ) (1 p) Definisjon: X er geometrisk fordelt med parameter p (kort: X ~ geom( p) ) hvis fordelingen er gitt ved x 1 f( x) = PX ( = x) = (1 p) pfor x= 1,2, 1 1 p Kan vises: E( X) =, var( X) = 2 p p 4

I eksemplet: X ~ geom( p) der X = antall uker til første toppgevinst 100 p = = 0.00001859 5 379 616 Forventet antall uker til første toppgevinst: 1 5 379 616 E( X) = 53 796.16 uker 1035 år (ca) p = 100 = = Kanskje medianen til X gir et bedre resultat? Medianen til X er definert som et tall m slik at PX ( m) 0.5 Dvs., vi må løse ligningen Fm= ( ) 0.5 der Fx ( ) = PX ( x) er den kumulative fordelingsfunksjonen for X. 5

Den kumulative fordelingsfunksjonen for X ~ geom( p) : Fx ( ) = PX ( x) Det viser seg lettere å finne PX ( > x) = 1 Fx ( ) først: La (liten) x være et vilkårlig valgt tall blant 1,2,3,. x Da er begivenheten ( X > x) F F F, hvorav binomiske forsøk PX ( > x) = PF ( F F) = (1 p) x x Dermed Fx ( ) = 1 PX ( > x) = 1 (1 p) for x= 1, 2, 6

Medianen for X ~ geom( p) : Fm ( ) = PX ( m) = 0.5 m 1 (1 p) = 0.5 m (1 p) = 0.5 m ln(1 p) = ln(0.5) m = ln(0.5) ln(1 p) I eksemplet ln(0.5) ln(0.5) m = 37 288 uker 717 år (ca) ln(1 p) = ln(1 0.00001859..) = = 7

Normalfordelingen også kalt Gauss-fordelingen er en kontinuerlig fordeling med klokkeformet og symmetrisk tetthetsfunksjon. Definisjon: X er normalfordelt med parametre μ og σ (kort: X ~ N ( µσ, )) [ Tetthet: 1 ( ) 1 f x = e < x< 2πσ 2 x µ 2 2σ ( ) for ] og E X 2 ( ) = µ, var( X) = σ (kan vises) 8

Merk: X kontinuerlig fordelt PX ( = x) = 0 alltid! Hvis vi i en oppgave får oppgitt at en variabel X er N ( µσ, ) fordelt, for eksempel, N(3.5, 2), vet vi automatisk at E( X) = 3.5 og var( X) = 4 Beregning av sannsynligheter i normalfordelingen Eksempel. La X være høyden for en tilfeldig valgt norsk mann. Som modell antar vi X ~ N(180, 6.6) (dvs. μ = E(X) = 180 og σ = SD(X) = 6.6 ) Oppgave: Finn PX ( 190) Det først vi merker oss er at PX ( 190) = PX ( > 190), siden [ ] PX ( 190) = P( X> 190) ( X= 190) = = PX ( > 190) + PX ( = 190) = PX ( > 190) Dermed: PX ( 190) = 1 PX ( 190) = 1 F(190) der Fx ( ) = PX ( x) er den kumulative ford. funksjonen for X 9

(i) Vi må bruke standard normalfordelingen, N(0, 1). Det er bare denne normalfordelingen som er tabulert bak i boka (tabell E3 (D3 i utgave 2) La Z være N(0, 1) fordelt ( EZ ( ) = 0 og var( Z) = 1) La G(z) være den kumulative ford. funksjonen Gz ( ) = PZ ( z) Finn f.eks. PZ ( < 1.32) = PZ ( 1.32) = G( 1.32) 10

Tabell E3 (D3) gir G(-1.32) = 0.0934 z 0 0.01 0.02 0.03 : : : : -1.1 : -1.2 : -1.3 : -1.3.. 0.0934-1.4 : I Excel bruk NORM.DIST funksjonen : PZ< ( 1.32) = 0.093417573... 11

(ii) Overføring av sannsynligheter i en vilkårlig normalfordeling til standardnormalfordelingen. Følgende regel er en viktig egenskap ved normalfordelingen og ligger under overføringen. Regelen står ikke i Løvås, men burde stått der! Regel 1. Hvis X ~ N( µσ, ) og Y = a + bx, der a og b er konstanter, regel 4.7 og 4.9 så er Y ~ N( E( Y ), SD( Y )) = N( a + bµ, b σ) Av regel 1 følger regel 2, som er den vi trenger: Regel 2. X µ Hvis X ~ N( µσ, ), er Z = ~ N(0,1). σ Z kalles standardisert X. regel 1 1 µ µ 1 Z = X der a =, b = Z ~ N( E( Z), SD( Z)), og σ σ σ σ 1 µ 1 µ 1 1 EZ EX Z X σ σ σ σ σ σ regel 4.7 regel 4.9 2 ( ) = ( ) = µ = 0, var( ) = var( ) = σ = 1 2 2 12

Eksempel på anvendelse av regel 1: X ~ N( µσ, ) X ~ N( µσ, ) fordi Y = X a= 0 og b= 1 a+ bµ = µ og b = 1 = 1 Av regel 2 får vi regel 3 (se regel 5.14). Regel 3. x µ Hvis X~ N( µσ, ), er Fx ( ) = PX ( x) = G σ X µ Bevis. La standardisert X være Z =. σ Begivenheten X x er ekvivalent med følgende X µ x µ x µ ( X x) ( X µ x µ ) Z σ σ σ Ekvivalente begivenheter er like sannsynlige. Dermed x µ x µ F( x) = P( X x) = P Z = G Bevis slutt. σ σ 13

Den opprinnelige oppgaven. X ~ N(180, 6.6) regel 3 190 180 tabell E3 PX ( 190) = 1 F(190) = 1 G = 1 G(1.52) = 1 0.9357 = 0.0643 6.6 Altså, i henhold til modellen er ca 6.4% av norske menn 190 cm eller høyere. Vi får også 180 180 X 180 190 180 P(180 X 190) = P = 6.6 6.6 6.6 180 180 190 180 = P Z = P(0 Z 1.52) = G(1.52) G(0) = 6.6 6.6 = 0.9357 0.5 = 0.4357 [Vis selv at hvis Y er en kontinuerlig stok. variabel med kum. ford. funksjon, F(y), så gjelder Pa ( Y b) = Pa ( < Y b) = Fb ( ) Fa ( ) [Hint. Merk at ( Y b) = ( Y a) ( a< Y b) er en disjunkt union. ] 14

Anta X ~ N ( µσ, ). Da gjelder generelt ( i) P( µ σ X µ + σ) = 0.683 ( ii) P( µ 2σ X µ + 2 σ) = 0.954 F.eks. i høydeeksemplet: P(180 2(6.6) X 180 + 2(6.6)) = P(166.8 X 193.2) = 0.954 Intervallet [166.8, 193.2] kalles et 95.4% spredningsintervall for X Bevis for (ii): Merk at begivenheten i (ii) oppfyller X µ µ 2σ X µ + 2σ 2σ X µ 2σ 2 2 σ ( ) ( ) ( Z ) 2 2. Siden ekvivalente begivenheter er like sannsynlige, får vi ( µ σ µ σ) tabell E3 P 2 X + 2 = P( 2 Z 2) = G(2) G( 2) = 0.9772 0.0228 = = 0.9544 Bevis slutt. (Vis (i) selv) 15

Vi trenger begrepet, α kvantil. Løvås definer denne som Definisjon. z kvantilen i α av ligningen PZ ( > z) = α N(0,1) er definert som løsningen α (Merk at α kvantilen er det samme som 1- α persentilen siden PZ ( z α ) = 1 α) α z α 0.100 1.282 0.050 1.645 0.025 1.960 0.010 2.326 0.005 2.576 0.001 3.090 16

1-α sprednings intervall for X (noen ganger kalt eller 100(1-α )% spredningsintervall) Et 1 α spredningsintervall for X ~ N( µσ, ) er gitt ved P( µ z σ X µ + z σ) = 1 α α 2 α 2 Bevis. (se side 15) P( µ z σ X µ + z σ) = P( z Z z ) = α 2 α 2 α 2 α 2 = Gz ( ) G( z ) = 1 α 2 ( α 2) = 1 α Bevis slutt. α 2 α 2 Høydeeksemplet: Vi ønsker et 90% spredningsintervall for α = 0.1 α 2 = 0.05 z = 1.645 α 2 X ~ N(180, 6.6) ( X ) ( ) 0.90 = P 180 (1.645)(6.6) 180 + (1.645)(6.6) = P 169.1 X 190.9 17