Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

Eco 130 uke 15 (HG) Poissofordelige og iførig i estimerig 1

Poissofordelige (i) Tilærmig til biomialfordelige. Regel. ( Poissotilærmelse ) Ata Y ~ bi(, p) E( Y ) = p og var( Y ) = p(1 p). Hvis er stor og p er lite, gjelder PY ( = y) = p (1 p) y der e =.7188188 y y ( p) y! y e p 100 Excel 4 96 Eksempel: = 100 og p = 0.05 p = 5 og eksakt: P( Y = 4) = (0.05) (0.95) = 0,1781... 4 4 5 5 Poisso-tilærmig: PY ( = 4 ) e = 0.17547.... 4! Med Excel: (Eksakt beregig) -> 10 0 50 100 500 5000 p 0.5 0.5 0.1 0.05 0.01 0.001 p 5 5 5 5 5 5 PY= ( 4) 0.0508 0.18969 0.18090 0.17814 0.17600 0.1755 Til.- feil 0.0961 0.014 0.00543 0.0067 0.00053 0.00005

(ii) Defiisjo av poissofordelige X er poissofordelt med parameter m, hvis x m m PX ( = x) = e for x= 0,1,,3, x! Det ka vises at: E( X) = m og var( X) = m Vi skriver kort: X ~ pois( m) x m m (og at PX ( = x) = e = 1) x! x= 0 x= 0 Eksempel: Hvis det i e oppgave er oppgitt at EY ( ) = var( Y) = 5 Y ~ pois(5), følger implisitt at I tabell E (D i utg. ) bak i Løvås er de kumulative s. fuksjoe tabulert for oe poisso-fordeliger: Fx ( ) = PX ( x) F.eks., hvis Y ~ pois(5), fier vi av tabelle (sjekk!) PY ( = 4) = PY ( 4) PY ( 3) = 0.440 0.65 = 0.175 (I Excel bereges poisso-sasyligheter med POISSON.DIST fuksjoe.) 3

Når er poissofordelige realistisk? Flere måter å begrue realisme. Måte 1 består i å vise til tilærmelse vi startet med dvs. å vise til e bakeforliggede biomisk (eller hypergeometrisk) modell der er stor og p er lite. Eksempel. La X være atall aalfabeter i et represetativt utvalg på = 1000 persoer trukket fra de vokse orske befolkige. Uder forutsetig av at utvalget er represetativt (i betydige ret tilfeldig - som, ideelt sett, betyr at alle mulige utvalg på = 1000 er like sasylige), følger at X er hypergeometrisk fordelt M N M x x N = atall (vokse) persoer i populasjoe Modell A: PX ( = x) =, der N M = atall aalfabeter i populasjoe (Modell A er e relativt komplisert (matematisk sett) modell. Me i dette tilfellet ka de forekles betraktelig ute vesetlig tap av realisme:) 4

Første modell-foreklig: La p= M N være adele av aalfabeter i populasjoe. Side populasjoe er stor i forhold til utvalget (tommelfigerregel N > 10 ), ka vi bruke regel 5.5 som sier at hypergeometriske sasyligheter er tilærmet biomiske x x PX ( = x) p(1 p) for x= 0,1,,,, der p= MN x Så, ute vesetlig tap av realisme, ka vi erstatte de kompliserte modell A med de eklere Model l B: Ata X~ bi( p, ) der p= MN Adre modell-foreklig: (Merk at vi har blitt kvitt N.) I dette tilfellet er åpebart p svært lite, og utvalgsstørrelse = 1000 er rimelig stor. Så, ute vesetlig tap av realisme, ka vi bytte ut de biomiske modelle med e (eklere) poisso-modell: Mo dell C: M Ata X ~ pois( m), der m = p = N M (som implisitt E( X) = var( X) = m= ) N 5

Måte Poissofordelige er ofte brukt for å modellere isidesrater. E isidesrate er et mål på gjeomsittlig atall begiveheter pr. tidsehet, f. eks. atall trafikkuhell pr. måed på e gitt veistrekig. Forutsetiger (ituitive) for e poisso-prosess. La S være e hedelse som av og til skjer over tid f. eks. trafikkuhell på e gitt veistrekig. De tre følgede forutsetigee impliserer poissofordelige. a) Uavhegighet. Atall S-er i et tidsitervall er uavhegig av atall S-er i et aet ikke-overlappede tidsitervall. b) Ige opphopig. S-ee itreffer ekeltvis (ikke flere S-er samtidig). c) Kostat isidesrate. Forvetet atall S-er pr. tidsehet (ofte kalt lambda ( λ) ) er kostat. La X være atall S-er som itreffer i et tidsitervall på t tidseheter. E matematisk presiserig av a), b), c) impliserer at X ~ pois( λt). (Merk at dette medfører E( X) = λt = var( X).) 6

Eksempel. La hedelse S bety at e bil passerer et gitt sted på e vei, og X = atall biler som passerer i et tidsitervall på t tidseheter. For at forutsetigee a),b),c) skal være realistiske bør vi ata at det ikke er mye trafikk på veie slik at bilee stort sett passerer ekeltvis. Hvis trafikke øker, vil bilee få e tedes til å passere gruppevis oe som bryter mot b). Også forutsetig c) ka syes urealistisk forvetet atall passeriger pr. tidsehet er atakelig forskjellig mellom midt på dage og midt på atte. På de ae side, i et begreset tidsrom virker forutsetige realistisk. (Eksempel slutt) Tolkig av parametere : λ X 1 1 E( X) = λt E = E( X) = tλ = λ t t t X Merk at de stokastiske variabele agir atall hedelser S pr. tidsehet t ved et ekelt ervasjostilfelle (med gitt t), mes λ betyr forvetet verdi av X/t - dvs. gjeomsittlig verdi av X/t ved mage ervasjostilfeller ( i det lage løp ). 7

Eksempel. I et gitt veikryss var det 60 trafikkuhell i løpet av et år. ( Dette er våre data). Aslå (estimer) sasylighete for at det este uke ikke skal skje oe uhell. La Y være atall trafikkuhell i e vilkårlig uke.. Vi atar Y~ pois( λ), der λ = EY ( ) er e ukjet parameter (modellatakelse 1) (dvs. hvis sae verdi er ukjet). Øsker altså å aslå 0 λ λ λ PY ( = 0) = e = e. Dvs. vi treger et aslag på λ. 0! Ituitivt : Data gir 60 uhell i løpet av et år = 5 uker dvs. gjeomsittlig 60/5 = 1.15 uhell pr. uke. Dette er det aturlige estimatet (aslaget) på λ = EY ( ) Med dette blir vårt estimat på PY 1.15 ( = 0) : e = 0.3... Og estimatet på reste av fordelige (1.15) y! y e 1.15, for y = 0,1,, y Sas.het 0 0.3 1 0.36 0.1 3 0.08 4 0.0 5 0.01.. 8

Teori: For å kue vurdere dee metode statistisk, treger vi e modell for data (dvs. for mekaisme som har produsert data). Velger tidsehet 1 uke. Ett år = 5 tidseheter (dvs. t = 5). La X være atall uhell i et år. Vi atar forutsetigee for e poissoprosess oppfylt slik at X ~ pois( tλ) = pois(5 λ) der λ er e ukjet parameter (de samme som før). Data represeterer e ervasjo av X, som vi vil betege med X = 60. Vårt aslag på λ er X t = 60 5 = 1.15. (Modellforutsetig ) Dette aslaget (kalt estimat) oppfattes som e ervasjo av e stokastisk variabel (kalt estimator) ˆ X X λ = = t 5 (Side 7 E( ˆ λ) = E( X t) = λ) Egeskaper (i) ˆλ har de statistiske egeskape at E( ˆ λ) = λ. E estimator med forvetig lik de ukjete parametere (estimade) vi øsker å estimere, kalles forvetigsrett. ˆ ˆ X 1 1 λ (ii) λ har varias var( λ) = var = var( X) = tλ = t t t t (iii) Regel 5.0 tilærmet X ~ N( E( X ), SD( X )) = N( tλ, tλ) tilærmet ˆ λ ~ N( E( ˆ λ), SD( ˆ λ)) = N( λ, λ t ) 9

Statistikk i et øtteskall X, X, 1 ukjete parametre x1, x, αβ,, µσ,, λ, 10

Estimerig Problem: Estimer gjeomsittlig tre-diameter 1 meter over bakke for trær i Nordmarka. Utvalg: = 3 trær er trukket ret tilfeldig fra Nordmarka og diameter målt: DATA x1 x x3 Sum 68 8 44 194 Gj. sitt. x = 194 3 = 64.7 (aturlig estimat på µ ) POPULASJON (trær i Nordmarka) La X være diametere for et tilfeldig tre i Nordmarka. X er e stokastisk variabel med ukjet fordelig f( x) (som vi kaller populasjosfordelige) E( X) = µ og var( X) = σ der µσ, er ukjete parametre. µ tolkes som gjeomsitts-diametere i hele skoge. Vi øsker å estimere µ. Modell for et represetativt utvalg (uid-modelle) X, X,, X er uavhegige og idetisk fordelte 1 der X har samme fordelig som X (dvs. X ~ f( x) for alle i.) i (Utvalget er ikke-represetativt hvis har e ae fordelig e f( x).) X i i 11

Termiologi Estimatet x = 64.7 er e ervasjo av e stokastisk variabel ˆ µ = X som kalles estimator. De erverte verdie av ˆµ idikeres av og til ved idekse ( ˆ µ = X = x = 64.7 ) E estimator er e erverbar stokastisk variabel. At de er erverbar betyr at de ikke avheger av oe ukjete størrelser (ukjete parametre) slik at vi ka rege ut e verdi (ervasjo) av de ut fra data. X µ F. eks. X er erverbar mes de stadardiserte Z = er ikke erverbar. σ Selv om vi ikke ka ervere Z, har Z e sasylighets-fordelig (tilærmet N(0,1)). Alterative estimatorer for µ beteges ofte med akseter ˆ µµµ,,, µ, ˆ µ, osv. * ˆ Defiisjo. Hvis θ (teta) er e parameter og ˆ θ e estimator, sies ˆ θ å være forvetigsrett hvis E( ˆ θ) = θ. Vi har vist før at i uid-modelle gjelder E X X X ( ) = µ, var( ) = σ og er tilærmet ormalfordelt for "stor". ˆ ˆ ˆ Dermed er µ = X forvetigsrett, var( µ ) = σ, og µ er tilærmet ormalfordelt. 1

Alterativ estimator. 1 1 µ = ( X1+ X + 3 X3) Observert verdi µ = (68 + 8 + 3 44) = 60.7 6 6 Hvilket av de to estimatee, 64.7 og 60.7, er mest troverdig? Også µ er forvetigsrett. regel 4.1 1 1 1 3 E( µ ) = E ( X + X + 3 X ) = ( µ + µ + 3 µ ) = µ 6 6 Prisipp: (i) Variase til e forvetigsrett estimator er et uttrykk for estimatores presisjo dvs. desto midre varias, desto større presisjo. (ii) For to alterative forvetigsrette estimatorer, velg de som har mist varias. regel 4.17 Vi får var( µ ) var 1 = ( X1+ X + 3 X3) = 1 ( σ + 4σ + 9 σ ) = 14 σ 6 36 36 σ 1 14 Vi har (fra før) var( ˆ µ ) = var( X ) = = σ < σ = var( µ ) 3 36 36 Dermed er estimatet, ˆ µ = 64.7, mest troverdig. 13

Estimerig av populasjosvariase var( X ) = σ Vi treger som valigvis å estimere σ som oftest er ukjet. Uid-modelle: X, X,, X er uavhegige og idetisk fordelte med felles 1 fordelig, f( x), E(X i) = µ, og var( Xi) = σ. Valig estimator for (i) Uid modelle σ er utvalgsvariase, σˆ er forvetigsrett, dvs. 1 ˆ σ ( ) = S = Xi X 1 i= 1 E( ˆ σ ) = σ. (Bevist i boka uder regel 6.3) I eksemplet er 3, og estimatet for blir = 1 1 σ ˆ = ( Xi X) = (68 64.7) + (8 64 + ) = 369. 1 i= 1 σ.7) (44 64.7 335 14

Valig estimator for populasjos-stadardavviket σ = var( X ) er, rett og slett, 1 ˆ σ = S = ( Xi X) 1 i= 1 (utvalgs-stadardavviket) I eksemplet blir estimatet: ˆ σ = ˆ σ = 369.335 = 19.181 Estimatore σˆ er ikke forvetigsrett! Bevis: ( E ˆ ) (vi ser bort fra mulighete at () i ( ) ( ) ( ) 0< var( ˆ σ) = E ˆ σ E( ˆ σ) = σ E( ˆ σ) ( σ) < σ E( ˆ σ) < σ var( ˆ σ ) = 0 som X er e kostat.) Bevis slutt. Så, ˆ σ er forvetigsskjev de har e tedes til å uderestimere σ litt, me i praksis, hvis ikke er svært lite, reges dee skjevhete for eglisjerbar. Når øker, vil skjevhete gå mot 0 (ka vises). 15

Begrepet stadardfeil ( stadard error på egelsk) La θ (teta) være e ukjet parameter og ˆ θ e estimator ( θˆ er e erverbar stokastisk variabel også kalt e ervator ( statistic på egelsk)) Estimerigsfeil Kvadrert estimerigsfeil ˆ θ θ ( ˆ θ θ) (stokastisk variabel) (stokastisk variabel) Forvetet kvadrert estimerigsfeil E ( ˆ θ θ) (tall) Defiisjo. def Stadardfeil for ˆ θ = E ( ˆ θ θ) SE( ˆ = θ) def ˆ ˆ ˆ ˆ (Fra før: stadardavviket til θ = var( θ) = E ( θ E( θ)) ) Koklusjo: Hvis θˆ er forvetigsrett ( E( ˆ θ) = θ), er stadardfeile til ˆ θ det samme som stadardavviket til ˆ θ (dvs SE( ˆ θ) = var( ˆ θ) = SD( ˆ θ)) 16

Eksempel. (Oppsummerig) La x1, x,, x være uavhegige ervasjoer av X med populasjosfordelig E( X) = µ og var( X) = σ. f( x), Statistisk modell: X1, X,, X er uavhegige og idetisk fordelte (uid) med felles fordelig lik de for X ( f( x) ), E( Xi ) = µ og var( X) = σ (ukjete) og x = X i = Da er ( ) for 1,,, i i 1 ˆ µ = X og ˆ σ = S = ( X X) i 1 i= 1 Stadardfeile til ˆµ σ er SE( ˆ µ ) = var( ˆ µ ) = var( X ) = = som valigvis er ukjet og estimeres ved ˆ σ SE( ˆ µ ) = Excel descriptives DATA (x) Mea 64.66667 68 Stadard Error 11.09554 8 Media 68 44 Mode #N/A Stadard Deviatio 19.1805 Sample Variace 369.3333 begge forvetigsrette estimatorer. σ Kurtosis #DIV/0! Skewess -0.75704 Rage 38 Miimum 44 Maximum 8 Sum 194 Cout 3 µ = ˆ SE ( ˆ µ ) σ = S ˆ σ = S X ˆ 17