Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering



Like dokumenter
TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Econ 2130 Forelesning uke 11 (HG)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

som vi ønsker å si noe om basert på data Eksempel. Uid-modellen: X1, X ,,,

Mer om utvalgsundersøkelser

STK1100 våren 2017 Estimering

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

Oppgaven består av 9 delspørsmål, A,B,C,., som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<.. >>.

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

Oppgaver fra boka: X 2 X n 1

Kapittel 8: Estimering

betegne begivenheten at det trekkes et billedkort i trekning j (for j=1,2,3), og komplementet til

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 5 Estimering. Målemodellen.

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

Oversikt over konfidensintervall i Econ 2130

Oversikt over konfidensintervall i Econ 2130

Estimering 1 -Punktestimering

Statistikk og økonomi, våren 2017

Estimering 1 -Punktestimering

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

ÅMA110 Sannsynlighetsregning med statistikk, våren Noen viktige sannsynlighetsmodeller. Binomisk modell. Kp. 3 Diskrete tilfeldige variable

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering.

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

Ukeoppgaver i BtG207 Statistikk, uke 4 : Binomisk fordeling. 1

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

MOT310 Statistiske metoder 1, høsten 2011

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

TMA4240 Statistikk Høst 2009

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

ECON240 Statistikk og økonometri

Oppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

TMA4240 Statistikk Eksamen desember 2015

Oversikt over konfidensintervall i Econ 2130

TMA4240 Statistikk Høst 2015

Kapittel 7: Noen viktige sannsynlighetsfordelinger

TMA4245 Statistikk Eksamen mai 2017

Modeller og parametre. STK Punktestimering - Kap 7. Eksempel støtfangere. Statistisk inferens. Binomisk fordeling. p X (x) = p x (1 p) n x

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

8 (inkludert forsiden og formelsamling) Tegne- og skrivesaker, kalkulator, formelsamling (se vedlagt).

Kap. 9: Inferens om én populasjon

TMA4240 Statistikk Høst 2016

Estimering 2. -Konfidensintervall

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

TMA4245 Statistikk Vår 2015

TMA4240 Statistikk Høst 2016

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

3MX 2007/8 - Kapittel 5: 8. januar 5. februar 2008

Høgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 12. desember 2008

Løsning TALM1005 (statistikkdel) juni 2017

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

Populasjon, utvalg og estimering

2. Hypotesetesting i ulike sitausjoner: i. for forventingen, μ, i målemodellen med normalantakelse og kjent varians, σ 2.

Høgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 20. mai 2008

Løsningsforslag til eksamen i STK desember 2010

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 2

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Løsningsforslag ST2301 øving 3

Eksempeloppgave REA3028 Matematikk S2 Eksempel på eksamen våren 2015 etter ny ordning. Ny eksamensordning. Del 1: 3 timer (uten hjelpemidler)

Kap. 9: Inferens om én populasjon

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

Rep.: generelle begrep og definisjoner Kp. 10.1, 10.2 og 10.3

Metoder for politiske meningsmålinger

«Uncertainty of the Uncertainty» Del 4 av 6

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

Hypotesetesting, del 4

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4

Forelesning 4 og 5 Transformasjon, Weibull-, lognormal, beta-, kji-kvadrat -, t-, F- fordeling

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 4. Hypotesetesting, del 4

TMA4245 Statistikk Eksamen august 2015

TMA4240 Statistikk H2010

Kapittel 7: Noen viktige sannsynlighetsfordelinger

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

n 2 +1) hvis n er et partall.

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

MOT310 Statistiske metoder 1, høsten 2012

UNIVERSITETET I OSLO

Løsningsforslag Oppgave 1

Noen vanlige. Indikatorfordeling: 1, dersom suksess. I mange situasjoner kan fenomenet vi ser på. 0, dersom ikke suksess

Transkript:

Eco 130 uke 15 (HG) Poissofordelige og iførig i estimerig 1

Poissofordelige (i) Tilærmig til biomialfordelige. Regel. ( Poissotilærmelse ) Ata Y ~ bi(, p) E( Y ) = p og var( Y ) = p(1 p). Hvis er stor og p er lite, gjelder PY ( = y) = p (1 p) y der e =.7188188 y y ( p) y! y e p 100 Excel 4 96 Eksempel: = 100 og p = 0.05 p = 5 og eksakt: P( Y = 4) = (0.05) (0.95) = 0,1781... 4 4 5 5 Poisso-tilærmig: PY ( = 4 ) e = 0.17547.... 4! Med Excel: (Eksakt beregig) -> 10 0 50 100 500 5000 p 0.5 0.5 0.1 0.05 0.01 0.001 p 5 5 5 5 5 5 PY= ( 4) 0.0508 0.18969 0.18090 0.17814 0.17600 0.1755 Til.- feil 0.0961 0.014 0.00543 0.0067 0.00053 0.00005

(ii) Defiisjo av poissofordelige X er poissofordelt med parameter m, hvis x m m PX ( = x) = e for x= 0,1,,3, x! Det ka vises at: E( X) = m og var( X) = m Vi skriver kort: X ~ pois( m) x m m (og at PX ( = x) = e = 1) x! x= 0 x= 0 Eksempel: Hvis det i e oppgave er oppgitt at EY ( ) = var( Y) = 5 Y ~ pois(5), følger implisitt at I tabell E (D i utg. ) bak i Løvås er de kumulative s. fuksjoe tabulert for oe poisso-fordeliger: Fx ( ) = PX ( x) F.eks., hvis Y ~ pois(5), fier vi av tabelle (sjekk!) PY ( = 4) = PY ( 4) PY ( 3) = 0.440 0.65 = 0.175 (I Excel bereges poisso-sasyligheter med POISSON.DIST fuksjoe.) 3

Når er poissofordelige realistisk? Flere måter å begrue realisme. Måte 1 består i å vise til tilærmelse vi startet med dvs. å vise til e bakeforliggede biomisk (eller hypergeometrisk) modell der er stor og p er lite. Eksempel. La X være atall aalfabeter i et represetativt utvalg på = 1000 persoer trukket fra de vokse orske befolkige. Uder forutsetig av at utvalget er represetativt (i betydige ret tilfeldig - som, ideelt sett, betyr at alle mulige utvalg på = 1000 er like sasylige), følger at X er hypergeometrisk fordelt M N M x x N = atall (vokse) persoer i populasjoe Modell A: PX ( = x) =, der N M = atall aalfabeter i populasjoe (Modell A er e relativt komplisert (matematisk sett) modell. Me i dette tilfellet ka de forekles betraktelig ute vesetlig tap av realisme:) 4

Første modell-foreklig: La p= M N være adele av aalfabeter i populasjoe. Side populasjoe er stor i forhold til utvalget (tommelfigerregel N > 10 ), ka vi bruke regel 5.5 som sier at hypergeometriske sasyligheter er tilærmet biomiske x x PX ( = x) p(1 p) for x= 0,1,,,, der p= MN x Så, ute vesetlig tap av realisme, ka vi erstatte de kompliserte modell A med de eklere Model l B: Ata X~ bi( p, ) der p= MN Adre modell-foreklig: (Merk at vi har blitt kvitt N.) I dette tilfellet er åpebart p svært lite, og utvalgsstørrelse = 1000 er rimelig stor. Så, ute vesetlig tap av realisme, ka vi bytte ut de biomiske modelle med e (eklere) poisso-modell: Mo dell C: M Ata X ~ pois( m), der m = p = N M (som implisitt E( X) = var( X) = m= ) N 5

Måte Poissofordelige er ofte brukt for å modellere isidesrater. E isidesrate er et mål på gjeomsittlig atall begiveheter pr. tidsehet, f. eks. atall trafikkuhell pr. måed på e gitt veistrekig. Forutsetiger (ituitive) for e poisso-prosess. La S være e hedelse som av og til skjer over tid f. eks. trafikkuhell på e gitt veistrekig. De tre følgede forutsetigee impliserer poissofordelige. a) Uavhegighet. Atall S-er i et tidsitervall er uavhegig av atall S-er i et aet ikke-overlappede tidsitervall. b) Ige opphopig. S-ee itreffer ekeltvis (ikke flere S-er samtidig). c) Kostat isidesrate. Forvetet atall S-er pr. tidsehet (ofte kalt lambda ( λ) ) er kostat. La X være atall S-er som itreffer i et tidsitervall på t tidseheter. E matematisk presiserig av a), b), c) impliserer at X ~ pois( λt). (Merk at dette medfører E( X) = λt = var( X).) 6

Eksempel. La hedelse S bety at e bil passerer et gitt sted på e vei, og X = atall biler som passerer i et tidsitervall på t tidseheter. For at forutsetigee a),b),c) skal være realistiske bør vi ata at det ikke er mye trafikk på veie slik at bilee stort sett passerer ekeltvis. Hvis trafikke øker, vil bilee få e tedes til å passere gruppevis oe som bryter mot b). Også forutsetig c) ka syes urealistisk forvetet atall passeriger pr. tidsehet er atakelig forskjellig mellom midt på dage og midt på atte. På de ae side, i et begreset tidsrom virker forutsetige realistisk. (Eksempel slutt) Tolkig av parametere : λ X 1 1 E( X) = λt E = E( X) = tλ = λ t t t X Merk at de stokastiske variabele agir atall hedelser S pr. tidsehet t ved et ekelt ervasjostilfelle (med gitt t), mes λ betyr forvetet verdi av X/t - dvs. gjeomsittlig verdi av X/t ved mage ervasjostilfeller ( i det lage løp ). 7

Eksempel. I et gitt veikryss var det 60 trafikkuhell i løpet av et år. ( Dette er våre data). Aslå (estimer) sasylighete for at det este uke ikke skal skje oe uhell. La Y være atall trafikkuhell i e vilkårlig uke.. Vi atar Y~ pois( λ), der λ = EY ( ) er e ukjet parameter (modellatakelse 1) (dvs. hvis sae verdi er ukjet). Øsker altså å aslå 0 λ λ λ PY ( = 0) = e = e. Dvs. vi treger et aslag på λ. 0! Ituitivt : Data gir 60 uhell i løpet av et år = 5 uker dvs. gjeomsittlig 60/5 = 1.15 uhell pr. uke. Dette er det aturlige estimatet (aslaget) på λ = EY ( ) Med dette blir vårt estimat på PY 1.15 ( = 0) : e = 0.3... Og estimatet på reste av fordelige (1.15) y! y e 1.15, for y = 0,1,, y Sas.het 0 0.3 1 0.36 0.1 3 0.08 4 0.0 5 0.01.. 8

Teori: For å kue vurdere dee metode statistisk, treger vi e modell for data (dvs. for mekaisme som har produsert data). Velger tidsehet 1 uke. Ett år = 5 tidseheter (dvs. t = 5). La X være atall uhell i et år. Vi atar forutsetigee for e poissoprosess oppfylt slik at X ~ pois( tλ) = pois(5 λ) der λ er e ukjet parameter (de samme som før). Data represeterer e ervasjo av X, som vi vil betege med X = 60. Vårt aslag på λ er X t = 60 5 = 1.15. (Modellforutsetig ) Dette aslaget (kalt estimat) oppfattes som e ervasjo av e stokastisk variabel (kalt estimator) ˆ X X λ = = t 5 (Side 7 E( ˆ λ) = E( X t) = λ) Egeskaper (i) ˆλ har de statistiske egeskape at E( ˆ λ) = λ. E estimator med forvetig lik de ukjete parametere (estimade) vi øsker å estimere, kalles forvetigsrett. ˆ ˆ X 1 1 λ (ii) λ har varias var( λ) = var = var( X) = tλ = t t t t (iii) Regel 5.0 tilærmet X ~ N( E( X ), SD( X )) = N( tλ, tλ) tilærmet ˆ λ ~ N( E( ˆ λ), SD( ˆ λ)) = N( λ, λ t ) 9

Statistikk i et øtteskall X, X, 1 ukjete parametre x1, x, αβ,, µσ,, λ, 10

Estimerig Problem: Estimer gjeomsittlig tre-diameter 1 meter over bakke for trær i Nordmarka. Utvalg: = 3 trær er trukket ret tilfeldig fra Nordmarka og diameter målt: DATA x1 x x3 Sum 68 8 44 194 Gj. sitt. x = 194 3 = 64.7 (aturlig estimat på µ ) POPULASJON (trær i Nordmarka) La X være diametere for et tilfeldig tre i Nordmarka. X er e stokastisk variabel med ukjet fordelig f( x) (som vi kaller populasjosfordelige) E( X) = µ og var( X) = σ der µσ, er ukjete parametre. µ tolkes som gjeomsitts-diametere i hele skoge. Vi øsker å estimere µ. Modell for et represetativt utvalg (uid-modelle) X, X,, X er uavhegige og idetisk fordelte 1 der X har samme fordelig som X (dvs. X ~ f( x) for alle i.) i (Utvalget er ikke-represetativt hvis har e ae fordelig e f( x).) X i i 11

Termiologi Estimatet x = 64.7 er e ervasjo av e stokastisk variabel ˆ µ = X som kalles estimator. De erverte verdie av ˆµ idikeres av og til ved idekse ( ˆ µ = X = x = 64.7 ) E estimator er e erverbar stokastisk variabel. At de er erverbar betyr at de ikke avheger av oe ukjete størrelser (ukjete parametre) slik at vi ka rege ut e verdi (ervasjo) av de ut fra data. X µ F. eks. X er erverbar mes de stadardiserte Z = er ikke erverbar. σ Selv om vi ikke ka ervere Z, har Z e sasylighets-fordelig (tilærmet N(0,1)). Alterative estimatorer for µ beteges ofte med akseter ˆ µµµ,,, µ, ˆ µ, osv. * ˆ Defiisjo. Hvis θ (teta) er e parameter og ˆ θ e estimator, sies ˆ θ å være forvetigsrett hvis E( ˆ θ) = θ. Vi har vist før at i uid-modelle gjelder E X X X ( ) = µ, var( ) = σ og er tilærmet ormalfordelt for "stor". ˆ ˆ ˆ Dermed er µ = X forvetigsrett, var( µ ) = σ, og µ er tilærmet ormalfordelt. 1

Alterativ estimator. 1 1 µ = ( X1+ X + 3 X3) Observert verdi µ = (68 + 8 + 3 44) = 60.7 6 6 Hvilket av de to estimatee, 64.7 og 60.7, er mest troverdig? Også µ er forvetigsrett. regel 4.1 1 1 1 3 E( µ ) = E ( X + X + 3 X ) = ( µ + µ + 3 µ ) = µ 6 6 Prisipp: (i) Variase til e forvetigsrett estimator er et uttrykk for estimatores presisjo dvs. desto midre varias, desto større presisjo. (ii) For to alterative forvetigsrette estimatorer, velg de som har mist varias. regel 4.17 Vi får var( µ ) var 1 = ( X1+ X + 3 X3) = 1 ( σ + 4σ + 9 σ ) = 14 σ 6 36 36 σ 1 14 Vi har (fra før) var( ˆ µ ) = var( X ) = = σ < σ = var( µ ) 3 36 36 Dermed er estimatet, ˆ µ = 64.7, mest troverdig. 13

Estimerig av populasjosvariase var( X ) = σ Vi treger som valigvis å estimere σ som oftest er ukjet. Uid-modelle: X, X,, X er uavhegige og idetisk fordelte med felles 1 fordelig, f( x), E(X i) = µ, og var( Xi) = σ. Valig estimator for (i) Uid modelle σ er utvalgsvariase, σˆ er forvetigsrett, dvs. 1 ˆ σ ( ) = S = Xi X 1 i= 1 E( ˆ σ ) = σ. (Bevist i boka uder regel 6.3) I eksemplet er 3, og estimatet for blir = 1 1 σ ˆ = ( Xi X) = (68 64.7) + (8 64 + ) = 369. 1 i= 1 σ.7) (44 64.7 335 14

Valig estimator for populasjos-stadardavviket σ = var( X ) er, rett og slett, 1 ˆ σ = S = ( Xi X) 1 i= 1 (utvalgs-stadardavviket) I eksemplet blir estimatet: ˆ σ = ˆ σ = 369.335 = 19.181 Estimatore σˆ er ikke forvetigsrett! Bevis: ( E ˆ ) (vi ser bort fra mulighete at () i ( ) ( ) ( ) 0< var( ˆ σ) = E ˆ σ E( ˆ σ) = σ E( ˆ σ) ( σ) < σ E( ˆ σ) < σ var( ˆ σ ) = 0 som X er e kostat.) Bevis slutt. Så, ˆ σ er forvetigsskjev de har e tedes til å uderestimere σ litt, me i praksis, hvis ikke er svært lite, reges dee skjevhete for eglisjerbar. Når øker, vil skjevhete gå mot 0 (ka vises). 15

Begrepet stadardfeil ( stadard error på egelsk) La θ (teta) være e ukjet parameter og ˆ θ e estimator ( θˆ er e erverbar stokastisk variabel også kalt e ervator ( statistic på egelsk)) Estimerigsfeil Kvadrert estimerigsfeil ˆ θ θ ( ˆ θ θ) (stokastisk variabel) (stokastisk variabel) Forvetet kvadrert estimerigsfeil E ( ˆ θ θ) (tall) Defiisjo. def Stadardfeil for ˆ θ = E ( ˆ θ θ) SE( ˆ = θ) def ˆ ˆ ˆ ˆ (Fra før: stadardavviket til θ = var( θ) = E ( θ E( θ)) ) Koklusjo: Hvis θˆ er forvetigsrett ( E( ˆ θ) = θ), er stadardfeile til ˆ θ det samme som stadardavviket til ˆ θ (dvs SE( ˆ θ) = var( ˆ θ) = SD( ˆ θ)) 16

Eksempel. (Oppsummerig) La x1, x,, x være uavhegige ervasjoer av X med populasjosfordelig E( X) = µ og var( X) = σ. f( x), Statistisk modell: X1, X,, X er uavhegige og idetisk fordelte (uid) med felles fordelig lik de for X ( f( x) ), E( Xi ) = µ og var( X) = σ (ukjete) og x = X i = Da er ( ) for 1,,, i i 1 ˆ µ = X og ˆ σ = S = ( X X) i 1 i= 1 Stadardfeile til ˆµ σ er SE( ˆ µ ) = var( ˆ µ ) = var( X ) = = som valigvis er ukjet og estimeres ved ˆ σ SE( ˆ µ ) = Excel descriptives DATA (x) Mea 64.66667 68 Stadard Error 11.09554 8 Media 68 44 Mode #N/A Stadard Deviatio 19.1805 Sample Variace 369.3333 begge forvetigsrette estimatorer. σ Kurtosis #DIV/0! Skewess -0.75704 Rage 38 Miimum 44 Maximum 8 Sum 194 Cout 3 µ = ˆ SE ( ˆ µ ) σ = S ˆ σ = S X ˆ 17