Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Forelesning 6: Punktestimering, usikkerhet i estimering Jo Thori Lind j.t.lind@econ.uio.no

Oversikt 1. Trekke utvalg 2. Estimatorer og observatorer som stokastiske variable 3. Egenskapene til en estimator 4. Estimering av forventningen a. Forventningsretthet b. Usikkerhet i estimering variansen og standardfeilen c. Skjeve estimatorer 5. Estimering av variansen

1. Trekke utvalg

Universet Når vi trekker et utvalg trekker vi noen individer fra et univers Så måler vi noen egenskaper ved dem Hva er universet? Alle menneskene eller enhetene som kunne vært relevant for et studie Alle nordmenn Alle industribedrifter i Norge Mer teoretisk hvem som kunne være relevante Alle tenkelige nordmenn (også de som ikke finnes) Alle tenkelige land i verden Hva om de hadde en annen forhistorie og var annerledes Da er det umulig å studere universet

Egenskaper ved universet Variable trukket fra universet har noen egenskaper Forventning, varians osv. Disse ønsker vi å vite noe om Kunne vi observere hele universet kunne vi bare måle dem Ikke mulig Kostbart Kan hele universet observeres? Kan trekke et utvalg for å estimere disse egenskapene

Estimeringsproblemet Vi har et univers av alle jenter i 7. klasse i Norge Ønsker å finne forventet høyde Trekker et utvalg på 100 jenter i 7. klasse, måler hvor høy hver er Bruker gjennomsnittet for å gjette på forventet høyde Hvor god er denne metoden? Treffer vi systematisk feil? Hvor langt fra sannheten bør vi forvente at estimatet vårt er?

2. Estimatorer og observatorer som stokastiske variable

Estimatorer En estimator for forventet høyde kan være: 1. Trekk et tilfeldig utvalg på 100 jenter 2. Beregn gjennomsnittet av disse 100 jentenes høyde Dette er en slags oppskrift (eller algoritme) Bruker vi en estimator flere ganger vil vi få litt forskjellige svar Trekker nytt utvalg for hver gang Det betyr at en estimator kan sees på som en stokastisk variabel

Estimatorer som stokastiske variable Kan tenke på en stokastisk variable som en maskin En-armet banditt Hver gang vi setter den i gang får vi en verdi ut Varierer fra gang til gang På same måte er en estimator som en maskin Hver gang vi bruker den får vi ut en verdi Varierer fra gang til gang siden utvalget er nytt

Estimator og estimat En estimator er en metode Gir forskjellig svar fra gang til gang Stokastisk variable Et estimat er resultatet vi får fra estimatoren en gang Et tall Ikke stokastisk (varierer ikke) Det vi forsøker å estimere kalles parameter eller estimand Ikke kjent Kan aldri vite hvor godt vi treffer Ikke stokastisk

Egenskaper ved en estimator Vil gjerne si noe om egenskapene til en estimator Er den god? Avhenger av hvor estimatoren skal brukes Fjellski kan være gode, men ikke til skøytesprint For å gjøre det må vi si noe om universet (terrenget) Trenger en statistisk modell Hvorfor en modell? Fordi vi ikke kjenner universet Hadde vi gjort det hadde vi ikke trengt å estimere noe

Statistisk modell Gjør noen antakelser om hva slags verdier som forekommer i universet og hvor hyppig de forekommer Kan avhenge av ukjente parametere Kan være at verdiene i universet er normalfordelt med forventning μ og varians 10, dvs. hver verdi er X N(μ, 10) Her er μ en parameter Ofte er målet å estimere denne Tar vi utgangspunkt i denne modellen kan vi si mye om egenskapene til ulike estimatorer

Statistisk modell hvor presis? Det varierer hvor presise vi er i beskrivelsen av den statistiske modellen Kan være ganske presise: X N(μ, 10) Da kan vi si mye om estimatorens egenskaper Men bare hvis modell-antakelsene stemmer Vi kan være lite presise: X er trukket fra en fordeling med forventning μ Da kan vi si mindre om egenskapene Men ofte en del Mindre strenge modell-antakelser, så mer generelle innsikter

Observatorer En estimator er en måte å gjette på en underliggende parameter En observator (engelsk statistic) er mer generelt en verdi man kan regne ut fra et utvalg Siden den avhenger av utvalget vil den også være en stokastisk variabel Men behøver ikke svare til noen underliggende parameter

3. Egenskapene til en estimator

Hvordan studere egenskapene Kjenner vi verdiene i universet (eller gjør antakelser om dem) kan vi studere de teoretiske egenskapene til et utvalg Hvor mange utvalg kan vi trekke Hvis vi trekker 10 personer fra 150 er det 150 10 1.17 1015 mulige utvalg Kan ikke studere alle utvalgene!

Muligheter Simulering Kan trekke tilfeldige utvalg fra universet mange ganger i R Se på gjennomsnitt over trekningene for å studere egenskaper Gir en liten feil så lange vi ikke trekker alle mulige utvalg Teori Kan regne teoretisk på hva som vil skje Mer presist, men kan være vanskelige regnestykker

4. Estimering av forventningen

Hvordan estimere forventningen? Vi har et univers med ukjent forventning Trekker et utvalg på N individer for å estimere forventningen Hva skal vi gjøre med utvalget? Enkelt løsning: Ta gjennomsnittet! Estimatoren er altså 1. Trekk et tilfeldig utvalg på N individer 2. Beregn gjennomsnittet NB: Det er også andre muligheter enn gjennomsnittet

Statistisk modell La oss antall følgende modell for verdiene X i universet: Alle individer er uavhengige Uendelig mange individer i universet Forventning EX = μ Varians Var X = σ 2 = 10

Egenskaper ved gjennomsnittet i R Kan bruke R til å se på egenskaper ved gjennomsnittet Da trenger vi en helt presis statistisk modell Anta X N(5,10) Her kjenner vi forventningen, men skal se om vi kan «finne den igjen» Kan trekke et utvalg med rnorm(100,mean = 5,sd = sqrt(10)) Da er estimatet for dette utvalget mean(rnorm(100,mean = 5,sd = sqrt(10))) Kan gjøre dette mange ganger for å finne egenskaper replicate(10000,mean(rnorm(100,mean = 5,sd = sqrt(10))))

Egenskaper ved gjennomsnittet i R (forts.) Vil se på egenskapene når vi har 10, 100, og 1000 observasjoner x.10<- replicate(10000,mean(rnorm(10, mean = 5,sd = sqrt(10)))) x.100<- replicate(10000,mean(rnorm(100, mean = 5,sd = sqrt(10)))) x.1000<-replicate(10000,mean(rnorm(1000,mean = 5,sd = sqrt(10)))) Treffer de? Ser på mean(x.10), Hvor langt unna er de? Ser på var(x.10),

a. Forventningsretthet

Forventningen til gjennomsnittet Kall estimatoren തX Siden തX er en stokastisk variabel kan vi regne på forventning og varians La utvalget være X 1, X 2,, X N Vet at for enhver i er EX i = μ Var X i = σ 2 Estimatoren er N തX = 1 N X i = X 1 + X 2 + + X N N i=1 Da er forventningen തX = EX 1 + EX 2 + + EX N N μ + μ + + μ തX = = μ N

Forventningsrett Vi så at når hver verdi i universet har EX i = μ har gjennomsnittet samme forventning, E തX = μ Det betyr at vi ikke systematisk bommer på den sanne parameteren Vi sier at estimatoren en forventningsrett Dette er en egenskap vi ønsker at estimatorer skal ha

b. Usikkerhet i estimering variansen og standardfeilen

Presisjon Det er ønskelig med en forventningsrett estimator Med ikke så mye hjelp i hvis den stort sett er langt unna sannheten En estimator som med sannsynlighet ½ er 0 eller 10 er forventningsrett på 5 Men alltid langt unna Hvordan skal vi se på hvor presis den er? Se på hvor ofte vi er mellom μ ± 1 Bruker sum(abs(x.10-5)<1) Men hvorfor tallet 1?

Variansen til gjennomsnittet Siden estimatoren തX er en stokastisk variabel har den en varians Variansen sier noe om hvor stor spredning den har Finner at Var തX = Var 1 N X 1 + X 2 + + X N = 1 N 2 Var X 1 + Var X 2 + + Var X N = σ2 + σ 2 + + σ 2 N 2 = Nσ2 N 2 = σ2 N

Standardfeilen For observasjoner er standardavviket kvadratroten av variansen Kvadratroten av variansen til en estimator kalles standardfeilen (engelsk: standard error) Vi får s. f. = σ N

Utvalgsstørrelsen Variansen er Var തX = σ2 N Dvs. at jo større N er, jo lavere er variansen I eksempelet er N=10 gir Var തX = 10 10 = 1 N=100 gir Var തX = 10 100 = 0.1 N=1000 gir Var തX = 10 1000 = 0.01 Nesten nøyaktig det vi fant i R!

En god estimator Hva karakteriserer en god estimator? 1. Bommer ikke systematisk Er forventningsrett 2. Treffer nær den sanne verdien Har lav varians

Medianen Medianen er også en potensiell estimator for forventningen Kan trekke mx.100<- replicate(10000,median(rnorm(100, mean = 5,sd = sqrt(10)))) Beregne forventning mean(mx.100) Kan også vise teoretisk at hvis X i N(μ, σ 2 ) er medianen en forventningsrett estimator på μ Er medianen eller gjennomsnittet best? Begge er forventningsrette Sammenlikne variansen: var(x.100) mot var(mx.100) Med normalfordelte data er gjennomsnittet best!

Er alltid gjennomsnittet best? Gjennomsnittet har lavere varians enn medianen hvis universet er normalfordelt Da vil gjennomsnittet slå alle estimatorer Ikke alltid tilfelle hvis universet følger en annen fordeling Hvis ekstreme verdier ganske sannsynlige kan gjennomsnittet være en dårlig estimator

c. Skjeve estimatorer

Skjeve estimatorer Si vi ønsker å estimere μ 2 En estimator kunne være 1. Trekke et utvalg på N individer 2. Beregne gjennomsnittet തX 3. Opphøye i annen: തX 2 Er dette en forventningsrett estimator Kan prøve å regne ut E തX 2 Ganske sølete Bruker R mean(replicate(1e4,mean(rnorm(100,mean = 5,sd = sqrt(10)))^2))

Hvorfor blir estimatoren skjev? Estimatoren på തX er forventningsrett Estimater over 5 «kompenseres» av like mange og like store estimater under 5 Når vi opphøyer i annen er effekten størst på store tall 5 2 4 2 = 25 16 = 9 6 2 5 2 = 36 25 = 11 Da kompenserer ikke verdiene under 5 for de over 5 Vi treffer for høyt Hvis N er stor blir denne effekten mindre x^2 0 10 20 30 40 50 0 1 2 3 4 5 6 7 x

Hva skal vi gjøre med en skjev estimator? Finne en bedre estimator Finne en måte å rette opp skjevheten Skjevhetskorreksjon Ha et stort datasett hvis det hjelper Forsøke å finne ut av retningen på skjevheten Er det verre å overvurdere en effekt enn å undervurdere den?

Utvalgsskjevhet Skjevhet i estimatorer kan også komme av utvalget vi gjør Si vi skal studere gjennomsnittlig høyde blant jenter i 7. klasse Anta at folk i Finnmark er lavere enn landsgjennomsnittet Se på følgende estimator: 1. Trekk N tilfeldig valgte jenter i 7. klasse fra skoler i Sør Norge 2. Regn ut gjennomsnittet Her vil utvalget ikke ha med jenter fra Finnmark Da vil vi over-estimere høyden Feilen kommer av dårlig design av utvalget

5. Estimering av variansen

Hvorfor estimere variansen Vanligvis kjenner vi ikke variansen i universet Så at variansen til estimatoren avhenger av denne variansen Derfor trenger vi ofte å vite variansen i universet Hvordan kan vi estimere den? Bruker den empiriske variansen s 2 = σ N i=1 X i തX N 1

Forventningsrett estimering Kan vise at når vi deler på N-1 er dette en forventningsrett estimator Det vil si at E(s 2 ) = E σ i=1 N X i തX N 1 = σ 2 NB Hvis vi bare deler på N får vi en skjev estimator Dette er en skjevhetskorrigering

Illustrasjon Definerer den skjeve varians-estimatoren feil.var<-function(x){ return(sum((x-mean(x))^2)/length(x)) } Trekker: vx.10<- replicate(1e4, var(rnorm(10,mean = 5,sd = sqrt(10)))) fvx.10<-replicate(1e4,feil.var(rnorm(10,mean = 5,sd = sqrt(10))))