Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Like dokumenter
Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Kapittel 4.4: Forventning og varians til stokastiske variable

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

Kap. 8: Utvalsfordelingar og databeskrivelse

ST0202 Statistikk for samfunnsvitere

Forslag til endringar

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

Fra første forelesning:

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO Matematisk Institutt

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

ST0202 Statistikk for samfunnsvitere

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ECON Statistikk 1 Forelesning 2: Innledning

ST0202 Statistikk for samfunnsvitere

TMA4245 Statistikk Eksamen desember 2016

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren

Kap. 6.1: Fordelingen til en observator og stok. simulering

Notat 3 - ST februar 2005

ECON2130 Kommentarer til oblig

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Kp. 9.8 Forskjell mellom to forventninger

Utvalgsfordelinger (Kapittel 5)

TMA4240 Statistikk Høst 2016

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

HØGSKOLEN I STAVANGER

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2018

ECON Statistikk 1 Forelesning 1: Innledning

Løsningsforslag til obligatorisk oppgave i ECON 2130

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Inferens i fordelinger

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

TMA4240 Statistikk Høst 2015

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

TMA4240 Statistikk H2010

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

Foreleses onsdag 13.oktober, 2010

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Om eksamen. Never, never, never give up!

Forelening 1, kapittel 4 Stokastiske variable

Fasit for tilleggsoppgaver

TMA4240 Statistikk Eksamen desember 2015

Formelsamling i medisinsk statistikk

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

TMA4240 Statistikk H2017 [15]

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

TMA4240 Statistikk H2010

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

UNIVERSITETET I OSLO

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Utvalgsfordelinger (Kapittel 5)

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Om eksamen. Never, never, never give up!

TMA4240 Statistikk H2010

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

UNIVERSITETET I OSLO

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Hypotesetest: generell fremgangsmåte

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

TMA4240 Statistikk H2010

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

UNIVERSITETET I OSLO

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Norske hoppdommere og Janne Ahonen

Bootstrapping og simulering Tilleggslitteratur for STK1100

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

STK1100 våren 2019 Mere om konfidensintevaller

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

Løsningsforslag, eksamen statistikk, juni 2015

Introduksjon til inferens

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

TMA4240 Statistikk H2010 (20)

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

UNIVERSITETET I OSLO

Seksjon 1.3 Tetthetskurver og normalfordelingen

UNIVERSITETET I OSLO

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Transkript:

Forelesning 6: Punktestimering, usikkerhet i estimering Jo Thori Lind j.t.lind@econ.uio.no

Oversikt 1. Trekke utvalg 2. Estimatorer og observatorer som stokastiske variable 3. Egenskapene til en estimator 4. Estimering av forventningen a. Forventningsretthet b. Usikkerhet i estimering variansen og standardfeilen c. Skjeve estimatorer 5. Estimering av variansen

1. Trekke utvalg

Universet Når vi trekker et utvalg trekker vi noen individer fra et univers Så måler vi noen egenskaper ved dem Hva er universet? Alle menneskene eller enhetene som kunne vært relevant for et studie Alle nordmenn Alle industribedrifter i Norge Mer teoretisk hvem som kunne være relevante Alle tenkelige nordmenn (også de som ikke finnes) Alle tenkelige land i verden Hva om de hadde en annen forhistorie og var annerledes Da er det umulig å studere universet

Egenskaper ved universet Variable trukket fra universet har noen egenskaper Forventning, varians osv. Disse ønsker vi å vite noe om Kunne vi observere hele universet kunne vi bare måle dem Ikke mulig Kostbart Kan hele universet observeres? Kan trekke et utvalg for å estimere disse egenskapene

Estimeringsproblemet Vi har et univers av alle jenter i 7. klasse i Norge Ønsker å finne forventet høyde Trekker et utvalg på 100 jenter i 7. klasse, måler hvor høy hver er Bruker gjennomsnittet for å gjette på forventet høyde Hvor god er denne metoden? Treffer vi systematisk feil? Hvor langt fra sannheten bør vi forvente at estimatet vårt er?

2. Estimatorer og observatorer som stokastiske variable

Estimatorer En estimator for forventet høyde kan være: 1. Trekk et tilfeldig utvalg på 100 jenter 2. Beregn gjennomsnittet av disse 100 jentenes høyde Dette er en slags oppskrift (eller algoritme) Bruker vi en estimator flere ganger vil vi få litt forskjellige svar Trekker nytt utvalg for hver gang Det betyr at en estimator kan sees på som en stokastisk variabel

Estimatorer som stokastiske variable Kan tenke på en stokastisk variable som en maskin En-armet banditt Hver gang vi setter den i gang får vi en verdi ut Varierer fra gang til gang På same måte er en estimator som en maskin Hver gang vi bruker den får vi ut en verdi Varierer fra gang til gang siden utvalget er nytt

Estimator og estimat En estimator er en metode Gir forskjellig svar fra gang til gang Stokastisk variable Et estimat er resultatet vi får fra estimatoren en gang Et tall Ikke stokastisk (varierer ikke) Det vi forsøker å estimere kalles parameter eller estimand Ikke kjent Kan aldri vite hvor godt vi treffer Ikke stokastisk

Egenskaper ved en estimator Vil gjerne si noe om egenskapene til en estimator Er den god? Avhenger av hvor estimatoren skal brukes Fjellski kan være gode, men ikke til skøytesprint For å gjøre det må vi si noe om universet (terrenget) Trenger en statistisk modell Hvorfor en modell? Fordi vi ikke kjenner universet Hadde vi gjort det hadde vi ikke trengt å estimere noe

Statistisk modell Gjør noen antakelser om hva slags verdier som forekommer i universet og hvor hyppig de forekommer Kan avhenge av ukjente parametere Kan være at verdiene i universet er normalfordelt med forventning μ og varians 10, dvs. hver verdi er X N(μ, 10) Her er μ en parameter Ofte er målet å estimere denne Tar vi utgangspunkt i denne modellen kan vi si mye om egenskapene til ulike estimatorer

Statistisk modell hvor presis? Det varierer hvor presise vi er i beskrivelsen av den statistiske modellen Kan være ganske presise: X N(μ, 10) Da kan vi si mye om estimatorens egenskaper Men bare hvis modell-antakelsene stemmer Vi kan være lite presise: X er trukket fra en fordeling med forventning μ Da kan vi si mindre om egenskapene Men ofte en del Mindre strenge modell-antakelser, så mer generelle innsikter

Observatorer En estimator er en måte å gjette på en underliggende parameter En observator (engelsk statistic) er mer generelt en verdi man kan regne ut fra et utvalg Siden den avhenger av utvalget vil den også være en stokastisk variabel Men behøver ikke svare til noen underliggende parameter

3. Egenskapene til en estimator

Hvordan studere egenskapene Kjenner vi verdiene i universet (eller gjør antakelser om dem) kan vi studere de teoretiske egenskapene til et utvalg Hvor mange utvalg kan vi trekke Hvis vi trekker 10 personer fra 150 er det 150 10 1.17 1015 mulige utvalg Kan ikke studere alle utvalgene!

Muligheter Simulering Kan trekke tilfeldige utvalg fra universet mange ganger i R Se på gjennomsnitt over trekningene for å studere egenskaper Gir en liten feil så lange vi ikke trekker alle mulige utvalg Teori Kan regne teoretisk på hva som vil skje Mer presist, men kan være vanskelige regnestykker

4. Estimering av forventningen

Hvordan estimere forventningen? Vi har et univers med ukjent forventning Trekker et utvalg på N individer for å estimere forventningen Hva skal vi gjøre med utvalget? Enkelt løsning: Ta gjennomsnittet! Estimatoren er altså 1. Trekk et tilfeldig utvalg på N individer 2. Beregn gjennomsnittet NB: Det er også andre muligheter enn gjennomsnittet

Statistisk modell La oss antall følgende modell for verdiene X i universet: Alle individer er uavhengige Uendelig mange individer i universet Forventning EX = μ Varians Var X = σ 2 = 10

Egenskaper ved gjennomsnittet i R Kan bruke R til å se på egenskaper ved gjennomsnittet Da trenger vi en helt presis statistisk modell Anta X N(5,10) Her kjenner vi forventningen, men skal se om vi kan «finne den igjen» Kan trekke et utvalg med rnorm(100,mean = 5,sd = sqrt(10)) Da er estimatet for dette utvalget mean(rnorm(100,mean = 5,sd = sqrt(10))) Kan gjøre dette mange ganger for å finne egenskaper replicate(10000,mean(rnorm(100,mean = 5,sd = sqrt(10))))

Egenskaper ved gjennomsnittet i R (forts.) Vil se på egenskapene når vi har 10, 100, og 1000 observasjoner x.10<- replicate(10000,mean(rnorm(10, mean = 5,sd = sqrt(10)))) x.100<- replicate(10000,mean(rnorm(100, mean = 5,sd = sqrt(10)))) x.1000<-replicate(10000,mean(rnorm(1000,mean = 5,sd = sqrt(10)))) Treffer de? Ser på mean(x.10), Hvor langt unna er de? Ser på var(x.10),

a. Forventningsretthet

Forventningen til gjennomsnittet Kall estimatoren തX Siden തX er en stokastisk variabel kan vi regne på forventning og varians La utvalget være X 1, X 2,, X N Vet at for enhver i er EX i = μ Var X i = σ 2 Estimatoren er N തX = 1 N X i = X 1 + X 2 + + X N N i=1 Da er forventningen തX = EX 1 + EX 2 + + EX N N μ + μ + + μ തX = = μ N

Forventningsrett Vi så at når hver verdi i universet har EX i = μ har gjennomsnittet samme forventning, E തX = μ Det betyr at vi ikke systematisk bommer på den sanne parameteren Vi sier at estimatoren en forventningsrett Dette er en egenskap vi ønsker at estimatorer skal ha

b. Usikkerhet i estimering variansen og standardfeilen

Presisjon Det er ønskelig med en forventningsrett estimator Med ikke så mye hjelp i hvis den stort sett er langt unna sannheten En estimator som med sannsynlighet ½ er 0 eller 10 er forventningsrett på 5 Men alltid langt unna Hvordan skal vi se på hvor presis den er? Se på hvor ofte vi er mellom μ ± 1 Bruker sum(abs(x.10-5)<1) Men hvorfor tallet 1?

Variansen til gjennomsnittet Siden estimatoren തX er en stokastisk variabel har den en varians Variansen sier noe om hvor stor spredning den har Finner at Var തX = Var 1 N X 1 + X 2 + + X N = 1 N 2 Var X 1 + Var X 2 + + Var X N = σ2 + σ 2 + + σ 2 N 2 = Nσ2 N 2 = σ2 N

Standardfeilen For observasjoner er standardavviket kvadratroten av variansen Kvadratroten av variansen til en estimator kalles standardfeilen (engelsk: standard error) Vi får s. f. = σ N

Utvalgsstørrelsen Variansen er Var തX = σ2 N Dvs. at jo større N er, jo lavere er variansen I eksempelet er N=10 gir Var തX = 10 10 = 1 N=100 gir Var തX = 10 100 = 0.1 N=1000 gir Var തX = 10 1000 = 0.01 Nesten nøyaktig det vi fant i R!

En god estimator Hva karakteriserer en god estimator? 1. Bommer ikke systematisk Er forventningsrett 2. Treffer nær den sanne verdien Har lav varians

Medianen Medianen er også en potensiell estimator for forventningen Kan trekke mx.100<- replicate(10000,median(rnorm(100, mean = 5,sd = sqrt(10)))) Beregne forventning mean(mx.100) Kan også vise teoretisk at hvis X i N(μ, σ 2 ) er medianen en forventningsrett estimator på μ Er medianen eller gjennomsnittet best? Begge er forventningsrette Sammenlikne variansen: var(x.100) mot var(mx.100) Med normalfordelte data er gjennomsnittet best!

Er alltid gjennomsnittet best? Gjennomsnittet har lavere varians enn medianen hvis universet er normalfordelt Da vil gjennomsnittet slå alle estimatorer Ikke alltid tilfelle hvis universet følger en annen fordeling Hvis ekstreme verdier ganske sannsynlige kan gjennomsnittet være en dårlig estimator

c. Skjeve estimatorer

Skjeve estimatorer Si vi ønsker å estimere μ 2 En estimator kunne være 1. Trekke et utvalg på N individer 2. Beregne gjennomsnittet തX 3. Opphøye i annen: തX 2 Er dette en forventningsrett estimator Kan prøve å regne ut E തX 2 Ganske sølete Bruker R mean(replicate(1e4,mean(rnorm(100,mean = 5,sd = sqrt(10)))^2))

Hvorfor blir estimatoren skjev? Estimatoren på തX er forventningsrett Estimater over 5 «kompenseres» av like mange og like store estimater under 5 Når vi opphøyer i annen er effekten størst på store tall 5 2 4 2 = 25 16 = 9 6 2 5 2 = 36 25 = 11 Da kompenserer ikke verdiene under 5 for de over 5 Vi treffer for høyt Hvis N er stor blir denne effekten mindre x^2 0 10 20 30 40 50 0 1 2 3 4 5 6 7 x

Hva skal vi gjøre med en skjev estimator? Finne en bedre estimator Finne en måte å rette opp skjevheten Skjevhetskorreksjon Ha et stort datasett hvis det hjelper Forsøke å finne ut av retningen på skjevheten Er det verre å overvurdere en effekt enn å undervurdere den?

Utvalgsskjevhet Skjevhet i estimatorer kan også komme av utvalget vi gjør Si vi skal studere gjennomsnittlig høyde blant jenter i 7. klasse Anta at folk i Finnmark er lavere enn landsgjennomsnittet Se på følgende estimator: 1. Trekk N tilfeldig valgte jenter i 7. klasse fra skoler i Sør Norge 2. Regn ut gjennomsnittet Her vil utvalget ikke ha med jenter fra Finnmark Da vil vi over-estimere høyden Feilen kommer av dårlig design av utvalget

5. Estimering av variansen

Hvorfor estimere variansen Vanligvis kjenner vi ikke variansen i universet Så at variansen til estimatoren avhenger av denne variansen Derfor trenger vi ofte å vite variansen i universet Hvordan kan vi estimere den? Bruker den empiriske variansen s 2 = σ N i=1 X i തX N 1

Forventningsrett estimering Kan vise at når vi deler på N-1 er dette en forventningsrett estimator Det vil si at E(s 2 ) = E σ i=1 N X i തX N 1 = σ 2 NB Hvis vi bare deler på N får vi en skjev estimator Dette er en skjevhetskorrigering

Illustrasjon Definerer den skjeve varians-estimatoren feil.var<-function(x){ return(sum((x-mean(x))^2)/length(x)) } Trekker: vx.10<- replicate(1e4, var(rnorm(10,mean = 5,sd = sqrt(10)))) fvx.10<-replicate(1e4,feil.var(rnorm(10,mean = 5,sd = sqrt(10))))