Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

Like dokumenter
Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

Forelesning 3. april, 2017

Kapittel 4.4: Forventning og varians til stokastiske variable

Kap. 8: Utvalsfordelingar og databeskrivelse

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

ECON Statistikk 1 Forelesning 2: Innledning

TMA4245 Statistikk Eksamen desember 2016

Forslag til endringar

ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen.

Fra første forelesning:

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Et lite notat om og rundt normalfordelingen.

STK Oppsummering

ST0202 Statistikk for samfunnsvitere

ECON2130 Kommentarer til oblig

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

TMA4240 Statistikk Høst 2016

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Bootstrapping og simulering Tilleggslitteratur for STK1100

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Kapittel 2: Hendelser

Statistikk og dataanalyse

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Fasit for tilleggsoppgaver

Løsningsforslag til obligatorisk oppgave i ECON 2130

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

TMA4240 Statistikk H2010

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Utvalgsfordelinger (Kapittel 5)

Kap. 6.1: Fordelingen til en observator og stok. simulering

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

TMA4240 Statistikk H2017 [15]

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

TMA4240 Statistikk Høst 2015

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

HØGSKOLEN I STAVANGER

Notat 3 - ST februar 2005

Medisinsk statistikk Del I høsten 2009:

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

ÅMA110 Sannsynlighetsregning med statistikk, våren

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

OPPGAVEHEFTE I STK1000 TIL KAPITTEL 5 OG 6. a b

i x i

TMA4240 Statistikk Høst 2008

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4295 Statistisk inferens

Eksamensoppgave i ST0103 Brukerkurs i statistikk

estimert verdi ± feilmargin = X ± et visst antall standardavvik for snittet = X ± u α/2 σ n

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Løsningsforslag Eksamen S2, høsten 2017 Laget av Tommy O. Sist oppdatert: 26. november 2017

Bootstrapping og simulering

STK1100 våren 2019 Mere om konfidensintevaller

Om eksamen. Never, never, never give up!

Kap. 5.2: Utvalgsfordelinger for antall og andeler

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Forelening 1, kapittel 4 Stokastiske variable

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Regneøvelse 22/5, 2017

Binomisk sannsynlighetsfunksjon

Inferens i fordelinger

TMA4240 Statistikk Høst 2016

Om eksamen. Never, never, never give up!

DEL 1 GRUNNLEGGENDE STATISTIKK

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

Formelsamling i medisinsk statistikk

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

ST0202 Statistikk for samfunnsvitere

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

TMA4240 Statistikk Høst 2018

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

TMA4245 Statistikk Eksamen desember 2016

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4240 Statistikk

Bootstrapping og stokatisk simulering Tilleggslitteratur for STK1100

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Transkript:

Forelesning 7: Store talls lov, sentralgrenseteoremet Jo Thori Lind j.t.lind@econ.uio.no

Oversikt 1. Estimering av variansen 2. Asymptotisk teori 3. Store talls lov 4. Sentralgrenseteoremet

1.Estimering av variansen

Hvorfor estimere variansen Vanligvis kjenner vi ikke variansen i universet Så at variansen til estimatoren avhenger av denne variansen Derfor trenger vi ofte å kjenne variansen i universet Hvordan kan vi estimereden? Bruker den empiriske variansen s 2 = σ N i=1 X i തX N 1

Forventningsrettestimering Kan vise at når vi deler på N-1 er dette en forventningsrett estimator Det vil si at E(s 2 ) = E σ i=1 N X i തX N 1 = σ 2 NB Hvis vi bare deler på N får vi en skjev estimator Dette er en skjevhetskorrigering

Illustrasjon Definerer den skjeve varians-estimatoren feil.var<-function(x){ return(sum((x-mean(x))^2)/length(x)) } Trekker: vx.10<-replicate(1e4,var(rnorm(10,mean=5,sd=sqrt(10)))) fvx.10<-replicate(1e4,feil.var(rnorm(10,mean=5,sd=sqrt(10))))

2.Asymptotisk teori

Usikkerhet ved estimering Har sett at når vi trekker et utvalg fra et univers vil vi få et estimat som generelt ikke er helt riktig Hvis estimatoren er forventningsrett treffer vi «i snitt» Men vil bomme litt hver gang Hvis variansen er lav vil vi stort sett ikke bomme så mye Men vi bommer alltid litt!

Når utvalget blir stort Hva skjer når størrelsen på utvalget vokser? Så at variansen til gjennomsnittsestimatoren var Var തX = σ2 N For en gitt verdi på σ 2 vil variansen krympe når N øker Når N går mot uendelig går variansen mot 0 Det betyr at med store utvalg blir den typiske feilen liten

Asymptoter 1/x 0 2 4 6 8 10 f x = 1 x lim x + f x = 0 0 1 2 3 4 5 x

Asymptotiske egenskaper Asymptotiske egenskaper er egenskaper ved estimatorer når utvalgsstørrelsen går mot uendelig stor Kan ofte si mye mer generelle ting enn når utvalgsstørrelsen er endelig Men ikke så opplagt hvordan vi skal tolke resultatene I en del situasjoner er det bare mulig å si noe når utvalget er stort

3.Store talls lov

Sannsynligheten for feil La X 1,, X n være trukket fra en fordeling med forventning μ, la ഥX n = 1 σ n i=1 n X i være gjennomsnittet Da er ഥX n μ feilen vi begår Ofte nyttig å ta bort minus; se på ഥX n μ Store talls lov sier at når n går mote uendelig går sannsynligheten for enhver feil mot 0

«Test»av store tall slov Store talls lov er et teoretisk resultat kan ikke testes Men kan ta gjennomsnitt av veldig store utvalg John Edmund Kerrich var internert i Danmark under Andre Verdenskrig Eksperimenterte med å kaste kron og mynt 10 000 ganger 5 067 tilfeller av kron veldig nært det teoretiske 5000 00011101001111101000110101111000100111001000001110001010101001000010011000100001110101000100001011010111010000110100101000001111101111100110110010101101010000 01100011100111110110101011010011011011011001111100001110110001010010000010100111111011101011100011000110001100011001101001000010000111011110001111111000000000 11010110100111110111100100101011001110110111001000001000110010110011111010011110001000001001101011101010110011111011001000001101011111110100011111100101111110 01110011111111010000100000000011111001010101111000011101110010001101000011111100010100111111110110111011011101101001011011001101010011011111110010111000111101 11111100000100100101001110111011011011111100000101010101010101001001111011011100111000000010011010100110010001000011001011110001001101011011011100110100101010 00000100000000101100110101101111100010110010100001110011001111100101011010000110001001100010010001100100001001010000111000000111011011110011100110101011010010 11010000011101101000100011100100111000010100000000101001000101100001001010001111110110111101010101000001100010100000100000000010000001100100011011101010110110 00110111010110010010111000101101101010110110000010110111010101010000111001110001101001110111011000110111000001001111000111010000101000011111010000111111111111 01010100100110001011110010101000111111000110101010011010010111110000111011110110011001111110100000111010101111011010111000010001011010011001101000010111110111 10101100110111100000101100100011011010111110101110010100110110010001100001100001010011000110100111010000011001100011101011100001110101110111101011011011110011 11011100011011010000010111101001110110010011100011110110000111100111110110101110111001101110001100111100101110101001001010100011010111011000111110000011000000 01001110101110001011101000101111110111000001111111011000000010101111110111000100001100001100011111010011101100000000111101110001110101000101100011011101000111 01111000001000011010000010100001010100010110001011110000101110010111010010110010110100011000001110000111

Illustrere store talls lov i R Datamaskiner er gode til å illustrere store datasett Se på gjennomsnittet av n = 100 normalfordelte variable med μ = 5 og σ = 3: mean(rnorm(100,mean = 5,sd=3)) Hyppigheten av feil større enn 1 mean(replicate(1000,abs(mean(rnorm(100,mean = 5,sd=3))-5)>1)) Hyppigheten av feil større enn 0.1 mean(replicate(1000,abs(mean(rnorm(100,mean = 5,sd=3))-5)>0.1)) For enhver størrelse på feilen ser det ut til at vi kan får sannsynligheten ned ved å øke n

Konvergens i sannsynlighet Se på et følge av stokastiske variable Z n For eksempel gjennomsnitt med utvalgsstørrelse n Ser på et «mål» μ Typisk den sanne forventningen Da er feilen Z n μ Z n konvergerer i sannsynlighet til μ, skrevet Z n P μ, hvis for enhver feilmargin ε vi har at sannsynligheten Pr Z n μ > ε 0 når n

Store talls lov La X 1,, X n være trukket uavhengig fra en fordeling med forventning μ La ഥX n = 1 σ n i=1 n X i være gjennomsnittet med utvalgsstørrelse n Da har vi at gjennomsnittet ഥX n konvergerer i sannsynlighet til den sanne forventningen μ ഥX n P μ For enhver feil fra gjennomsnittet blir sannsynligheten liten når n er tilstrekkelig stor

Hvor generell er store talls lov? Ingen restriksjoner på fordelingen til X i Ikke nødvendig at alle har lik varians Men ingen enkeltobservasjon kan dominere Behøver ikke å være uavhengige Men det må være en del uavhengighet

Når er store talls lov raskest? Hvor «raskt» går gjennomsnittet mot den sanne verdien? Dvs. når er sannsynligheten for store feil stor? Generelt når variansen til X i er høy

Anvendelse: Monte Carlo analyse Vi har ofte illustrert ting med simulering i R Dette kalles Monte Carlo analyse (etter spille-casinoene) Har sagt løst at med mange simuleringer kommer vi nær sannheten Store talls lov viser at det argumentet stemmer Når n blir stor blir sannsynligheten for alle feil liten

Viktig resultat Da vi skulle beregne μ 2 fant vi at തX 2 ikke var forventningsrett Men kan vise at dersom തX n P μ vil også തX 2 n P μ 2 Mer generelt, for enhver kontinuerlig funksjon f vil f( തX n ) P f(μ)

4.Sentralgrenseteoremet

Trenger vi å vite noe mer? Store talls lov sier at en estimator vil treffe når utvalget er stort nok Men så lenge vi ikke virkelig har uendelig mange observasjoner vil vi gjøre feil Da er det er spørsmål om hvor store feil vi gjør Hvordan feilen oppfører seg Sentralgrenseteoremet sier at når utvalget er stort vil feilen bli normalfordelt

Illustrere sentralgrenseteoremet i R Trekke fra en uniform fordeling på [0,1] mean(runif(10)) Tegne histogram hist(replicate(5000,mean(runif(1))),breaks=50) Se på eksponensialfordelingen hist(replicate(5000,mean(rexp(1))),breaks=50)

Sentralgrenseteoremet La X 1,, X n være trukket uavhengig fra en fordeling med forventning μ og varians σ 2 La ഥX n = 1 σ n i=1 n X i være gjennomsnittet med utvalgsstørrelse n Når utvalgsstørrelse n vil ഥ X n μ σ/ n N(0,1)

Eksempel: Binomisk fordeling Den binomiske fordelingen er en sum av mange Bernoulli-forsøk La X n binomisk(n, p) med n stor Da er X n n et gjennomsnitt av mange identisk fordelte variable Forventning np = p n np 1 p Varians = p(1 p) n Fra sentralgrenseteoremet får vi X n n p p(1 p) n N(0,1) X n N[np, np 1 p ]

Anvendelse: Brownsk bevegelse En aksje starter på et tidspunkt på 100 kr Hvert øyeblikk kan den gå opp eller ned, anta med lik sannsynlighet Verdien et år senere er summen av veldig mange veldig små opp eller ned Det betyr at endringen over et tidsrom er normalfordelt Variansen proporsjonal med lengden på tidsrommet Dette gir en Brownsk bevegelse Viktig byggestein i mye moderne finansteori Verdi 80 90 100 110 120 130 0 200 400 600 800 1000 Tid

Hvorfor holder sentralgrenseteoremet? Hver verdi kan være liten, stor, eller midt i mellom Kan få 2 små etter hverandre men lite sannsynlig Også mulig å få 10 små etter hverandre men veldig usannsynlig Tilsvarende for store Derfor vil de kansellere hverandre ut, lage en fordeling med mye masse i midten og liten masse i endene

Hvordan bevise sentralgrenseteoremet? Trenger momentgenererende funksjon (mgf) For en stokastisk variabel X er den M t = E e tx Finne mgf en til X n Vise at den går mot mgf en til normalfordelingen når n Utvikling med Taylor-rekker

Hvor generelt er sentralgrenseteoremet? Ikke nødvendig at alle X i har samme forventning eller varians Men ingen kan dominere Alle må ha varians σ 2 < + Ikke nødvendig at alle X i er uavhengige Men de kan ikke være for avhengige

Når er sentralgrenseteoremet sterkt? Når går gjennomsnittet raskt mot normalfordelingen og når går det tregt? Høy varians ikke noe problem Går sakte hvis X i har Skjev fordeling Tunge haler

Hva blir normalfordelt? Vi har sett a gjennomsnitt går mot normalfordeling når N blir stor Men mange estimatorer kan skrives som et gjennomsnitt F.eks. medianen hist(replicate(5000,median(runif(500))),breaks=50) Kan bruke sentralgrenseteoremet på stort sett alle estimatorer vi kommer over Noen unntak Estimatet på a når X i uniform(0, a)

Når er N stor nok? Hvis utvalget er lite kan vi ikke bruke asymptotisk teori Mår er N stor nok til å bruke det? Finnes ikke entydig svar Hvordan er fordelingene i universet Hvor nøyaktig skal svaret være Ofte kommer vi langt med N 100 For mange ting er N 40 også greit Kan sjekke med Monte Carlo simuleringer