STK1100 våren 2019 Mere om konfidensintevaller

Like dokumenter
TMA4240 Statistikk Høst 2015

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

STK1100 våren Generell introduksjon. Omhandler delvis stoffet i avsnitt 1.1 i læreboka (resten av kapittel 1 blir gjennomgått ved behov)

TMA4245 Statistikk Eksamen desember 2016

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

ST0202 Statistikk for samfunnsvitere

Fasit for tilleggsoppgaver

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

STK1100 våren Forventningsverdi. Forventning, varians og standardavvik

ST0202 Statistikk for samfunnsvitere

TMA4245 Statistikk Eksamen desember 2016

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

Løsning eksamen desember 2016

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4240 Statistikk

Midtveiseksamen i STK1100 våren 2017

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Eksamensoppgave i TMA4240 Statistikk

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

ST0202 Statistikk for samfunnsvitere

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

STK Oppsummering

UNIVERSITETET I OSLO Matematisk Institutt

STK1100 våren 2017 Estimering

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

TMA4240 Statistikk Høst 2018

Eksamensoppgave i ST0103 Brukerkurs i statistikk

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2015

Binomisk sannsynlighetsfunksjon

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

ÅMA110 Sannsynlighetsregning med statistikk, våren

Binomisk fordeling. Hypergeometrisk fordeling. MAT0100V Sannsynlighetsregning og kombinatorikk. Vi har følgende situasjon: = = 2

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

UNIVERSITETET I OSLO

TMA4240 Statistikk 2014

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

LØSNINGSFORSLAG ) = Dvs

TMA4240 Statistikk 2014

HØGSKOLEN I STAVANGER

TMA4240 Statistikk Høst 2015

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

Bernoulli forsøksrekke og binomisk fordeling

TMA4240 Statistikk Eksamen desember 2015

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

Eksamensoppgåve i TMA4240 Statistikk

Kapittel 9 og 10: Hypotesetesting

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

STK Oppsummering

Løsningsforslag statistikkeksamen desember 2014

TMA4240 Statistikk Høst 2016

DEL 1 GRUNNLEGGENDE STATISTIKK

TMA4240 Statistikk Høst 2009

Formelsamling i medisinsk statistikk

ÅMA 110 SANNSYNLIGHETSREGNING MED STATISTIKK Løsningsforslag til regneøving nr. 12 (s. 34)

TMA4240 Statistikk Høst 2015

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

STK juni 2018

Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Forelening 1, kapittel 4 Stokastiske variable

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Regneøvelse 22/5, 2017

ÅMA 110 (TE 199) Sannsylighetsregning og statistikk Løsningsforslag til eksamen vår 2005, s. 1. Oppgave 1

SFB LØSNING PÅ EKSAMEN HØSTEN 2018

i x i

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

TMA4240 Statistikk H2010 (22)

TMA4240 Statistikk Eksamen desember 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

ST0103 Brukerkurs i statistikk Høsten Momentestimatoren og sannsynlighetsmaksimeringsestimatoren

UNIVERSITETET I OSLO

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Econ 2130 uke 16 (HG)

TMA4240 Statistikk H2010

TMA4245 Statistikk Eksamen august 2014

Transkript:

STK1100 våren 2019 Mere om konfidensintevaller Svarer til avsnitt 8.2 i læreboka Ørnulf Borgan Matematisk institutt Universitetet i Oslo 1

Konfidensintervall for µ i store utvalg Anta at de stokastiske variablene X1, X2,..., Xn er uavhengige og identisk fordelte med forventningsverdi µ og standardavvik σ Sentralgrensesetningen gir da at Z = X σ / µ n er tilnærmet standardnormalfordelt når n er tilstrekkelig stor Men hvis σ ikke er kjent (som vanligvis er tilfellet), kan vi ikke bruke dette til å lage et konfidensintervall for µ 2

En forventningsrett estimator for σ 2 er 1 S X X n 2 2 = ( i ) n 1 i= 1 En kan vise at også Z = X S / µ n er tilnærmet standardnormalfordelt når n er tilstrekkelig stor (ofte nok at n er minst 40) Derfor er X µ P zα z α 1 α S / n 3

Ved å omforme ulikhetene gir dette at S S P X zα µ X+ z α 1 α n n Når vi setter inn observerte verdier x1, x2,..., xn for de stokastiske variablene X1, X2,..., Xn får vi et tilnærmet 100(1-α)% konfidensintervall for µ s x z, x+ z n α α s n Dette gjelder uansett fordeling for X i - ene så sant n er tilstrekkelig stor 4

Eksempel: Måling av lungefunksjon Et mål på lungefunksjon er FEV1 (forced expiratory volume in 1 second). I en studie i Hordaland på 1990-tallet ble FEV1 målt for 1642 ikke-røykende, friske menn i alder 30-34 år For FEV1-målingene var x = 4.48 og s 2 = s = 0.60 Et tilnærmet 95% konfidensitervall for forventet FEV1-verdi for 30-34 år gamle menn er 0.60 0.60 4.48 1.96, 4.48+ 1.96 1642 1642 dvs 4.48± 0.03 5

Eksempel: Dødsulykker i trafikken i Norge og Sverige I 2017 døde 107 personer i trafikken i Norge, mens 251 personer døde i trafikken i Sverige Hva kan vi si om risikoen for dødsulykker i de to landene? Er er en reell forskjell på risikoen for dødsulykker i Norge og Sverige? For å si noe om risikoen for dødsulykker og kunne sammenligne landene, må vi ta hensyn til størrelsen av befolkningene 1. januar 2017 bodde det 5.26 millioner mennesker i Norge og 10.00 millioner mennesker i Sverige 6

Vi vil anta X = antall dødsulykker er Poisson-fordelt med forventningsverdi der E( X ) w= =λw antall innbyggere / 100 000 λ er forventet antall dødsulykker per 100000 personer Generelt har vi følgende situasjon: X er Poisson fordelt, og E( X ) =λw der w er en kjent størrelse Vi vil estimere λ og bestemme et konfidensintervall

En forventningsrett estimator for λ er λ= ˆ X w Standardfeilen er σ λˆ = V( λˆ ) = λ w Hvis E(X) er tilstrekkelig stor, er X λw λw = λˆ λ λ / w = λˆ λ σ λˆ tilnærmet standardnormalfordelt 8

Derfor er λˆ λ P zα z α 1 α λ / w Ved å omforme ulikhetene gir dette (detaljer på forelesningen) 2 ˆ 2 2 ˆ 2 ˆ z z ˆ z z P α λ α α λ α λ zα λ λ z + + + + 2 α + 1 α 2 2w w 4w 2w w 4w Et tilnærmet 100(1-α)% konfidensintervall for λ er: ˆ ˆ z λ z λ+ ± + 2w w 4w 2 2 α α zα 2 Når w er stor, kan vi bruke intervallet: λ± ˆ zα λˆ w 9

Norge: x = 107 w = 52.6 Estimat: ˆ 107 λ= = 2.03 52.6 1.68, 2.46 95% konfidensintervall: [ ] Enkelt konfidensintervall: [ 1.65, 2.42] Sverige: x = 251 w = 100.0 Estimat: ˆ 251 λ= = 2.51 100.0 95% konfidensintervall: [ 2.22, 2.84] Enkelt konfidensintervall: [ 2.20, 2.82] 10

Meningsmåling Spør et tilfeldig utvalg på 681 personer hva de ville ha stemt hvis det hadde vært valg 115 ville ha stemt Sp La p være andelen i befolkningen som ville ha stemt Sp hvis det hadde vært stortingsvalg Et estimat for p er 115 p= ˆ = 0.169 681 Vi vil finne et 95 % konfidensintervall for p 11

Generelt har vi følgende situasjon: Vi har observert verdien y av en stokastisk variabel Y som er binomisk fordelt med n forsøk og «suksessannsynlighet» p Vi antar at np og n(1-p) begge er minst lik ti, slik at vi kan bruke tilnærmelsen til normalfordelingen (jf. sidene 189-190 og 302) Vi vil bestemme et tilnærmet 100(1-α)% konfidensintervall for p 12

Y En estimator for p er pˆ = n Vi har at Y np pˆ p = np(1 p) p(1 p) n er tilnærmet standardnormalfordelt Det gir at pˆ p P z z p(1 p) n α α 1 α 13

Hvis vi løser ulikhetene får vi at (dropper utledning) 2 2 pˆ (1 pˆ ) / n z / (4 n ) P + α pɶ zα 2 1 + zα / n p pɶ + z 2 2 pˆ (1 pˆ ) / n+ z / (4 n ) α 1 + / n α 2 zα 1 α der pˆ + z / 2n pɶ= 1 + z / n 2 α 2 α Et tilnærmet 100(1-α)% konfidensintervall for p er pɶ ± z pˆ (1 pˆ ) / n+ z / (4 n ) α 2 + zα 1 / 2 2 α n 14

Hvis n er stor nok, er det vanlig å bruke det enklere intervallet pˆ ± z pˆ (1 pˆ ) / n (*) α Men dette intervallet har dårligere egenskaper enn det på forrige slide når n er «moderat stor» Faktisk konfidenskoeffisient for (*) for ulike verdier av p når n = 100 15

For meningsmålingen gir formelen nederst på slide 14 følgende 95% konfidensintervall for Sp's oppslutning: [ 0.143, 0.199] mens det enkle intervallet (*) gir 0.169± 0.028 dvs. [ 0.141, 0.197] 16