STK1100 våren 2019 Mere om konfidensintevaller

STK1100 våren 2019 Mere om konfidensintevaller Svarer til avsnitt 8.2 i læreboka Ørnulf Borgan Matematisk institutt Universitetet i Oslo 1

Konfidensintervall for µ i store utvalg Anta at de stokastiske variablene X1, X2,..., Xn er uavhengige og identisk fordelte med forventningsverdi µ og standardavvik σ Sentralgrensesetningen gir da at Z = X σ / µ n er tilnærmet standardnormalfordelt når n er tilstrekkelig stor Men hvis σ ikke er kjent (som vanligvis er tilfellet), kan vi ikke bruke dette til å lage et konfidensintervall for µ 2

En forventningsrett estimator for σ 2 er 1 S X X n 2 2 = ( i ) n 1 i= 1 En kan vise at også Z = X S / µ n er tilnærmet standardnormalfordelt når n er tilstrekkelig stor (ofte nok at n er minst 40) Derfor er X µ P zα z α 1 α S / n 3

Ved å omforme ulikhetene gir dette at S S P X zα µ X+ z α 1 α n n Når vi setter inn observerte verdier x1, x2,..., xn for de stokastiske variablene X1, X2,..., Xn får vi et tilnærmet 100(1-α)% konfidensintervall for µ s x z, x+ z n α α s n Dette gjelder uansett fordeling for X i - ene så sant n er tilstrekkelig stor 4

Eksempel: Måling av lungefunksjon Et mål på lungefunksjon er FEV1 (forced expiratory volume in 1 second). I en studie i Hordaland på 1990-tallet ble FEV1 målt for 1642 ikke-røykende, friske menn i alder 30-34 år For FEV1-målingene var x = 4.48 og s 2 = s = 0.60 Et tilnærmet 95% konfidensitervall for forventet FEV1-verdi for 30-34 år gamle menn er 0.60 0.60 4.48 1.96, 4.48+ 1.96 1642 1642 dvs 4.48± 0.03 5

Eksempel: Dødsulykker i trafikken i Norge og Sverige I 2017 døde 107 personer i trafikken i Norge, mens 251 personer døde i trafikken i Sverige Hva kan vi si om risikoen for dødsulykker i de to landene? Er er en reell forskjell på risikoen for dødsulykker i Norge og Sverige? For å si noe om risikoen for dødsulykker og kunne sammenligne landene, må vi ta hensyn til størrelsen av befolkningene 1. januar 2017 bodde det 5.26 millioner mennesker i Norge og 10.00 millioner mennesker i Sverige 6

Vi vil anta X = antall dødsulykker er Poisson-fordelt med forventningsverdi der E( X ) w= =λw antall innbyggere / 100 000 λ er forventet antall dødsulykker per 100000 personer Generelt har vi følgende situasjon: X er Poisson fordelt, og E( X ) =λw der w er en kjent størrelse Vi vil estimere λ og bestemme et konfidensintervall

En forventningsrett estimator for λ er λ= ˆ X w Standardfeilen er σ λˆ = V( λˆ ) = λ w Hvis E(X) er tilstrekkelig stor, er X λw λw = λˆ λ λ / w = λˆ λ σ λˆ tilnærmet standardnormalfordelt 8

Derfor er λˆ λ P zα z α 1 α λ / w Ved å omforme ulikhetene gir dette (detaljer på forelesningen) 2 ˆ 2 2 ˆ 2 ˆ z z ˆ z z P α λ α α λ α λ zα λ λ z + + + + 2 α + 1 α 2 2w w 4w 2w w 4w Et tilnærmet 100(1-α)% konfidensintervall for λ er: ˆ ˆ z λ z λ+ ± + 2w w 4w 2 2 α α zα 2 Når w er stor, kan vi bruke intervallet: λ± ˆ zα λˆ w 9

Norge: x = 107 w = 52.6 Estimat: ˆ 107 λ= = 2.03 52.6 1.68, 2.46 95% konfidensintervall: [ ] Enkelt konfidensintervall: [ 1.65, 2.42] Sverige: x = 251 w = 100.0 Estimat: ˆ 251 λ= = 2.51 100.0 95% konfidensintervall: [ 2.22, 2.84] Enkelt konfidensintervall: [ 2.20, 2.82] 10

Meningsmåling Spør et tilfeldig utvalg på 681 personer hva de ville ha stemt hvis det hadde vært valg 115 ville ha stemt Sp La p være andelen i befolkningen som ville ha stemt Sp hvis det hadde vært stortingsvalg Et estimat for p er 115 p= ˆ = 0.169 681 Vi vil finne et 95 % konfidensintervall for p 11

Generelt har vi følgende situasjon: Vi har observert verdien y av en stokastisk variabel Y som er binomisk fordelt med n forsøk og «suksessannsynlighet» p Vi antar at np og n(1-p) begge er minst lik ti, slik at vi kan bruke tilnærmelsen til normalfordelingen (jf. sidene 189-190 og 302) Vi vil bestemme et tilnærmet 100(1-α)% konfidensintervall for p 12

Y En estimator for p er pˆ = n Vi har at Y np pˆ p = np(1 p) p(1 p) n er tilnærmet standardnormalfordelt Det gir at pˆ p P z z p(1 p) n α α 1 α 13

Hvis vi løser ulikhetene får vi at (dropper utledning) 2 2 pˆ (1 pˆ ) / n z / (4 n ) P + α pɶ zα 2 1 + zα / n p pɶ + z 2 2 pˆ (1 pˆ ) / n+ z / (4 n ) α 1 + / n α 2 zα 1 α der pˆ + z / 2n pɶ= 1 + z / n 2 α 2 α Et tilnærmet 100(1-α)% konfidensintervall for p er pɶ ± z pˆ (1 pˆ ) / n+ z / (4 n ) α 2 + zα 1 / 2 2 α n 14

Hvis n er stor nok, er det vanlig å bruke det enklere intervallet pˆ ± z pˆ (1 pˆ ) / n (*) α Men dette intervallet har dårligere egenskaper enn det på forrige slide når n er «moderat stor» Faktisk konfidenskoeffisient for (*) for ulike verdier av p når n = 100 15

For meningsmålingen gir formelen nederst på slide 14 følgende 95% konfidensintervall for Sp's oppslutning: [ 0.143, 0.199] mens det enkle intervallet (*) gir 0.169± 0.028 dvs. [ 0.141, 0.197] 16