STK1100 våren 2017 Estimering

STK1100 våre 017 Estimerig Svarer til sidee 331-339 i læreboka Ørulf Borga Matematisk istitutt Uiversitetet i Oslo 1

Politisk meigsmålig Spør et tilfeldig utvalg på 1000 persoer hva de ville ha stemt hvis det hadde vært valg 305 ville ha stemt Ap Ap's oppslutig er 305 1000 = 0.305 Hvor sikkert er dette aslaget?

Målig av lugefuksjo Et mål på lugefuksjo er FEV1 (forced expiratory volume i 1 secod). I e studie i Hordalad på 1990-tallet ble FEV1 målt for 164 ikke-røykede, friske me i alder 30-34 år Hvorda ka vi bruke iformasjoe til å fastlegge et «ormalområde» for FEV1 for me i alder 30-34 år? (I praksis vil e også ta hesy til høyde og BMI, me det ser vi bort fra her) 3

The Germa tak problem Uder adre verdeskrig brukte de allierte (blat aet) serieumree for tyske taks til å aslå hvor mage taks tyskeree hadde og hvor stor produksjoe var for ulike måeder. Hvorda ka serieumree gi dee iformasjoe? 4

Statistiske modeller Felles for de tre situasjoee er at vi har data x1, x,..., x for eheter: For meigsmålige er x i =1 hvis perso ummer i ville ha stemt Ap, = 0 ellers For måligee av lugefuksjo er x i FEV1 målige for perso ummer i For taksee er x i serieummeret for de i-te takse de allierte fikk iformasjo om x i 5

På grulag av utvalget, dvs. de observerte x i -ee, øsker vi å få kuskap om de populasjoe observasjoee kommer fra Vi må da ha e modell som agir hvorda de observerte -ee framkommer fra populasjoe x i Vi vil ata at x1, x,..., x er observerte verdier av stokastiske variable X1, X,..., X og at vi kjeer fordelige til de stokastiske variablee (med utak av e eller flere parametere) 6

For meigsmålige vil vi ata at X1, X,..., X er uavhegige og Beroulli-fordelte, dvs P( X = 1) = p og P( X = 0) = 1 p i For måligee av lugefuksjo vil vi ata at X1, X,..., X er uavhegige og N( µσ, ) - fordelte For taksee vil vi ata at X1, X,..., X er et tilfeldig utvalg (ute tilbakeleggig) blat tallee 1,,..., N I alle de tre tilfellee øsker vi å aslå verdie av e eller flere ukjete parametere, dvs p, µ, σ og N i 7

Geerelt vil vi ata at x1, x,..., x er observerte verdier av stokastiske variable X1, X,..., X og at X i -ee har e fordelig som avheger av e parameter θ (det ka være flere parametere, me vi vil fokusere på e om gage) Vi vil aslå verdie til θ (eller estimere verdie som det heter på «statistikerspråket») på grulag av observasjoee våre Til det bruker vi e estimator θ ˆ θ ˆ(,,..., ) = X1 X X På grulag av de observerte x i -ee, får vi estimatet θ ˆ θ ˆ( x, x,..., x ) = 1 8

Beroulli variabler og Biomisk fordelig Ata at X1, X,..., X er uavhegige og Beroullifordelte, dvs P( X = 1) = p og P( X = 0) = 1 i i p Da er = i i= 1 Y X biomisk(, p) E aturlig estimator for p er ˆ= Y p For meigsmålige har vi =1000 og vi observerte y= 305 Vi får dermed estimatet 305 ˆ = y p = 0.305 1000 = 9

E ae estimator for p er * = Y+ p + 4 For meigsmålige gir dee estimatet y+ 307 p* = = = 0.306 + 4 1004 Det er lite forskjell på ˆp og p* her. Forskjelle er større år er midre og y er ær 0 eller Hvorda ka vi avgjøre hvilke estimator som er best? 10

Mea square error (MSE) Vi ser på de geerelle situasjoe der X1, X,..., X har e fordelig som avheger av e parameter θ Vi øsker at estimatore θ ˆ = θ ˆ( X,,..., ) 1 X X skal være ær θ Kokret øsker vi at MSE( θˆ ) = E[( θˆ θ ) ] skal være så lite som mulig Merk at (detaljer på forelesige) MSE( θˆ ) = V ( θˆ ) + [ E( θˆ ) θ] = varias + (skjevhet) 11

Se på situasjoe der Vi har estimatoree Y ˆ= Y p biomisk(, p) og Her er (detaljer på forelesige) MSE( pˆ ) (1 ) = p p * = Y+ p + 4 p(1 p) / 4 p / MSE( p*) = + + 8 + 16 / 1+ 4 / 1

MSE for ˆp («usual») og p* («alterative») = 10 = 100 13

Forvetigsrette estimatorer Vi ser på de geerelle situasjoe med e estimator θ ˆ θ ˆ( X, X,..., X ) for θ = 1 Hvis E( θˆ ) = θ for alle mulige verdier av θ, sier vi at ˆθ er forvetigsrett (egelsk: ubiased) For e forvetigsrett estimator er skjevhete E( θˆ ) θ lik 0, og det følger at MSE( θˆ ) =V ( θˆ ) For de biomiske situasjoe er pˆ= Y e forvetigsrett estimator for p 14

Uavhegige og idetisk fordelte variabler Ata at X1, X,..., X er uavhegige og idetisk fordelte (u.i.f.) med forvetig µ og varias σ Da er ˆµ 1 = X= X i i= 1 e forvetigsrett estimator for µ og V ( µ ˆ) = V ( X ) = σ 15

Videre er (detaljer på forelesige) 1 ( ) S = X 1 i X i = 1 e forvetigsrett estimator for Disse estimatoree er spesielt aktuelle for ormalfordelte data (for adre fordelige ka det være at adre estimatorer er bedre) For FEV1-måligee var x = 4.48 og s = s = 0.60 FEV1-måliger for 30-34 år gamle ikke-røykede, frikse me er (ca.) ormalfordelt med forvetigsverdi 4.48 liter og stadardavvik 0.60 liter 16

Uiform diskret fordelig Ata at X1, X,..., X er et tilfeldig utvalg ute tilbakeleggig blat tallee 1,,..., N, der N er ukjet (jf. «the Germa tak problem») Vi vil fie e forvetigsrett estimator for N La X ( ) = max X i være det største tallet vi observerer Da er (detaljer på forelesige) ( N+ 1) E X ( ) = + 1 og e forvetigsrett estimator for N er ˆ + 1 N= X 1 ( ) 17

Ved å bruke dee formele (samme med diverse ae iformasjo) kue de allierte aslå størrelse av de tyske produksjoe av taks i ulike måeder (og på ulike steder): Ruggles & Brodie (1947). A Empirical Approach to Ecoomic Itelligece i World War II. Joural of the America Statistical Associatio, Vol. 4, pp.7-91 18