Populasjon, utvalg og estimering

Like dokumenter
KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering.

Econ 2130 Forelesning uke 11 (HG)

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

STK1100 våren 2017 Estimering

Estimering 1 -Punktestimering

Kapittel 8: Estimering

Estimering 1 -Punktestimering

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

Oversikt over konfidensintervall i Econ 2130

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

Oversikt over konfidensintervall i Econ 2130

TMA4240 Statistikk Høst 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 5 Estimering. Målemodellen.

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

Kap. 9: Inferens om én populasjon

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

Mer om utvalgsundersøkelser

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Kap. 9: Inferens om én populasjon

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

TMA4245 Statistikk Eksamen mai 2017

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

TMA4240 Statistikk Høst 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Oversikt over konfidensintervall i Econ 2130

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Oppgaven består av 9 delspørsmål, A,B,C,., som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<.. >>.

Statistikk og økonomi, våren 2017

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk

Oppgaver fra boka: X 2 X n 1

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

Forelesning 4 og 5 Transformasjon, Weibull-, lognormal, beta-, kji-kvadrat -, t-, F- fordeling

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

Kapittel 7: Noen viktige sannsynlighetsfordelinger

TMA4240 Statistikk Høst 2016

Estimering 2. -Konfidensintervall

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,

MOT310 Statistiske metoder 1, høsten 2011

ECON240 Statistikk og økonometri

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

Modeller og parametre. STK Punktestimering - Kap 7. Eksempel støtfangere. Statistisk inferens. Binomisk fordeling. p X (x) = p x (1 p) n x

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

MOT310 Statistiske metoder 1, høsten 2012

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

TMA4240 Statistikk Høst 2009

Oppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre.

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan

Høgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 12. desember 2008

Løsningsforslag ST2301 øving 3

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Hypotesetesting, del 4

Noen vanlige. Indikatorfordeling: 1, dersom suksess. I mange situasjoner kan fenomenet vi ser på. 0, dersom ikke suksess

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

Kapittel 7: Noen viktige sannsynlighetsfordelinger

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Oppsummering

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

TMA4245 Statistikk Vår 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006

Påliteligheten til en stikkprøve

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

«Uncertainty of the Uncertainty» Del 4 av 6

TMA4245 Statistikk Eksamen 9. desember 2013

Forelesning Moment og Momentgenererende funksjoner

TMA4245 Statistikk Eksamen august 2015

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Rep.: generelle begrep og definisjoner Kp. 10.1, 10.2 og 10.3

TMA4240 Statistikk Eksamen desember 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren Noen viktige sannsynlighetsmodeller. Binomisk modell. Kp. 3 Diskrete tilfeldige variable

UNIVERSITETET I OSLO

Løsningsforslag Oppgave 1

Kapittel 5: Tilfeldige variable, forventning og varians.

TMA4240/4245 Statistikk 11. august 2012

TMA4240 Statistikk Høst 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 4. Hypotesetesting, del 4

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 2

Emnenavn: Metode 1, statistikk deleksamen. Eksamenstid: 4 timer. Faglærer: Bjørnar Karlsen Kivedal

Tema. Statistikk og prøvetakning. Hvorfor måle mer enn en gang? Fordelinger en innledning. Hvorfor måle mer enn en gang

betegne begivenheten at det trekkes et billedkort i trekning j (for j=1,2,3), og komplementet til

2. Hypotesetesting i ulike sitausjoner: i. for forventingen, μ, i målemodellen med normalantakelse og kjent varians, σ 2.

Ukeoppgaver i BtG207 Statistikk, uke 4 : Binomisk fordeling. 1

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

Transkript:

Populasjo, utvalg og estimerig (Notat til forelesig i estimerig, Kap. 6.) Populasjo og utvalg Med basalkuskap i sasylighetsregig og sasylighetsfordeliger er vi å i stad til å gå videre med statistisk iferes der hesikte er å geeralisere kuskap fra et utvalg over til et større populasjo som utvalget er tatt fra. E populasjo er e veldefiert og stor samlig av for eksempel meesker, dyr, plater eller geerelt objekter vi ka samle data fra i de hesikt å framskaffe vite om de samme populasjoe. Merk at populasjo ikke ødvedigvis har oe med meesker å gjøre, me ka bestå av e samlig av ær sagt hva som helst. Det vi er ute etter å vite oe om, ka f.eks. være sykdomshyppighet i e ærmere defiert befolkig, gjeomsittlig masse av gratrære i e bestemt skog, eller sasylighete for at geværammuisjoe fra e bestemt produksjosserie virker. For å framskaffe ødvedig iformasjo fra populasjoee i oe av eksemplee ovefor er det kaskje ærliggede å udersøke hvert ekelt idivid i befolkige, eller måle hvert ekelt gratre i skoge. Dette ka fort bli praktisk uoverkommelig. I adre tilfeller ville e total udersøkelse være svært uhesiktsmessig. Dersom for eksempel e ammuisjosfabrikk skulle fie sasylighete for at ammuisjoe virket, ville det være dumt sett fra produsetes side å teste alle skuddee i e stor produksjosserie. De farbare vei er å udersøke et begreset utvalg fra populasjoe og foreta observasjoer på dette begresede atall objekter, aalysere og deretter geeralisere til de øvrige populasjoe. Me spørsmålet blir da: Gitt e populasjo, hvorda ka e framskaffe et represetativt utvalg? På de ae side: Gitt at vi har et utvalg, hvilke populasjo ka det geeraliseres til? Vi skaffer oss et represetativt utvalg fra populasjoe ved i prisipp å trekke ut et visst atall eheter slik at hver ekelt ehet har de samme sasylighet for å bli trukket og at alle trekigee er uavhegige av hveradre. Dette kalles på egelsk simple radom samplig. Det er viktig å merke seg at år utvelgige gjøres på dee måte, er alle utvalg av samme størrelse (samme atall objekter) likeverdige, me fordi utvalgee som regel ikke gir idetiske observerte verdier, vil de geeraliserig til populasjoe de ekelte utvalg fører til, ikke ødvedigvis være de samme. For eksempel ka sykdomsprevales i e befolkig basert på ett utvalg være 0.10 %, 1

mes aslaget basert på et aet utvalg fra de samme populasjoe ka bli 0.1 %. Det ee er like korrekt som det adre fordi slike aslaget alltid er beheftet med usikkerhet med heblikk på de sae, ukjete verdi. Dette skal vi komme tilbake til seere. Ofte i medisiske studier er situasjoe de at utvalget er gitt, og så geeraliseres resultatee ute take på hva slags populasjo det er rimelig å geeralisere til. For eksempel ka resultater fra et utvalg fra ieliggede pasieter ikke ute videre påstås å gjelde for befolkige som helhet. Geerelt er det slik at statistisk geeraliserig bare ka foretas til e populasjo som er slik at det utvalget vi har, ka oppfattes som et tilfeldig utvalg fra dee populasjoe. Her har det vært gjort, og gjøres fremdeles, mage feil i medisisk forskig. Parameter og puktestimerig E parameter er umerisk verdi ( et tall ), valigvis ukjet, brukt til å represetere visse egeskaper ved sasylighetsfordelige til et eller aet karaktertrekk, observerbar størrelse, til objektee i e populasjo. Hvis for eksempel karaktertrekket er høyde på persoer i e populasjoe, vil forvetige ( mea ) i sasylighetsfordelige til høyde kue være e slik egeskap ved karaktertrekket høyde. E ae egeskap ved høyde ka være et mål for spredige av de, variasjoe, i populasjoe uttrykt som for eksempel variase. Det som observeres på objektee i e populasjo, ka geerelt uttrykkes som e stokastisk variabel med tilhørede sasylighetsfordelig. E sasylighetsfordelig spesifiseres fullstedig av des klasse (ormalfordelig, biomisk fordelig, osv.) og av tilhørede kostat(er) - parameter (parametrer). For eksempel ka høyde til persoer i e populasjo atas å være ormalfordelt med forvetig μ og varias. Her er parametree μ og, begge som regel ukjete. I produksjoe av ammuisjo er de aktuelle parameter sasylighete for at et tilfeldig valgt skudd fra produksjosserie virker. I eksemplet med prevales er parametere sasylighete for at et tilfeldig idivid i populasjoe har de aktuelle sykdomme. E parameter et således et fast, me valigvis ukjet tall som ærmere spesifiserer sasylighetsfordelige til et karaktertrekk observert som e stokastisk variabel i e populasjo, og statistisk iferes går bl.a. ut på å aslå (estimere) dette tallet på grulag av det som observeres i et begreset utvalg fra populasjoe. Puktestimerig Et utvalg av størrelse består av uavhegige stokastiske variabler som uttrykker et visst karaktertrekk hos objektee i utvalget. De stokastiske variablee har samme sasylighetsfordelig og samme verdi for parametree i fordelige, dvs. uavhegige og idetisk

fordelte observasjoer. Puktestimerig er på grulag av et utvalg fra e populasjo å aslå (estimere) e ukjet parameter ved hjelp av e matematisk fuksjo av observasjoee på objektee i utvalget. Eksempler på e fuksjo for å estimere forvetige er de aritmetiske middelverdie av observasjoee, mediae til observasjoee, middelverdie av høyeste og laveste observasjo i utvalget, eller de geometriske middelverdie. E slik fuksjo kalles e estimator, som derved blir e fuksjo av stokastiske variabler og følgelig selv e stokastisk variabel. Me år observasjoee er gjort og verdiee er satt i, får vi et estimat, et utreget tall, og ige tig er stokastisk leger. E parameter beteges valigvis med e gresk bokstav, og i det geerelle tilfellet beyttes gjere bokstave θ (theta). ). Estimatore for parametere uttrykkes som θˆ ( theta hatt ). Også selve estimatet ka ha samme betegelse, så her gjelder det å være spesielt oppmerksom for å ugå sammebladig av e stokastisk variabel (estimatore), et bereget tall (estimatet) og et ukjet tall (parametere). I spesialtilfellee der parametere er ete e forvetig eller e varias brukes valigvis μ, ˆ μ og, heholdsvis. Eksempelvis har e ormalfordelig to parametrer, μ og, mes Poissofordelige og biomialfordelige bare har é. Et kalkulert ekelt estimat gir ikke ødvedigvis de sae verdi for e ukjet parameter, og et ytt estimat basert på et aet utvalg vil som regel gi e ae verdi. Ethvert estimat må derfor tolkes med si iboede usikkerhet. Dette kommer vi tilbake til uder itervallestimerig. Det er mage forskjellige metoder å kostruere e estimator på. Vi skal ikke gå i på et geerelt oppsett her, me øye oss med det rimelige, ituitive valg, som gir de aturlige estimator. I seere kurs skal vi også komme i på Miste kvadratsus metode (Least Squares Estimatio) og på Sasylighetmaksimerigsprisippet (Maximum Likelihood). Estimatores egeskaper Når e estimator er valgt, må vi fie des egeskaper. For det første et det aturlig å forlage at e estimator skal estimere ettopp de ukjete parametere som vi er ute etter å estimere, dvs. de skal være forvetigsrett (eg.: ubiased), ikke ha oe systematisk avvik fra de sae verdi. Det betyr at vi det lage løp og uder de samme forutsetiger verke skal over- eller uderestimere. For det adre øsker vi å ha kotroll med usikkerhete, og e god egeskap er de at usikkerhete målt som estimatores varias (husk at e estimator er stokastisk) avtar og går mot ull år atall observasjoer øker og går mot uedelig. E forvetigsrett estimator med varias som går mot ull år atall observasjoer øker og går mot uedelig, kalles kosistet. Dette iebærer at år atall observasjoer øker, ka vi være mer og mer sikker på at estimatet er ær de ukjete parametere. 3

I det følgede atar vi at referasepopulasjoe består av et "stort" atall objekter, praktisk talt uedelig. Statistisk iferes i edelige populasjoer er eget spesialområde som vi ikke skal komme i på her. Ata at utvalget består av uavhegige observasjoer fra e "uedelig" stor populasjo. Vi har da stokastiske variabler med samme fordelig (ikke ødvedigvis e ormalfordelig). Vi kaller dem X 1, X,...X. La forvetige til de ekelte observasjo være μ og variase. Begge er parametrer i populasjoes fordelig. De kalles derfor populasjosforvetige og populasjosvariase heholdsvis, og begge skal estimeres på grulag av det observerte utvalg. E ituitiv og aturlig estimator for forvetige i populasjoe er det aritmetiske gjeomsitt i utvalget: μˆ X 1+ X +...+ X 1 X = = = X i i=1 Nedeuder bruker vi to viktige regeregler: X og Y er to stokastiske variabler, ikke ødvedigvis uavhegige. a, b og c er kostater. Da har vi alltid: (E1) E[aX +by +c] = ae[x] +be[y] + c og (E) Var[aX +by +c] = a Var[X] +b Var[b] + abcov[x, Y] I det følgede forutsetter vi at X-ee er uavhegige, slik at kovariaser ikke kommer i. Vi udersøker som valig estimatores egeskaper:. 1 1 E[ ˆ μ ] = E[ X ] = E ( X 1+ X +...+ X ) = μ = μ Estimatore er følgelig forvetigsrett ˆ 1 1 Var[ μ ] =Var[ X ] = Var[ ( X 1+ X +...+ X )] = = 4

Vi ser at Var[ ˆ μ ] 0 år. Dette iebærer at sasylighete for at estimatore er ær parametere, øker med økede atall observasjoe i utvalget. Dee egeskape kalles kosistes. For e og samme parameter ka det fies flere forvetigsrette estimatorer. Dersom de uderliggede fordelig er symmetrisk med é modalverdi (topp), vil f.eks. både utvalgets middelverdi, media og modalverdi være forvetigsrette for forvetige. I slike tilfeller er det aturlig å velge de estimator som har mist varias, e såkalt MVU-estimator (eg.: Miimum Variace Ubiased). I ormalfordeliger er det utvalgets middelverdi. Også i adre fordeliger ka det hede at middelverdie er forvetigsrett for forvetige, me ikke ødvedigvis være de forvetigsrette estimatore som har mist varias! Noe gager ka det derfor være hesiktsmessig å velge e forvetigsskjev estimator dersom dee har e betydelig midre varias e de forvetigsrette estimatore har. Normalfordelige og middelverdies sasylighetsfordelig Middelverdie og ormalfordelige opptrer hyppig i statistiske beregiger. Det at ormalfordelige så vidt ofte opptrer, beror på e fudametal matematisk setig uttrykt i et såkalt setralgreseteorem. Foreklet og upresist sagt iebærer dette uder visse betigelser : E stokastisk variabel vil være (tilærmet) ormalfordelt dersom de ka oppfattes som e sum av mage uavhegige størrelser, og at ige av disse har e domierede iflytelse på resultatet. Dette setralgreseteoremet ka brukes til å uderbygge atakelse om at stokastiske variabler som uttrykker målbare størrelser i populasjoer, slik som itelliges, høyde, vekt, blodtrykk osv. er tilærmet ormalfordelte. Argumetet er at observerte størrelser er summe av et stort atall små og valigvis uobserverbare størrelser. For eksempel er høyde på meesker i første omgag bestemt av e rekke uavhegige geetiske faktorer, derest av e rekke forhold uder fosterstadiet og seere av ulike faktorer uder oppvekste. På dee måte ka høyde sies å være summe av e rekke mer eller midre uavhegige faktorer der ige av dem har e domierede betydig. Setralgreseteoremet fører til at ormalfordelige kommer til å ita e helt spesiell stillig blat sasylighetsfordeligee og gir også e forklarig på at observasjosmaterialer så vidt ofte tilærmet ka beskrives som etoppede og klokkeformede fordeliger. Me vær klar over at ikke ehver klokkeformet fordelig er e ormalfordelig. 5

Ata å at X er e stokastisk variabel med forvetig μ og varias. Merk at vi her ikke fortsetter oe tig om hvilke type fordelig som foreligger. Me uasett hvilke fordelig X har, så ka setralgreseteoremet brukes til å si oe om gjeomsittsverdie av uavhegige observasjoer av X uttrykt som 1 1 1 X = X1+ X +... + X Dersom er rimelig stor, ser vi at X er e sum av mage uavhegige størrelser, som hver især har lite iflytelse på det samlede resultat. Regereglee E1 og E gir at EX ( ) = μ og Var( X ) = Setralgreseteoremet sier at da er X (tilærmet) ormalfordelt, og det medfører at X μ Z = = SD( X ) X μ kovergerer mot e stadard ormalfordelig år vokser mot uedelig. Det betyr i praksis at gjeomsittet (eller e sum) av tilstrekkelig mage uavhegige stokastiske variabler er ær ormalfordelt uasett hvilke fordelig observasjoee kommer fra. Dersom de opprielige fordelige ikke er altfor spesiell (stor skjevhet, eller multimodal), vil tilærmige gjelde oelude allerede fra >10. Itervallestimerig Nå som vi har kostruert e puktestimator for e parameter og agitt usikkerhete uttrykt ved estimatores varias, er det ærliggede å teke seg et itervall som med stor sasylighet ieholder de ukjete parametere. Det må med é gag sies at i klassisk (frekvetistisk) statistikk ikke er mulig å fie et slikt itervall for et spesifikt estimat. Me det ka kostrueres et itervall som er slik at for urealiserte observasjoer, dvs. før observerte verdier er satt i, er det e spesifisert sasylighet for at itervallet dekker de ukjete parametere. Etter at itervallet er umerisk bereget, er det stokastiske elemet ute, og et sasylighetsutsag om itervallet blir meigsløst. Ete er parametere ie i itervallet, eller så er de det ikke!! Dette volder hodebry for de fleste, og det er e utbredt misforståelse - også blat erfare biomedisiske forskere - at et bereget kofidesitervall ieholder de ukjete parametere med e spesifisert sasylighet. 6

Kostruksjo av kofidesitervall Ata at X 1, X,...,X er uavhegige og idetisk (iid) ormalfordelte med forvetig μ og varias. Vi har tidligere fuet MVU-estimatore μˆ = X med ˆ / Var( μ)=. Atar først at er kjet. Kepet er å å komme over i e kjet sasylighetsfordelig. Det gjøres ved å stadardisere μ, dvs. trekke fra forvetige og dele det hele på stadardavviket til estimatore. Dette gir: og medfører at ˆ μ - μ Z = N(0,1) P ( < Z α ) = 1 - α α 1- z z der α er et lite tall, valigvis 0.05, og der zα og z α 1- er kvatiler i stadard ormalfordelige. μˆ - μ Settes Z = regig: i i uttrykket ovefor, og beyttes symmetrie i ormalfordelige, fås ved litt P ˆ - z1-α < ˆ+ z1-α μ μ μ = 1-α Dette uttrykker et (1- α )-kofidesitervall for μ, og merk igje at utsaget gjelder for estimatore μˆ og ikke for et spesifikt estimat. Velges α =0.05, og erstattes μˆ med X, fås P X -1.96 < μ X +1.96 = 0.95 Slik kostrueres et 0.95-kofidesitervall for μ, og vi ka på kompakt form skrive itervallet som X ± 1.96 Vi ser at itervallet i dette tilfelle er symmetrisk om X, som jo vil variere fra utvalg til utvalg, me legde er fast 1.96 i i for fast utvalgsstørrelse og. Teker vi oss å at vi trekker gjetatte utvalg av størrelse og hver gag reger ut puktestimat og kofidesitervall for μ, vil vi få e rekke itervall av samme legde, me med forskjellig setrum. Noe gager vil et itervall 7

ieholde μ, adre gager ikke [Fig. 1]. Slik vi på forhåd kostruerte itervallee, vil imidlertid i det lage løp 95% av itervallee ieholde de ukjete parameter μ, me hvilke itervall som gjør det, ka vi ikke vite oe om. Fig. 1 Ti realiserte kofidesitervall for parametere µ. Alle itervallee er likeverdige, me merk at de sae µ ikke ligger iefor alle itervallee. Et utreget itervall vil, som evt tidligere, ete ieholde parametere eller ikke ieholde de. Det iteressate med et kofidesitervall er legde av det. Jo kortere det er, desto tryggere (jfr. eg. cofidet) ka vi være på at vi er i ærhete av de sae verdi av parametere. Vi ser at legde av kofidesitervallet er omvedt proporsjoalt med rote av atall observasjoer. Det vil si at dersom vi vil halvere legde av itervallet, må vi multiplisere atall observasjoer med 4. Det har derfor lite effekt å øke atallet fra f.eks. 15 til 0. For å halvere legde må vi i dette tilfelle øke atallet til 60. Legde er også avhegig av α ved at de avtar år α øker. Et 0.90- kofidesitervall er derfor kortere e et 0.95-itervall alt aet likt. Videre ser vi at legde er proporsjoal med stadardavviket til ekeltobservasjoee. Dee har vi oftest ige iflytelse over, så vår mulighet til å redusere usikkerhete ved gitt α -verdi er øke atall observasjoer betraktelig. I utledige ovefor atok vi at var kjet i de aktuelle ormalfordelige. Dette er sjelde tilfelle, slik at må estimeres ut fra utvalget (vi estimerer egetlig variase ). I slike tilfeller 8

kommer vi over i t-fordeliger. Resoemetet blir det samme, og de edelige formel for kofidesitervallet er strukturelt lik de som gjelder uder kjet varias, me kvatilee i stadard ormalfordelige erstattes med kvatiler i e t-fordelig med -1 frihetsgrader, og variase erstattes med estimatet s. Ettersom estimatet vil avhege av de observasjoee vi har i hvert utvalg, skjøer vi at å vil også legde av gjetatte kofidesitervall variere fordi estimatet for vil variere. Me selve prisippet for kostruksjo av kofidesitervall er det samme. Det samme er tolkige. Itervallestimerig ved ikke-ormalfordelte observasjoer Hittil har vi atatt at X var ormalfordelt og uder de forutsetige kostruert kofidesitervall for forvetige både ved kjet og ukjet varias. Hva å om X ikke ka atas å være ormalfordelt? Ettersom vi i kostruksjoe av kofidesitervall ikke treger fordelige til de ekelte X, me til middelverdie X, ka vi beytte setralgreseteoremet. Vi tar et relativt ekstremt eksempel: Vi teker oss e biomisk forsøksrekke med ekeltobservasjoer der utfallet i hvert ekeltforsøk ete er hedelse (I=1) eller ikke hedelse (I=0). P(I=1)=p er sasylighete for hedelse i hvert ekeltforsøk. Dee sasylighete skal estimeres, både pukt- og itervallestimat. Atall hedelser i hele forsøksrekke er X = I. X er da per defiisjo biomisk fordelt (,p). Dette er e diskret fordelig, og vi har: i= 1 i k P(X = k) = p (1- p ) k -k Tidligere har vi sett at E[X]=p, og Var[X]=p(1-p). Dersom oppgave er å fie et kofidesitervall for p, går vi fram som følger: X E aturlig estimator for p er p= ˆ. Vi udersøker som valig egeskapee: X p X p( 1 p) p(1- p) E[p] ˆ = E = = p og Var[p] ˆ =Var = = 9

Vi ser at estimatore er forvetigsrett og kosistet. På valig måte stadardiserer vi X ved å trekke fra forvetige og dividere på stadardavviket. Dette gir: p-p ˆ Z= p(1- p )/ ) X I1+ I +... + I Merk at pˆ = = er summe av mage uavhegige stokastiske variabler, hver ute domias på de edelige sum. Setralgreseteoremet iebærer å at år vokser, ærmer Z seg stadardormalfordelig. Tilærmige gjelder spesielt godt dersom p(1-p)>5. Ettersom p(1-p) maksimalt ka være ¼, medfører dette at mist må være 0. Når kravet ovefor er oppfylt, vil et (1-α )-kofidesitervall for p tilærmet bli pˆ ± p(1 p) / z1- α / Det umeriske resultat fås ved å erstatte p med sitt estimat p. Dette ka vi gjøre fordi estimatore p kovergerer mot p år øker. Harald Johse, sept. 008 10