Første sett med obligatoriske oppgaver i STK1110 høsten 2015 Dette er det første obligatoriske oppgavesettet i STK1110 høsten 2015. Oppgavesettet består av fire oppgaver. Du må bruke Matematisk institutts forside ved innlevering. Der du bruker R (eller et annet program), må utskrifter legges ved/limes inn. Besvar spørsmålene kort og konsist! Det er helt i orden og utmerket dersom dere samarbeider og diskuterer hvordan oppgavene skal løses, men utformingen og formuleringen av besvarelsene må være individuelle. Hvis flere studenter samarbeider om å løse oppgavene, må hver student levere sin selvstendige besvarelse, og det må gå frem av besvarelsen hvem den enkelte har samarbeidet med. Se ellers Regelverk for obligatoriske oppgaver som er gitt på kursets hjemmeside. Besvarelsen leveres utenfor ekspedisjonen til Matematisk institutt, 7. etasje, Niels Henrik Abels hus. Frist for innlevering er torsdag 8. oktober 2015 kl. 14.30. Oppgave 1 Kalium-argon-metoden er en metode som brukes til å datere bergarter. Metoden bygger på at en bestemt isotop av kalium omdannes til en isotop av argon med en halveringstid på 1.28 milliarder år. Ved å måle forholdet mellom de to isotopene kan en finne ut hvor gammel en bergart er. Et eksempel på slike målinger er gitt i tabellen nedenfor. Denne gir aldersbestemmelse (i millioner år) ved kalium-argon-metoden av 19 prøver som alle er tatt fra den samme bergarten i Schwarzwald i Tyskland. 249 254 243 268 253 269 287 241 273 306 303 280 260 256 278 344 304 283 310 Vi får en modell som tar hensyn til måleusikkerheten ved å anta at de målte alderne er observerte verdier av stokastiske variable X 1, X 2,..., X 19 som er uavhengige og identisk fordelte med forventningsverdi µ og standardavvik σ. Her er µ alderen til bergarten mens σ er et mål for usikkerheten ved bruk av kalium-argon-metoden. (a) Estimer alderen til bergarten og bestem et 90% konfidensintervall for alderen. (b) Estimer måleusikkerheten σ og bestem et 90% konfidensintervall for den. (c) Diskuter eventuelle forutsetninger du må gjøre i punktene (a) og (b) og vurder om forutsetningen(e) er rimelig(e). 1
(d) Bruk så ikke-parametrisk bootstrapping for å konstruere 90% konfidensintervaller for µ og σ. Diskuter eventuelle forskjeller med de intervaller du fikk i (a) og (b). Oppgave 2 La X 1, X 2,..., X n være et tilfeldig utvalg fra en fordeling med forventningsverdi µ og standardavvik σ, og la X = n i=1 X i/n og S 2 = n i=1 (X i X) 2 /(n 1). Vi skal i denne oppgaven se nærmere på konfidensintervall for µ og σ. I punktene (a) (d) antar vi at X i -ene er uavhengige og N(µ, σ 2 )-fordelte. Fra avsnitt 6.4 i læreboka har vi da at: og X µ S/ n (n 1)S 2 er t-fordelt med n 1 frihetsgrader (1) σ 2 er kjikvadrat-fordelt med n 1 frihetsgrader (2) (a) Ta utgangspunkt i (1) og utled et 100(1 α)% konfidensintervall for µ. (b) Ta utgangspunkt i (2) og utled et 100(1 α)% konfidensintervall for σ. Vi kan studere egenskapene til konfidensintervallene i punktene (a) og (b) ved å generere mange normalfordelte datasett, beregne konfidensintervallene for hvert datasett og telle opp hvor mange av dem som inneholder de sanne verdiene av µ og σ (som er kjent når vi simulerer, men ikke ellers). På web-siden til STK1110, timeplan eksempel 9.19, gitt R kode for en slik simulering (i en litt annen situasjon). (c) Generer 1000 datasett av størrelse n = 10 fra N(1, 1)-fordelingen og beregn konfidensintervallene i punktene (a) og (b) for hvert av datasettene. Tell opp hvor mange av konfidensintervallene som inneholder de sanne verdiene av parameterene (µ = 1 og σ = 1). Bruk α = 0.05, dvs. se på 95% konfidensintervall. (d) Gjenta simuleringene for n = 25, n = 50 og n = 100. Diskuter de resultatene du får. Konfidensintervallene du fant i punktene (a) og (b) er utledet under forutsetning at X i -ene er normalfordelte. Vi skal nå se på hvordan det går hvis vi bruker konfidensintervallene fra punktene (a) og (b) når X i -ene er gamma-fordelte med forventningsverdi µ = 1 og standardavvik σ = 1 (som svarer til formparameter α = 1 og skalaparameter β = 1). Merk at den α som inngår i gamma-fordelingen er noe annet enn signifikansnivået α (litt uheldig at samme symbol brukes to steder, men vi følger boka her). Generer 1000 datasett av størrelse n = 10 fra gammafordelingen med forventningsverdi µ = 1 og standardavvik σ = 1 og beregn konfidensintervallene i punktene a og b for hvert av datasettene. Tell opp hvor mange av konfidensintervallene som inneholder de sanne verdiene av µ og σ. (Vink: R-kommandoen for å generere 10 observasjoner fra gammafordelingen med α = 1 og β = 1 er rgamma(10,shape=1,scale=1).) 2
Gjenta simuleringene for n = 25, n = 50 og n = 100. Diskuter de resultatene du får og sammenlign med punktene (c) og (d). Oppgave 3 La X være inntekten til en tilfeldig valgt lønnsmottaker i en bestemt befolkningsgruppe. Det er vanlig å anta at X er Pareto-fordelt, det vil si at X har sannsynlighetstettheten f(x) = θκ θ ( 1 x) θ+1 hvis x > κ, 0 ellers. Her er κ minsteinntekten i den aktuelle befolkningsgruppen, mens θ > 1 er en parameter som avhenger av lønnsforskjellene i gruppen. Vi vil i hele oppgaven regne med at minsteinntekten κ er kjent. (a) Vis at den kumulative sannsynlighetsfordelingen til X blir 1 ( κ θ x) hvis x > κ, F (x) = 0 ellers. Bruk dette til å vise at medianinntekten er µ = 2 1/θ κ. (b) Vis at forventet inntekt er E(X) = θκ/(θ 1). (c) Vis at Y = 2θ[ln(X) ln(κ)] er kjikvadrat-fordelt med 2 frihetsgrader. (Hint: Finn først den kumulative fordelingen til Y.) La nå X 1, X 2,..., X n være inntektene til et tilfeldig utvalg fra den aktuelle gruppen. Det betyr at X 1, X 2,..., X n er uavhengige stokastiske variable som alle har sannsynlighetstettheten (3). (d) Bestem moment estimatoren for θ. (3) (e) Sett opp likelihooden og vis at maksimum likelihood estimatoren for θ blir θ = n n i=1 ln(x i) n ln(κ) (4) (f) Vis at 2nθ/ θ er kjikvadrat-fordelt med 2n frihetsgrader. (Vink: Bruk resultatet i punkt (c).) Hvis V er en stokastisk variabel som er kjikvadrat-fordelt med ν frihetsgrader, så er E ( V k) = 2k Γ ( ν 2 + k) Γ( ν 2 ) så sant k > ν/2 (5) Et bevis for (5) er gitt på sidene 322-323 i læreboka (og du trenger ikke vise resultatet). 3
(g) Finn forventningen og variansen til maksimum likelihood estimatoren (4). (h) Er maksimum likelihood estimatoren forventningsrett ( unbiased )? Hvis ikke, foreslå en estimator som er forventningsrett og bestem variansen til denne. Oppgave 4 Vi skal i denne oppgaven se nærmere på data fra oppgave 8.10 i læreboka. Her er et tilfeldig utvalg av n = 15 varmepumper undersøkt mhp levetid, noe som ga følgende levetider (i år): 2.0 1.3 6.0 1.9 5.1 0.4 1.0 5.3 15.7 0.7 4.8 0.9 12.2 5.3 0.6 Vi vil anta at levetidene er eksponensielt fordelt med parameter λ slik at f(x; λ) = λe λx, x 0 Vi ønsker å teste hypotesen H 0 : λ = 0.35 mot H a : λ 0.35 (*) (a) Finn maksimum likelihood estimatet for λ. (b) Vis at hvis X i er eksponensielt fordelt, så er 2λX i kjikvadrat fordelt med 2 frihetsgrader. Vink: Regn ut E[e 2tλX ] og relater dette til momentgererende funksjoner. (c) Vis at 2λ n i=1 X i er kjikvadrat fordelt med 2n frihetsgrader og bruk dette til å konstruere et konfidensintervall for λ. (d) Utfør en test basert på sammenhengen mellom konfidensintervall og hypotesetesting. Hva blir din konklusjon på testen hvis du bruker α = 0.05? Hva blir din konklusjon på testen hvis du bruker α = 0.1? (e) Argumenter hvorfor P-verdien til denne testen ligger mellom 0.05 og 0.1. Hva blir P-verdien basert på denne testen? Vink: Bruk Proposisjon på side 458 i boka. (f) Konstruer nå en Likelihood ratio test for å teste hypotesen. Vis at 2 ln(lr) = 2n ln(ˆλ) 2n ln(λ 0 ) 2(ˆλ λ 0 ) Bruk dette til å teste (*). Hva blir konklusjonen hvis du bruker α = 0.05 og tilsvarende når du bruker α = 0.1. Vink: Bruk de generelle egenskaper om Likelihood ratio observatorer som beskrevet på side 477 i boka. 4 n i=1 x i
(g) Beregn P-verdien for LR-testen. (h) Diskuter eventuelle forskjeller mellom testen basert på konfidensintervaller og testen basert på LR. 5