Løsningsforslag oblig STK høsten 4 Oppgave I forbindelse med en studie av antioksidanter og antocyanider, ble innholdet av antocyan i 5 beger med blåbær målt. De målte verdiene var (i mg per gram): 55 587 547 558 59 53 57 55 566 6 56 5 556 565 56 Vi antar at målingene kan betraktes som realisasjoner av uavhengige normalfordelte variable med forventning µ og varians σ. a) Lag et 95% konfidensintervall for forventningen µ. Vi har gitt 5 målinger av antocyanid i 5 beger blåbær, vi antar at målingene er uif. (uavhengige identisk fordelte) med X i N(µ,σ ), for i =,...5. Et 95% konfidensintervall for µ er gitt av ( X t α/,n S/ n, X +tα/,n S/ n) = (543.85, 575.48) hvor α =.5, t α/,n =.448 og S = n i (X i X). Vi brukte t-fordelingen siden σ er ukjent og vi er nødt til å estimere det vha. S. Dessuten, er utvalget veldig lite, kun 5 observasjoner. b) Generer datasett, hvert av størrelse n = 5, der observasjonene skal være realisasjoner av stokastiske variable X,X,...,X 5 som er uavhengige og N(558,3 )-fordelte. Du kan bruke rnorm-funksjonen i R til dette. Beregn 95% konfidensintervaller som i punkt a) fra de simulerte datasettene, og tell opp hvor mange av de intervallene som inneholder 558 Kommentér og forklar. Følgende er et forslag til R-kode som er en løsning av oppgaven. Du kan ha gjort det på en annen måte eller brukt en annen programvare. Vi oppretter en (x5) matrise X[i,j] der i er rader og j søyler. Vi bruker hjelpevariabelen tell til å telle antall intervaller som inneholder 558 og funksjonen for til å gå gjennom alle radene i =,,3,..., og beregne hvert intervall. Funksjonen if sjekker og teller om 558 er inneholdt i intervallet. Her, har vi beregnet konfidensintervaller utfra utvalg med 5 genererte tall fra N(558,3 ) og telt hvor mange av dem inneholder 558 i både oppgave (b) og (c). Dette har vi gjentatt ganger for å vise at svaret varierer og at ikke alle trenger nødvendigvis å ha fått det samme antallet. m= X <- matrix(data = NA, nrow = m, ncol = 5, byrow = FALSE,
tell = dimnames = NULL) for( i in :m){ X[i,] = rnorm(5,558,3) lower = mean(x[i,])-qt(.975,4)*sd(x[i,])/sqrt(5) upper = mean(x[i,])+qt(.975,4)*sd(x[i,])/sqrt(5) if(lower < 558 && 558 < upper){ tell = tell + } } andel = tell/m Her viser vi resultatene vi har fått ved å kjøre R-koden ganger. Du burde ha fått et lignende resultat. c) Omgang Antall int. som inneholder 558 Prosent 958 95.8% 9474 94.74% 3 9483 94.83% 4 948 94.8% 5 9496 94.96% 6 95 94.% 7 953 95.3% 8 954 95.4% 9 95 95.% 955 95.5% R-koden blir den samme, men vi må erstatte qt med.96. Omgang Antall int. som inneholder 558 Prosent 933 93.3% 95 9.5% 3 998 9.98% 4 979 9.79% 5 987 9.87% 6 993 9.93% 7 937 93.7% 8 9339 93.39% 9 938 93.8% 93 93.% Det er ingen god idé å benytte dette intervallet her da vi kun har 5 observasjoner. En tommelfingerregel sier at vi trenger minst 4 observasjoner for å benytte de tilnærmede intervallene man bruker for store utvalg. Det er selvsagt færre intervaller som inneholder 558 i
dette tilfellet siden.96 er mindre enn t-verdiene vi brukte i forrige deloppgave, og derfor er intervallene smalere her. Så dekningssansynligheten blir mindre enn vi tror. d) Alle realisasjonene kommer fra uavhengige normalt fordelte variabler, dette medfører at intervallene er uavhengige av hverandre. Vi sjekker om 558 er inneholdt i hvert av disse, med to mulige utfall enten ja eller nei. Så N = {Antall intervaller som inneholder 558} er binomisk fordelt med parameter N = og p b og p c der og p b = P( X t α/,n S/ n < 558 < X +t α/,n S/ n) n( X 558) = P( t α/,n < < t α/,n ) = α =.95 S p c = P( X.96S/ n < 558 < X +.96S/ n) n( X 558) = P(.96 < <.96) S = P(t 4 <.96) P(t 4 <.96).93 siden n( X 558)/S t 4. Vi ser at disse sannsynlighetene stemmer godt med de empiriske resultatene vi fikk i punkt b) og c). e) Vi skal vise at 4S /σ χ 4. Observér først at 5 ( ) Xi µ 5 ( Xi = X 5 +( X ) 5 µ) σ σ 5 ( Xi = X ) 5 5 (X i X 5 )( X 5 µ) + σ σ ( ) = (5 )S X5 µ + σ σ/ 5 5 ( ) X5 µ () siden i (X i X 5 ) = 5 X 5 5 X 5 =. Vi kjenner fordelingen til summen lengst til venstre (den er χ 5) og den lengst til høyre (den er χ ). Hvis vi nå kan vise at gitt stokastiske variable X,Y og Z, hvor Z χ n og Y χ m og hvor X og Y er uavhengige, så vil Z = X +Y X χ n m er vi ferdige. Dette gjøres lettest ved hjelp av momentgenererende funksjoner. Merk at hvis X χ k så er den momentgenererende funksjonen til X gitt som M X (t) = E[exp{tX}] = exp{tx}( k/ Γ(k/)) x k/ exp{ x/}dx = ( k/ Γ(k/)) u k/ (/ t) k/+ exp{ u}(/ t) du = k/ (/ t) k/ = ( t) k/ 3 σ
fra egenskapene til gammaintegralet og hvor u = x(/ t). Fra over har vi nå at siden X og Y er uavhengige er M Z (t) = M X+Y (t) = M X (t)m Y (t), videre er derfor M X = M Z (t)/m Y (t) = ( t) n/ /( t) m/ = ( t) (n m)/. som er den momentgenererende funksjonen til en χ n m-fordelt variabel, som var det vi skulle vise. f) Et 99% konfidensintervall for σ er gitt av Oppgave ((n )S /x α/,n, (n )S /x α/,n ) = (364.6, 8.5) X,...,X n er uavhengige og uniformt fordelt på intervallet [,θ], der θ er et ukjent parameter. De tilfeldige variablene har med andre ord tetthet { /θ hvis xi θ f(x θ) = ellers a) Forventningen til variablene X,...,X n er E[X i ] = siden Var(X i ) = E[X i] E[X i ] og E[X i] = xf(x θ)dx = x f(x θ)dx = har vi at Var(X i ) = θ /3 (θ/) = θ /. b) x θ dx = θ x θ dx = θ xdx = θ, x dx = θ 3 Fra a) har vi at E[X i ] = θ/ og momentestimatoren er derfor gitt som ˆθ = X, den er videre forventningsrett siden E[ˆθ] = E[ X] = E[ n n X i ] = E[X ] = θ. 4
c) Vi har at Var(ˆθ) = Var( X) = 4Var( n n X i ) = 4 n n Var( X i ). Siden X,...,X n er uavhengige har vi at og i tillegg like fordelte (ergo samme varians) Var(ˆθ) = 4 n n Var( X i ) = 4 n Var(X n i ) Var(ˆθ) = 4 n nvar(x ) = θ 3n. Så derfor er σˆθ = Var(ˆθ) = θ/(3n) /. Vi sier at estimatoren ˆθ er konsistent hvis ˆθ P θ. Fra Chebychevs ulikhet har vi at for enhver ǫ > vil Pr{ ˆθ θ ǫ} Var(ˆθ) ǫ = θ 3nǫ når n og ˆθ er derfor konsistent. d) På grunn av uavhengighet er simultantettheten til X,...,X n gitt som f(x,...,x n θ) = n { /θ n hvis x f(x i θ) = i θ for alle i =,...,n ellers e) Siden x i θ, for i =,...,n er det samme som at min x i max x i θ, kan vi i n i n skrive simultantettheten som f(x,...,x n θ) = { /θ n hvis min ellers i n x i max i n x i θ, siden /θ n er avtagende for θ [ max x i, ) følger det at likelihoodfunksjonen er størst for i n minst mulig θ som er større enn eller lik max x i. Derfor er maksimum likelihood estimatoren i n gitt som ˆθ max = U = max X i. i n 5
f) La U = max i n X i, da er den kumulative fordelingsfunksjonen til U F U (u) = Pr{U u} = Pr{max i n X i u} = Pr{X i u,i =,...,n}. Alle begivenhetene {X i u},i =,...,n er uavhengige siden variablene X,...,X n er det. Da er sannsynligheten for snittet av begivenhetene lik produktet av begivenhetene slik at n ( ) n u Pr{X i u,i =,...,n} = Pr{X i u} = Pr{X u} n = θ der vi brukte at X i har alle den samme fordelingen. Siden tettheten f U (u) er den deriverte av den kumulative fordelingsfunksjonen er f U (u) = { n θ n u n for u θ ellers. g) Forventningen til ˆθ max = U er h) E[U] = uf U (u)du = un( u θ )n θ du = n θ n u n du = n θ n θ n+ n+ = nθ n+. Fra punkt g) ser vi at estimatoren θ = (n+)ˆθ max /n må være forventningsrett, videre er siden Var( θ) = (n+) n E[U ] = ( nθ n+ ( nθ n+ u n( u θ )n θ du = n θ n ) ) = (n+) n nθ (n+)(n+) = θ n(n+), u n+ du = n θ n θ n+ n+ = nθ n+ i) Vi foretrekker θ siden Var( θ) = θ n(n+) Var(ˆθ) = θ 3n for all n. j) Vi har generert datasett med tall fra uniform fordelingen med (kjent) θ =. For hvert av disse datasettene har vi regnet ut momentestimatoren ˆθ (thetamom i plottene) og den modifiserte sannsynlighetsmaksimeringsestimatoren θ (thetamod i plottene). Vi har plottet både boksplott og histogram. På begge plottene kan man se at θ har lavere varians enn ˆθ, med andre ord, θ ligger generelt nærmere enn det ˆθ gjør. 6
.6.8.. thetamom thetamod Density 5 5 thetamom thetamod.6.8.. Vi har brukt R-koden under til å generere plottene N= n= thetamom=c(:n) thetamod=c(:n) for(i in :N){ data = runif(n) thetamom[i]=*mean(data) thetamod[i]=((n+)/n)*max(data) } 7
boxplot <- data.frame(thetamom,thetamod) postscript("boxplot.eps") boxplot(boxplot) dev.off() postscript("histogram.eps") hist(thetamom, freq=f, col="red", main=null, xlab=null, ylim=c(,5)) hist(thetamod, freq=f, col="blue", add=t, main=null, xlab=null) legend("topright", legend=c("thetamom", "thetamod"),col=c( red, blue ), lty=,lwd=.5) dev.off() Oppgave 3 a) Vi vil bestemme forkastningsområdet R = {X k} slik at sannsynligheten for feil av type I blir α.5. Så α P(X k λ = ) = P(X = ) P(X = k ). Vi beregner k ved hjelp av sannsynlighetsfunskjonen: P(X = x) = e λ λ x x!. For k = får vi P(X = ) = e =.8647 For k =, For k = 3, P(X = ) P(X = ) = e e =.594 For k = 4 For k = 5 P(X = ) P(X = ) P(X = ) = e e e P(X 4 λ = ) = e e e 3 e 6 =.49 =.333 P(X 5 λ = ) = e e e 3 e 6 4 e 4 =.57 For k = 6 P(X 6 λ = ) = e e e 3 e 6 4 e 4 5 e =.66 Førsteverdiavk slikatα <.5erk = 6såvivelgerR = {X 6}somforkastningsområde. 8
b) Vi er bedt om å beregne P(forkaste H λ = 4). Legg merke til at dette tilfellet ikke er en feil siden vi skal forkaste når λ = 4, dvs. vi gjør det riktige. Hvis λ = 4 da er X Poiss(4) c) P(X k λ = 4) = e 4 5 l= 4 l l! =.49 Type-II-feil er sannsynlighet for å godta H når den ikke er sann. I dette tilfellet blir dette P(R λ = 4) = P(X k λ = 4) =.785 X,...,X m der X i Poiss(n i p), i =,...,m. Likelihoodfunksjonen er: log-likelihood blir L(p;x,...,x m ) = P(X = x,...,x m = x m ) uavh. = P(X = x ) P(X m = x m ) = e n p (n p) x e nmp (n m p) xm x! x m! = x! x m! (n p) x (n m p) xm e p n i. m l(p;x,...,x m ) := logl(p;x,...,x m ) = log x! x m! + x i log(n i p) p Den deriverte av log-l er: n i. p l(p;x,...,x m ) = p x i n i = som gir følgende sannsynlighetsmaksimeringsestimator: ˆp MLE = x i n i (som selvsagt maksimerer L siden p logl < ). Dette er en fornuftig estimator (under antagelsen om uavhengighet) siden vi teller antall tilfeller x,...,x m i hver populasjon, legger dem sammen og deler på totalt antall individer n i. 9
d) Vi skal finne E[ˆp MLE ] og Var[ˆp MLE ]. E[ˆp MLE ] = n i E[X i ] = n i n i p = p der vi brukte at X i Poisson(n i p) og derfor E[X i ] = n i p for alle i =,,...,m. Dette viser at ˆp MLE er en forventningsrett estimator for p. Var[ˆp MLE ] = ( n i) Var[X i ] = ( n i) n i p = n ip dervibrukteatx i eruavhengigeforåkunnesplitteoppvarianstilsummenogatvar[x i ] = n i p for alle i =,,...,m. Legg merke til at Var[ˆp MLE ] når n i og på grunn av Chebyshev s ulikhet får vi at estimatoren ˆp MLE er konsistent.