Løsningsforslag oblig 1 STK1110 høsten 2014

Like dokumenter
TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

STK Oppsummering

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

TMA4240 Statistikk Høst 2015

STK Oppsummering

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

TMA4240 Statistikk H2010

TMA4240 Statistikk Høst 2016

Kapittel 2: Hendelser

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk Høst 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

TMA4240 Statistikk H2010

Norske hoppdommere og Janne Ahonen

UNIVERSITETET I OSLO

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Løsningsforslag: STK2120-v15.

TMA4240 Statistikk 2014

UNIVERSITETET I OSLO

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

TMA4240 Statistikk Høst 2015

UNIVERSITETET I OSLO

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

TMA4240 Statistikk Eksamen desember 2015

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Bootstrapping og simulering Tilleggslitteratur for STK1100

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Foreleses onsdag 13.oktober, 2010

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Om eksamen. Never, never, never give up!

TMA4240 Statistikk 2014

TMA4240 Statistikk H2017 [15]

Eksamensoppgave i TMA4240 Statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

ÅMA110 Sannsynlighetsregning med statistikk, våren

Om eksamen. Never, never, never give up!

Punktestimator. STK Bootstrapping og simulering - Kap 7 og eget notat. Bootstrapping - eksempel Hovedide: Siden λ er ukjent, bruk ˆλ:

(utarbeidet av Mette Langaas), TMA4245 V2007

Regneøvelse 22/5, 2017

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

TMA4240 Statistikk H2010 (22)

TMA4240 Statistikk H2010

FORMELSAMLING TIL STK1100 OG STK1110

Bootstrapping og simulering

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgave i TMA4295 Statistisk inferens

UNIVERSITETET I OSLO

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2016

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

FORMELSAMLING TIL STK1100 OG STK1110

Kap. 8: Utvalsfordelingar og databeskrivelse

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

ÅMA110 Sannsynlighetsregning med statistikk, våren

Forslag til endringar

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 10. juni Ingeniørutdanning. TID: kl EMNEANSVARLIG: Hans Petter Hornæs

Fasit for tilleggsoppgaver

MAT-INF 2360: Obligatorisk oppgave 3. Løsningsforslag

Denne veka. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

Løsningsforslag eksamen 27. februar 2004

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Løsningsforslag statistikkeksamen desember 2014

TMA4240 Statistikk Høst 2015

TMA4245 Statistikk Eksamen august 2014

Løsningsforslag øving 8, ST1301

Dagens tekst. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

TMA4240 Statistikk Eksamen desember 2015

Bootstrapping og stokatisk simulering Tilleggslitteratur for STK1100

Løsningsforslag, eksamen statistikk, juni 2015

Denne veka. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

TMA4240 Statistikk Høst 2018

TMA4240 Statistikk H2010

Kp. 9.8 Forskjell mellom to forventninger

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 11. juni HiS Jørstadmoen. TID: kl EMNEANSVARLIG: Hans Petter Hornæs

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

ST0103 Brukerkurs i statistikk Høsten Momentestimatoren og sannsynlighetsmaksimeringsestimatoren

i x i

STK juni 2018

UNIVERSITETET I OSLO

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Oppfriskning av blokk 1 i TMA4240

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Tilfeldig utvalg [8.1] U.i.f. Statistisk inferens. Kapittel 8 og 9

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

ST1201 Statistiske metoder

Estimering og hypotesetesting

Transkript:

Løsningsforslag oblig STK høsten 4 Oppgave I forbindelse med en studie av antioksidanter og antocyanider, ble innholdet av antocyan i 5 beger med blåbær målt. De målte verdiene var (i mg per gram): 55 587 547 558 59 53 57 55 566 6 56 5 556 565 56 Vi antar at målingene kan betraktes som realisasjoner av uavhengige normalfordelte variable med forventning µ og varians σ. a) Lag et 95% konfidensintervall for forventningen µ. Vi har gitt 5 målinger av antocyanid i 5 beger blåbær, vi antar at målingene er uif. (uavhengige identisk fordelte) med X i N(µ,σ ), for i =,...5. Et 95% konfidensintervall for µ er gitt av ( X t α/,n S/ n, X +tα/,n S/ n) = (543.85, 575.48) hvor α =.5, t α/,n =.448 og S = n i (X i X). Vi brukte t-fordelingen siden σ er ukjent og vi er nødt til å estimere det vha. S. Dessuten, er utvalget veldig lite, kun 5 observasjoner. b) Generer datasett, hvert av størrelse n = 5, der observasjonene skal være realisasjoner av stokastiske variable X,X,...,X 5 som er uavhengige og N(558,3 )-fordelte. Du kan bruke rnorm-funksjonen i R til dette. Beregn 95% konfidensintervaller som i punkt a) fra de simulerte datasettene, og tell opp hvor mange av de intervallene som inneholder 558 Kommentér og forklar. Følgende er et forslag til R-kode som er en løsning av oppgaven. Du kan ha gjort det på en annen måte eller brukt en annen programvare. Vi oppretter en (x5) matrise X[i,j] der i er rader og j søyler. Vi bruker hjelpevariabelen tell til å telle antall intervaller som inneholder 558 og funksjonen for til å gå gjennom alle radene i =,,3,..., og beregne hvert intervall. Funksjonen if sjekker og teller om 558 er inneholdt i intervallet. Her, har vi beregnet konfidensintervaller utfra utvalg med 5 genererte tall fra N(558,3 ) og telt hvor mange av dem inneholder 558 i både oppgave (b) og (c). Dette har vi gjentatt ganger for å vise at svaret varierer og at ikke alle trenger nødvendigvis å ha fått det samme antallet. m= X <- matrix(data = NA, nrow = m, ncol = 5, byrow = FALSE,

tell = dimnames = NULL) for( i in :m){ X[i,] = rnorm(5,558,3) lower = mean(x[i,])-qt(.975,4)*sd(x[i,])/sqrt(5) upper = mean(x[i,])+qt(.975,4)*sd(x[i,])/sqrt(5) if(lower < 558 && 558 < upper){ tell = tell + } } andel = tell/m Her viser vi resultatene vi har fått ved å kjøre R-koden ganger. Du burde ha fått et lignende resultat. c) Omgang Antall int. som inneholder 558 Prosent 958 95.8% 9474 94.74% 3 9483 94.83% 4 948 94.8% 5 9496 94.96% 6 95 94.% 7 953 95.3% 8 954 95.4% 9 95 95.% 955 95.5% R-koden blir den samme, men vi må erstatte qt med.96. Omgang Antall int. som inneholder 558 Prosent 933 93.3% 95 9.5% 3 998 9.98% 4 979 9.79% 5 987 9.87% 6 993 9.93% 7 937 93.7% 8 9339 93.39% 9 938 93.8% 93 93.% Det er ingen god idé å benytte dette intervallet her da vi kun har 5 observasjoner. En tommelfingerregel sier at vi trenger minst 4 observasjoner for å benytte de tilnærmede intervallene man bruker for store utvalg. Det er selvsagt færre intervaller som inneholder 558 i

dette tilfellet siden.96 er mindre enn t-verdiene vi brukte i forrige deloppgave, og derfor er intervallene smalere her. Så dekningssansynligheten blir mindre enn vi tror. d) Alle realisasjonene kommer fra uavhengige normalt fordelte variabler, dette medfører at intervallene er uavhengige av hverandre. Vi sjekker om 558 er inneholdt i hvert av disse, med to mulige utfall enten ja eller nei. Så N = {Antall intervaller som inneholder 558} er binomisk fordelt med parameter N = og p b og p c der og p b = P( X t α/,n S/ n < 558 < X +t α/,n S/ n) n( X 558) = P( t α/,n < < t α/,n ) = α =.95 S p c = P( X.96S/ n < 558 < X +.96S/ n) n( X 558) = P(.96 < <.96) S = P(t 4 <.96) P(t 4 <.96).93 siden n( X 558)/S t 4. Vi ser at disse sannsynlighetene stemmer godt med de empiriske resultatene vi fikk i punkt b) og c). e) Vi skal vise at 4S /σ χ 4. Observér først at 5 ( ) Xi µ 5 ( Xi = X 5 +( X ) 5 µ) σ σ 5 ( Xi = X ) 5 5 (X i X 5 )( X 5 µ) + σ σ ( ) = (5 )S X5 µ + σ σ/ 5 5 ( ) X5 µ () siden i (X i X 5 ) = 5 X 5 5 X 5 =. Vi kjenner fordelingen til summen lengst til venstre (den er χ 5) og den lengst til høyre (den er χ ). Hvis vi nå kan vise at gitt stokastiske variable X,Y og Z, hvor Z χ n og Y χ m og hvor X og Y er uavhengige, så vil Z = X +Y X χ n m er vi ferdige. Dette gjøres lettest ved hjelp av momentgenererende funksjoner. Merk at hvis X χ k så er den momentgenererende funksjonen til X gitt som M X (t) = E[exp{tX}] = exp{tx}( k/ Γ(k/)) x k/ exp{ x/}dx = ( k/ Γ(k/)) u k/ (/ t) k/+ exp{ u}(/ t) du = k/ (/ t) k/ = ( t) k/ 3 σ

fra egenskapene til gammaintegralet og hvor u = x(/ t). Fra over har vi nå at siden X og Y er uavhengige er M Z (t) = M X+Y (t) = M X (t)m Y (t), videre er derfor M X = M Z (t)/m Y (t) = ( t) n/ /( t) m/ = ( t) (n m)/. som er den momentgenererende funksjonen til en χ n m-fordelt variabel, som var det vi skulle vise. f) Et 99% konfidensintervall for σ er gitt av Oppgave ((n )S /x α/,n, (n )S /x α/,n ) = (364.6, 8.5) X,...,X n er uavhengige og uniformt fordelt på intervallet [,θ], der θ er et ukjent parameter. De tilfeldige variablene har med andre ord tetthet { /θ hvis xi θ f(x θ) = ellers a) Forventningen til variablene X,...,X n er E[X i ] = siden Var(X i ) = E[X i] E[X i ] og E[X i] = xf(x θ)dx = x f(x θ)dx = har vi at Var(X i ) = θ /3 (θ/) = θ /. b) x θ dx = θ x θ dx = θ xdx = θ, x dx = θ 3 Fra a) har vi at E[X i ] = θ/ og momentestimatoren er derfor gitt som ˆθ = X, den er videre forventningsrett siden E[ˆθ] = E[ X] = E[ n n X i ] = E[X ] = θ. 4

c) Vi har at Var(ˆθ) = Var( X) = 4Var( n n X i ) = 4 n n Var( X i ). Siden X,...,X n er uavhengige har vi at og i tillegg like fordelte (ergo samme varians) Var(ˆθ) = 4 n n Var( X i ) = 4 n Var(X n i ) Var(ˆθ) = 4 n nvar(x ) = θ 3n. Så derfor er σˆθ = Var(ˆθ) = θ/(3n) /. Vi sier at estimatoren ˆθ er konsistent hvis ˆθ P θ. Fra Chebychevs ulikhet har vi at for enhver ǫ > vil Pr{ ˆθ θ ǫ} Var(ˆθ) ǫ = θ 3nǫ når n og ˆθ er derfor konsistent. d) På grunn av uavhengighet er simultantettheten til X,...,X n gitt som f(x,...,x n θ) = n { /θ n hvis x f(x i θ) = i θ for alle i =,...,n ellers e) Siden x i θ, for i =,...,n er det samme som at min x i max x i θ, kan vi i n i n skrive simultantettheten som f(x,...,x n θ) = { /θ n hvis min ellers i n x i max i n x i θ, siden /θ n er avtagende for θ [ max x i, ) følger det at likelihoodfunksjonen er størst for i n minst mulig θ som er større enn eller lik max x i. Derfor er maksimum likelihood estimatoren i n gitt som ˆθ max = U = max X i. i n 5

f) La U = max i n X i, da er den kumulative fordelingsfunksjonen til U F U (u) = Pr{U u} = Pr{max i n X i u} = Pr{X i u,i =,...,n}. Alle begivenhetene {X i u},i =,...,n er uavhengige siden variablene X,...,X n er det. Da er sannsynligheten for snittet av begivenhetene lik produktet av begivenhetene slik at n ( ) n u Pr{X i u,i =,...,n} = Pr{X i u} = Pr{X u} n = θ der vi brukte at X i har alle den samme fordelingen. Siden tettheten f U (u) er den deriverte av den kumulative fordelingsfunksjonen er f U (u) = { n θ n u n for u θ ellers. g) Forventningen til ˆθ max = U er h) E[U] = uf U (u)du = un( u θ )n θ du = n θ n u n du = n θ n θ n+ n+ = nθ n+. Fra punkt g) ser vi at estimatoren θ = (n+)ˆθ max /n må være forventningsrett, videre er siden Var( θ) = (n+) n E[U ] = ( nθ n+ ( nθ n+ u n( u θ )n θ du = n θ n ) ) = (n+) n nθ (n+)(n+) = θ n(n+), u n+ du = n θ n θ n+ n+ = nθ n+ i) Vi foretrekker θ siden Var( θ) = θ n(n+) Var(ˆθ) = θ 3n for all n. j) Vi har generert datasett med tall fra uniform fordelingen med (kjent) θ =. For hvert av disse datasettene har vi regnet ut momentestimatoren ˆθ (thetamom i plottene) og den modifiserte sannsynlighetsmaksimeringsestimatoren θ (thetamod i plottene). Vi har plottet både boksplott og histogram. På begge plottene kan man se at θ har lavere varians enn ˆθ, med andre ord, θ ligger generelt nærmere enn det ˆθ gjør. 6

.6.8.. thetamom thetamod Density 5 5 thetamom thetamod.6.8.. Vi har brukt R-koden under til å generere plottene N= n= thetamom=c(:n) thetamod=c(:n) for(i in :N){ data = runif(n) thetamom[i]=*mean(data) thetamod[i]=((n+)/n)*max(data) } 7

boxplot <- data.frame(thetamom,thetamod) postscript("boxplot.eps") boxplot(boxplot) dev.off() postscript("histogram.eps") hist(thetamom, freq=f, col="red", main=null, xlab=null, ylim=c(,5)) hist(thetamod, freq=f, col="blue", add=t, main=null, xlab=null) legend("topright", legend=c("thetamom", "thetamod"),col=c( red, blue ), lty=,lwd=.5) dev.off() Oppgave 3 a) Vi vil bestemme forkastningsområdet R = {X k} slik at sannsynligheten for feil av type I blir α.5. Så α P(X k λ = ) = P(X = ) P(X = k ). Vi beregner k ved hjelp av sannsynlighetsfunskjonen: P(X = x) = e λ λ x x!. For k = får vi P(X = ) = e =.8647 For k =, For k = 3, P(X = ) P(X = ) = e e =.594 For k = 4 For k = 5 P(X = ) P(X = ) P(X = ) = e e e P(X 4 λ = ) = e e e 3 e 6 =.49 =.333 P(X 5 λ = ) = e e e 3 e 6 4 e 4 =.57 For k = 6 P(X 6 λ = ) = e e e 3 e 6 4 e 4 5 e =.66 Førsteverdiavk slikatα <.5erk = 6såvivelgerR = {X 6}somforkastningsområde. 8

b) Vi er bedt om å beregne P(forkaste H λ = 4). Legg merke til at dette tilfellet ikke er en feil siden vi skal forkaste når λ = 4, dvs. vi gjør det riktige. Hvis λ = 4 da er X Poiss(4) c) P(X k λ = 4) = e 4 5 l= 4 l l! =.49 Type-II-feil er sannsynlighet for å godta H når den ikke er sann. I dette tilfellet blir dette P(R λ = 4) = P(X k λ = 4) =.785 X,...,X m der X i Poiss(n i p), i =,...,m. Likelihoodfunksjonen er: log-likelihood blir L(p;x,...,x m ) = P(X = x,...,x m = x m ) uavh. = P(X = x ) P(X m = x m ) = e n p (n p) x e nmp (n m p) xm x! x m! = x! x m! (n p) x (n m p) xm e p n i. m l(p;x,...,x m ) := logl(p;x,...,x m ) = log x! x m! + x i log(n i p) p Den deriverte av log-l er: n i. p l(p;x,...,x m ) = p x i n i = som gir følgende sannsynlighetsmaksimeringsestimator: ˆp MLE = x i n i (som selvsagt maksimerer L siden p logl < ). Dette er en fornuftig estimator (under antagelsen om uavhengighet) siden vi teller antall tilfeller x,...,x m i hver populasjon, legger dem sammen og deler på totalt antall individer n i. 9

d) Vi skal finne E[ˆp MLE ] og Var[ˆp MLE ]. E[ˆp MLE ] = n i E[X i ] = n i n i p = p der vi brukte at X i Poisson(n i p) og derfor E[X i ] = n i p for alle i =,,...,m. Dette viser at ˆp MLE er en forventningsrett estimator for p. Var[ˆp MLE ] = ( n i) Var[X i ] = ( n i) n i p = n ip dervibrukteatx i eruavhengigeforåkunnesplitteoppvarianstilsummenogatvar[x i ] = n i p for alle i =,,...,m. Legg merke til at Var[ˆp MLE ] når n i og på grunn av Chebyshev s ulikhet får vi at estimatoren ˆp MLE er konsistent.