Løsningsforslag øving 10, ST1301

Like dokumenter
Notat 6 - ST februar 2005

Bioberegninger - notat 4: Mer om sannsynlighetsmaksimering

Løsningsforslag øving 8, ST1301

Løsningsforslag øving 9, ST1301

Øving 12, ST1301 A: B:

Notat 3 - ST februar 2005

UNIVERSITETET I OSLO

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Løsningsforslag øving 12, ST1301

Notat 4 - ST februar 2005

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator.

TMA4245 Statistikk Eksamen desember 2016

UNIVERSITETET I OSLO

Løsningsforslag oblig 1 STK1110 høsten 2014

EKSAMENSOPPGAVE Georg Elvebakk NB! Det er ikke tillatt å levere inn kladd sammen med besvarelsen

Bioberegninger, ST1301 Onsdag 1. juni 2005 Løsningsforslag

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

I dag. Konfidensintervall og hypotesetes4ng ukjent standardavvik (kap. 7.1) t-fordelingen

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

TMA4240 Statistikk Høst 2016

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Notat 2, ST januar 2005

Eksamensoppgave i TMA4240 Statistikk

Notat 2, ST Sammensatte uttrykk. 27. januar 2006

ST0202 Statistikk for samfunnsvitere

MAT-INF 2360: Obligatorisk oppgave 3. Løsningsforslag

Bivariate analyser. Analyse av sammenhengen mellom to variabler. H 0 : Ingen sammenheng H 1 : Sammenheng

Programmering i R - del 2

Bioberegninger, ST november 2006 Kl. 913 Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner.

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

TMA4240 Statistikk Høst 2016

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Programmering i R. 6. mars 2004

TMA4240 Statistikk Høst 2018

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

MAT-INF 2360: Obligatorisk oppgave 3

ECON2130 Obligatorisk Oppgave

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Utsatt individuell skriftlig eksamen. STA 400- Statistikk

Tabell 1: Beskrivende statistikker for dataene

STK Statistiske metoder og dataanalyse høsten 2019 Løsningsforslag til oppgaver i læreboka for uke 38

Fra første forelesning:

UNIVERSITETET I OSLO Matematisk Institutt

UNIVERSITETET I OSLO

TMA4240 Statistikk 2014

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Forelesning 10 Statistiske mål for bivariat tabellanalyse. Korrelasjonsmål etter målenivå. Cramers V

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Binomisk sannsynlighetsfunksjon

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

Fasit for tilleggsoppgaver

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

Forslag til endringar

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

EKSAMEN I TMA4285 TIDSREKKEMODELLER Fredag 7. desember 2012 Tid: 09:00 13:00

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

TMA4240 Statistikk Høst 2009

i x i

ST0202 Statistikk for samfunnsvitere

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Kapittel 3: Studieopplegg

TMA4240 Statistikk Høst 2015

TMA4245 Statistikk Eksamen desember 2016

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Ekstreme bølger. Geir Storvik Matematisk institutt, Universitetet i Oslo. 5. mars 2014

Et lite notat om og rundt normalfordelingen.

Utvalgsfordelinger (Kapittel 5)

x λe λt dt = 1 e λx for x > 0 uavh = P (X 1 v)p (X 2 v) = F X (v) 2 = (1 e λv ) 2 = 1 2e λv + e 2λv = 2 1 λ 1 2λ = 3

Løsningsforslag eksamen STAT100 Høst 2010

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

Oppgave N(0, 1) under H 0. S t n 3

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Et lite notat om og rundt normalfordelingen.

Eksamensoppgave i TMA4240 Statistikk

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Oppfriskning av blokk 1 i TMA4240

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

STK Oppsummering

Kort overblikk over kurset sålangt

Bioberegninger, ST1301 Mandag 21. mai, 2007 Kl Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner. Sensur: 12.

ST0202 Statistikk for samfunnsvitere

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

EKSAMEN I FAG TMA4240 STATISTIKK

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Transkript:

Løsningsforslag øving 10, ST1301 Oppgave 1 Øyvind går to skiturer i påsken. På den en skituren viste klokken 12:32 når han startet og 12:59 når han kom tilbake på hytta. Den andre dagen viste klokken 12:32 når han startet og 12:58 når han vendte tilbake. Klokken hennes viser bare timer og minutter og ikke sekunder. Hva er sannsynligheten for at skituren den andre dagen var lenger (målt i tid) enn skituren den første dagen? Hint: Når klokken viser f.eks. 12:32 betyr det at tiden T 1 var et sted mellom 12:32:00 og 12:33:00 ved avlesning av starttidspunkt første dag. Bruk uniforme sannsynlighetsfordelinger for å modellere hva vi vet om T 1 og de tre andre tidspunktene som inngår i problemet. La f.eks. T 1 være uniform på intervallet fra 32 til 33. Finn sannsynligheten for hendelsen over (lengst skitur andre dag) ved å simulere 10000 realisasjoner av T 1, T 2,..., T 4 og tell opp antall ganger hendelsen inntreer f.eks. ved bruk av tellevariabel og if-setning. skitur <- function(nsim=1000) { nlenger <- 0 for (i in 1:nsim) { T1 <- runif(1,32,33) # Start første dag T2 <- runif(1,59,60) # Slutt første dag T3 <- runif(1,32,33) # Start andre dag T4 <- runif(1,58,59) # Slutt andre dag if (T4-T3>T2-T1) # Lengde andre skitur større enn første nlenger <- nlenger+1 return(nlenger/nsim) > skitur(nsim=100000) [1] 0.04156 Vi ser at sannsynligheten blir lik 0.041. Det kan vises at den eksakte sannsynligheten blir 1/24 (en løsning er her: http://groups.google.com/ groups?hl=en&lr=&ie=utf-8&oe=utf-8&threadm=alt260pbk38tvcm9kvbjjelqsmguupab2s% 404ax.com&rnum=1&prev=/groups%3Fhl%3Den%26lr%3D%26ie%3DUTF-8%26oe% 3DUTF-8%26selm%3Dalt260pbk38tvcm9kvbjjelqsmguupab2s%25404ax.com ). Oppgave 2 Programmering av likelihood funksjon. Beregning av SME. 1

I denne oppgaven skal vi estimere når og hvor lange brunstperioden er i en elgpopulasjon. Dette vil naturlig nok ikke være direkte observertbart men kan estimeres fra relevante data. Her skal vi bruke data gjort tilgjengelige av Erling Solberg ved NINA i Trondheim. Last ned dataene ovul2.dat fra hjemmesiden, og last disse inn i R ved å bruke read.table og attach. Disse dataene består av tre variable. t 1, t 2,..., t n (har navnet tid i data.framen) er antall dager siden nyttår jaktdag i fant sted. Variablen n i er antall elgkyr fellt på dag i, og variabelen x i er antall ut av disse som hadde ovulert (hatt eggløsning) på fellingstidspunktet. (Dette ble bestemt laboratorium ved å undersøke om en spesiell strukturer (en eller ere corpus luteum. 1 var tildstede i ovariene.). Hos elg inntreer ovulasjon en (eller ere ganger hvis først ovulasjon ikke fører til befruktning) i løpet av høsten for kjønnsmodne individer. Dermed vil andelen individer som har ovulert øke utover høsten og forløpet på denne sammenhengen vil kunne fortelle oss om gjennomsnittet og standardavviket til fordelingen av ovulasjonstidpunktene i populasjonen som vi her ønsker å estimere. Lag først et spredningsplot av andelen (x i /n i ) som har ovulert på ulike tidpunkt t i. La størrelsen på hvert punkt i plottet avhenge av n i slik at det fremkommer av plottet hvor mange observasjoner hvert punkt representer. Dette kan gjøres via argumentet cex. (Se?plot.default.) La oss nå anta at ovulasjonstidspunktet T til et gitt individ i populasjonen er normalfordelt med forventning µ og standardavvik σ. Ikke alle kyrne ovulerer fordi ikke alle har nådd kjønnsmodning som 3-åringer. La oss derfor anta at hvert individ ovulerer en gang i løpet av høsten med sannsynlighet q. Disse antakalsene utgjør tilsammen vår modell. Vi ønsker nå å sette opp likelihoodfunksjonen for de observerte dataene for denne modellen. Vi trenger altså å nne et uttrykk for sannsynligheten for dataene gitt parameterne µ, σ, og q. La O være hendelsen at et gitt individ ovulerer en eller annen gang i løpet av høsten. Sannsynligheten for at ovulasjon har funnet sted ved tidpunkt t i, altså at T < t i blir da P (T t i O i ) = P ( T µ σ t i µ σ ) = P (Z t i µ σ ) = G( t i µ σ ) hvor G er kumulativ tetthet til en standard normalfordelt variabel. 1 Se http://en.wikipedia.org/wiki/corpus_luteum. (1) 2

I likelihoodfunksjonen vår trenger vi de ubetingede sannsynligheten for hendelsen T < t i. La oss kalle denne sannsynligheten for p i. Bruker vi lov om totalsannsynlighet får vi at p i = P (T < t i ) = P (T < t i O i )P (O i ) + P (T < t i Ōi)P (Ōi) = G( t i µ )q + 0 (1 q) σ i og med at hendelsen T < t i har sannsynlighet 0 hvis individ i ikke ovulerer på noe tidspunkt i løpet av høsten (hendelsen Ōi). Ser vi på antall individer som har ovulert X i på et bestemt dag i, hver med sannsynlighet p i, for vi at X i må være binomisk fordelt med parameter p i og n i. Dermed blir likelihoodfunksjonen (sannsynligheten for alle de observerte dataene) n ( ) ni L(µ, σ, q) = p x i i (1 p i) n i x i, (3) i=1 x i hvor hver p i er en funksjon av µ, σ og q gitt ved ved ligning (2). Lag et plot av p i som funksjon av t i for µ = 260, σ = 10 og q = 0.8 (altså funksjonen gitt ved (2)). Hvordan passer funksjonen med spredningsplottet av x i /n i og t i? Programmer så en funksjon som beregner verdien av minus log likelihoodfunksjonen for gitte parameterverdier. For å fungere sammen med optim må likelihoodfunksjonen må ta i mot parameterverdiene som første argument i form av en vektor, samt vektorer t og x som inneholder de observerte dataene. Tips: Beregn p i 'ene og ta vare på dette som et mellomregningsresultatet (bruk pnorm). Beregn så log-likelihoodverdien ved bruk av elementvise operasjoner på vektorer, funksjonen sum, og eventuellt og dbinom med tilleggsargumentet log=t. Beregn så sannsynlighetsmaksimeringsestimatene av µ, σ, og q ved bruk av optim. Det kan være viktig å velge gode startverdier for parameterne. Kontroller at optim nner samme maksimum om du endrer på startverdiene. Hva blir SMEene av parameterne i modellen? Legg inn et plot av funksjonen gitt ved (??) i spredningsplottet for t i og x i ved å bruke lines. Hvordan passer den tilpassede modellen med dataene? Dersom vi betrakter et tidinterval slik at 95% av individene i populasjon ovulerer i dette intervallet, hvor langt må da intervallet være? (2) ovulasjonsdata <- read.table("ovul2.dat") 3

attach(ovulasjonsdata) plot(tid,x/n,cex=sqrt(n)/2, xlab="dager etter nyttår", ylab="ovulasjonsfrekvens") Ovulasjonsfrekvens 0.0 0.2 0.4 0.6 0.8 1.0 260 280 300 320 Dager etter nytt år Likelihoodfunksjonen i oppgaveteksten kan programmeres på følgende måte. Funksjonen skal returnere verdien til likelihoodfunksjonen i et bestemt punkt (µ, σ, q) i parameterrommet. Denne vektoren er innargument i funksjonen. Det kan være hensiktsmessig (for å gjøre programkoden mer lesbar) å plukke ut parameterverdier fra denne vektoren og lagre dem i lokale variable med passende navn. lnl <- function(par,x,n,t) { mu <- par[1] sigma <- par[2] q <- par[3] p <- q*pnorm((t-mu)/sigma) sum(-dbinom(x,size=n,prob=p,log=t)) Legg merke til hvordan beregner alle p i 'ene forventningene til hver observasjon X i, for parameterverdiene gitt ved innargumentet par før det totale log-likelihood verdien beregnes i siste linje. Dette gjøres ved hjelp av elementvise operasjoner på vektorer. Nå som vi har likelihoodfunksjonen kan vi nne sannsynlighetsmaksimeringsestimater ved bruk av optim. Spredningsplottet antyder at µ ligger omkring 280, og at q ligger omkring 0.75. > fit<-optim(c(280,10,.75),lnl,x=x,n=n,t=t) 4

There were 25 warnings (use warnings() to see them) > fit $par [1] 274.386520 6.801954 0.855978 $value [1] 355.3924 $counts function gradient 224 NA $convergence [1] 0 $message NULL Vi kan legge inn en plot av p i som funksjon av t i på følgende måte. tt <- 240:320 lines(tt,fit$par[3]*pnorm((tt-fit$par[1])/fit$par[2])) Ovulasjonsfrekvens 0.0 0.2 0.4 0.6 0.8 1.0 260 280 300 320 Dager etter nytt år Basert på estimatet av σ = 6.80 dager følger det at et intervall som inneholder 95% av ovulasjonstidspunktene må være 2z 0.025 σ = 26.65. Oppgave 3 Oppgave 5.4 i ISwR. Se eventuellt også notatet om binormalfordelingen fra i høst. 5

rbinorm <- function(n,rho) { x <- rnorm(n=n) y <- rho*x+rnorm(n=n,sd=sqrt(1-rho^2)) return(cbind(x,y)) > plot(rbinorm(1000,.8)) # x og y verdiene kan ligge i en # 2 x n matrise > mat <- rbinorm(1000,.8) > cor.test(mat[,1],mat[,2]) # Bare her blir estimatet blir nesten 0.8 Pearson's product-moment correlation data: mat[, 1] and mat[, 2] t = 42.26, df = 998, p-value = < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.7775 0.8221 sample estimates: cor 0.8009 > cor.test(mat[,1],mat[,2],method="spearman") Spearman's rank correlation rho data: mat[, 1] and mat[, 2] S = 37866128, p-value = < 2.2e-16 alternative hypothesis: true rho is not equal to 0 sample estimates: rho 0.7728 > cor.test(mat[,1],mat[,2],method="kendall") Kendall's rank correlation tau data: mat[, 1] and mat[, 2] z = 27.62, p-value = < 2.2e-16 alternative hypothesis: true tau is not equal to 0 6

sample estimates: tau 0.5833 y 3 2 1 0 1 2 3 3 2 1 0 1 2 3 x 7