Forelesning 5 STK3100/4100

Størrelse: px
Begynne med side:

Download "Forelesning 5 STK3100/4100"

Transkript

1 Forelesning 5 STK3100/4100 p. 1/4 Forelesning 5 STK3100/ september 2012 Presentasjon laget av S. O. Samuelsen (modifisert av Geir H12) Plan for forelesning: 1. Poissonfordeling 2. Overspredning 3. Kvasi-likelihood

2 Forelesning 5 STK3100/4100 p. 2/4 Telle data Dødelighetsstudier: Forklare antall døde ved alder, kjønn, livsstil Helseforsikring: Forklare antall krav ved alder, kjønn, yrke Årsakssforsikring: Forklare antall krav på bilforsikring ved biltype, motor kapasitet, tidligere krav Mail: Antall spam mail

3 Forelesning 5 STK3100/4100 p. 3/4 Poissonfordelingen Y er Poissonfordelt med forventning µ (Y Po(µ)) dersom P(Y = y) = µy y! exp( µ) for y = 0, 1, 2,... Poissonfordeling tilhører en eksponensiell fordelingsklasse siden P(Y = y) = exp(y log(µ) µ log(y!)) = exp(θy a(θ))c(y)) med θ = log(µ) som kanonisk parameter og a(θ) = exp(θ) = µ. Dermed blir E[Y ] = a (θ) = exp(θ) = µ og Var[Y ] = a (θ) = exp(θ) = µ = V (µ)

4 Forelesning 5 STK3100/4100 p. 4/4 Poissonfordelingen: Poissonfordelingen kan oppstå ved at Tilnærmelse til binomisk fordeling: Y Bin(n,π) når π er liten Poissonprosess: Y = antall hendelser i intervall [0, t] Po(λt) med Rate λ for hendelser Antall hendelser i disjunkte subintervaller av [0,t] er uavhengige Kun en hendelse ved et gitt tidspunkt

5 Forelesning 5 STK3100/4100 p. 5/4 Binomisk tilnærmelse til Poissonfordelingen: Poisson Binomisk Binomisk Binomisk y EY=0.5 n=500 n=50 n=5 p=0.001 p=0.01 p= Har generelt, med Y Bin(n, π) og µ = nπ, P(Y = y) µy y! exp( µ) nπ2

6 Sjekk av Poissonfordeling Generelt kan vi ha telledata på Y = 0, 1, 2,..., som ikke passer med Poissonfordelingen. Vi kan sjekke Poissonantagelsen ved å beregne Spredningskoeffisient = CD = s2 Ȳ der s 2 er empirisk varians for observerte Y i. Hvis Y i Poisson(µ) vil CD 1. Hvis CD > 1 has overspredning i forhold til Poissonmodellen. Poissonmodellen testes formelt ved Pearson kjikvadrat X 2 = m 1 y=0 (O y E y ) 2 E y χ 2 m 2 når modellen holder der O y er antall Y i = y og E y = n ˆµy y! exp( ˆµ). Forelesning 5 STK3100/4100 p. 6/4

7 Forelesning 5 STK3100/4100 p. 7/4 Eksempler på telledata: Number of Frequency events Horesekick deaths Ammunition accidents Bomb hits Observed Expected Observed Expected Observed Expected Total CD X df p-value 0.86 <

8 Forelesning 5 STK3100/4100 p. 8/4 Poissonregresjon: GLM for Poissondata Y i Po(µ i ) er uavhengige g(µ i ) = η i for linkfunksjon g() Lineær prediktor η i = β x i Vanlige linkfunksjoner: Kanonisk link: g 0 (µ i ) = log(µ i ) Kvadratrotlink: g 0.5 (µ i ) = µ i Identitetslink: g 1 (µ i ) = µ i Powerlink g ρ (µ i ) = µ ρ i

9 Forelesning 5 STK3100/4100 p. 9/4 Parameterfortolkning Fortolkningen av µ i er raten i en Poissonprosess over et gitt tidsintervall. La x = (x 1,...,x p ) og x = (x 1,...,x p) slik at x j = x j for j = 1, 2,...,p 1 x p = x p + 1 for j = p Med log-link fortolkes β p som log-rate-ratio eller som rate-ratio. exp(β p ) = µ µ = exp(β (x x) = RR Tilsv. med identitetslink fås fortolkning rate-differanse (RD) β p = µ µ = RD

10 Forelesning 5 STK3100/4100 p. 10/4 Box-Cox-transformasjon Bakgrunn for at vi kan betegne log-linken med g 0 (): Vi kan redefinere linkene ved Box-Cox-transformasjon µ ρ 1 ρ 0 ρ g ρ (µ i ) = log(µ) ρ = 0 Merk at når ρ 0 vil g ρ (µ) log(µ) = g 0 (µ) Det er altså mulig å utvide den generaliserte modellen med "link-parameteren" ρ og teste om f.eks. log- eller identitetslink passer med data.

11 Forelesning 5 STK3100/4100 p. 11/4 Eksempel: Mottatt spam Y i = antall spam time nr. i fra 10. juni til 10. oktober Kovariater: Mnd, Ukedag (og Klokkeslett) > glm(anttime ukedag+mnd,family=poisson) Call: glm(formula=anttime ukedag+mnd,family=poisson,data=timedata) Coefficients: (Intercept) ukedagmon ukedagsat ukedagsun ukedagthu ukedagwed mndjul mndjun mndoct mndsep Degrees of Freedom: 2926 Total (i.e. Null); Null Deviance: 3754 Residual Deviance: 3710 AIC: Residual

12 Forelesning 5 STK3100/4100 p. 12/4 Null deviance: on 2926 degrees of freedom Residual deviance: on 2916 degrees of freedom AIC: 8049 Eksempel: Mottatt spam, forts. > summary(glm(anttime ukedag+mnd,family=poisson)) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) ukedagmon * ukedagsat ukedagsun ukedagthu ukedagtue ukedagwed mndjul ** mndjun mndoct e-08 *** mndsep * --- (Dispersion parameter for poisson family taken to be 1)

13 Forelesning 5 STK3100/4100 p. 13/4 Anova > M2<-glm(anttime ukedag+mnd,family=poisson,data=timedata) > anova(m2,test="chisq") Analysis of Deviance Table Model: poisson, link: log Response: anttime Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev NULL ukedag mnd e-07 ***

14 Forelesning 5 STK3100/4100 p. 14/4 Anova > M22<-glm(anttime mnd+ukedag,family=poisson,data=timedata) > anova(m22,test="chisq") Analysis of Deviance Table Model: poisson, link: log Response: anttime Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev NULL mnd e-07 *** ukedag

15 Forelesning 5 STK3100/4100 p. 15/4 Funksjon for rate-ratio (RR) med 95% KI RRCItab<-function(glmfit){ sumglm<-summary(glmfit)$coef RR<-exp(sumglm[,1]) RRL<-exp(sumglm[,1]-1.96*sumglm[,2]) RRU<-exp(sumglm[,1]+1.96*sumglm[,2]) cbind(rr,rrl,rru) } glmfit skal være en tilpasset GLM summary(glmfit)$coef inneholder ˆβ j i 1. kolonne og standardfeil se j for ˆβ j i annen kolonne Funksjonen beregner exp(ˆβ j ) og exp(ˆβ j ± 1.96se)

16 Forelesning 5 STK3100/4100 p. 16/4 Anvendelse: Funksjon for RR med 95% KI > poisspam<-glm(anttime ukedag+mnd,family=poisson) > round(rrcitab(poisspam),2) RR RRL RRU (Intercept) ukedagmon ukedagsat ukedagsun ukedagthu ukedagtue ukedagwed mndjul mndjun mndoct mndsep

17 Forelesning 5 STK3100/4100 p. 17/4 Spam: ANOVA-tabell M0<-glm(anttime 1,family=poisson,data=timedata) M1<-glm(anttime mnd,family=poisson,data=timedata) M2<-glm(anttime ukedag+mnd,family=poisson,data=timedata) M3<-glm(anttime time+ukedag+mnd,family=poisson,data=timedata) anova(m0,m1,m2,m3,test="chi") Analysis of Deviance Table Model 1: anttime 1 Model 2: anttime mnd Model 3: anttime ukedag + mnd Model 4: anttime time + ukedag + mnd Resid. Df Resid. Dev Df Deviance P(> Chi ) e-07 *** **

18 Spam: Døgnvariasjon Faktor time (kl.24.00=ref) log(rr) time Glattet versjon time Forelesning 5 STK3100/4100 p. 18/4 s(time)

19 Forelesning 5 STK3100/4100 p. 19/4 Eksempel: Lungekreft i danske byer ( ) Tabell 1. Observert antall lungekreft tilfeller By Alder Fredericia Horsens Kolding Vejle Totalt > Totalt Tabell 2. Antall innbyggere i de fire byene fordelt på aldersgrupper. By Alder Fredericia Horsens Kolding Vejle Totalt >

20 Forelesning 5 STK3100/4100 p. 20/4 Lungekrefteksempel,forts Vi skal benytte følgende modell: Med n ij = Antall innbyggere i by i og aldersgruppe j er Y ij = Ant. lungekrefttilf. by i aldersgr. j Po(µ ij ) der µ ij = n ij exp(η 0 + α i + β j ). Begrunnelse Rimelig at antall tilfeller avhenger av antall innbyggere Kunne antatt Y ij Bin(n ij,π ij ) der π ij små (men noen problemer med dette)

21 Forelesning 5 STK3100/4100 p. 21/4 Lungekrefteksempel: offset Poeng: Siden µ ij avhenger av befolkningstørrelse n ij må denne spesifiseres i modellen. Merk at log(µ ij ) = log(n ij exp(η 0 +α i +β j )) = 1 log(n ij )+η 0 +α i +β j dvs. log(n ij ) inngår i den lineære prediktoren som en kovariat der regresjonsparameteren er satt lik 1. I R kan vi spesifisere en konstant ved offset.

22 Forelesning 5 STK3100/4100 p. 22/4 Lungekrefteksempel: R lungekreft <- read.table("../data/lungekreft", col.names=c("by","ald","lkreft","bef")) lungekreft$by = as.factor(lungekreft$by) levels(lungekreft$by) = c("fredericia","horsens","kolding","vejle") lungekreft$ald = as.factor(lungekreft$ald) levels(lungekreft$ald) = c("40-54","55-59","60-64","65-69", "70-74",">75") glm(lkreft By+Ald+offset(log(Bef)), family=poisson,data=lungekreft) Coefficients: (Intercept) ByHorsens ByKolding ByVejle Ald55-59 Ald60-64 Ald65-69 Ald70-74 Ald> Degrees of Freedom: 23 Total (i.e. Null); Null Deviance: Residual Deviance: AIC: Residual

23 Forelesning 5 STK3100/4100 p. 23/4 Lungekrefteksempel: Mer R > mainmod = glm(lkreft By+Ald+offset(log(Bef)), family=poisson,data=lungekreft) > summary(mainmod) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** ByHorsens ByKolding * ByVejle Ald e-06 *** Ald e-11 *** Ald e-14 *** Ald e-15 *** Ald> e-08 *** --- Null deviance: on 23 degrees of freedom Residual deviance: on 15 degrees of freedom AIC:

24 Forelesning 5 STK3100/4100 p. 24/4 Lungekrefteks.: Rate-ratioer med konfidensintervall > round(rrcitab(mainmod),3) RR RRL RRU (Intercept) ByHorsens ByKolding ByVejle Ald Ald Ald Ald Ald>

25 Forelesning 5 STK3100/4100 p. 25/4 Overspredning: Eks. Antall seksualpartnere Fra Folkhelsa s seksualvanestudier i -87 og -92: n = 8553 ind. Respons: Y i = totalt antall sex-partnere Kovariater: Kjønn (1=M, 2=K), Sivilstatus (1=Ugift, 2=Gift/Sambo), HIVtest (1=Nei, 2=Ja, 3=Vet ikke), Debutalder (1 hvis < 19, 2 hvis 19 år), Aldersgr (=1 hvis < 20 år, 2 hvis 20-24, 3 hvis 25-29, 4 hvis og 5 hvis år) Siden Y i er en tellevariabel kan det virke rimelig å modellere med Poisson-regresjon

26 Forelesning 5 STK3100/4100 p. 26/4 Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** Kjonn < 2e-16 *** Sivstat < 2e-16 *** factor(hivtest) < 2e-16 *** factor(hivtest) e-11 *** I(Debald < 19)TRUE < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** (Dispersion parameter for poisson family taken to be 1) Null deviance: on 8553 degrees of freedom Residual deviance: on 8544 degrees of freedom Antall seksualpartnere, Poissonregresjon > main<-glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=poisson(link=log),data=part) > summary(main)

27 Forelesning 5 STK3100/4100 p. 27/4 Ant. sexpartnere, Sammendrag av Poissonregresjon Mange meget signifikante kovariater Men også noen veldig store residualer Dessuten Pearson X 2 = som er stort sammenlignet residualt antall frihetsgrader = 8544 Overspredning i forhold til Poissonmodell på X 2 /8544 = 6.08 > X2<-sum(residuals(main,type="pearson")ˆ2) > X2/8544 [1] Pga. betydelig overspredningen skal man være forsiktig med legge for mye i signifikansene!

28 Forelesning 5 STK3100/4100 p. 28/4 Overspredning generelt To forslag til forbedring av modellen Anta at Y i θ i Po(θ i exp(β x i )) der θ i er en latent stokastisk variabel Anta at E[Y i ] = µ i = exp(β x i )), men at Var[Y i ] = φµ i der φ er et spredningsledd

29 Forelesning 5 STK3100/4100 p. 29/4 Dobbeltforventning Generelt for stokastiske variabel X og Y gjelder lov om dobbeltforventning E[Y ] = E{E[Y X]} Tilsvarende regel for varianser er Var[Y ] = E{Var[Y X]} + Var{E[Y X]}

30 Overspredning med latent variabel Med Y i θ i Po(θ i exp(β x i )) der θ i er en latent stokastisk variabel finner vi µ i = E[Y i ] = E[E[Y i θ i ]] = E[θ i exp(β x i )] = exp(β x i ) hvis vi setter E[θ i ] = 1 (som vi kan gjøre når β x i inneholder et konstantledd). Dessuten får vi, pga. betinget Poissonfordeling, Var[Y i ] = E[Var[Y i θ i ]] + Var[E[Y i θ i ]] = E[θ i exp(β x i )] + Var[θ i exp(β x i )] = exp(β x i ) + exp(2β x i )Var[θ i ] dvs. overspredning! = µ i + µ 2 i Var[θ i ] > µ i Forelesning 5 STK3100/4100 p. 30/4

31 Forelesning 5 STK3100/4100 p. 31/4 Overspredning med latent gammafordelt variabel Hvis θ i er gammafordelt blir, fra de Jong & Heller, s. 32, Y i marginalt negativt binomisk fordelt. Spesielt hvis θ i har tetthet f(θ;ν) = νν θ ν 1 Γ(ν) E[θ i ] = 1 og Var[θ i ] = 1 og ν exp( νθ) blir P(Y i = y) = Γ(ν + y) y!γ(ν) ( µ i µ i + ν )y ( ν µ i + ν )ν med forventning E[Y i ] = µ i = exp(β x i ) og Var[Y i ] = µ i + µ 2 i Var[θ i ] = µ i + µ2 i ν

32 Forelesning 5 STK3100/4100 p. 32/4 GLM med negativ binomisk respons Siden negative binomiske fordelinger er med i eksponensiell klasser er det rett fram å definere en GLM basert på dem. Dette er faktisk implementert i R under "biblioteket" MASS. Default-linken for negativ binomisk familie er log, så parameterestimatene ˆβ vil svare til Poisson-regresjonen. Vi kan både spesifisere og estimere parameteren ν, men virker som om korrekt spesifikasjon ikke er kritisk.

33 (Intercept) < 2e-16 *** Kjonn < 2e-16 *** Sivstat < 2e-16 *** factor(hivtest) < 2e-16 *** factor(hivtest) ** I(Debald < 19)TRUE < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** (Dispersion parameter for Negative Binomial(1) family taken to be ) Null deviance: on 8553 degrees of freedom Residual deviance: on 8544 degrees of freedom Forelesning 5 STK3100/4100 p. 33/4 Ant. sexpartnere, GLM neg. bin. fam., spesifisert ν = 1 > library(mass) > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=negative.binomial(1),data=part)) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t )

34 > summary(glm.nb(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) (Dispersion par. for Negative Binomial(1.7137) family taken to be 1 Ant. sexpartnere, GLM med neg. bin. fam., estimerer ν +factor(aldgr),data=part)) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** Kjonn < 2e-16 *** Sivstat < 2e-16 *** factor(hivtest) < 2e-16 *** factor(hivtest) *** I(Debald < 19)TRUE < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** --- Null deviance: on 8553 degrees of freedom Residual deviance: 8503 on 8544 degrees of freedom AIC: Theta: Std. Err.: x log-likelihood: Forelesning 5 STK3100/4100 p. 34/4

35 Forelesning 5 STK3100/4100 p. 35/4 Sammendrag: Eks. med neg.bin-familie Parameterestimatene ˆβ tilnærmet like som for Poissonregresjon Standardfeil betydelig større i forhold til Poissonregresjon Derav blir t-verdier mindre og p-verdier større Residualene er nå vesentlig mindre Testobservatorene tilnærmet like om parameteren ν spesifiseres eller estimeres

36 Forelesning 5 STK3100/4100 p. 36/4 Utvidelse av Poissonmodell til Var[Y i ] = φµ i Problem: Ingen (kjent) eksponensiell klasse med Var[Y i ] = φµ i = φe[y i ] Likevel mulig å tilpasse en modell som kun spesifiserer momenter g(µ i ) = g(e[y i ]) = β x i og Var[Y i ] = φµ i med bakgrunn i Quasilikelihood

37 Forelesning 5 STK3100/4100 p. 37/4 Bakgrunn for Quasi-likelihood De fleste egenskaper ved minste kvadraters estimatorer krever ikke normalfordelte responser, kun Korrekt forventningstruktur E[Y i ] = β x i Konstant varians Var[Y i ] = σ 2 Uavhengighet Uten normalfordeling har vi ikke eksakt t-fordelinger og F-fordelinger for test-observatorer, men disse er konservative i forhold til asymptotiske tilnærminger som ikke tar hensyn til usikkerheten i ˆσ 2.

38 Bakgrunn for Quasi-likelihood Estimeringsligninger for GLM: Scorefunksjonen settes lik 0 s(β) = n i=1 x i Y i µ i g (µ i )φv (µ i ) = 0, dvs. estimering krever kun spesifikasjon av linkfunskjon g(µ i ) og variansstruktur Var[Y i ] = φv (µ i ). Med samme antagelser has at kovariansmatrisen til s(β): Var[s(β)] = J (β) = n i=1 dvs. ved Fisher-informasjonen. x i x i g (µ i ) 2 φv (µ i ) = E [ ] s(β), β NB. Denne identiteten trenger altså ikke antagelse av eksponensiell klasse, kun spesifikasjon av forventning og variansstruktur. Forelesning 5 STK3100/4100 p. 38/4

39 Forelesning 5 STK3100/4100 p. 39/4 Modell for Quasi-likelihood Korrekt forventningstruktur g(e[y i ]) = β x i Variansstruktur Var[Y i ] = φv (µ i ) Uavhengighet mellom Y i -ene Da vil ved vanlig 1. ordens Taylor-utvikling (og noen regularitetsantagelser) ˆβ β + J (β) 1 s(β) for ˆβ løsning av s(ˆβ) = 0. Men ved sentralgrenseteoremet blir og dermed s(β) N(0, J (β)) ˆβ N(β, J (β) 1 ) som ved vanlig MLE.

40 Forelesning 5 STK3100/4100 p. 40/4 Estimering av spredningsledd x i x i g (µ i ) 2 V (µ i ) I Fisher-informasjonen J (β) = 1 n φ i=1 ukjente spredningsparameteren φ. Men vi har at inngår den E[ (Y i µ i ) 2 V (µ i ) Derfor kan φ estimeres konsistent ved ] = φ ˆφ = 1 n p 1 n i=1 (Y i ˆµ i ) 2 V (ˆµ i ) = X 2 n p 1 der X 2 er Pearson-kjikvadrat. Merk at ˆφ = ˆσ 2 når V (µ i ) = 1.

41 Forelesning 5 STK3100/4100 p. 41/4 Quasilikelihood Strengt tatt har vi bare sett på estimeringsligninger s(β) = n i=1 x i Y i µ i g (µ i )φv (µ i ) = 0, Men man kan konstruere en funksjon Q(µ) = n i=1 Q i(µ i ) som maksimeres ved å løse disse, der Med V (µ) = µ får vi Q i (µ i ) = µi y i Y i µ φv (µ) dµ Q i (µ i ) = 1 φ µi y i Y i µ µ dµ = 1 φ [Y i log(µ i /Y i ) (µ i Y i )] som er proporsjonal med deviansbidrag for Poissonfordeling

42 (Intercept) < 2e-16 *** Kjonn < 2e-16 *** Sivstat < 2e-16 *** factor(hivtest) < 2e-16 *** factor(hivtest) ** I(Debald < 19)TRUE < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** --- (Dispersion parameter for quasi family taken to be ) Null deviance: on 8553 degrees of freedom Residual deviance: on 8544 degrees of freedom Forelesning 5 STK3100/4100 p. 42/4 Antall sexpartnere, GLM med quasi-likelihood > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=quasi(link=log,var="mu"),data=part)) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t )

43 mu Forelesning 5 STK3100/4100 p. 43/4 Hvilken variansfunksjon passer best Beregner estimert forventning ˆµ i for alle individer Beregn for j = 1, 2,...,15 empirisk varians ˆv j for Y i slik at j ˆµ i < j + 1 Plotter (j, ˆv j ) sammen med ˆφµ og µ + µ 2 /ˆν Empirisk varians for antall partnere varians Quasilikelihood Negativt binomisk

44 Forelesning 5 STK3100/4100 p. 44/4 Sammendrag: Eks. med quasi-likelihood Parameterestimatene er eksakt de samme som for Poissonregresjon Standardfeil er skalert med ˆφ = = 2.46 i forhold til Poissonregresjon Derav blir t-verdier mindre og p-verdier større Oppgitte residualer er de samme som for Poisson-regresjon, tydeligvis ikke skalert med ˆφ Essensielt samme resultater som for Negativ binomisk familie

45 Forelesning 5 STK3100/4100 p. 45/4 GLM med gamma-familie Anta Y i er gamma-fordelt med tetthet ( ) ν f(y) = 1 ν Γ(ν) µ i y ν 1 exp( ν µ i y) der c(y,ν) = y (ν 1) ν ν /Γ(ν). = exp( ( 1/µ i)y log(µ i ) 1/ν )c(y, ν)) Dermed blir kanonisk parameter θ = 1/µ, spredningsledd φ = 1/ν og funksjonen a(θ) = log( 1/θ). Dette gir variansfunksjon V (µ) = a (θ) = 1 θ 2 = µ2

46 Null deviance: on 8553 degrees of freedom Residual deviance: on 8544 degrees of freedom Forelesning 5 STK3100/4100 p. 46/4 Ant. sexpartnere, GLM med Gammafamilie og log-link > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=gamma(link=log),data=part)) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** Kjonn < 2e-16 *** Sivstat < 2e-16 *** factor(hivtest) < 2e-16 *** factor(hivtest) ** I(Debald < 19)TRUE < 2e-16 *** factor(aldgr) e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** --- (Dispersion parameter for Gamma family taken to be )

47 Forelesning 5 STK3100/4100 p. 47/4 Invers gaussisk familile En ytterliger eksponensiell klasse er de invers gaussiske fordelingene med tetthet } (2πσ 2 y 3 ) 1/2 exp { (y µ)2 hvis y > 0, 2µ 2 σ 2 y f Y (y) = 0 hvis y 0, for µ,σ 2 > 0. Det kan vises at hvis Y f Y (y) så er E[Y ] = µ og Var[Y ] = σ 2 µ 3, dvs. spredningsleddet er φ = σ 2 og V (µ) = µ 3

48 Null deviance: on 8553 degrees of freedom Residual deviance: on 8544 degrees of freedom Forelesning 5 STK3100/4100 p. 48/4 Sexpartnere, GLM med Invers gaussisk fam. og log-link > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=inverse.gaussian(link=log),data=part)) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t ) (Dispersion parameter for inverse.gaussian family taken to be (Intercept) < 2e-16 *** Kjonn < 2e-16 *** Sivstat < 2e-16 *** factor(hivtest) e-14 *** factor(hivtest) ** I(Debald < 19)TRUE < 2e-16 *** factor(aldgr) e-11 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** ---

49 Forelesning 5 STK3100/4100 p. 49/4 Sammendrag Poisson-fordeling var ikke akseptabelt for partnerdataen fordi den ikke inneholder spredningsledd som tar hensyn til overspredningen Negativ binomisk fordeling, Quasi-likelihood med spredningsledd og variansfunksjon V (µ) = µ, Gammafordeling og Invers Gaussisk fordeling ga lignende resultater på dette datasettet Generelt kan feilaktig representasjon av variansen gi feilaktig inferens

Forelesning 9 STK3100

Forelesning 9 STK3100 Poissonfordelingen: Forelesning 9 STK3100 20. oktober 2007 S. O. Samuelsen Plan for forelesning: 1. Poissonregresjon 2. Overspredning 3. Quasi-likelihood 4. Andre GLM-er Poissonfordelingen kan oppstå ved

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet. Eksamen i STK3100 Innføring i generaliserte lineære modeller Eksamensdag: Mandag 6. desember 2010 Tid for eksamen: 14.30 18.30 Oppgavesettet

Detaljer

Eksponensielle klasser

Eksponensielle klasser Eksponensielle klasser, de Jong & Heller, Kap. 3 Eksponensielle klasser STK3100-1. september 2008 Sven Ove Samuelsen En stokastisk variabel Y sies å ha fordeling i den eksponensielle fordelingsklasse dersom

Detaljer

Prøveeksamen i STK3100/4100 høsten 2011.

Prøveeksamen i STK3100/4100 høsten 2011. Prøveeksamen i STK3100/4100 høsten 2011. Oppgave 1 (a) Angi tetthet/punktsannsynlighet for eksponensielle klasser med og uten sprednings(dispersjons)ledd. Nevn alle fordelingsklassene du kjenner som kan

Detaljer

Forelesning 11 STK3100/4100

Forelesning 11 STK3100/4100 Forelesning STK300/400 Plan for forelesning: 3. oktober 20 Geir Storvik. Generaliserte lineære blandede modeller Eksempler R-kode - generell formulering av modell Tillater innbygging av avhengigheter mellom

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon Bo Lindqvist Institutt for matematiske fag 2 Kap. 9: Inferens om én populasjon Statistisk inferens har som mål å tolke/analysere

Detaljer

Forelesning 3 STK3100

Forelesning 3 STK3100 Eks. Fødselsvekt mot svangerskapslengde og kjønn Forelesning 3 STK3100 8. september 2008 S. O. Samuelsen Plan for forelesning: 1. Generelt om lineære modeller 2. Variansanalyse - Kategoriske kovariater

Detaljer

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R Blanda modellar i R Jorunn Slagstad Universitetet i Bergen 20. desember 2006 1 Introduksjon 2 Lineære blanda modellar 3 Generaliserte lineære blanda modellar 4 Analyser av modellar 5 Eit randproblem 6

Detaljer

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0 Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir

Detaljer

Forelesning 8 STK3100/4100

Forelesning 8 STK3100/4100 Forelesning STK300/400 Plan for forelesning: 0. oktober 0 Geir Storvik. Lineære blandede modeller. Eksempler - data og modeller 3. lme 4. Indusert korrelasjonsstruktur. Marginale modeller. Estimering -

Detaljer

Forelesning 7 STK3100

Forelesning 7 STK3100 Parameterfortolkning logistisk regresjon Forelesning 7 STK3100 6. oktober 2008 S. O. Samuelsen Plan for forelesning: 1. Parameterfortolkning logistisk regresjon 2. Parameterfortolkning andre linkfunksjoner

Detaljer

Løsningsforslag øving 9, ST1301

Løsningsforslag øving 9, ST1301 Løsningsforslag øving 9, ST1301 Oppgave 1 Regresjon. Estimering av arvbarhet. a) Legg inn din egen høyde, din mors høyde, din fars høyde, og ditt kjønn via linken på fagets hjemmeside 1. Last så ned dataene

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1120 Statistiske metoder og dataanalyse 2. Eksamensdag: Tirsdag 2. juni 2009. Tid for eksamen: 14.30 17.30. Oppgavesettet

Detaljer

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september 2011. Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september 2011. Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator Side 1 av 11 sider EKSAMENSOPPGAVE I STA-1002 Eksamen i : STA-1002 Statistikk og sannsynlighet 2 Eksamensdato : 26. september 2011. Tid : 09-13. Sted : Administrasjonsbygget. Tillatte hjelpemidler : -

Detaljer

7. november 2011 Geir Storvik

7. november 2011 Geir Storvik Forelesning 13 STK3100/4100 Plan for forelesning: 7. november 2011 Geir Storvik Generaliserte lineære blandede modeller 1. Sammenlikning ulike estimeringsmetoder 2. Tolkning parametre 3. Inferens Konfidensintervaller

Detaljer

Inferens i regresjon

Inferens i regresjon Strategi som er fulgt hittil: Inferens i regresjon Deskriptiv analyse og dataanalyse først. Analyse av en variabel før studie av samvariasjon. Emne for dette kapittel er inferens når det er en respons

Detaljer

år i 1 2 3 4 5 6 7 8 9 alder x i 37 38 39 40 41 42 43 44 45 tid y i 45.54 41.38 42.50 38.80 41.26 37.20 38.19 38.05 37.45 i=1 (x i x) 2 = 60, 9

år i 1 2 3 4 5 6 7 8 9 alder x i 37 38 39 40 41 42 43 44 45 tid y i 45.54 41.38 42.50 38.80 41.26 37.20 38.19 38.05 37.45 i=1 (x i x) 2 = 60, 9 TMA424 Statistikk Vår 214 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 11, blokk II Oppgave 1 Matlabkoden linearreg.m, tilgjengelig fra emnets hjemmeside, utfører

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Statistiske metoder og dataanalyse 1. Eksamensdag: Mandag 1. desember 2014. Tid for eksamen: 14.30 18.30. Oppgavesettet

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: Bio 2150A Biostatistikk og studiedesign Eksamensdag: 6. desember 2013 Tid for eksamen: 14:30-17:30 (3 timer) Oppgavesettet er

Detaljer

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Anbefalt øving 9 Løsningsskisse Oppgave 1 a) Vi lar her Y være antall fugler som kolliderer med vindmølla i løpet av den gitte

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Eksamen i: UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet STK2120 Skisse til løsning/fasit. Eksamensdag: Torsdag 5. juni 2014. Tid for eksamen: 14.30 18.30. Oppgavesettet er på 5 sider.

Detaljer

TMA4240 Statistikk 2014

TMA4240 Statistikk 2014 TMA4240 Statistikk 2014 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 12, blokk II Oppgave 1 På ein av vegane inn til Trondheim er UP interessert i å måle effekten

Detaljer

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y Statistiske metoder 1 høsten 004. Løsningsforslag Oppgave 1: a) Begge normalplottene gir punkter som ligger omtrent på ei rett linje så antagelsen om normalfordeling ser ut til å holde. Konfidensintervall

Detaljer

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015 Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015 R-kode for alle oppgaver er gitt bakerst. Oppgave 1 (a) Boksplottet antyder at verdiene er høyere for kvinner enn for menn.

Detaljer

Kontinuerlige sannsynlighetsfordelinger.

Kontinuerlige sannsynlighetsfordelinger. Kontinuerlige sannsynlighetsfordelinger. Dekkes av kap. 6 og deler av kap. 8.5 i boka. Husk: f(x er sannsynlighetstettheten til en kontinuerlig X dersom:. f(x 0 for alle x R 2. f(xdx = 3. P (a

Detaljer

Kort overblikk over kurset sålangt

Kort overblikk over kurset sålangt Kort overblikk over kurset sålangt Kapittel 1: Deskriptiv statististikk for en variabel Kapittel 2: Deskriptiv statistikk for samvariasjon mellom to variable (regresjon) Kapittel 3: Metoder for å innhente

Detaljer

Logistisk regresjon 2

Logistisk regresjon 2 Logistisk regresjon 2 SPSS Utskrift: Trivariat regresjon a KJONN UTDAAR Constant Variables in the Equation B S.E. Wald df Sig. Exp(B) -,536,3 84,56,000,25,84,08 09,956,000,202 -,469,083 35,7,000,230 a.

Detaljer

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005. SOS112 Kvantitativ metode Krysstabellanalyse (forts.) Forelesningsnotater 9. forelesning høsten 25 4. Statistisk generalisering Per Arne Tufte Eksempel: Hypoteser Eksempel: observerte frekvenser (O) Hvordan

Detaljer

+ S2 Y ) 2. = 6.737 6 (avrundet nedover til nærmeste heltall) n Y 1

+ S2 Y ) 2. = 6.737 6 (avrundet nedover til nærmeste heltall) n Y 1 Løsningsforslag for: MOT10 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 6. november 007 TILLATTE HJELPEMIDLER: Kalkulator: HP0S, Casio FX8 eller TI-0 Tabeller og formler i statistikk (Tapir forlag) MERKNADER:

Detaljer

Ekstraoppgaver STK3100 h10

Ekstraoppgaver STK3100 h10 Ekstraoppgaver STK3100 h10 Oppgave 1 En-veis variansanalyse modellen kan formuleres som Y ij = µ + α i + ɛ ij (1) der α i = 0 og ɛ ij er i.i.d N(0, σ 2 ). Her representerer er Y ij j te observasjon fra

Detaljer

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april 2005. Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april 2005. Seksjon for medisinsk statistikk, UIO. Tron Anders Moger Intro til hypotesetesting Analyse av kontinuerlige data 21. april 2005 Tron Anders Moger Seksjon for medisinsk statistikk, UIO 1 Repetisjon fra i går: Normalfordelingen Variasjon i målinger kan ofte beskrives

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1120 Statistiske metoder og dataanalyse 2. Eksamensdag: Mandag 30. mai 2005. Tid for eksamen: 14.30 17.30. Oppgavesettet er

Detaljer

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere Kap. 10: Inferens om to populasjoner Situasjon: Vi ønsker å sammenligne to populasjoner med populasjonsgjennomsnitt henholdsvis μ 1 og μ. Vi trekker da ett utvalg fra hver populasjon. ST00 Statistikk for

Detaljer

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2009 TMA4240 Statistikk Høst 2009 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer b6 Oppgave 1 Oppgave 11.5 fra læreboka. Oppgave 2 Oppgave 11.21 fra læreboka. Oppgave

Detaljer

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger Fordelinger, mer om sentralmål og variasjonsmål Tron Anders Moger 20. april 2005 1 Forrige gang: Så på et eksempel med data over medisinerstudenter Lærte hvordan man skulle få oversikt over dataene ved

Detaljer

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka: MOT30 Statistiske metoder, høsten 2006 Løsninger til regneøving nr. 8 (s. ) Oppgaver fra boka: Oppgave.5 (.3:5) ) Først om tolking av datautskriften. Sammendrag gir følgende informasjon: Multippel R =R,

Detaljer

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 2013. Skrevet av Stian Lydersen 16 januar 2013

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 2013. Skrevet av Stian Lydersen 16 januar 2013 1 Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar 013. Skrevet av Stian Lydersen 16 januar 013 Vi antar at vårt utvalg er et tilfeldig og representativt utvalg for

Detaljer

7.2 Sammenligning av to forventinger

7.2 Sammenligning av to forventinger 7.2 Sammenligning av to forventinger To-utvalgs z-observator To-utvalgs t-prosedyrer To-utvalgs t-tester To-utvalgs t-konfidensintervall Robusthet To-utvalgs t-prosedyrerår variansene er like Sammenlikning

Detaljer

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p. Multippel regresjon Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p. Det er fortsatt en responsvariabel y. Måten dette gjøre på er nokså

Detaljer

10.1 Enkel lineær regresjon Multippel regresjon

10.1 Enkel lineær regresjon Multippel regresjon Inferens for regresjon 10.1 Enkel lineær regresjon 11.1-11.2 Multippel regresjon 2012 W.H. Freeman and Company Denne uken: Enkel lineær regresjon Litt repetisjon fra kapittel 2 Statistisk modell for enkel

Detaljer

Kontinuerlige sannsynlighetsfordelinger.

Kontinuerlige sannsynlighetsfordelinger. Kontinuerlige sannsynlighetsfordelinger. Dekkes av kap. 6 og deler av kap. 8.5 i boka. Husk: f(x) er sannsynlighetstettheten til en kontinuerlig X dersom: 1. f(x) 0 for alle x R 2. f(x)dx =1 3. P (a

Detaljer

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00 Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 10 Faglig kontakt under eksamen: Bo Lindqvist 975 89 418 EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013

Detaljer

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011 Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 10 LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011 Oppgave 1 Oljeleting a) Siden P(A

Detaljer

Medisinsk statistikk Del I høsten 2009:

Medisinsk statistikk Del I høsten 2009: Medisinsk statistikk Del I høsten 2009: Kontinuerlige sannsynlighetsfordelinger Pål Romundstad Beregning av sannsynlighet i en binomisk forsøksrekke generelt Sannsynligheten for at suksess intreffer X

Detaljer

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Dette er det andre settet med obligatoriske oppgaver i STK1110 høsten 2010. Oppgavesettet består av fire oppgaver. Det er valgfritt om du vil

Detaljer

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 3. juni Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 3. juni Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator Side 1 av 11 sider EKSAMENSOPPGAVE I STA-1002 Eksamen i : STA-1002 Statistikk og sannsynlighet 2 Eksamensdato : 3. juni 2011. Tid : 09-13. Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent

Detaljer

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

Eksamensoppgåve i TMA4267 Lineære statistiske modellar Institutt for matematiske fag Eksamensoppgåve i TMA4267 Lineære statistiske modellar Fagleg kontakt under eksamen: Øyvind Bakke Tlf: 73 59 81 26, 990 41 673 Eksamensdato: 22. mai 2015 Eksamenstid (frå

Detaljer

Lineære modeller i praksis

Lineære modeller i praksis Lineære modeller Regresjonsmodeller med Forskjellige spesialtilfeller Uavhengige variabler Én binær variabel Analysen omtales som Toutvalgs t-test én responsvariabel: Y én eller flere uavhengige variabler:

Detaljer

Eksamensoppgave i TMA4275 Levetidsanalyse

Eksamensoppgave i TMA4275 Levetidsanalyse Institutt for matematiske fag Eksamensoppgave i TMA4275 Levetidsanalyse Faglig kontakt under eksamen: Bo Lindqvist Tlf: 975 89 418 Eksamensdato: Lørdag 31. mai 2014 Eksamenstid (fra til): 09:00-13:00 Hjelpemiddelkode/Tillatte

Detaljer

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Eksamen desember 2015 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4240 Statistikk Eksamen desember 15 Oppgave 1 La den kontinuerlege stokastiske variabelen X ha fordelingsfunksjon (sannsynstettleik

Detaljer

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1 ECON 130 EKSAMEN 005 VÅR SENSORVEILEDNING Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom , Oppgave 1 I denne oppgaven kan du anta at

Detaljer

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER EKSAMEN I: MOT310 STATISTISKE METODER VARIGHET: 4 TIMER DATO: 27. FEBRUAR 2004 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 5

Detaljer

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger 6.4-5.7: Normalfordelingen, normalapproksimasjon, eksponensial og gamma.

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger 6.4-5.7: Normalfordelingen, normalapproksimasjon, eksponensial og gamma. TMA4240 Statistikk H2010 Kapittel 6: Kontinuerlige sannsynlighetsfordelinger 6.4-5.7: Normalfordelingen, normalapproksimasjon, eksponensial og gamma. Mette Langaas Foreleses mandag 27. september 2010 2

Detaljer

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere 2 Inferens om varians og standardavvik for ett normalfordelt utvalg (9.4) Inferens om variansen til en normalfordelt populasjon bruker kjikvadrat-fordelingen ( chi-square distribution ) (der kji er den

Detaljer

Kapittel 7: Inferens for forventningerukjent standardavvik

Kapittel 7: Inferens for forventningerukjent standardavvik Kapittel 7: Inferens for forventningerukjent standardavvik 7.1: Inferens for forventningen i en populasjon 7.2: Inferens for å sammenligne to forventninger 7.1 Inferens for forventningen i en populasjon

Detaljer

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4267 Lineære statistiske modeller Institutt for matematiske fag Eksamensoppgave i TMA4267 Lineære statistiske modeller Faglig kontakt under eksamen: Mette Langaas Tlf: 988 47 649 Eksamensdato: 4. juni 2016 Eksamenstid (fra til): 09.00

Detaljer

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden. Estimeringsmetoder Momentmetoden La X, X 2,..., X n være uavhengige variable som er rektangulært fordelte på intervallet [0, θ]. Vi vet da at forventningsverdiene til hver observasjon og forventningen

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: Bio 2150 Biostatistikk og studiedesign Eksamensdag: 5. desember 2014 Tid for eksamen: 14:30-18:30 (4 timer) Oppgavesettet er

Detaljer

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt. EKSAMEN I: MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir forlag) OPPGAVESETTET

Detaljer

Ridge regresjon og lasso notat til STK2120

Ridge regresjon og lasso notat til STK2120 Ridge regresjon og lasso notat til STK2120 Ørulf Borgan februar 2016 I dette notatet vil vi se litt nærmere på noen alternativer til minste kvadraters metode ved lineær regresjon. Metodene er særlig aktuelle

Detaljer

Modellering og estimering av romlig avhengighet i forsikring

Modellering og estimering av romlig avhengighet i forsikring Modellering og estimering av romlig avhengighet i forsikring Nikolai Sellereite Masteroppgave i statistikk Finansteori og forsikringsmatematikk Universitetet i Bergen Matematisk institutt 1juni 2015 Sammendrag

Detaljer

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

Anvendt medisinsk statistikk, vår Repeterte målinger, del II Anvendt medisinsk statistikk, vår 009 Repeterte målinger, del II Eirik Skogvoll Overlege, Klinikk for anestesi og akuttmedisin 1. amanuensis, Enhet for anvendt klinisk forskning (med bidrag fra Harald

Detaljer

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002 Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002 Oppgave 1 a) En god estimator er forventningsrett og har liten varians. Vi tester forventningsretthet: E[ˆµ] E[Y ] µ E[ µ] E[ 1 2 X + 1 2 Y ] 1 2 E[X]

Detaljer

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl. 10.00-12.

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl. 10.00-12. MASTR I IDRTTSVITNSKAP 2014/2016 Utsatt individuell skriftlig eksamen i STA 400- Statistikk Mandag 24. august 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator ksamensoppgaven består av 10 sider inkludert

Detaljer

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2015 TMA4240 Statistikk Høst 2015 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 11, blokk II I denne øvingen skal vi fokusere på hypotesetesting. Vi ønsker å gi dere

Detaljer

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator. Fakultet for naturvitenskap og teknologi EKSAMENSOPPGAVE Eksamen i: STA-2004 Dato: 27.mai 2016 Klokkeslett: 09-13 Sted: Åsgårdvegen 9 Tillatte hjelpemidler: «Tabeller og formler i statistikk» av Kvaløy

Detaljer

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl. 10.00-12.00

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl. 10.00-12.00 MASTER I IDRETTSVITENSKAP 2014/2016 Individuell skriftlig eksamen i STA 400- Statistikk Fredag 13. mars 2015 kl. 10.00-12.00 Hjelpemidler: kalkulator Eksamensoppgaven består av 10 sider inkludert forsiden

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4 ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4 Bjørn H. Auestad Institutt for matematikk og naturvitenskap Universitetet i Stavanger 27. mars Bjørn H. Auestad Kp. 6: Hypotesetesting

Detaljer

Forelesning 10 Kjikvadrattesten

Forelesning 10 Kjikvadrattesten verdier Forelesning 10 Kjikvadrattesten To typer av statistisk generalisering: Statistisk hypotesetesting Statistiske hypoteser (H 0 og H 1 ) om populasjonen Finner forkastningsområdet for H 0 ut fra en

Detaljer

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent 1 Section 7-2: Estimere populasjonsandelen 2 Section 7-4: Estimere µ når σ er ukjent Kapittel 7 Nå begynner vi med statistisk inferens! Bruke stikkprøven til å 1 Estimere verdien til en parameter i populasjonen.

Detaljer

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering TMA4245 Statistikk Kapittel 8.1-8.5. Kapittel 9.1-9.3+9.15 Turid.Follestad@math.ntnu.no p.1/21 Har sett

Detaljer

La U og V være uavhengige standard normalfordelte variable og definer

La U og V være uavhengige standard normalfordelte variable og definer Binormalfordelingen Definisjon Noe av hensikten med å innføre begrepet betinget sannsynlighet er at kompliserte modeller ofte kan bygges ut fra enkle betingede modeller. Når man spesifiserer betingelser

Detaljer

Oppgave 1: Feil på mobiltelefoner

Oppgave 1: Feil på mobiltelefoner Oppgave 1: Feil på mobiltelefoner a) Sannsynlighetene i oppgaven blir P (F 1 F 2 ) P (F 1 ) + P (F 2 ) P (F 1 F 2 ) P (F 1 ) + 1 P (F2 C ) P (F 1 F 2 ) 0.080 + 0.075 0.006 0.149 P (F 1 F 2 ) P (F 1 F 2

Detaljer

Denne uken: kap. 6.1-6.2-6.3: Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Denne uken: kap. 6.1-6.2-6.3: Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans Denne uken: kap. 6.1-6.2-6.3: Introduksjon til statistisk inferens - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans VG 25/9 2011 Statistisk inferens Mål: Trekke konklusjoner

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering Bjørn H. Auestad Institutt for matematikk og naturvitenskap Universitetet i Stavanger 21. april Bjørn H. Auestad Oppsummering våren

Detaljer

EKSAMENSOPPGAVE Georg Elvebakk NB! Det er ikke tillatt å levere inn kladd sammen med besvarelsen

EKSAMENSOPPGAVE Georg Elvebakk NB! Det er ikke tillatt å levere inn kladd sammen med besvarelsen Fakultet for naturvitenskap og teknologi EKSAMENSOPPGAVE Eksamen i: STA-1001. Dato: 30.mai 2016. Klokkeslett: 09 13. Sted: Tillatte hjelpemidler: Teorifagbygget, «Tabeller og formler i statistikk» av Kvaløy

Detaljer

Regler i statistikk STAT 100

Regler i statistikk STAT 100 TORIL FJELDAAS RYGG - VÅREN 2010 Regler i statistikk STAT 100 Innhold side Sannsynlighetsregning 3 - Uttrykk 3 - Betinget sannsynlighet 4 - Regler for sannsynlighet 4 - Bayes teorem 4 - Uavhengige begivenheter

Detaljer

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 12 Faglig kontakt under eksamen: Bo Lindqvist Tlf. 975 89 418 EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK Onsdag

Detaljer

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte Hypotesetesting. 10 og fore- Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte for å undersøke hypoteser (påstander) knyttet til parametre i sannsynlighetsfordelinger.

Detaljer

Klassisk ANOVA/ lineær modell

Klassisk ANOVA/ lineær modell Anvendt medisinsk statistikk, vår 008: - Varianskomponenter - Sammensatt lineær modell med faste og tilfeldige effekter - Evt. faktoriell design Eirik Skogvoll Overlege, Klinikk for anestesi og akuttmedisin

Detaljer

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt Bjørn H. Auestad Kp. 11: Regresjonsanalyse 1 / 57 Kp. 11 Regresjonsanalyse; oversikt 11.1 Introduction to Linear Regression 11.2 Simple Linear Regression 11.3 Least Squares and the Fitted Model 11.4 Properties

Detaljer

Logistisk regresjon 1

Logistisk regresjon 1 Logistisk regresjon Hovedideen: Binær logistisk regresjon håndterer avhengige, dikotome variable Et hovedmål er å predikere sannsynligheter for å ha verdien på avhengig variabel for bestemte (sosiale)

Detaljer

FORMELSAMLING TIL STK1100 OG STK1110

FORMELSAMLING TIL STK1100 OG STK1110 FORMELSAMLING TIL STK1100 OG STK1110 (Versjon av 16. november 2009) 1. Sannsynlighet La A, B, A 1, A 2,...,B 1, B 2,... være begivenheter, dvs. delmengder av et utfallsrom Ω. a) Aksiomene: Et sannsynlighetsmål

Detaljer

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005 ANALYSE AV KATEGORISKE DATA- TABELLANALYSE 3. Mai 2005 Tron Anders Moger Forrige gang: Snakket om kontinuerlige data, dvs data som måles på en kontinuerlig skala Hypotesetesting med t-tester evt. ikkeparametriske

Detaljer

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

Første sett med obligatoriske oppgaver i STK1110 høsten 2015 Første sett med obligatoriske oppgaver i STK1110 høsten 2015 Dette er det første obligatoriske oppgavesettet i STK1110 høsten 2015. Oppgavesettet består av fire oppgaver. Du må bruke Matematisk institutts

Detaljer

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer. Utvalgsfordelinger Vi har sett at utvalgsfordelinger til en statistikk (observator) er fordelingen av verdiene statistikken tar ved mange gjenttatte utvalg av samme størrelse fra samme populasjon. Utvalg

Detaljer

> 6 7 ) = 1 Φ( 1) = 1 0.1587 = 0.8413 P (X < 7 X < 8) P (X < 8) < 7 6 1 ) < 8 6 1 ) = Φ(2) = 0.8413

> 6 7 ) = 1 Φ( 1) = 1 0.1587 = 0.8413 P (X < 7 X < 8) P (X < 8) < 7 6 1 ) < 8 6 1 ) = Φ(2) = 0.8413 Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side av 7 Oppgave Sykkelruter a) P (Y > 6) P (Y > 6) P ( Y 7 > 6 7 ) Φ( ) 0.587 0.843 b) Hypoteser: H 0 : µ µ 2 H : µ < µ 2

Detaljer

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32). Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 16. november 2009 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir

Detaljer

Oppgave 1: Terningsutfall På en kubisk terning er det 1/6 sannsynlighet for hver type utfall fra 1 til 6. Ved to terninger, er utfallene antatt

Oppgave 1: Terningsutfall På en kubisk terning er det 1/6 sannsynlighet for hver type utfall fra 1 til 6. Ved to terninger, er utfallene antatt Oppgave 1: Terningsutfall På en kubisk terning er det 1/6 sannsnlighet for hver tpe utfall fra 1 til 6. Ved to terninger, er utfallene antatt uavhengig. a) Hva er sannsnligheten for å få et spesifikt utfall

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 13: Lineær korrelasjons- og regresjonsanalyse Kap. 13.1-13.3: Lineær korrelasjonsanalyse. Disse avsnitt er ikke pensum,

Detaljer

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005 SOS1120 Kvantitativ metode Regresjonsanalyse Forelesningsnotater 11. forelesning høsten 2005 Per Arne Tufte Lineær sammenheng I Lineær sammenheng II Ukelønn i kroner 4000 3500 3000 2500 2000 1500 1000

Detaljer

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver SOS3003 Eksamensoppgåver Gjennomgang våren 2004 Erling Berge Vår 2004 1 Gjennomgang av Oppgåve 3 gitt hausten 2001 Vår 2004 2 Haust 2001 Oppgåve 3 I tabellvedlegget til oppgåve 3 er det estimert 7 ulike

Detaljer

Medisinsk statistikk Del I høsten 2008:

Medisinsk statistikk Del I høsten 2008: Medisinsk statistikk Del I høsten 2008: Kontinuerlige sannsynlighetsfordelinger Pål Romundstad Noen tips Boka Summary etter hvert kapittel forteller hvor dere har vært og hva som er sentralt Øvingene Overdriv

Detaljer

Løsningsforslag til obligatorisk innlevering 3.

Løsningsforslag til obligatorisk innlevering 3. svar3.nb 1 Løsningsforslag til obligatorisk innlevering 3. Oppgave 1 * Vi skal sammenlikne to sensoere A og B. Begge har rettet den samme oppgaven. Hvis populasjonen er eksamensoppgavene, har vi altså

Detaljer

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test) Kategoriske data, del I: Kategoriske data - del (Rosner, 10.3-10.7) 1 januar 009 Stian Lydersen To behandlinger og to utfall. (generelt: variable, verdier). x tabell. Uavhengige observasjoner Sammenheng

Detaljer

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 5 Faglig kontakt under eksamen: Bo Lindqvist Tlf. 975 89 418 BOKMÅL EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK Onsdag

Detaljer

Kapittel 6 - modell seleksjon og regularisering

Kapittel 6 - modell seleksjon og regularisering Kapittel 6 - modell seleksjon og regularisering Geir Storvik 21. februar 2017 1/22 Lineær regresjon med mange forklaringsvariable Lineær modell: Y = β 0 + β 1 x 1 + + β p x p + ε Data: {(x 1, y 1 ),...,

Detaljer

EKSAMEN I TMA4255 ANVENDT STATISTIKK

EKSAMEN I TMA4255 ANVENDT STATISTIKK Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 7 Faglig kontakt under eksamen: Mette Langaas (988 47 649) BOKMÅL EKSAMEN I TMA4255 ANVENDT STATISTIKK Fredag 25.

Detaljer

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere 2 Statistisk inferens (kap. 8) Statistisk inferens er å tolke/analysere resultater fra utvalget for å finne ut mest mulig om populasjonen. Konkret: Å analysere en utvalgsobservator for å trekke slutninger

Detaljer

6.2 Signifikanstester

6.2 Signifikanstester 6.2 Signifikanstester Konfidensintervaller er nyttige når vi ønsker å estimere en populasjonsparameter Signifikanstester er nyttige dersom vi ønsker å teste en hypotese om en parameter i en populasjon

Detaljer