Forelesning 5 STK3100/4100

Størrelse: px
Begynne med side:

Download "Forelesning 5 STK3100/4100"

Transkript

1 Forelesning 5 STK3100/4100 p. 1/4 Forelesning 5 STK3100/ september 2012 Presentasjon laget av S. O. Samuelsen (modifisert av Geir H12) Plan for forelesning: 1. Poissonfordeling 2. Overspredning 3. Kvasi-likelihood

2 Forelesning 5 STK3100/4100 p. 2/4 Telle data Dødelighetsstudier: Forklare antall døde ved alder, kjønn, livsstil Helseforsikring: Forklare antall krav ved alder, kjønn, yrke Årsakssforsikring: Forklare antall krav på bilforsikring ved biltype, motor kapasitet, tidligere krav Mail: Antall spam mail

3 Forelesning 5 STK3100/4100 p. 3/4 Poissonfordelingen Y er Poissonfordelt med forventning µ (Y Po(µ)) dersom P(Y = y) = µy y! exp( µ) for y = 0, 1, 2,... Poissonfordeling tilhører en eksponensiell fordelingsklasse siden P(Y = y) = exp(y log(µ) µ log(y!)) = exp(θy a(θ))c(y)) med θ = log(µ) som kanonisk parameter og a(θ) = exp(θ) = µ. Dermed blir E[Y ] = a (θ) = exp(θ) = µ og Var[Y ] = a (θ) = exp(θ) = µ = V (µ)

4 Forelesning 5 STK3100/4100 p. 4/4 Poissonfordelingen: Poissonfordelingen kan oppstå ved at Tilnærmelse til binomisk fordeling: Y Bin(n,π) når π er liten Poissonprosess: Y = antall hendelser i intervall [0, t] Po(λt) med Rate λ for hendelser Antall hendelser i disjunkte subintervaller av [0,t] er uavhengige Kun en hendelse ved et gitt tidspunkt

5 Forelesning 5 STK3100/4100 p. 5/4 Binomisk tilnærmelse til Poissonfordelingen: Poisson Binomisk Binomisk Binomisk y EY=0.5 n=500 n=50 n=5 p=0.001 p=0.01 p= Har generelt, med Y Bin(n, π) og µ = nπ, P(Y = y) µy y! exp( µ) nπ2

6 Sjekk av Poissonfordeling Generelt kan vi ha telledata på Y = 0, 1, 2,..., som ikke passer med Poissonfordelingen. Vi kan sjekke Poissonantagelsen ved å beregne Spredningskoeffisient = CD = s2 Ȳ der s 2 er empirisk varians for observerte Y i. Hvis Y i Poisson(µ) vil CD 1. Hvis CD > 1 has overspredning i forhold til Poissonmodellen. Poissonmodellen testes formelt ved Pearson kjikvadrat X 2 = m 1 y=0 (O y E y ) 2 E y χ 2 m 2 når modellen holder der O y er antall Y i = y og E y = n ˆµy y! exp( ˆµ). Forelesning 5 STK3100/4100 p. 6/4

7 Forelesning 5 STK3100/4100 p. 7/4 Eksempler på telledata: Number of Frequency events Horesekick deaths Ammunition accidents Bomb hits Observed Expected Observed Expected Observed Expected Total CD X df p-value 0.86 <

8 Forelesning 5 STK3100/4100 p. 8/4 Poissonregresjon: GLM for Poissondata Y i Po(µ i ) er uavhengige g(µ i ) = η i for linkfunksjon g() Lineær prediktor η i = β x i Vanlige linkfunksjoner: Kanonisk link: g 0 (µ i ) = log(µ i ) Kvadratrotlink: g 0.5 (µ i ) = µ i Identitetslink: g 1 (µ i ) = µ i Powerlink g ρ (µ i ) = µ ρ i

9 Forelesning 5 STK3100/4100 p. 9/4 Parameterfortolkning Fortolkningen av µ i er raten i en Poissonprosess over et gitt tidsintervall. La x = (x 1,...,x p ) og x = (x 1,...,x p) slik at x j = x j for j = 1, 2,...,p 1 x p = x p + 1 for j = p Med log-link fortolkes β p som log-rate-ratio eller som rate-ratio. exp(β p ) = µ µ = exp(β (x x) = RR Tilsv. med identitetslink fås fortolkning rate-differanse (RD) β p = µ µ = RD

10 Forelesning 5 STK3100/4100 p. 10/4 Box-Cox-transformasjon Bakgrunn for at vi kan betegne log-linken med g 0 (): Vi kan redefinere linkene ved Box-Cox-transformasjon µ ρ 1 ρ 0 ρ g ρ (µ i ) = log(µ) ρ = 0 Merk at når ρ 0 vil g ρ (µ) log(µ) = g 0 (µ) Det er altså mulig å utvide den generaliserte modellen med "link-parameteren" ρ og teste om f.eks. log- eller identitetslink passer med data.

11 Forelesning 5 STK3100/4100 p. 11/4 Eksempel: Mottatt spam Y i = antall spam time nr. i fra 10. juni til 10. oktober Kovariater: Mnd, Ukedag (og Klokkeslett) > glm(anttime ukedag+mnd,family=poisson) Call: glm(formula=anttime ukedag+mnd,family=poisson,data=timedata) Coefficients: (Intercept) ukedagmon ukedagsat ukedagsun ukedagthu ukedagwed mndjul mndjun mndoct mndsep Degrees of Freedom: 2926 Total (i.e. Null); Null Deviance: 3754 Residual Deviance: 3710 AIC: Residual

12 Forelesning 5 STK3100/4100 p. 12/4 Null deviance: on 2926 degrees of freedom Residual deviance: on 2916 degrees of freedom AIC: 8049 Eksempel: Mottatt spam, forts. > summary(glm(anttime ukedag+mnd,family=poisson)) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) ukedagmon * ukedagsat ukedagsun ukedagthu ukedagtue ukedagwed mndjul ** mndjun mndoct e-08 *** mndsep * --- (Dispersion parameter for poisson family taken to be 1)

13 Forelesning 5 STK3100/4100 p. 13/4 Anova > M2<-glm(anttime ukedag+mnd,family=poisson,data=timedata) > anova(m2,test="chisq") Analysis of Deviance Table Model: poisson, link: log Response: anttime Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev NULL ukedag mnd e-07 ***

14 Forelesning 5 STK3100/4100 p. 14/4 Anova > M22<-glm(anttime mnd+ukedag,family=poisson,data=timedata) > anova(m22,test="chisq") Analysis of Deviance Table Model: poisson, link: log Response: anttime Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev NULL mnd e-07 *** ukedag

15 Forelesning 5 STK3100/4100 p. 15/4 Funksjon for rate-ratio (RR) med 95% KI RRCItab<-function(glmfit){ sumglm<-summary(glmfit)$coef RR<-exp(sumglm[,1]) RRL<-exp(sumglm[,1]-1.96*sumglm[,2]) RRU<-exp(sumglm[,1]+1.96*sumglm[,2]) cbind(rr,rrl,rru) } glmfit skal være en tilpasset GLM summary(glmfit)$coef inneholder ˆβ j i 1. kolonne og standardfeil se j for ˆβ j i annen kolonne Funksjonen beregner exp(ˆβ j ) og exp(ˆβ j ± 1.96se)

16 Forelesning 5 STK3100/4100 p. 16/4 Anvendelse: Funksjon for RR med 95% KI > poisspam<-glm(anttime ukedag+mnd,family=poisson) > round(rrcitab(poisspam),2) RR RRL RRU (Intercept) ukedagmon ukedagsat ukedagsun ukedagthu ukedagtue ukedagwed mndjul mndjun mndoct mndsep

17 Forelesning 5 STK3100/4100 p. 17/4 Spam: ANOVA-tabell M0<-glm(anttime 1,family=poisson,data=timedata) M1<-glm(anttime mnd,family=poisson,data=timedata) M2<-glm(anttime ukedag+mnd,family=poisson,data=timedata) M3<-glm(anttime time+ukedag+mnd,family=poisson,data=timedata) anova(m0,m1,m2,m3,test="chi") Analysis of Deviance Table Model 1: anttime 1 Model 2: anttime mnd Model 3: anttime ukedag + mnd Model 4: anttime time + ukedag + mnd Resid. Df Resid. Dev Df Deviance P(> Chi ) e-07 *** **

18 Spam: Døgnvariasjon Faktor time (kl.24.00=ref) log(rr) time Glattet versjon time Forelesning 5 STK3100/4100 p. 18/4 s(time)

19 Forelesning 5 STK3100/4100 p. 19/4 Eksempel: Lungekreft i danske byer ( ) Tabell 1. Observert antall lungekreft tilfeller By Alder Fredericia Horsens Kolding Vejle Totalt > Totalt Tabell 2. Antall innbyggere i de fire byene fordelt på aldersgrupper. By Alder Fredericia Horsens Kolding Vejle Totalt >

20 Forelesning 5 STK3100/4100 p. 20/4 Lungekrefteksempel,forts Vi skal benytte følgende modell: Med n ij = Antall innbyggere i by i og aldersgruppe j er Y ij = Ant. lungekrefttilf. by i aldersgr. j Po(µ ij ) der µ ij = n ij exp(η 0 + α i + β j ). Begrunnelse Rimelig at antall tilfeller avhenger av antall innbyggere Kunne antatt Y ij Bin(n ij,π ij ) der π ij små (men noen problemer med dette)

21 Forelesning 5 STK3100/4100 p. 21/4 Lungekrefteksempel: offset Poeng: Siden µ ij avhenger av befolkningstørrelse n ij må denne spesifiseres i modellen. Merk at log(µ ij ) = log(n ij exp(η 0 +α i +β j )) = 1 log(n ij )+η 0 +α i +β j dvs. log(n ij ) inngår i den lineære prediktoren som en kovariat der regresjonsparameteren er satt lik 1. I R kan vi spesifisere en konstant ved offset.

22 Forelesning 5 STK3100/4100 p. 22/4 Lungekrefteksempel: R lungekreft <- read.table("../data/lungekreft", col.names=c("by","ald","lkreft","bef")) lungekreft$by = as.factor(lungekreft$by) levels(lungekreft$by) = c("fredericia","horsens","kolding","vejle") lungekreft$ald = as.factor(lungekreft$ald) levels(lungekreft$ald) = c("40-54","55-59","60-64","65-69", "70-74",">75") glm(lkreft By+Ald+offset(log(Bef)), family=poisson,data=lungekreft) Coefficients: (Intercept) ByHorsens ByKolding ByVejle Ald55-59 Ald60-64 Ald65-69 Ald70-74 Ald> Degrees of Freedom: 23 Total (i.e. Null); Null Deviance: Residual Deviance: AIC: Residual

23 Forelesning 5 STK3100/4100 p. 23/4 Lungekrefteksempel: Mer R > mainmod = glm(lkreft By+Ald+offset(log(Bef)), family=poisson,data=lungekreft) > summary(mainmod) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** ByHorsens ByKolding * ByVejle Ald e-06 *** Ald e-11 *** Ald e-14 *** Ald e-15 *** Ald> e-08 *** --- Null deviance: on 23 degrees of freedom Residual deviance: on 15 degrees of freedom AIC:

24 Forelesning 5 STK3100/4100 p. 24/4 Lungekrefteks.: Rate-ratioer med konfidensintervall > round(rrcitab(mainmod),3) RR RRL RRU (Intercept) ByHorsens ByKolding ByVejle Ald Ald Ald Ald Ald>

25 Forelesning 5 STK3100/4100 p. 25/4 Overspredning: Eks. Antall seksualpartnere Fra Folkhelsa s seksualvanestudier i -87 og -92: n = 8553 ind. Respons: Y i = totalt antall sex-partnere Kovariater: Kjønn (1=M, 2=K), Sivilstatus (1=Ugift, 2=Gift/Sambo), HIVtest (1=Nei, 2=Ja, 3=Vet ikke), Debutalder (1 hvis < 19, 2 hvis 19 år), Aldersgr (=1 hvis < 20 år, 2 hvis 20-24, 3 hvis 25-29, 4 hvis og 5 hvis år) Siden Y i er en tellevariabel kan det virke rimelig å modellere med Poisson-regresjon

26 Forelesning 5 STK3100/4100 p. 26/4 Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** Kjonn < 2e-16 *** Sivstat < 2e-16 *** factor(hivtest) < 2e-16 *** factor(hivtest) e-11 *** I(Debald < 19)TRUE < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** (Dispersion parameter for poisson family taken to be 1) Null deviance: on 8553 degrees of freedom Residual deviance: on 8544 degrees of freedom Antall seksualpartnere, Poissonregresjon > main<-glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=poisson(link=log),data=part) > summary(main)

27 Forelesning 5 STK3100/4100 p. 27/4 Ant. sexpartnere, Sammendrag av Poissonregresjon Mange meget signifikante kovariater Men også noen veldig store residualer Dessuten Pearson X 2 = som er stort sammenlignet residualt antall frihetsgrader = 8544 Overspredning i forhold til Poissonmodell på X 2 /8544 = 6.08 > X2<-sum(residuals(main,type="pearson")ˆ2) > X2/8544 [1] Pga. betydelig overspredningen skal man være forsiktig med legge for mye i signifikansene!

28 Forelesning 5 STK3100/4100 p. 28/4 Overspredning generelt To forslag til forbedring av modellen Anta at Y i θ i Po(θ i exp(β x i )) der θ i er en latent stokastisk variabel Anta at E[Y i ] = µ i = exp(β x i )), men at Var[Y i ] = φµ i der φ er et spredningsledd

29 Forelesning 5 STK3100/4100 p. 29/4 Dobbeltforventning Generelt for stokastiske variabel X og Y gjelder lov om dobbeltforventning E[Y ] = E{E[Y X]} Tilsvarende regel for varianser er Var[Y ] = E{Var[Y X]} + Var{E[Y X]}

30 Overspredning med latent variabel Med Y i θ i Po(θ i exp(β x i )) der θ i er en latent stokastisk variabel finner vi µ i = E[Y i ] = E[E[Y i θ i ]] = E[θ i exp(β x i )] = exp(β x i ) hvis vi setter E[θ i ] = 1 (som vi kan gjøre når β x i inneholder et konstantledd). Dessuten får vi, pga. betinget Poissonfordeling, Var[Y i ] = E[Var[Y i θ i ]] + Var[E[Y i θ i ]] = E[θ i exp(β x i )] + Var[θ i exp(β x i )] = exp(β x i ) + exp(2β x i )Var[θ i ] dvs. overspredning! = µ i + µ 2 i Var[θ i ] > µ i Forelesning 5 STK3100/4100 p. 30/4

31 Forelesning 5 STK3100/4100 p. 31/4 Overspredning med latent gammafordelt variabel Hvis θ i er gammafordelt blir, fra de Jong & Heller, s. 32, Y i marginalt negativt binomisk fordelt. Spesielt hvis θ i har tetthet f(θ;ν) = νν θ ν 1 Γ(ν) E[θ i ] = 1 og Var[θ i ] = 1 og ν exp( νθ) blir P(Y i = y) = Γ(ν + y) y!γ(ν) ( µ i µ i + ν )y ( ν µ i + ν )ν med forventning E[Y i ] = µ i = exp(β x i ) og Var[Y i ] = µ i + µ 2 i Var[θ i ] = µ i + µ2 i ν

32 Forelesning 5 STK3100/4100 p. 32/4 GLM med negativ binomisk respons Siden negative binomiske fordelinger er med i eksponensiell klasser er det rett fram å definere en GLM basert på dem. Dette er faktisk implementert i R under "biblioteket" MASS. Default-linken for negativ binomisk familie er log, så parameterestimatene ˆβ vil svare til Poisson-regresjonen. Vi kan både spesifisere og estimere parameteren ν, men virker som om korrekt spesifikasjon ikke er kritisk.

33 (Intercept) < 2e-16 *** Kjonn < 2e-16 *** Sivstat < 2e-16 *** factor(hivtest) < 2e-16 *** factor(hivtest) ** I(Debald < 19)TRUE < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** (Dispersion parameter for Negative Binomial(1) family taken to be ) Null deviance: on 8553 degrees of freedom Residual deviance: on 8544 degrees of freedom Forelesning 5 STK3100/4100 p. 33/4 Ant. sexpartnere, GLM neg. bin. fam., spesifisert ν = 1 > library(mass) > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=negative.binomial(1),data=part)) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t )

34 > summary(glm.nb(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) (Dispersion par. for Negative Binomial(1.7137) family taken to be 1 Ant. sexpartnere, GLM med neg. bin. fam., estimerer ν +factor(aldgr),data=part)) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** Kjonn < 2e-16 *** Sivstat < 2e-16 *** factor(hivtest) < 2e-16 *** factor(hivtest) *** I(Debald < 19)TRUE < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** --- Null deviance: on 8553 degrees of freedom Residual deviance: 8503 on 8544 degrees of freedom AIC: Theta: Std. Err.: x log-likelihood: Forelesning 5 STK3100/4100 p. 34/4

35 Forelesning 5 STK3100/4100 p. 35/4 Sammendrag: Eks. med neg.bin-familie Parameterestimatene ˆβ tilnærmet like som for Poissonregresjon Standardfeil betydelig større i forhold til Poissonregresjon Derav blir t-verdier mindre og p-verdier større Residualene er nå vesentlig mindre Testobservatorene tilnærmet like om parameteren ν spesifiseres eller estimeres

36 Forelesning 5 STK3100/4100 p. 36/4 Utvidelse av Poissonmodell til Var[Y i ] = φµ i Problem: Ingen (kjent) eksponensiell klasse med Var[Y i ] = φµ i = φe[y i ] Likevel mulig å tilpasse en modell som kun spesifiserer momenter g(µ i ) = g(e[y i ]) = β x i og Var[Y i ] = φµ i med bakgrunn i Quasilikelihood

37 Forelesning 5 STK3100/4100 p. 37/4 Bakgrunn for Quasi-likelihood De fleste egenskaper ved minste kvadraters estimatorer krever ikke normalfordelte responser, kun Korrekt forventningstruktur E[Y i ] = β x i Konstant varians Var[Y i ] = σ 2 Uavhengighet Uten normalfordeling har vi ikke eksakt t-fordelinger og F-fordelinger for test-observatorer, men disse er konservative i forhold til asymptotiske tilnærminger som ikke tar hensyn til usikkerheten i ˆσ 2.

38 Bakgrunn for Quasi-likelihood Estimeringsligninger for GLM: Scorefunksjonen settes lik 0 s(β) = n i=1 x i Y i µ i g (µ i )φv (µ i ) = 0, dvs. estimering krever kun spesifikasjon av linkfunskjon g(µ i ) og variansstruktur Var[Y i ] = φv (µ i ). Med samme antagelser has at kovariansmatrisen til s(β): Var[s(β)] = J (β) = n i=1 dvs. ved Fisher-informasjonen. x i x i g (µ i ) 2 φv (µ i ) = E [ ] s(β), β NB. Denne identiteten trenger altså ikke antagelse av eksponensiell klasse, kun spesifikasjon av forventning og variansstruktur. Forelesning 5 STK3100/4100 p. 38/4

39 Forelesning 5 STK3100/4100 p. 39/4 Modell for Quasi-likelihood Korrekt forventningstruktur g(e[y i ]) = β x i Variansstruktur Var[Y i ] = φv (µ i ) Uavhengighet mellom Y i -ene Da vil ved vanlig 1. ordens Taylor-utvikling (og noen regularitetsantagelser) ˆβ β + J (β) 1 s(β) for ˆβ løsning av s(ˆβ) = 0. Men ved sentralgrenseteoremet blir og dermed s(β) N(0, J (β)) ˆβ N(β, J (β) 1 ) som ved vanlig MLE.

40 Forelesning 5 STK3100/4100 p. 40/4 Estimering av spredningsledd x i x i g (µ i ) 2 V (µ i ) I Fisher-informasjonen J (β) = 1 n φ i=1 ukjente spredningsparameteren φ. Men vi har at inngår den E[ (Y i µ i ) 2 V (µ i ) Derfor kan φ estimeres konsistent ved ] = φ ˆφ = 1 n p 1 n i=1 (Y i ˆµ i ) 2 V (ˆµ i ) = X 2 n p 1 der X 2 er Pearson-kjikvadrat. Merk at ˆφ = ˆσ 2 når V (µ i ) = 1.

41 Forelesning 5 STK3100/4100 p. 41/4 Quasilikelihood Strengt tatt har vi bare sett på estimeringsligninger s(β) = n i=1 x i Y i µ i g (µ i )φv (µ i ) = 0, Men man kan konstruere en funksjon Q(µ) = n i=1 Q i(µ i ) som maksimeres ved å løse disse, der Med V (µ) = µ får vi Q i (µ i ) = µi y i Y i µ φv (µ) dµ Q i (µ i ) = 1 φ µi y i Y i µ µ dµ = 1 φ [Y i log(µ i /Y i ) (µ i Y i )] som er proporsjonal med deviansbidrag for Poissonfordeling

42 (Intercept) < 2e-16 *** Kjonn < 2e-16 *** Sivstat < 2e-16 *** factor(hivtest) < 2e-16 *** factor(hivtest) ** I(Debald < 19)TRUE < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** --- (Dispersion parameter for quasi family taken to be ) Null deviance: on 8553 degrees of freedom Residual deviance: on 8544 degrees of freedom Forelesning 5 STK3100/4100 p. 42/4 Antall sexpartnere, GLM med quasi-likelihood > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=quasi(link=log,var="mu"),data=part)) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t )

43 mu Forelesning 5 STK3100/4100 p. 43/4 Hvilken variansfunksjon passer best Beregner estimert forventning ˆµ i for alle individer Beregn for j = 1, 2,...,15 empirisk varians ˆv j for Y i slik at j ˆµ i < j + 1 Plotter (j, ˆv j ) sammen med ˆφµ og µ + µ 2 /ˆν Empirisk varians for antall partnere varians Quasilikelihood Negativt binomisk

44 Forelesning 5 STK3100/4100 p. 44/4 Sammendrag: Eks. med quasi-likelihood Parameterestimatene er eksakt de samme som for Poissonregresjon Standardfeil er skalert med ˆφ = = 2.46 i forhold til Poissonregresjon Derav blir t-verdier mindre og p-verdier større Oppgitte residualer er de samme som for Poisson-regresjon, tydeligvis ikke skalert med ˆφ Essensielt samme resultater som for Negativ binomisk familie

45 Forelesning 5 STK3100/4100 p. 45/4 GLM med gamma-familie Anta Y i er gamma-fordelt med tetthet ( ) ν f(y) = 1 ν Γ(ν) µ i y ν 1 exp( ν µ i y) der c(y,ν) = y (ν 1) ν ν /Γ(ν). = exp( ( 1/µ i)y log(µ i ) 1/ν )c(y, ν)) Dermed blir kanonisk parameter θ = 1/µ, spredningsledd φ = 1/ν og funksjonen a(θ) = log( 1/θ). Dette gir variansfunksjon V (µ) = a (θ) = 1 θ 2 = µ2

46 Null deviance: on 8553 degrees of freedom Residual deviance: on 8544 degrees of freedom Forelesning 5 STK3100/4100 p. 46/4 Ant. sexpartnere, GLM med Gammafamilie og log-link > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=gamma(link=log),data=part)) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** Kjonn < 2e-16 *** Sivstat < 2e-16 *** factor(hivtest) < 2e-16 *** factor(hivtest) ** I(Debald < 19)TRUE < 2e-16 *** factor(aldgr) e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** --- (Dispersion parameter for Gamma family taken to be )

47 Forelesning 5 STK3100/4100 p. 47/4 Invers gaussisk familile En ytterliger eksponensiell klasse er de invers gaussiske fordelingene med tetthet } (2πσ 2 y 3 ) 1/2 exp { (y µ)2 hvis y > 0, 2µ 2 σ 2 y f Y (y) = 0 hvis y 0, for µ,σ 2 > 0. Det kan vises at hvis Y f Y (y) så er E[Y ] = µ og Var[Y ] = σ 2 µ 3, dvs. spredningsleddet er φ = σ 2 og V (µ) = µ 3

48 Null deviance: on 8553 degrees of freedom Residual deviance: on 8544 degrees of freedom Forelesning 5 STK3100/4100 p. 48/4 Sexpartnere, GLM med Invers gaussisk fam. og log-link > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=inverse.gaussian(link=log),data=part)) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t ) (Dispersion parameter for inverse.gaussian family taken to be (Intercept) < 2e-16 *** Kjonn < 2e-16 *** Sivstat < 2e-16 *** factor(hivtest) e-14 *** factor(hivtest) ** I(Debald < 19)TRUE < 2e-16 *** factor(aldgr) e-11 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** factor(aldgr) < 2e-16 *** ---

49 Forelesning 5 STK3100/4100 p. 49/4 Sammendrag Poisson-fordeling var ikke akseptabelt for partnerdataen fordi den ikke inneholder spredningsledd som tar hensyn til overspredningen Negativ binomisk fordeling, Quasi-likelihood med spredningsledd og variansfunksjon V (µ) = µ, Gammafordeling og Invers Gaussisk fordeling ga lignende resultater på dette datasettet Generelt kan feilaktig representasjon av variansen gi feilaktig inferens

HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet

HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet Hans Petter Hornæs E-post: hansh@hig.no Høgskolen i Gjøvik. Versjon per 4.11 2003 Dette er notater, oppgaver og formelsamling til støtte for

Detaljer

Høyfrekvens finans og markedets mikrostruktur på Oslo Børs Arne Danielsen

Høyfrekvens finans og markedets mikrostruktur på Oslo Børs Arne Danielsen Høyfrekvens finans og markedets mikrostruktur på Oslo Børs Arne Danielsen Masteroppgave i statistikk Finansteori og forsikringsmatematikk Matematisk institutt Universitetet i Bergen 18. september 2009

Detaljer

7.2 Sammenligning av to forventinger

7.2 Sammenligning av to forventinger 7.2 Sammenligning av to forventinger To-utvalgs z-observator To-utvalgs t-prosedyrer To-utvalgs t-tester To-utvalgs t-konfidensintervall Robusthet To-utvalgs t-prosedyrerår variansene er like Sammenlikning

Detaljer

Denne oppgaven er skrevet som et selvstendig arbeid i siste semester på masterstudiet i finansiell økonomi ved NTNU. Oppgaven utgjør 30 studiepoeng.

Denne oppgaven er skrevet som et selvstendig arbeid i siste semester på masterstudiet i finansiell økonomi ved NTNU. Oppgaven utgjør 30 studiepoeng. FORORD Denne oppgaven er skrevet som et selvstendig arbeid i siste semester på masterstudiet i finansiell økonomi ved NTNU. Oppgaven utgjør 30 studiepoeng. Formålet med oppgaven har vært å se om man kan

Detaljer

En studie av sammenhengen mellom makroøkonomi og forsikring

En studie av sammenhengen mellom makroøkonomi og forsikring En studie av sammenhengen mellom makroøkonomi og forsikring Notatnr Forfattere SAMBA/41/07 Mathilde Wilhelmsen Xeni K. Dimakos Dato 6. november 2007 Norsk Regnesentral Norsk Regnesentral (NR) er en privat,

Detaljer

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4240 Statistikk Institutt for matematiske fag Eksamensoppgave i TMA4240 Statistikk Faglig kontakt under eksamen: Jo Eidsvik og Arild Brandrud Næss Tlf: 90 12 74 72 og 99 53 82 94 Eksamensdato: 9. desember 2013 Eksamenstid

Detaljer

Hva bør gjøres når en evaluering ikke kan anvende beste metode?

Hva bør gjøres når en evaluering ikke kan anvende beste metode? Denne artikel er publiceret i det elektroniske tidsskrift Artikler fra Trafikdage på Aalborg Universitet (Proceedings from the Annual Transport Conference at Aalborg University) ISSN 1603-9696 www.trafikdage.dk/artikelarkiv

Detaljer

Lead-lag relationship

Lead-lag relationship Lead-lag relationship Et grundigere studium av lead-lag forholdet Kristian Bakkevig Valheim Veileder Valeri Zakamouline Masteroppgaven er gjennomført som ledd i utdanningen ved Universitetet i Agder og

Detaljer

Innledning. Grafisk fremstilling

Innledning. Grafisk fremstilling 1 2 Innledning Dette notatet omhandler en del viktig ting som ofte ikke nevnes eksplisitt i lærebøker i statistikk, men som det er viktig å være oppmerksom på når man bruker statistikk i praksis. Notatet

Detaljer

Modell for optimering av investeringsbeslutninger resultater og anvendelse

Modell for optimering av investeringsbeslutninger resultater og anvendelse FFI-rapport 2011/00940 Modell for optimering av investeringsbeslutninger resultater og anvendelse Maria Fleischer Fauske Forsvarets forskningsinstitutt (FFI) 10. mai 2011 FFI-rapport 2011/00940 1185 P:

Detaljer

Jeg vil inn i Forsvaret hvem er jeg? en kvantitativ studie

Jeg vil inn i Forsvaret hvem er jeg? en kvantitativ studie FFI-rapport 2011/01204 Jeg vil inn i Forsvaret hvem er jeg? en kvantitativ studie Maria Fleischer Fauske Forsvarets forskningsinstitutt (FFI) 20. juni 2011 FFI-rapport 2011/01204 1124 P: ISBN 978-82-464-1941-1

Detaljer

Kompendium V-2014 MAT110. Statistikk 1. Del 1 av 2. Per Kristian Rekdal

Kompendium V-2014 MAT110. Statistikk 1. Del 1 av 2. Per Kristian Rekdal Kompendium V-2014 MAT110 Statistikk 1 Del 1 av 2 Per Kristian Rekdal 2 Figur 1: But under a different accounting convention... 3 4 Forord Dette er del I (av II) av kompendiet i faget MAT110 Statistikk

Detaljer

Enkel Keynes-modell for en lukket økonomi uten offentlig sektor

Enkel Keynes-modell for en lukket økonomi uten offentlig sektor Forelesningsnotat nr 3, januar 2009, Steinar Holden Enkel Keynes-modell for en lukket økonomi uten offentlig sektor Notatet er ment som supplement til forelesninger med sikte på å gi en enkel innføring

Detaljer

Frode Drevland. Rett og riktig. En gjennomgang av Statens vegvesens analysemodell

Frode Drevland. Rett og riktig. En gjennomgang av Statens vegvesens analysemodell Frode Drevland Rett og riktig En gjennomgang av Statens vegvesens analysemodell Concept-programmet 2005 Concept rapport nr. 1070-6 Rett og riktig En gjennomgang av Statens Vegvesens analysemodell Frode

Detaljer

CO2 komponenten av engangsavgiftens påvirkning på CO2 utslippet fra nye biler i Norge

CO2 komponenten av engangsavgiftens påvirkning på CO2 utslippet fra nye biler i Norge CO2 komponenten av engangsavgiftens påvirkning på CO2 utslippet fra nye biler i Norge Skrevet av Fredrik A. Gregersen ved det 5 årige masterprogrammet i samfunnsøkonomi Universitet i Oslo Januar 2010 i

Detaljer

Dynamisk strategisk allokering: Simulering av et praktisk eksempel

Dynamisk strategisk allokering: Simulering av et praktisk eksempel Dynamisk strategisk allokering: Simulering av et praktisk eksempel Tørres Trovik, spesialrådgiver, Sentralbanksjefens stab for kapitalforvaltning, Norges Bank* Flere empiriske studier finner at den forventede

Detaljer

Oppgaver til Studentveiledning II MET 3431 Statistikk

Oppgaver til Studentveiledning II MET 3431 Statistikk Oppgaver til Studentveiledning II MET 3431 Statistikk 10. april 2012 kl 17.15-20.15 i B2 Handelshøyskolen BI 2 Oppgaver 1. Eksamensoppgaver: Prøve-eksamen A fra 2010: Oppgave 6-7. Prøve-eksamen A fra 2010

Detaljer

Notater. Johan Heldal og Johan Fosen. Statistisk konfidensialitet i SSB Et diskusjonsnotat. 2001/28 Notater 2001

Notater. Johan Heldal og Johan Fosen. Statistisk konfidensialitet i SSB Et diskusjonsnotat. 2001/28 Notater 2001 2001/28 otater 2001 Johan Heldal og Johan Fosen otater Statistisk konfidensialitet i SSB Et diskusjonsnotat Seksjon for statistiske metoder og standarder Emnegruppe: 00.90 ,QQKROG %DJUXQQ 2PXOLHIRUPHUIRUIRUPLGOLQJDYVWDWLVWLVLQIRUPDVMRQ

Detaljer

Sannsynlighetsregning og kombinatorikk

Sannsynlighetsregning og kombinatorikk Sannsynlighetsregning og kombinatorikk Introduksjon Formålet med sannsynlighet og kombinatorikk er å kunne løse problemer i statistikk, somoftegårutpååfattebeslutninger i situasjoner der tilfeldighet rår.

Detaljer

SAMLIV UTEN VIGSEL - EKTESKAP OG FØDSLER

SAMLIV UTEN VIGSEL - EKTESKAP OG FØDSLER ARTIKLER FRA STATISTISK SENTRALBYRÅ NR. 146 SAMLIV UTEN VIGSEL - EKTESKAP OG FØDSLER COHABITATION WITHOUT MARRIAGE - MARRIAGE AND BIRTHS Av/By RANDI M. SELMER STATISTISK SENTRALBYRÅ OSLO-KONGSVINGER 1983

Detaljer

Appendiks 5 Forutsetninger for lineær regresjonsanalyse

Appendiks 5 Forutsetninger for lineær regresjonsanalyse Appendiks 5 Forutsetninger for lineær regresjonsanalyse Det er flere krav til årsaksslutninger i regresjonsanalyse. En naturlig forutsetning er tidsrekkefølge og i andre rekke spiller variabeltype inn.

Detaljer

3.9 Teori og praksis for Minste kvadraters metode.

3.9 Teori og praksis for Minste kvadraters metode. 3.9 Teori og praksis for Minste kvadraters metode. Vi fortsetter med minste kvadraters problem. Nå skal vi se nærmere på noen teoretiske spørsmål, bl.a. hvordan normallikningene utledes. Minner om MK problemstillingen:

Detaljer

Kartlegging og analyse av kommunale sosialhjelpssatser

Kartlegging og analyse av kommunale sosialhjelpssatser Kartlegging og analyse av kommunale sosialhjelpssatser Av Trond Erik Lunder Telemarksforsking-Bø TF-notat nr 5/2008 6. mai 2008 Telemarksforsking-Bø 2008 TF-notat nr. 5/2008 ISSN 0802-3662 Pris: kr. 120,-

Detaljer

Endring i byggekvalitet

Endring i byggekvalitet Programmet Evaluering av plan- og bygningsloven Jacob Mehus, Anna Næss Rolstad, Viggo Nordvik og Vidar Stenstad Endring i byggekvalitet Kvantitativ registrering av byggskadeomfang Sluttrapport 35 30 1993

Detaljer

KORT INNFØRING I GEOGEBRA

KORT INNFØRING I GEOGEBRA Innhold INNLEDNING... 3 KORT INNFØRING I GEOGEBRA... 4 ØVELSE 1. TEGNE GRAFER... 9 ØVELSE 2. TEGNE GRAFER TIL RASJONALE FUNKSJONER... 11 ØVELSE 3. LIKNINGSLØSNING... 15 ØVELSE 4. TANGENTER OG MAKS OG MIN

Detaljer

UNIVERSITETET I OSLO HELSEØKONOMISK FORSKNINGSPROGRAM

UNIVERSITETET I OSLO HELSEØKONOMISK FORSKNINGSPROGRAM UNIVERSITETET I OSLO HELSEØKONOMISK FORSKNINGSPROGRAM De syke pleierne En analyse av sykefravær blant sykepleiere og hjelpepleiere Elisabeth Fevang Økonomisk institutt, Stiftelsen Frischsenteret for samfunnsøkonomisk

Detaljer

Ulikheter. Vi gir her eksempel på hvordan man kan finne ut hvornår ulikheter er sanne på forskjellige måter.

Ulikheter. Vi gir her eksempel på hvordan man kan finne ut hvornår ulikheter er sanne på forskjellige måter. Ulikheter. Vi gir her eksempel på hvordan man kan finne ut hvornår ulikheter er sanne på forskjellige måter. Dersom man ofte ikke er intressert i å finne eksakte løsninger kun sikkre interval, er ulikheter

Detaljer

Prising av opsjoner ved lineær programmering. Trond Arne Halvorsen

Prising av opsjoner ved lineær programmering. Trond Arne Halvorsen Prising av opsjoner ved lineær programmering Trond Arne Halvorsen Masteroppgave i samfunnsøkonomi Institutt for økonomi, Universitetet i Bergen Desember 2007 Prising av opsjoner ved lineær programmering

Detaljer

UTREDNING. DN-utredning 7-2012. Testing og modifisering av modeller for å estimere spredning og etablering av fremmede arter

UTREDNING. DN-utredning 7-2012. Testing og modifisering av modeller for å estimere spredning og etablering av fremmede arter UTREDNING DN-utredning 7-2012 Testing og modifisering av modeller for å estimere spredning og etablering av fremmede arter Testing og modifisering av modeller for å estimere spredning og etablering av

Detaljer

Statistikk og matematikk

Statistikk og matematikk Statistikk og matematikk Halvor Aarnes 2009. Revidert 2012. Innholdsfortegnelse Sannsynlighetsregning... 3 R din nye kalkulator... 7 Matriser, matriseregning og vektorer... 10 Vektorer og vektorrom...

Detaljer