Forelesning 5 STK3100/4100



Like dokumenter
Forelesning 9 STK3100

UNIVERSITETET I OSLO

Generaliserte Lineære Modeller

Forelesning 7 STK3100/4100

Eksponensielle klasser

Prøveeksamen i STK3100/4100 høsten 2011.

Generaliserte Lineære Modeller

Forelesning 10 STK3100

Introduksjon til Generaliserte Lineære Modeller (GLM)

Introduksjon til Generaliserte Lineære Modeller (GLM)

Forelesning 11 STK3100/4100

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

EKSAMENSOPPGAVER STAT100 Vår 2011

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Forelesning 11 STK3100/4100

UNIVERSITETET I OSLO

Forelesning 3 STK3100

Forelesning 6 STK3100/4100

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Forelesning 8 STK3100/4100

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

UNIVERSITETET I OSLO

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Tilleggsoppgaver for STK1110 Høst 2015

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

TMA4240 Statistikk 2014

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Løsningsforslag øving 9, ST1301

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

TMA4240 Statistikk Høst 2016

Inferens i regresjon

Fasit for tilleggsoppgaver

UNIVERSITETET I OSLO

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

EKSAMENSOPPGAVE STA-2004.

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Kort overblikk over kurset sålangt

Kontinuerlige sannsynlighetsfordelinger.

Formelsamling i medisinsk statistikk

HØGSKOLEN I STAVANGER

STK juni 2016

STK Oppsummering

Prøveeksamen STK2100 (fasit) - vår 2018

UNIVERSITETET I OSLO Matematisk Institutt

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Logistisk regresjon 2

Ekstraoppgaver STK3100 h10

TMA4240 Statistikk Høst 2009

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Eksamen desember 2015

HØGSKOLEN I STAVANGER

7.2 Sammenligning av to forventinger

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

UNIVERSITETET I OSLO

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

STK Oppsummering

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Kap. 6, Kontinuerlege Sannsynsfordelingar

Kapittel 2: Hendelser

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Løsningsforslag eksamen STAT100 Høst 2010

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

Transkript:

Forelesning 5 STK3100/4100 p. 1/4 Forelesning 5 STK3100/4100 27. september 2012 Presentasjon laget av S. O. Samuelsen (modifisert av Geir H12) Plan for forelesning: 1. Poissonfordeling 2. Overspredning 3. Kvasi-likelihood

Forelesning 5 STK3100/4100 p. 2/4 Telle data Dødelighetsstudier: Forklare antall døde ved alder, kjønn, livsstil Helseforsikring: Forklare antall krav ved alder, kjønn, yrke Årsakssforsikring: Forklare antall krav på bilforsikring ved biltype, motor kapasitet, tidligere krav Mail: Antall spam mail

Forelesning 5 STK3100/4100 p. 3/4 Poissonfordelingen Y er Poissonfordelt med forventning µ (Y Po(µ)) dersom P(Y = y) = µy y! exp( µ) for y = 0, 1, 2,... Poissonfordeling tilhører en eksponensiell fordelingsklasse siden P(Y = y) = exp(y log(µ) µ log(y!)) = exp(θy a(θ))c(y)) med θ = log(µ) som kanonisk parameter og a(θ) = exp(θ) = µ. Dermed blir E[Y ] = a (θ) = exp(θ) = µ og Var[Y ] = a (θ) = exp(θ) = µ = V (µ)

Forelesning 5 STK3100/4100 p. 4/4 Poissonfordelingen: Poissonfordelingen kan oppstå ved at Tilnærmelse til binomisk fordeling: Y Bin(n,π) når π er liten Poissonprosess: Y = antall hendelser i intervall [0, t] Po(λt) med Rate λ for hendelser Antall hendelser i disjunkte subintervaller av [0,t] er uavhengige Kun en hendelse ved et gitt tidspunkt

Forelesning 5 STK3100/4100 p. 5/4 Binomisk tilnærmelse til Poissonfordelingen: Poisson Binomisk Binomisk Binomisk y EY=0.5 n=500 n=50 n=5 p=0.001 p=0.01 p=0.1 0 0.6065 0.6064 0.6050 0.5905 1 0.3033 0.3035 0.3056 0.3281 2 0.0758 0.0758 0.0756 0.0729 3 0.0126 0.0126 0.0122 0.0081 4 0.0016 0.0016 0.0015 0.0005 Har generelt, med Y Bin(n, π) og µ = nπ, P(Y = y) µy y! exp( µ) nπ2

Sjekk av Poissonfordeling Generelt kan vi ha telledata på Y = 0, 1, 2,..., som ikke passer med Poissonfordelingen. Vi kan sjekke Poissonantagelsen ved å beregne Spredningskoeffisient = CD = s2 Ȳ der s 2 er empirisk varians for observerte Y i. Hvis Y i Poisson(µ) vil CD 1. Hvis CD > 1 has overspredning i forhold til Poissonmodellen. Poissonmodellen testes formelt ved Pearson kjikvadrat X 2 = m 1 y=0 (O y E y ) 2 E y χ 2 m 2 når modellen holder der O y er antall Y i = y og E y = n ˆµy y! exp( ˆµ). Forelesning 5 STK3100/4100 p. 6/4

Forelesning 5 STK3100/4100 p. 7/4 Eksempler på telledata: Number of Frequency events Horesekick deaths Ammunition accidents Bomb hits Observed Expected Observed Expected Observed Expected 0 109 108.7 448 406.9 229 226.7 1 65 66.3 132 189.2 211 211.4 2 22 20.2 42 43.9 93 98.5 3 3 4.1 21 6.8 35 30.6 4 1 0.6 3 0.8 7 7.1 5 2 0.3 1 1.6 Total 200 199.9 648 647.9 576 575.9 CD 1.002 1.49 1.008 X 2 0.29 62.9 1.02 df 2 2 3 p-value 0.86 <0.001 0.80

Forelesning 5 STK3100/4100 p. 8/4 Poissonregresjon: GLM for Poissondata Y i Po(µ i ) er uavhengige g(µ i ) = η i for linkfunksjon g() Lineær prediktor η i = β x i Vanlige linkfunksjoner: Kanonisk link: g 0 (µ i ) = log(µ i ) Kvadratrotlink: g 0.5 (µ i ) = µ i Identitetslink: g 1 (µ i ) = µ i Powerlink g ρ (µ i ) = µ ρ i

Forelesning 5 STK3100/4100 p. 9/4 Parameterfortolkning Fortolkningen av µ i er raten i en Poissonprosess over et gitt tidsintervall. La x = (x 1,...,x p ) og x = (x 1,...,x p) slik at x j = x j for j = 1, 2,...,p 1 x p = x p + 1 for j = p Med log-link fortolkes β p som log-rate-ratio eller som rate-ratio. exp(β p ) = µ µ = exp(β (x x) = RR Tilsv. med identitetslink fås fortolkning rate-differanse (RD) β p = µ µ = RD

Forelesning 5 STK3100/4100 p. 10/4 Box-Cox-transformasjon Bakgrunn for at vi kan betegne log-linken med g 0 (): Vi kan redefinere linkene ved Box-Cox-transformasjon µ ρ 1 ρ 0 ρ g ρ (µ i ) = log(µ) ρ = 0 Merk at når ρ 0 vil g ρ (µ) log(µ) = g 0 (µ) Det er altså mulig å utvide den generaliserte modellen med "link-parameteren" ρ og teste om f.eks. log- eller identitetslink passer med data.

Forelesning 5 STK3100/4100 p. 11/4 Eksempel: Mottatt spam Y i = antall spam time nr. i fra 10. juni til 10. oktober 2003. Kovariater: Mnd, Ukedag (og Klokkeslett) > glm(anttime ukedag+mnd,family=poisson) Call: glm(formula=anttime ukedag+mnd,family=poisson,data=timedata) Coefficients: (Intercept) ukedagmon ukedagsat ukedagsun ukedagthu 0.02031-0.16139-0.02690-0.08526-0.10282 ukedagwed mndjul mndjun mndoct mndsep -0.03113 0.14755-0.01822 0.36165 0.11310 Degrees of Freedom: 2926 Total (i.e. Null); Null Deviance: 3754 Residual Deviance: 3710 AIC: 8049 2916 Residual

Forelesning 5 STK3100/4100 p. 12/4 Null deviance: 3754.1 on 2926 degrees of freedom Residual deviance: 3709.9 on 2916 degrees of freedom AIC: 8049 Eksempel: Mottatt spam, forts. > summary(glm(anttime ukedag+mnd,family=poisson)) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 0.02031 0.05581 0.364 0.71594 ukedagmon -0.16139 0.06854-2.355 0.01854 * ukedagsat -0.02690 0.06618-0.406 0.68441 ukedagsun -0.08526 0.06720-1.269 0.20453 ukedagthu -0.10282 0.06608-1.556 0.11974 ukedagtue -0.03988 0.06595-0.605 0.54538 ukedagwed -0.03113 0.06489-0.480 0.63148 mndjul 0.14755 0.05121 2.881 0.00396 ** mndjun -0.01822 0.05984-0.305 0.76074 mndoct 0.36165 0.06767 5.344 9.07e-08 *** mndsep 0.11310 0.05203 2.174 0.02974 * --- (Dispersion parameter for poisson family taken to be 1)

Forelesning 5 STK3100/4100 p. 13/4 Anova > M2<-glm(anttime ukedag+mnd,family=poisson,data=timedata) > anova(m2,test="chisq") Analysis of Deviance Table Model: poisson, link: log Response: anttime Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev NULL 2926 3754.1 ukedag 6 8.445 2920 3745.7 0.2073 mnd 4 35.751 2916 3709.9 3.256e-07 ***

Forelesning 5 STK3100/4100 p. 14/4 Anova > M22<-glm(anttime mnd+ukedag,family=poisson,data=timedata) > anova(m22,test="chisq") Analysis of Deviance Table Model: poisson, link: log Response: anttime Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev NULL 2926 3754.1 mnd 4 36.275 2922 3717.9 2.541e-07 *** ukedag 6 7.921 2916 3709.9 0.2439

Forelesning 5 STK3100/4100 p. 15/4 Funksjon for rate-ratio (RR) med 95% KI RRCItab<-function(glmfit){ sumglm<-summary(glmfit)$coef RR<-exp(sumglm[,1]) RRL<-exp(sumglm[,1]-1.96*sumglm[,2]) RRU<-exp(sumglm[,1]+1.96*sumglm[,2]) cbind(rr,rrl,rru) } glmfit skal være en tilpasset GLM summary(glmfit)$coef inneholder ˆβ j i 1. kolonne og standardfeil se j for ˆβ j i annen kolonne Funksjonen beregner exp(ˆβ j ) og exp(ˆβ j ± 1.96se)

Forelesning 5 STK3100/4100 p. 16/4 Anvendelse: Funksjon for RR med 95% KI > poisspam<-glm(anttime ukedag+mnd,family=poisson) > round(rrcitab(poisspam),2) RR RRL RRU (Intercept) 1.02 0.91 1.14 ukedagmon 0.85 0.74 0.97 ukedagsat 0.97 0.86 1.11 ukedagsun 0.92 0.80 1.05 ukedagthu 0.90 0.79 1.03 ukedagtue 0.96 0.84 1.09 ukedagwed 0.97 0.85 1.10 mndjul 1.16 1.05 1.28 mndjun 0.98 0.87 1.10 mndoct 1.44 1.26 1.64 mndsep 1.12 1.01 1.24

Forelesning 5 STK3100/4100 p. 17/4 Spam: ANOVA-tabell M0<-glm(anttime 1,family=poisson,data=timedata) M1<-glm(anttime mnd,family=poisson,data=timedata) M2<-glm(anttime ukedag+mnd,family=poisson,data=timedata) M3<-glm(anttime time+ukedag+mnd,family=poisson,data=timedata) anova(m0,m1,m2,m3,test="chi") Analysis of Deviance Table Model 1: anttime 1 Model 2: anttime mnd Model 3: anttime ukedag + mnd Model 4: anttime time + ukedag + mnd Resid. Df Resid. Dev Df Deviance P(> Chi ) 1 2926 3754.1 2 2922 3717.9 4 36.275 2.541e-07 *** 3 2916 3709.9 6 7.921 0.243928 4 2893 3665.8 23 44.083 0.005138 **

Spam: Døgnvariasjon Faktor time (kl.24.00=ref) log(rr) 0.4 0.3 0.2 0.1 0.0 0.1 5 10 15 20 time Glattet versjon 0 5 10 15 20 time Forelesning 5 STK3100/4100 p. 18/4 s(time) 0.3 0.2 0.1 0.0 0.1 0.2 0.3

Forelesning 5 STK3100/4100 p. 19/4 Eksempel: Lungekreft i danske byer (1968-71) Tabell 1. Observert antall lungekreft tilfeller By Alder Fredericia Horsens Kolding Vejle Totalt 40 54 11 13 4 5 33 55 59 11 6 8 7 32 60 64 11 15 7 10 43 65 69 10 10 11 14 45 70 74 11 12 9 8 40 > 75 10 2 12 7 31 Totalt 64 58 51 51 224 Tabell 2. Antall innbyggere i de fire byene fordelt på aldersgrupper. By Alder Fredericia Horsens Kolding Vejle Totalt 40 54 3059 2879 3142 2520 11600 55 59 800 1083 1050 878 3811 60 64 710 923 895 839 3367 65 69 581 834 702 631 2748 70 74 509 634 535 539 2217 > 75 605 782 659 619 2665

Forelesning 5 STK3100/4100 p. 20/4 Lungekrefteksempel,forts Vi skal benytte følgende modell: Med n ij = Antall innbyggere i by i og aldersgruppe j er Y ij = Ant. lungekrefttilf. by i aldersgr. j Po(µ ij ) der µ ij = n ij exp(η 0 + α i + β j ). Begrunnelse Rimelig at antall tilfeller avhenger av antall innbyggere Kunne antatt Y ij Bin(n ij,π ij ) der π ij små (men noen problemer med dette)

Forelesning 5 STK3100/4100 p. 21/4 Lungekrefteksempel: offset Poeng: Siden µ ij avhenger av befolkningstørrelse n ij må denne spesifiseres i modellen. Merk at log(µ ij ) = log(n ij exp(η 0 +α i +β j )) = 1 log(n ij )+η 0 +α i +β j dvs. log(n ij ) inngår i den lineære prediktoren som en kovariat der regresjonsparameteren er satt lik 1. I R kan vi spesifisere en konstant ved offset.

Forelesning 5 STK3100/4100 p. 22/4 Lungekrefteksempel: R lungekreft <- read.table("../data/lungekreft", col.names=c("by","ald","lkreft","bef")) lungekreft$by = as.factor(lungekreft$by) levels(lungekreft$by) = c("fredericia","horsens","kolding","vejle") lungekreft$ald = as.factor(lungekreft$ald) levels(lungekreft$ald) = c("40-54","55-59","60-64","65-69", "70-74",">75") glm(lkreft By+Ald+offset(log(Bef)), family=poisson,data=lungekreft) Coefficients: (Intercept) ByHorsens ByKolding ByVejle -5.6321-0.3301-0.3715-0.2723 Ald55-59 Ald60-64 Ald65-69 Ald70-74 Ald>75 1.1010 1.5186 1.7677 1.8569 1.4197 Degrees of Freedom: 23 Total (i.e. Null); Null Deviance: 129.9 Residual Deviance: 23.45 AIC: 137.8 15 Residual

Forelesning 5 STK3100/4100 p. 23/4 Lungekrefteksempel: Mer R > mainmod = glm(lkreft By+Ald+offset(log(Bef)), family=poisson,data=lungekreft) > summary(mainmod) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -5.6321 0.2003-28.125 < 2e-16 *** ByHorsens -0.3301 0.1815-1.818 0.0690. ByKolding -0.3715 0.1878-1.978 0.0479 * ByVejle -0.2723 0.1879-1.450 0.1472 Ald55-59 1.1010 0.2483 4.434 9.23e-06 *** Ald60-64 1.5186 0.2316 6.556 5.53e-11 *** Ald65-69 1.7677 0.2294 7.704 1.31e-14 *** Ald70-74 1.8569 0.2353 7.891 3.00e-15 *** Ald>75 1.4197 0.2503 5.672 1.41e-08 *** --- Null deviance: 129.908 on 23 degrees of freedom Residual deviance: 23.447 on 15 degrees of freedom AIC: 137.84

Forelesning 5 STK3100/4100 p. 24/4 Lungekrefteks.: Rate-ratioer med konfidensintervall > round(rrcitab(mainmod),3) RR RRL RRU (Intercept) 0.004 0.002 0.005 ByHorsens 0.719 0.504 1.026 ByKolding 0.690 0.477 0.997 ByVejle 0.762 0.527 1.101 Ald55-59 3.007 1.848 4.892 Ald60-64 4.566 2.900 7.190 Ald65-69 5.857 3.736 9.183 Ald70-74 6.404 4.038 10.156 Ald>75 4.136 2.532 6.754

Forelesning 5 STK3100/4100 p. 25/4 Overspredning: Eks. Antall seksualpartnere Fra Folkhelsa s seksualvanestudier i -87 og -92: n = 8553 ind. Respons: Y i = totalt antall sex-partnere Kovariater: Kjønn (1=M, 2=K), Sivilstatus (1=Ugift, 2=Gift/Sambo), HIVtest (1=Nei, 2=Ja, 3=Vet ikke), Debutalder (1 hvis < 19, 2 hvis 19 år), Aldersgr (=1 hvis < 20 år, 2 hvis 20-24, 3 hvis 25-29, 4 hvis 30-44 og 5 hvis 45-59 år) Siden Y i er en tellevariabel kan det virke rimelig å modellere med Poisson-regresjon

Forelesning 5 STK3100/4100 p. 26/4 Deviance Residuals: Min 1Q Median 3Q Max -5.0753-1.7407-0.9003 0.5758 11.3948 Estimate Std. Error z value Pr(> z ) (Intercept) 1.828617 0.031091 58.814 < 2e-16 *** Kjonn -0.490383 0.008702-56.354 < 2e-16 *** Sivstat -0.439973 0.010228-43.018 < 2e-16 *** factor(hivtest)2 0.350172 0.013197 26.534 < 2e-16 *** factor(hivtest)3 0.149014 0.022946 6.494 8.36e-11 *** I(Debald < 19)TRUE 0.813313 0.011003 73.918 < 2e-16 *** factor(aldgr)2 0.571415 0.027261 20.961 < 2e-16 *** factor(aldgr)3 0.904891 0.027449 32.967 < 2e-16 *** factor(aldgr)4 1.046731 0.026568 39.399 < 2e-16 *** factor(aldgr)5 0.843216 0.027609 30.542 < 2e-16 *** (Dispersion parameter for poisson family taken to be 1) Null deviance: 53136 on 8553 degrees of freedom Residual deviance: 40002 on 8544 degrees of freedom Antall seksualpartnere, Poissonregresjon > main<-glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=poisson(link=log),data=part) > summary(main)

Forelesning 5 STK3100/4100 p. 27/4 Ant. sexpartnere, Sammendrag av Poissonregresjon Mange meget signifikante kovariater Men også noen veldig store residualer Dessuten Pearson X 2 = 51927.15 som er stort sammenlignet residualt antall frihetsgrader = 8544 Overspredning i forhold til Poissonmodell på X 2 /8544 = 6.08 > X2<-sum(residuals(main,type="pearson")ˆ2) > X2/8544 [1] 6.077616 Pga. betydelig overspredningen skal man være forsiktig med legge for mye i signifikansene!

Forelesning 5 STK3100/4100 p. 28/4 Overspredning generelt To forslag til forbedring av modellen Anta at Y i θ i Po(θ i exp(β x i )) der θ i er en latent stokastisk variabel Anta at E[Y i ] = µ i = exp(β x i )), men at Var[Y i ] = φµ i der φ er et spredningsledd

Forelesning 5 STK3100/4100 p. 29/4 Dobbeltforventning Generelt for stokastiske variabel X og Y gjelder lov om dobbeltforventning E[Y ] = E{E[Y X]} Tilsvarende regel for varianser er Var[Y ] = E{Var[Y X]} + Var{E[Y X]}

Overspredning med latent variabel Med Y i θ i Po(θ i exp(β x i )) der θ i er en latent stokastisk variabel finner vi µ i = E[Y i ] = E[E[Y i θ i ]] = E[θ i exp(β x i )] = exp(β x i ) hvis vi setter E[θ i ] = 1 (som vi kan gjøre når β x i inneholder et konstantledd). Dessuten får vi, pga. betinget Poissonfordeling, Var[Y i ] = E[Var[Y i θ i ]] + Var[E[Y i θ i ]] = E[θ i exp(β x i )] + Var[θ i exp(β x i )] = exp(β x i ) + exp(2β x i )Var[θ i ] dvs. overspredning! = µ i + µ 2 i Var[θ i ] > µ i Forelesning 5 STK3100/4100 p. 30/4

Forelesning 5 STK3100/4100 p. 31/4 Overspredning med latent gammafordelt variabel Hvis θ i er gammafordelt blir, fra de Jong & Heller, s. 32, Y i marginalt negativt binomisk fordelt. Spesielt hvis θ i har tetthet f(θ;ν) = νν θ ν 1 Γ(ν) E[θ i ] = 1 og Var[θ i ] = 1 og ν exp( νθ) blir P(Y i = y) = Γ(ν + y) y!γ(ν) ( µ i µ i + ν )y ( ν µ i + ν )ν med forventning E[Y i ] = µ i = exp(β x i ) og Var[Y i ] = µ i + µ 2 i Var[θ i ] = µ i + µ2 i ν

Forelesning 5 STK3100/4100 p. 32/4 GLM med negativ binomisk respons Siden negative binomiske fordelinger er med i eksponensiell klasser er det rett fram å definere en GLM basert på dem. Dette er faktisk implementert i R under "biblioteket" MASS. Default-linken for negativ binomisk familie er log, så parameterestimatene ˆβ vil svare til Poisson-regresjonen. Vi kan både spesifisere og estimere parameteren ν, men virker som om korrekt spesifikasjon ikke er kritisk.

(Intercept) 1.90610 0.07341 25.966 < 2e-16 *** Kjonn -0.47508 0.02283-20.805 < 2e-16 *** Sivstat -0.45847 0.02884-15.898 < 2e-16 *** factor(hivtest)2 0.39301 0.04015 9.789 < 2e-16 *** factor(hivtest)3 0.18817 0.06325 2.975 0.00294 ** I(Debald < 19)TRUE 0.80918 0.02515 32.179 < 2e-16 *** factor(aldgr)2 0.51679 0.06118 8.447 < 2e-16 *** factor(aldgr)3 0.82296 0.06316 13.030 < 2e-16 *** factor(aldgr)4 0.97479 0.06027 16.173 < 2e-16 *** factor(aldgr)5 0.75435 0.06258 12.054 < 2e-16 *** (Dispersion parameter for Negative Binomial(1) family taken to be 0.9145758) Null deviance: 7437.1 on 8553 degrees of freedom Residual deviance: 5609.5 on 8544 degrees of freedom Forelesning 5 STK3100/4100 p. 33/4 Ant. sexpartnere, GLM neg. bin. fam., spesifisert ν = 1 > library(mass) > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=negative.binomial(1),data=part)) Deviance Residuals: Min 1Q Median 3Q Max -1.7117-0.8069-0.3734 0.2243 3.8959 Estimate Std. Error t value Pr(> t )

> summary(glm.nb(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) (Dispersion par. for Negative Binomial(1.7137) family taken to be 1 Ant. sexpartnere, GLM med neg. bin. fam., estimerer ν +factor(aldgr),data=part)) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 1.89837 0.06205 30.595 < 2e-16 *** Kjonn -0.47694 0.01920-24.843 < 2e-16 *** Sivstat -0.45784 0.02413-18.976 < 2e-16 *** factor(hivtest)2 0.39031 0.03333 11.711 < 2e-16 *** factor(hivtest)3 0.18614 0.05289 3.519 0.000433 *** I(Debald < 19)TRUE 0.80933 0.02140 37.822 < 2e-16 *** factor(aldgr)2 0.52531 0.05203 10.096 < 2e-16 *** factor(aldgr)3 0.83394 0.05361 15.555 < 2e-16 *** factor(aldgr)4 0.98437 0.05123 19.213 < 2e-16 *** factor(aldgr)5 0.76598 0.05322 14.392 < 2e-16 *** --- Null deviance: 11335 on 8553 degrees of freedom Residual deviance: 8503 on 8544 degrees of freedom AIC: 47288 Theta: 1.7137 Std. Err.: 0.0328 2 x log-likelihood: -47265.8940 Forelesning 5 STK3100/4100 p. 34/4

Forelesning 5 STK3100/4100 p. 35/4 Sammendrag: Eks. med neg.bin-familie Parameterestimatene ˆβ tilnærmet like som for Poissonregresjon Standardfeil betydelig større i forhold til Poissonregresjon Derav blir t-verdier mindre og p-verdier større Residualene er nå vesentlig mindre Testobservatorene tilnærmet like om parameteren ν spesifiseres eller estimeres

Forelesning 5 STK3100/4100 p. 36/4 Utvidelse av Poissonmodell til Var[Y i ] = φµ i Problem: Ingen (kjent) eksponensiell klasse med Var[Y i ] = φµ i = φe[y i ] Likevel mulig å tilpasse en modell som kun spesifiserer momenter g(µ i ) = g(e[y i ]) = β x i og Var[Y i ] = φµ i med bakgrunn i Quasilikelihood

Forelesning 5 STK3100/4100 p. 37/4 Bakgrunn for Quasi-likelihood De fleste egenskaper ved minste kvadraters estimatorer krever ikke normalfordelte responser, kun Korrekt forventningstruktur E[Y i ] = β x i Konstant varians Var[Y i ] = σ 2 Uavhengighet Uten normalfordeling har vi ikke eksakt t-fordelinger og F-fordelinger for test-observatorer, men disse er konservative i forhold til asymptotiske tilnærminger som ikke tar hensyn til usikkerheten i ˆσ 2.

Bakgrunn for Quasi-likelihood Estimeringsligninger for GLM: Scorefunksjonen settes lik 0 s(β) = n i=1 x i Y i µ i g (µ i )φv (µ i ) = 0, dvs. estimering krever kun spesifikasjon av linkfunskjon g(µ i ) og variansstruktur Var[Y i ] = φv (µ i ). Med samme antagelser has at kovariansmatrisen til s(β): Var[s(β)] = J (β) = n i=1 dvs. ved Fisher-informasjonen. x i x i g (µ i ) 2 φv (µ i ) = E [ ] s(β), β NB. Denne identiteten trenger altså ikke antagelse av eksponensiell klasse, kun spesifikasjon av forventning og variansstruktur. Forelesning 5 STK3100/4100 p. 38/4

Forelesning 5 STK3100/4100 p. 39/4 Modell for Quasi-likelihood Korrekt forventningstruktur g(e[y i ]) = β x i Variansstruktur Var[Y i ] = φv (µ i ) Uavhengighet mellom Y i -ene Da vil ved vanlig 1. ordens Taylor-utvikling (og noen regularitetsantagelser) ˆβ β + J (β) 1 s(β) for ˆβ løsning av s(ˆβ) = 0. Men ved sentralgrenseteoremet blir og dermed s(β) N(0, J (β)) ˆβ N(β, J (β) 1 ) som ved vanlig MLE.

Forelesning 5 STK3100/4100 p. 40/4 Estimering av spredningsledd x i x i g (µ i ) 2 V (µ i ) I Fisher-informasjonen J (β) = 1 n φ i=1 ukjente spredningsparameteren φ. Men vi har at inngår den E[ (Y i µ i ) 2 V (µ i ) Derfor kan φ estimeres konsistent ved ] = φ ˆφ = 1 n p 1 n i=1 (Y i ˆµ i ) 2 V (ˆµ i ) = X 2 n p 1 der X 2 er Pearson-kjikvadrat. Merk at ˆφ = ˆσ 2 når V (µ i ) = 1.

Forelesning 5 STK3100/4100 p. 41/4 Quasilikelihood Strengt tatt har vi bare sett på estimeringsligninger s(β) = n i=1 x i Y i µ i g (µ i )φv (µ i ) = 0, Men man kan konstruere en funksjon Q(µ) = n i=1 Q i(µ i ) som maksimeres ved å løse disse, der Med V (µ) = µ får vi Q i (µ i ) = µi y i Y i µ φv (µ) dµ Q i (µ i ) = 1 φ µi y i Y i µ µ dµ = 1 φ [Y i log(µ i /Y i ) (µ i Y i )] som er proporsjonal med deviansbidrag for Poissonfordeling

(Intercept) 1.82862 0.07665 23.857 < 2e-16 *** Kjonn -0.49038 0.02145-22.859 < 2e-16 *** Sivstat -0.43997 0.02521-17.449 < 2e-16 *** factor(hivtest)2 0.35017 0.03254 10.763 < 2e-16 *** factor(hivtest)3 0.14901 0.05657 2.634 0.00845 ** I(Debald < 19)TRUE 0.81331 0.02713 29.983 < 2e-16 *** factor(aldgr)2 0.57142 0.06721 8.502 < 2e-16 *** factor(aldgr)3 0.90489 0.06767 13.372 < 2e-16 *** factor(aldgr)4 1.04673 0.06550 15.981 < 2e-16 *** factor(aldgr)5 0.84322 0.06806 12.389 < 2e-16 *** --- (Dispersion parameter for quasi family taken to be 6.07765) Null deviance: 53136 on 8553 degrees of freedom Residual deviance: 40002 on 8544 degrees of freedom Forelesning 5 STK3100/4100 p. 42/4 Antall sexpartnere, GLM med quasi-likelihood > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=quasi(link=log,var="mu"),data=part)) Deviance Residuals: Min 1Q Median 3Q Max -5.0753-1.7407-0.9003 0.5758 11.3948 Estimate Std. Error t value Pr(> t )

mu Forelesning 5 STK3100/4100 p. 43/4 Hvilken variansfunksjon passer best Beregner estimert forventning ˆµ i for alle individer Beregn for j = 1, 2,...,15 empirisk varians ˆv j for Y i slik at j ˆµ i < j + 1 Plotter (j, ˆv j ) sammen med ˆφµ og µ + µ 2 /ˆν Empirisk varians for antall partnere varians 0 20 40 60 80 100 120 Quasilikelihood Negativt binomisk 2 4 6 8 10 12 14

Forelesning 5 STK3100/4100 p. 44/4 Sammendrag: Eks. med quasi-likelihood Parameterestimatene er eksakt de samme som for Poissonregresjon Standardfeil er skalert med ˆφ = 6.0776 = 2.46 i forhold til Poissonregresjon Derav blir t-verdier mindre og p-verdier større Oppgitte residualer er de samme som for Poisson-regresjon, tydeligvis ikke skalert med ˆφ Essensielt samme resultater som for Negativ binomisk familie

Forelesning 5 STK3100/4100 p. 45/4 GLM med gamma-familie Anta Y i er gamma-fordelt med tetthet ( ) ν f(y) = 1 ν Γ(ν) µ i y ν 1 exp( ν µ i y) der c(y,ν) = y (ν 1) ν ν /Γ(ν). = exp( ( 1/µ i)y log(µ i ) 1/ν )c(y, ν)) Dermed blir kanonisk parameter θ = 1/µ, spredningsledd φ = 1/ν og funksjonen a(θ) = log( 1/θ). Dette gir variansfunksjon V (µ) = a (θ) = 1 θ 2 = µ2

Null deviance: 9178.8 on 8553 degrees of freedom Residual deviance: 7025.3 on 8544 degrees of freedom Forelesning 5 STK3100/4100 p. 46/4 Ant. sexpartnere, GLM med Gammafamilie og log-link > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=gamma(link=log),data=part)) Deviance Residuals: Min 1Q Median 3Q Max -1.8907-0.8800-0.4082 0.2451 4.2764 Estimate Std. Error t value Pr(> t ) (Intercept) 1.92078 0.07395 25.975 < 2e-16 *** Kjonn -0.47166 0.02316-20.362 < 2e-16 *** Sivstat -0.45905 0.02951-15.554 < 2e-16 *** factor(hivtest)2 0.39748 0.04173 9.525 < 2e-16 *** factor(hivtest)3 0.19111 0.06486 2.947 0.00322 ** I(Debald < 19)TRUE 0.80933 0.02495 32.443 < 2e-16 *** factor(aldgr)2 0.49933 0.06084 8.207 2.6e-16 *** factor(aldgr)3 0.80096 0.06302 12.709 < 2e-16 *** factor(aldgr)4 0.95564 0.05998 15.933 < 2e-16 *** factor(aldgr)5 0.73101 0.06220 11.752 < 2e-16 *** --- (Dispersion parameter for Gamma family taken to be 1.117776)

Forelesning 5 STK3100/4100 p. 47/4 Invers gaussisk familile En ytterliger eksponensiell klasse er de invers gaussiske fordelingene med tetthet } (2πσ 2 y 3 ) 1/2 exp { (y µ)2 hvis y > 0, 2µ 2 σ 2 y f Y (y) = 0 hvis y 0, for µ,σ 2 > 0. Det kan vises at hvis Y f Y (y) så er E[Y ] = µ og Var[Y ] = σ 2 µ 3, dvs. spredningsleddet er φ = σ 2 og V (µ) = µ 3

Null deviance: 2325.2 on 8553 degrees of freedom Residual deviance: 1932.6 on 8544 degrees of freedom Forelesning 5 STK3100/4100 p. 48/4 Sexpartnere, GLM med Invers gaussisk fam. og log-link > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=inverse.gaussian(link=log),data=part)) Deviance Residuals: Min 1Q Median 3Q Max -0.9340-0.5390-0.1790 0.0923 2.1545 Estimate Std. Error t value Pr(> t ) (Dispersion parameter for inverse.gaussian family taken to be 0.258 (Intercept) 1.99258 0.08136 24.491 < 2e-16 *** Kjonn -0.45361 0.02588-17.528 < 2e-16 *** Sivstat -0.46773 0.03482-13.432 < 2e-16 *** factor(hivtest)2 0.43463 0.05613 7.743 1.08e-14 *** factor(hivtest)3 0.20692 0.07698 2.688 0.0072 ** I(Debald < 19)TRUE 0.80908 0.02579 31.373 < 2e-16 *** factor(aldgr)2 0.42057 0.06248 6.731 1.79e-11 *** factor(aldgr)3 0.69632 0.06602 10.547 < 2e-16 *** factor(aldgr)4 0.87049 0.06244 13.941 < 2e-16 *** factor(aldgr)5 0.62449 0.06364 9.813 < 2e-16 *** ---

Forelesning 5 STK3100/4100 p. 49/4 Sammendrag Poisson-fordeling var ikke akseptabelt for partnerdataen fordi den ikke inneholder spredningsledd som tar hensyn til overspredningen Negativ binomisk fordeling, Quasi-likelihood med spredningsledd og variansfunksjon V (µ) = µ, Gammafordeling og Invers Gaussisk fordeling ga lignende resultater på dette datasettet Generelt kan feilaktig representasjon av variansen gi feilaktig inferens