Forelesning 9 STK3100



Like dokumenter
Forelesning 5 STK3100/4100

UNIVERSITETET I OSLO

Prøveeksamen i STK3100/4100 høsten 2011.

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

UNIVERSITETET I OSLO

Kontinuerlige sannsynlighetsfordelinger.

Forelesning 10 STK3100

Introduksjon til Generaliserte Lineære Modeller (GLM)

Eksponensielle klasser

Introduksjon til Generaliserte Lineære Modeller (GLM)

Generaliserte Lineære Modeller

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Oppgave 1: Feil på mobiltelefoner

UNIVERSITETET I OSLO

Forelesning 11 STK3100/4100

Generaliserte Lineære Modeller

> 6 7 ) = 1 Φ( 1) = = P (X < 7 X < 8) P (X < 8) < ) < ) = Φ(2) =

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

Løsningsforslag Til Statlab 5

Forelesning 7 STK3100/4100

Løsningsforslag øving 9, ST1301

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

Logistisk regresjon 2

Forelesning 6 STK3100/4100

EKSAMENSOPPGAVER STAT100 Vår 2011

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

UNIVERSITETET I OSLO

6.2 Normalfordeling. Høyde kvinner og menn. 6.1 Kontinuerlig uniform fordeling. Kapittel 6

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

HØGSKOLEN I STAVANGER

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

Forelesning 4 STK3100

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Kort overblikk over kurset sålangt

Regler i statistikk STAT 100

Forelesning 11 STK3100/4100

UNIVERSITETET I OSLO

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

HØGSKOLEN I STAVANGER

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Løsningsforslag til obligatorisk innlevering 3.

Kapittel 2: Hendelser

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

EKSAMEN I TMA4245 Statistikk

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

TMA4240 Statistikk 2014

UNIVERSITETET I OSLO

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Fasit for tilleggsoppgaver

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Kap. 6, Kontinuerlege Sannsynsfordelingar

TMA4240 Statistikk Høst 2016

Litt mer om eksponensialfordelingen

Statistikk og dataanalyse

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

Forelesning 8 STK3100/4100

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

Inferens i regresjon

STK Oppsummering

UNIVERSITETET I OSLO

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

Prøveeksamen STK2100 (fasit) - vår 2018

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

STK juni 2016

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

TMA4240 Statistikk Høst 2009

Ekstraoppgaver STK3100 h10

TMA4240 Statistikk Høst 2015

Kap. 6, Kontinuerlege Sannsynsfordelingar

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Transkript:

Poissonfordelingen: Forelesning 9 STK3100 20. oktober 2007 S. O. Samuelsen Plan for forelesning: 1. Poissonregresjon 2. Overspredning 3. Quasi-likelihood 4. Andre GLM-er Poissonfordelingen kan oppstå ved at Tilnærmelse til binomisk fordeling: Y Bin(n,π) når π er liten Poissonprosess: Y = antall hendelser i intervall [0, t] Po(λt) med Rate λ for hendelser Antall hendelser i disjunkte subintervaller av [0,t] er uavhengige Kun en hendelse ved et gitt tidspunkt Forelesning 9 STK3100 p. 1/45 Forelesning 9 STK3100 p. 3/45 Poissonfordelingen Y er Poissonfordelt med forventning µ (skriver Y Po(µ)) dersom P(Y = y) = µy exp( µ) for y = 0, 1, 2,... y! Poissonfordeling tilhører en eksponensiell fordelingsklasse siden P(Y = y) = exp(y log(µ) µ log(y!)) = exp(θy a(θ))c(y)) med θ = log(µ) som kanonisk parameter og a(θ) = exp(θ) = µ. Dermed blir og E[Y ] = a (θ) = exp(θ) = µ Var[Y ] = a (θ) = exp(θ) = µ = V (µ) Poissonregresjon: GLM for Poissondata Y i Po(µ i ) er uavhengige g(µ i ) = η i for linkfunksjon g() Lineær prediktor η i = β x i Vanlige linkfunksjoner: Kanonisk link: g 0 (µ i ) = log(µ i ) Kvadratrotlink: g 0.5 (µ i ) = µ i Identitetslink: g 1 (µ i ) = µ i Powerlink g ρ (µ i ) = µ ρ i Forelesning 9 STK3100 p. 2/45 Forelesning 9 STK3100 p. 4/45

Parameterfortolkning Fortolkningen av µ i er raten i en Poissonprosess over et gitt tidsintervall. La x i = (x i1,...,x ip ) og x i = (x i 1,...,x i p) slik at x i j = x ij for j = 1, 2,...,p 1 x i p = x ip + 1 for j = p Da fortolkes β p som log-rate-ratio eller som rate-ratio. exp(β p ) = µ i µ i = exp(β (x i x i ) = RR Tilsv. med identitetslink fås fortolkning rate-differanse (RD) β p = µ i µ i = RD Eksempel: Mottatt spam Y i = antall spam time nr. i fra 10. juni til 10. oktober 2003. Kovariater: Mnd, Ukedag (og Klokkeslett) > glm(anttime factor(ukedag)+factor(mnd),family=poisson,data=time) Coefficients: (Intercept) factor(ukedag)mon factor(ukedag)sat 0.02031-0.16139-0.02690 factor(ukedag)sun factor(ukedag)thu factor(ukedag)tue -0.08526-0.10282-0.03988 factor(ukedag)wed factor(mnd)jul factor(mnd)jun -0.03113 0.14755-0.01822 factor(mnd)oct factor(mnd)sep 0.36165 0.11310 Degrees of Freedom: 2926 Total (i.e. Null); Null Deviance: 3754 Residual Deviance: 3710 AIC: 8049 2916 Residual Forelesning 9 STK3100 p. 5/45 Forelesning 9 STK3100 p. 7/45 Box-Cox-transformasjon Bakgrunn for at vi kan betegne log-linken med g 0 (): Vi kan redefinere linkene ved Box-Cox-transformasjon µ ρ 1 ρ 0 ρ g ρ (µ i ) = log(µ) ρ = 0 Merk at når ρ 0 vil g ρ (µ) log(µ) = g 0 (µ) Det er altså mulig å utvide den generaliserte modellen med "link-paramteren" ρ og teste om f.eks. log- eller identitetslink passer med data. Eksempel: Mottatt spam, forts. > summary(glm(anttime factor(ukedag)+factor(mnd),family=poisson,data=time Deviance Residuals: Min 1Q Median 3Q Max -1.71181-1.40044-0.08376 0.71519 7.75105 Estimate Std. Error z value Pr(> z ) (Intercept) 0.02031 0.05581 0.364 0.71594 factor(ukedag)sat -0.02690 0.06618-0.406 0.68441 factor(ukedag)sun -0.08526 0.06720-1.269 0.20453 factor(ukedag)mon -0.16139 0.06854-2.355 0.01854 * factor(ukedag)tue -0.03988 0.06595-0.605 0.54538 factor(ukedag)wed -0.03113 0.06489-0.480 0.63148 factor(ukedag)thu -0.10282 0.06608-1.556 0.11974 factor(mnd)jul 0.14755 0.05121 2.881 0.00396 ** factor(mnd)jun -0.01822 0.05984-0.305 0.76074 factor(mnd)sep 0.11310 0.05203 2.174 0.02974 * factor(mnd)oct 0.36165 0.06767 5.344 9.07e-08 *** --- (Dispersion parameter for poisson family taken to be 1) Forelesning 9 STK3100 p. 6/45 Forelesning 9 STK3100 p. 8/45 Null deviance: 3754.1 on 2926 degrees of freedom

Funksjon for RR med 95% KI RRCItab<-function(glmfit){ sumglm<-summary(glmfit)$coef RR<-exp(sumglm[,1]) RRL<-exp(sumglm[,1]-1.96*sumglm[,2]) RRU<-exp(sumglm[,1]+1.96*sumglm[,2]) cbind(rr,rrl,rru) } glmfit skal være en tilpasset GLM summary(glmfit)$coef inneholder ˆβ j i 1. kolonne og standardfeil se j for ˆβ j i annen kolonne Funksjonen beregner exp(ˆβ j ) og exp(ˆβ j ± 1.96se) Funksjonen kan også benyttes for Odds-ratioer i logistisk Sjekk: Hvilken link-funksjon passer best? Bergner devians med default log-link, kvadratrot-link og identitetslink glm(anttime factor(ukedag)+factor(mnd),family=poisson(link=log), data=time)$deviance [1] 3709.930 glm(anttime factor(ukedag)+factor(mnd),family=poisson(link=sqrt), data=time)$deviance [1] 3710.284 glm(anttime factor(ukedag)+factor(mnd),fam=poisson(link=identity), data=time)$deviance [1] 3710.630 Forskjellene i devians er små, mindre 3.84 og ingen av linkfunksjonene er derfor signifikant bedre enn de andre. regresjon. Forelesning 9 STK3100 p. 9/45 Forelesning 9 STK3100 p. 11/45 Andvendelse: Funksjon for RR med 95% KI > poisspam<-glm(anttime factor(ukedag)+factor(mnd),family=poisson,data=ti > round(rrcitab(poisspam),2) RR RRL RRU (Intercept) 1.02 0.91 1.14 factor(ukedag)mon 0.85 0.74 0.97 factor(ukedag)sat 0.97 0.86 1.11 factor(ukedag)sun 0.92 0.80 1.05 factor(ukedag)thu 0.90 0.79 1.03 factor(ukedag)tue 0.96 0.84 1.09 factor(ukedag)wed 0.97 0.85 1.10 factor(mnd)jul 1.16 1.05 1.28 factor(mnd)jun 0.98 0.87 1.10 factor(mnd)oct 1.44 1.26 1.64 factor(mnd)sep 1.12 1.01 1.24 Simulering med kvadratrotslink Simulerer n = 1000 responser Y i Po(µ i ) der µi = 2 + 2x i1 + 2x i2 og x-er uavh. uniforme. Plotter residual-devians for link g ρ (µ) = µ ρ for 0 < ρ < 1. Finner ˆρ = 0.47 med 95% KI = (0.32,0.62). (Hvorfor?) residual devians 1055 1060 1065 1070 0.0 0.2 0.4 0.6 0.8 1.0 Forelesning 9 STK3100 p. 10/45 rho Forelesning 9 STK3100 p. 12/45

Eksempel: Lungekreft i danske byer (1968-71) Tabell 1. Observert antall lungekreft tilfeller By Alder Fredericia Horsens Kolding Vejle Totalt 40 54 11 13 4 5 33 55 59 11 6 8 7 32 60 64 11 15 7 10 43 65 69 10 10 11 14 45 70 74 11 12 9 8 40 > 75 10 2 12 7 31 Totalt 64 58 51 51 224 Tabell 2. Antall innbyggere i de fire byene fordelt på aldersgrupper. By Alder Fredericia Horsens Kolding Vejle Totalt 40 54 3059 2879 3142 2520 11600 55 59 800 1083 1050 878 3811 60 64 710 923 895 839 3367 65 69 581 834 702 631 2748 70 74 509 634 535 539 2217 > 75 605 782 659 619 2665 Lungekrefteksempel: offset Poeng: Siden µ ij avhenger av befolkningstørrelse n ij må denne spesifiseres i modellen. I Forelesning 24. september benyttet vi offset-muligheten i R til å gjøre Likelihood-ratio tester for H 0 : β j = β j0 0 Vi skal benytte offset også for n ij. Merk at log(µ ij ) = log(n ij exp(η 0 +α i +β j )) = 1 log(n ij )+η 0 +α i +β j dvs. log(n ij ) inngår i den lineære prediktoren som en kovariat der regresjonsparameteren er satt lik 1. Dette er nettopp hva offset benyttes til. Forelesning 9 STK3100 p. 13/45 Forelesning 9 STK3100 p. 15/45 Lungekrefteksempel,forts Vi skal benytte følgende modell: Med Lungekrefteksempel: R > names(lungekreft)<-c("by","ald","lkreft","bef") er n ij = Antall innbyggere i by i og aldersgruppe j > mainmod<-glm(lkreft factor(by)+factor(ald)+offset(log(bef)), family=poisson,data=lungekreft) > mainmod Y ij = Ant. lungekrefttilf. by i aldersgr. j Po(µ ij ) der µ ij = n ij exp(η 0 + α i + β j ). Begrunnelse Rimelig at antall tilfeller avhenger av antall innbyggere Kunne antatt Y ij Bin(n ij,π ij ) der π ij små (men noen problemer med dette) Modell for levetidsdata gir faktisk Poissonlikelihood Coefficients: (Intercept) factor(by)2 factor(by)3 factor(by)4-5.6321-0.3301-0.3715-0.2723 factor(ald)2 factor(ald)3 factor(ald)4 factor(ald)5 1.1010 1.5186 1.7677 1.8569 factor(ald)6 1.4197 Degrees of Freedom: 23 Total (i.e. Null); 15 Residual Null Deviance: 129.9 Residual Deviance: 23.45 AIC: 137.8 (Senere i kurset) Forelesning 9 STK3100 p. 14/45 Forelesning 9 STK3100 p. 16/45

Lungekrefteksempel: Mer R > summary(mainmod) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -5.6321 0.2003-28.125 < 2e-16 *** factor(by)2-0.3301 0.1815-1.818 0.0690. factor(by)3-0.3715 0.1878-1.978 0.0479 * factor(by)4-0.2723 0.1879-1.450 0.1472 factor(ald)2 1.1010 0.2483 4.434 9.23e-06 *** factor(ald)3 1.5186 0.2316 6.556 5.53e-11 *** factor(ald)4 1.7677 0.2294 7.704 1.31e-14 *** factor(ald)5 1.8569 0.2353 7.891 3.00e-15 *** factor(ald)6 1.4197 0.2503 5.672 1.41e-08 *** --- Null deviance: 129.908 on 23 degrees of freedom Residual deviance: 23.447 on 15 degrees of freedom AIC: 137.84 Overspredning: Eks. Antall seksualpartnere Fra Folkhelsa s seksualvanestudier i -87 og -92: n = 8553 ind. Respons: Y i = totalt antall sex-partnere Kovariater: Kjønn (1=M, 2=K), Sivilstatus (1=Ugift, 2=Gift/Sambo), HIVtest (1=Nei, 2=Ja, 3=Vet ikke), Debutalder (1 hvis < 19, 2 hvis > 18 år), Aldersgr (=1 hvis < 20 år, 2 hvis 20-24, 3 hvis 25-29, 4 hvis 30-44 og 5 hvis 45-59 år) Siden Y i er en tellevariabel kan det virke rimelig å modellere med Poisson-regresjon Forelesning 9 STK3100 p. 17/45 Forelesning 9 STK3100 p. 19/45 Lungekrefteks.: Rate-ratioer med konfidensintervall Antall seksualpartnere, Poissonregresjon > round(rrcitab(mainmod),3) RR RRL RRU (Intercept) 0.004 0.002 0.005 factor(by)2 0.719 0.504 1.026 factor(by)3 0.690 0.477 0.997 factor(by)4 0.762 0.527 1.101 factor(ald)2 3.007 1.848 4.892 factor(ald)3 4.566 2.900 7.190 factor(ald)4 5.857 3.736 9.183 factor(ald)5 6.404 4.038 10.156 factor(ald)6 4.136 2.532 6.754 Forelesning 9 STK3100 p. 18/45 > main<-glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=poisson(link=log),data=part) > summary(main) Deviance Residuals: Min 1Q Median 3Q Max -5.0753-1.7407-0.9003 0.5758 11.3948 Estimate Std. Error z value Pr(> z ) (Intercept) 1.828617 0.031091 58.814 < 2e-16 *** Kjonn -0.490383 0.008702-56.354 < 2e-16 *** Sivstat -0.439973 0.010228-43.018 < 2e-16 *** factor(hivtest)2 0.350172 0.013197 26.534 < 2e-16 *** factor(hivtest)3 0.149014 0.022946 6.494 8.36e-11 *** I(Debald < 19)TRUE 0.813313 0.011003 73.918 < 2e-16 *** factor(aldgr)2 0.571415 0.027261 20.961 < 2e-16 *** factor(aldgr)3 0.904891 0.027449 32.967 < 2e-16 *** factor(aldgr)4 1.046731 0.026568 39.399 < 2e-16 *** factor(aldgr)5 0.843216 0.027609 30.542 < 2e-16 *** (Dispersion parameter for poisson family taken to be 1) Null deviance: 53136 on 8553 degrees of freedom Residual deviance: 40002 on 8544 degrees of freedom Forelesning 9 STK3100 p. 20/45

Ant. sexpartnere, Sammendrag av Poissonregresjon Mange meget signifikante kovariater Men også noen veldig store residualer Dessuten Pearson X 2 = 51927.15 som er stort sammenlignet residualt antall frihetsgrader = 8544 Overspredning i forhold til Poissonmodell på X 2 /8544 = 6.08 > X2<-sum(residuals(main,type="pearson")ˆ2) > X2/8544 [1] 6.077616 Pga. betydelig overspredningen skal man være forsiktig med legge for mye i signifikansene! Forelesning 9 STK3100 p. 21/45 Overspredning med latent variabel Med Y i θ i Po(θ i exp(β x i )) der θ i er en latent stokastisk variabel finner vi µ i = E[Y i ] = E[E[Y i θ i ]] = E[θ i exp(β x i )] = exp(β x i ) hvis vi setter E[θ i ] = 1 (som vi kan gjøre når β x i inneholder et konstantledd). Dessuten får vi, pga. betinget Poissonfordeling, Var[Y i ] = E[Var[Y i θ i ]] + Var[E[Y i θ i ]] dvs. overspredning! = E[θ i exp(β x i )] + Var[θ i exp(β x i )] = exp(β x i ) + exp(2β x i )Var[θ i ] = µ i + µ 2 i Var[θ i ] > µ i Forelesning 9 STK3100 p. 23/45 Overspredning generelt To forslag til forbedring av modellen Anta at Y i θ i Po(θ i exp(β x i )) der θ i er en latent stokastisk variabel Anta at E[Y i ] = µ i = exp(β x i )), men at Var[Y i ] = φµ i der φ er et spredningsledd Dobbeltforventning Generelt for stokastiske variabel X og Y gjelder lov om dobbeltforventning E[Y ] = E{E[Y X]} Tilsvarende regel for varianser er Var[Y ] = E{Var[Y X]} + Var{E[Y X]} Bevis: Rice,, evt. siste slide Forelesning 9 STK3100 p. 22/45 Forelesning 9 STK3100 p. 24/45

Overspredning med latent gammafordelt variabel Hvis θ i er gammafordelt blir, fra de Jong & Heller, s. 32, Y i marginalt negativt binomisk fordelt. Spesielt hvis θ i har tetthet f(θ;ν) = νν θ ν 1 Γ(ν) E[θ i ] = 1 og Var[θ i ] = 1 og ν exp( νθ) blir Γ(ν + y) P(Y i = y) = y!γ(ν) ( ν µ i + ν )y ( µ i + ν )ν med forventning E[Y i ] = µ i = exp(β x i ) og µ i Var[Y i ] = µ i + µ 2 i Var[θ i ] = µ i + µ2 i ν Forelesning 9 STK3100 p. 25/45 Ant. sexpartnere, GLM neg. bin. fam., spesifisert ν = 1 > library(mass) > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=negative.binomial(1),data=part)) Deviance Residuals: Min 1Q Median 3Q Max -1.7117-0.8069-0.3734 0.2243 3.8959 Estimate Std. Error t value Pr(> t ) (Intercept) 1.90610 0.07341 25.966 < 2e-16 *** Kjonn -0.47508 0.02283-20.805 < 2e-16 *** Sivstat -0.45847 0.02884-15.898 < 2e-16 *** factor(hivtest)2 0.39301 0.04015 9.789 < 2e-16 *** factor(hivtest)3 0.18817 0.06325 2.975 0.00294 ** I(Debald < 19)TRUE 0.80918 0.02515 32.179 < 2e-16 *** factor(aldgr)2 0.51679 0.06118 8.447 < 2e-16 *** factor(aldgr)3 0.82296 0.06316 13.030 < 2e-16 *** factor(aldgr)4 0.97479 0.06027 16.173 < 2e-16 *** factor(aldgr)5 0.75435 0.06258 12.054 < 2e-16 *** (Dispersion parameter for Negative Binomial(1) family taken to be 0.9145758) Null deviance: 7437.1 on 8553 degrees of freedom Residual deviance: 5609.5 on 8544 degrees of freedom Forelesning 9 STK3100 p. 27/45 AIC: 48089 GLM med negativ binomisk respons Siden negative binomiske fordelinger er med i eksponensiell klasser er det er det rett fram å definere en GLM basert på dem. Dette er faktisk implementert i R under "biblioteket" MASS. Default-linken for negativ binomisk familie er log, så parameterestimatene ˆβ vil svare til Poisson-regresjonen. Vi kan både spesifisere og estimere parameteren ν, men virker som om korrekt spesifikasjon ikke er kritisk. Forelesning 9 STK3100 p. 26/45 Ant. sexpartnere, GLM med neg. bin. fam., estimerer ν > summary(glm.nb(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),data=part)) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 1.89837 0.06205 30.595 < 2e-16 *** Kjonn -0.47694 0.01920-24.843 < 2e-16 *** Sivstat -0.45784 0.02413-18.976 < 2e-16 *** factor(hivtest)2 0.39031 0.03333 11.711 < 2e-16 *** factor(hivtest)3 0.18614 0.05289 3.519 0.000433 *** I(Debald < 19)TRUE 0.80933 0.02140 37.822 < 2e-16 *** factor(aldgr)2 0.52531 0.05203 10.096 < 2e-16 *** factor(aldgr)3 0.83394 0.05361 15.555 < 2e-16 *** factor(aldgr)4 0.98437 0.05123 19.213 < 2e-16 *** factor(aldgr)5 0.76598 0.05322 14.392 < 2e-16 *** --- (Dispersion par. for Negative Binomial(1.7137) family taken to be 1) Null deviance: 11335 on 8553 degrees of freedom Residual deviance: 8503 on 8544 degrees of freedom AIC: 47288 Theta: 1.7137 Std. Err.: 0.0328 2 x log-likelihood: -47265.8940 Forelesning 9 STK3100 p. 28/45

Sammendrag: Eks. med neg.bin-familie Parameterestimatene ˆβ tilnærmet like som for Poissonregresjon Standardfeil betydelig større i forhold til Poissonregresjon Derav blir t-verdier mindre og p-verdier større Residualene er nå vesentlig mindre Testobservatorene tilnærmet like om parameteren ν spesifiseres eller estimeres Bakgrunn for Quasi-likelihood De fleste egenskaper ved minste kvadraters estimatorer krever ikke normalfordelte responser, kun Korrekt forventningstruktur E[Y i ] = β x i Konstant varians Var[Y i ] = σ 2 Uavhengighet Uten normalfordeling har vi ikke eksakt t-fordelinger og F-fordelinger for test-observatorer, men disse er konservative i forhold til asymptotiske tilnærminger som ikke tar hensyn til usikkerheten i ˆσ 2. Forelesning 9 STK3100 p. 29/45 Forelesning 9 STK3100 p. 31/45 Utvidelse av Poissonmodell til Var[Y i ] = φµ i Problem: Ingen (kjent) eksponensiell klasse med Var[Y i ] = φµ i = φe[y i ] Likevel mulig å tilpasse en modell som kun spesifiserer momenter og med bakgrunn i Quasilikelihood g(µ i ) = g(e[y i ]) = β x i Var[Y i ] = φµ i Forelesning 9 STK3100 p. 30/45 Bakgrunn for Quasi-likelihood Estimeringsligninger for GLM: Scorefunksjonen settes lik 0 U(β) = n i=1 x i Y i µ i g (µ i )φv (µ i ) = 0, dvs. estimering krever kun spesifikasjon av linkfunskjon g(µ i ) og variansstruktur Var[Y i ] = φv (µ i ). Med samme antagelser has at kovariansmatrisen til U(β): Var[U(β)] = J (β) = n i=1 dvs. ved Fisher-informasjonen. x i x i g (µ i ) 2 φv (µ i ) = E [ U(β) NB. Denne identiteten trenger altså ikke antagelse av eksponensiell klasse, kun spesifikasjon av forventning og variansstruktur. Forelesning 9 STK3100 p. 32/45 β ],

Modell for Quasi-likelihood Korrekt forventningstruktur g(e[y i ]) = β x i Variansstruktur Var[Y i ] = φv (µ i ) Uavhengighet mellom Y i -ene Da vil ved vanlig 1. ordens Taylor-utvikling (og noen regularitetsantagelser) ˆβ β + J (β) 1 U(β) for ˆβ løsning av U(ˆβ) = 0. Men ved sentralgrenseteoremet blir og dermed som ved vanlig MLE. U(β) N(0, J (β)) ˆβ N(β, J (β) 1 ) Forelesning 9 STK3100 p. 33/45 Quasilikelihood Strengt tatt har vi bare sett på estimeringsligninger U(β) = n i=1 x i Y i µ i g (µ i )φv (µ i ) = 0, Men man kan konstruere en funksjon Q(µ) = n i=1 Q i(µ i ) som maksimeres ved å løse disse, der Med V (µ) = µ får vi Q i (µ i ) = 1 φ µi Q i (µ i ) = µi Y i µ y i φv (µ) dµ y i Y i µ µ dµ = 1 φ [Y i log(µ i /Y i ) (µ i Y i )] som er proporsjonal med deviansbidrag for Poissonfordeling Forelesning 9 STK3100 p. 35/45 Estimering av spredningsledd I Fisher-informasjonen J (β) = 1 n x i x i φ i=1 g (µ i ) 2 V (µ i inngår den ) ukjente spredningsparameteren φ. Men vi har at E[ (Y i µ i ) 2 ] = φ V (µ i ) Derfor kan φ estimeres konsistent ved ˆφ = 1 n p 1 n i=1 (Y i ˆµ i ) 2 V (ˆµ i ) = X 2 n p 1 der X 2 er Pearson-kjikvadrat. Merk at ˆφ = ˆσ 2 når V (µ i ) = 1. Forelesning 9 STK3100 p. 34/45 Antall sexpartnere, GLM med quasi-likelihood > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=quasi(link=log,var="mu"),data=part)) Deviance Residuals: Min 1Q Median 3Q Max -5.0753-1.7407-0.9003 0.5758 11.3948 Estimate Std. Error t value Pr(> t ) (Intercept) 1.82862 0.07665 23.857 < 2e-16 *** Kjonn -0.49038 0.02145-22.859 < 2e-16 *** Sivstat -0.43997 0.02521-17.449 < 2e-16 *** factor(hivtest)2 0.35017 0.03254 10.763 < 2e-16 *** factor(hivtest)3 0.14901 0.05657 2.634 0.00845 ** I(Debald < 19)TRUE 0.81331 0.02713 29.983 < 2e-16 *** factor(aldgr)2 0.57142 0.06721 8.502 < 2e-16 *** factor(aldgr)3 0.90489 0.06767 13.372 < 2e-16 *** factor(aldgr)4 1.04673 0.06550 15.981 < 2e-16 *** factor(aldgr)5 0.84322 0.06806 12.389 < 2e-16 *** --- (Dispersion parameter for quasi family taken to be 6.07765) Null deviance: 53136 on 8553 degrees of freedom Residual deviance: 40002 on 8544 degrees of freedom Forelesning 9 STK3100 p. 36/45 AIC: NA

Hvilken variansfunksjon passer best Beregner estimert forventning ˆµ i for alle individer Beregn for j = 1, 2,..., 15 empirisk varians ˆv j for Y i slik at j ˆµ i < i + 1 Plotter (j, ˆv j ) sammen med ˆφµ og µ + µ 2 /ˆν Empirisk varians for antall partnere GLM med gamma-familie Anta Y i er gamma-fordelt med tetthet ( ) ν f(y) = 1 ν Γ(ν) µ i y ν 1 exp( ν µ i y) = exp( ( 1/µ i)y log(µ i ) 1/ν )c(y, ν)) varians 0 20 40 60 80 100 120 Quasilikelihood Negativt binomisk der c(y,ν) = y (ν 1) ν ν /Γ(ν). Dermed blir kanonisk parameter θ = 1/µ, spredningsledd φ = 1/ν og funksjonen a(θ) = log( 1/θ). Dette gir variansfunksjon V (µ) = a (θ) = 1 θ 2 = µ2 2 4 6 8 10 12 14 mu Forelesning 9 STK3100 p. 37/45 Forelesning 9 STK3100 p. 39/45 Sammendrag: Eks. med quasi-likelihood Parameterestimatene er eksakt de samme som for Poissonregresjon Standardfeil er skalert med ˆφ = 6.0776 = 2.46 i forhold til Poissonregresjon Derav blir t-verdier mindre og p-verdier større Oppgitte residualer er de samme som for Poisson-regresjon, tydeligvis ikke skalert med ˆφ Essensielt samme resultater som for Negativ binomisk familie Ant. sexpartnere, GLM med Gammafamilie og log-link > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=gamma(link=log),data=part)) Deviance Residuals: Min 1Q Median 3Q Max -1.8907-0.8800-0.4082 0.2451 4.2764 Estimate Std. Error t value Pr(> t ) (Intercept) 1.92078 0.07395 25.975 < 2e-16 *** Kjonn -0.47166 0.02316-20.362 < 2e-16 *** Sivstat -0.45905 0.02951-15.554 < 2e-16 *** factor(hivtest)2 0.39748 0.04173 9.525 < 2e-16 *** factor(hivtest)3 0.19111 0.06486 2.947 0.00322 ** I(Debald < 19)TRUE 0.80933 0.02495 32.443 < 2e-16 *** factor(aldgr)2 0.49933 0.06084 8.207 2.6e-16 *** factor(aldgr)3 0.80096 0.06302 12.709 < 2e-16 *** factor(aldgr)4 0.95564 0.05998 15.933 < 2e-16 *** factor(aldgr)5 0.73101 0.06220 11.752 < 2e-16 *** --- (Dispersion parameter for Gamma family taken to be 1.117776) Forelesning 9 STK3100 p. 38/45 Null deviance: 9178.8 on 8553 degrees of freedom Residual deviance: 7025.3 on 8544 degrees of freedom Forelesning 9 STK3100 p. 40/45 AIC: 46080

Invers gaussisk familile En ytterliger eksponensiell klasse er de invers gaussiske fordelingene med tetthet } (2πσ 2 y 3 ) 1/2 exp { (y µ)2 hvis y > 0, 2µ 2 σ 2 y f Y (y) = 0 hvis y 0, for µ,σ 2 > 0. Det kan vises at hvis Y f Y (y) så er E[Y ] = µ og Var[Y ] = σ 2 µ 3, Sammendrag Poisson-fordeling var ikke akseptabelt for partnerdataen fordi den ikke inneholder spredningsledd som tar hensyn til overspredningen Negativ binomisk fordeling, Quasi-likelihood med spredningsledd og variansfunksjon V (µ) = µ, Gammafordeling og Invers Gaussisk fordeling ga lignende resultater på dette datasettet Generelt kan feilaktig representasjon av variansen gi feilaktig inferens dvs. spredningsleddet er φ = σ 2 og V (µ) = µ 3 (men det er ikke STK3100-pensum å gjøre det). Forelesning 9 STK3100 p. 41/45 Forelesning 9 STK3100 p. 43/45 Sexpartnere, GLM med Invers gaussisk fam. og log-link > summary(glm(antpart Kjonn+Sivstat+factor(HIVtest)+I(Debald<19) +factor(aldgr),family=inverse.gaussian(link=log),data=part)) Deviance Residuals: Min 1Q Median 3Q Max -0.9340-0.5390-0.1790 0.0923 2.1545 Estimate Std. Error t value Pr(> t ) (Intercept) 1.99258 0.08136 24.491 < 2e-16 *** Kjonn -0.45361 0.02588-17.528 < 2e-16 *** Sivstat -0.46773 0.03482-13.432 < 2e-16 *** factor(hivtest)2 0.43463 0.05613 7.743 1.08e-14 *** factor(hivtest)3 0.20692 0.07698 2.688 0.0072 ** I(Debald < 19)TRUE 0.80908 0.02579 31.373 < 2e-16 *** factor(aldgr)2 0.42057 0.06248 6.731 1.79e-11 *** factor(aldgr)3 0.69632 0.06602 10.547 < 2e-16 *** factor(aldgr)4 0.87049 0.06244 13.941 < 2e-16 *** factor(aldgr)5 0.62449 0.06364 9.813 < 2e-16 *** --- (Dispersion parameter for inverse.gaussian family taken to be 0.258743) Bevis: Loven om dobbeltforventning Anta at (X, Y ) har simultantetthet f(x, y) og at X og Y har marginalfordeling f X (x) og f Y (y). Da har Y X tetthet f(y x) = f(x,y)/f(x). Vi har E[Y ] = yf(y)dy = yf(x,y)dxdy = yf(y x)dyf(x)dy = E{E[Y X]} Null deviance: 2325.2 on 8553 degrees of freedom Residual deviance: 1932.6 on 8544 degrees of freedom Forelesning 9 STK3100 p. 42/45 AIC: 45052 Forelesning 9 STK3100 p. 44/45

Bevis: Variansformel ved betinging Vi har som gir Var(Y X) = E[Y 2 X] (E[Y X]) 2 E[Var(Y X)] = E[E[Y 2 X]] E[(E[Y X]) 2 ] = E[Y 2 ] E[(E[Y X]) 2 ] ved lov om dobbeltforventning. Dessuten er Var[E(Y X)] = E[(E[Y X]) 2 ] {E(E[Y X])} 2, men siden {E(E[Y X])} 2 = (E[Y ]) 2 fås E[Var(Y X)] + Var[E(Y X)] = E[Y 2 ] (E[Y ]) 2 = Var(Y ) Forelesning 9 STK3100 p. 45/45