Forelesning 7 STK3100/4100

Like dokumenter
Generaliserte Lineære Modeller

Forelesning 5 STK3100/4100

Forelesning 11 STK3100/4100

Forelesning 8 STK3100/4100

Generaliserte Lineære Modeller

UNIVERSITETET I OSLO

Eksponensielle klasser

Introduksjon til Generaliserte Lineære Modeller (GLM)

Forelesning 11 STK3100/4100

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

Forelesning 9 STK3100/4100

Forelesning 10 STK3100

Forelesning 6 STK3100/4100

Introduksjon til Generaliserte Lineære Modeller (GLM)

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Forelesning 3 STK3100

Forelesning 9 STK3100/4100

Forelesning 9 STK3100

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Tilleggsoppgaver for STK1110 Høst 2015

Prøveeksamen i STK3100/4100 høsten 2011.

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

UNIVERSITETET I OSLO

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

Variansanalyse og lineær regresjon notat til STK2120

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Statistikk og havressurser

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Generelle lineære modeller i praksis

UNIVERSITETET I OSLO

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

TMA4240 Statistikk Høst 2007

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Kapittel 6 - modell seleksjon og regularisering

UNIVERSITETET I OSLO

Transformasjoner av stokastiske variabler

STK Oppsummering

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Løsningsforslag eksamen 25. november 2003

Notater i ST2304 H. T. L. 1 Fordelingsfunksjonene i R α-kvantilen... 3

Ekstraoppgaver STK3100 h10

EKSAMENSOPPGAVE STA-2004.

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

TMA4240 Statistikk Eksamen desember 2015

STK juni 2016

Forelesning 5 STK3100

UNIVERSITETET I OSLO

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

TMA4240 Statistikk Høst 2016

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Prøveeksamen STK2100 (fasit) - vår 2018

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

EKSAMENSOPPGAVER STAT100 Vår 2011

Oppgave 1. Kilde SS df M S F Legering Feil Total

Oppgaver i STK3100/4100.

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

Prøveeksamen STK vår 2017

Kp. 12 Multippel regresjon

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Fasit og løsningsforslag STK 1110

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

UNIVERSITETET I OSLO

Transkript:

Gamma regresjon Forelesning 7 STK3100/4100 26. september 2008 Geir Storvik Plan for forelesning: 1. Kontinuerlige positive responser 2. Gamma regresjon 3. Invers Gaussisk regresjon Modell: Har y Gamma(µ,ν), g(µ) = x T β ( ) ν f(y) = y 1 yν e yν/µ,y 0 Γ(ν) µ f(y) = yν 1 ν ν Γ(ν) e yν/µ ν log(µ) = y1/φ 1 φ 1/φ Γ(1/φ) θ = 1/µ, φ = 1/ν, a(θ) = log( θ) e φ 1 [yθ a(θ)] E[y] =a (θ) = 1 θ = µ, Kanonisk link: 1/µ Var[y] =φa (θ) = φ 1 θ 2 = µ2 ν Forelesning 7 STK3100/4100 p. 1/26 Forelesning 7 STK3100/4100 p. 3/26 Kontinuerlige positive responser Eksempler Forsikring: Krav størrelser/tid mellom krav og overenskomst Medisin: Størkningstid av blod Biologi: Tid i ulike utviklingsstadier i bananfluer Meterologi: Mengde regn Modeller: GLM med Gammafordeling på respons Invers Gaussisk fordeling på respons Eksempel: Størkningstid av blod u lot1 lot2 1 5 118 69 2 10 58 35 3 15 42 26 4 20 35 21 5 30 27 18 6 40 25 16 7 60 21 13 8 80 19 12 9 100 18 12 u: Konsentrasjon med prothrombin-fri plasma lot To typer thromboplastin y Respons, tid Forelesning 7 STK3100/4100 p. 2/26 Forelesning 7 STK3100/4100 p. 4/26

Første modell clot = read.table("clot.txt",header=t) clot$lot = as.factor(clot$lot) fit1 = glm(time u+lot,data=clot,family=gamma(link=log)) summary(fit) (Intercept) 4.184413 0.183000 22.866 4.5e-13 *** u -0.015578 0.003064-5.084 0.000135 *** lot2-0.475253 0.192177-2.473 0.025845 * Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for Gamma family taken to be 0.1661937) Null deviance: 7.7087 on 17 degrees of freedom Residual deviance: 2.0364 on 15 degrees of freedom AIC: 137.81 Sammenlikning av modell, Wald test Lineære Gaussiske modeller, σ kjent Z = ˆβ j SEˆβj N(0, 1),Z 2 χ 2 Lineære Gaussiske modeller, σ estimert T = ˆβ j SEˆβj t n p 1,T 2 F 1,n p 1 Gamma regresjon: Dispersjonsparameter estimert, mer naturlig med t/f fordeling. lot2:log(u) 0.03448 0.07725 0.446 0.6621 2*(1-pt(0.4463935,14)) [1] 0.6621399 Interaksjonsledd klart ikke-signifikant Forelesning 7 STK3100/4100 p. 5/26 Forelesning 7 STK3100/4100 p. 7/26 Utvidet modell med interaksjon fit2 = glm(time lot+log(u)+lot:log(u),data=clot,family=gamma(link=log)) summary(fit2) (Intercept) 5.50323 0.18794 29.282 5.83e-14 *** lot2-0.58447 0.26578-2.199 0.0452 * log(u) -0.60192 0.05462-11.020 2.77e-08 *** lot2:log(u) 0.03448 0.07725 0.446 0.6621 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for Gamma family taken to be 0.02375284) Null deviance: 7.70867 on 17 degrees of freedom Residual deviance: 0.31576 on 14 degrees of freedom AIC: 105.97 Devians Y i Gamma(µ i, ν), uavhengige µ i = exp{x T i β} nx n h i o l(µ, ν,y) = ν y i ln(µ µ i ) ln(γ(ν)) + ν ln(νy i ) ln(y i ) i nx l(y, ν,y) = {ν [ 1 ln(y i )] ln(γ(ν)) + ν ln(νy i ) ln(y i )} 2[l(ˆµ, ν,y) l(y, ν,y)] = 2 nx nx = 2 h i ν 1 ln(y i ) + y 1 ˆµi + ln(ˆµ i ) i h ν ln( y i ) y 1 ˆµ i ˆµ i ˆµ i = Devians som definert i boka R: Devians = 2 P h n ln( y i ) y 1 ˆµ i i! ˆµ i ˆµ i Forelesning 7 STK3100/4100 p. 6/26 Forelesning 7 STK3100/4100 p. 8/26

Devians i R deviance(fit1) [1] 0.3210963 phi1 = summary(fit1)$dispersiongoodness-of-fit med devianstest: nu1 = 1/phi1 D = -2*nu1*sum(log(clot$time/fit1$fit)-(clot$time-fit1$fit)/fit1$fit) [1] 14.17599 deviance(fit1)*nu1 [1] 14.17599 AIC AIC(fit1,fit2) df AIC fit1 4 104.2763 fit2 5 105.9738 Forelesning 7 STK3100/4100 p. 9/26 Forelesning 7 STK3100/4100 p. 11/26 Sammenlikning modeller med devians Direkte ved anova: anova(fit1,fit2,test="f") Analysis of Deviance Table Model 1: time lot + log(u) Model 2: time lot + log(u) + lot:log(u) Resid. Df Resid. Dev Df Deviance F Pr(F) 1 15 0.32110 2 14 0.31576 1 0.0053352 0.2246 0.6429 Manuelt: 1-pf((deviance(fit1)-deviance(fit2))/summary(fit2)$disp,1,14) [1] 0.642854 Devians i anovatabell tar ikke med φ. P-verdi tar med φ. Merk: En bruker dispersjonsparameter for den største modellen. Alternative link-funksjoner Mest vanlig: log-link: log(µ) = η Plot av log(y i ) mot x i bør være nært lineær Identitetslink: µ = η Plot av y i mot x i bør være nært lineær Invers link: µ = 1/η (kanonisk link) Plot av 1/y i mot x i bør være nært lineær De to siste: µ kan være negativ Forelesning 7 STK3100/4100 p. 10/26 Forelesning 7 STK3100/4100 p. 12/26

Kryss-plott størkning av blod Eksempel: Krav for personlig skade y=total: Total skadekrav, kont. variabel x1 =op_time: Tid fra krav til overenkomst, kont. variabel time 0.08 100 120 log(time) Modell 20 0.02 40 0.04 60 80 0.06 x2 =legrep: legal represenation, binær variabel 1.5 2.0 2.5 3.0 3.5 4.0 4.5 η = β0 + β1 x1 + β2 x2 + β3 x1 x2 1.5 u 2.0 2.5 3.0 3.5 4.0 4.5 u 0.02 0.04 0.06 0.08 1/time 1.5 2.0 2.5 3.0 3.5 4.0 4.5 u Forelesning 7 STK3100/4100 p. 13/26 EDA for Gamma regresjon 1e+05 claims$total 0 20 40 60 claims$op_time Forelesning 7 STK3100/4100 p. 14/26 1e+03 1e+01 0e+00 Invers link ser ut til å passe best! plot(claims$op_time,claims$total,col=as.numeric(claims$legrep),log="") plot(claims$op_time,claims$total,col=as.numeric(claims$legrep),log="y") 4e+06 fit1 = glm(time lot+log(u),data=clot,family=gamma(link=log)) fit1.2 = glm(time lot+log(u),data=clot,family=gamma(link=identity)) fit1.3 = glm(time lot+log(u),data=clot,family=gamma(link=inverse)) AIC(fit1,fit1.2,fit1.3) df AIC fit1 4 104.2763 fit1.2 4 131.6139 fit1.3 4 103.0749 2e+06 claims$total Sammenlikning ulike link-funksjoner Forelesning 7 STK3100/4100 p. 15/26 80 100 0 20 40 60 80 100 claims$op_time Forelesning 7 STK3100/4100 p. 16/26

R kode claims = read.xls("../data/persinj.xls") claims$legrep = as.factor(claims$legrep) fit = glm(total op_time+legrep+op_time:legrep,data=claims, family=gamma(link="log")) summary(fit) (Intercept) 8.2118446 0.0329095 249.528 < 2e-16 *** op_time 0.0383149 0.0006311 60.707 < 2e-16 *** legrep1 0.4667863 0.0424613 10.993 < 2e-16 *** op_time:legrep1-0.0049978 0.0008002-6.246 4.29e-10 *** Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for Gamma family taken to be 2.432031) Null deviance: 44010 on 22035 degrees of freedom Residual deviance: 25412 on 22032 degrees of freedom AIC: 490944 Utvidet modell - R kode form = total op_time+legrep+x3+op_time:legrep+op_time:x3+ + legrep:x3+op_time:legrep:x3 fit2 = glm(form,data=claims,family=gamma(link="log")) summary(fit2) (Intercept) 8.3831693 0.0376221 222.826 < 2e-16 *** op_time 0.0355011 0.0006951 51.071 < 2e-16 *** legrep1 0.3005382 0.0473803 6.343 2.30e-10 *** x3true -1.4868560 0.1233567-12.053 < 2e-16 *** op_time:legrep1-0.0022642 0.0008671-2.611 0.00903 ** op_time:x3true 0.2556226 0.0487879 5.239 1.63e-07 *** legrep1:x3true 1.4326838 0.2042063 7.016 2.35e-12 *** op_time:legrep1:x3true -0.2484217 0.0745320-3.333 0.00086 *** (Dispersion parameter for Gamma family taken to be 2.415113) Null deviance: 44010 on 22035 degrees of freedom Residual deviance: 25041 on 22028 degrees of freedom AIC: 490571 Forelesning 7 STK3100/4100 p. 17/26 Forelesning 7 STK3100/4100 p. 19/26 Utvidet modell Avvik mellom data for små operasjonstider Innfør ny variabel x3=i(op_time<4.6) (5% kvantil) claims$x3 = (claims$op_time<quantile(claims$op_time,0.05)) Ny modell η = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 1 x 2 + β 5 x 1 x 3 + β 6 x 2 x 3 + β 7 x 1 x 2 x 3 Sammenlikning modeller anova(fit,fit2,test="f") Analysis of Deviance Table Model 1: total op_time + legrep + op_time:legrep Model 2: total op_time + legrep + x3 + op_time:legrep + op_time:x3 + legrep:x3 + op_time:legrep:x3 Resid. Df Resid. Dev Df Deviance F Pr(F) 1 22032 25412 2 22028 25041 4 371.1 38.415 < 2.2e-16 *** Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Forelesning 7 STK3100/4100 p. 18/26 Forelesning 7 STK3100/4100 p. 20/26

Sammenlikning modeller anova(fit2,test="f") Analysis of Deviance Table Model: Gamma, link: log Response: total Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev F Pr(F) NULL 22035 44010 op_time 1 18228.9 22034 25781 7547.856 < 2.2e-16 *** legrep 1 280.7 22033 25500 116.237 < 2.2e-16 *** x3 1 134.5 22032 25366 55.677 8.859e-14 *** op_time:legrep 1 92.9 22031 25273 38.466 5.671e-10 *** op_time:x3 1 46.3 22030 25226 19.168 1.203e-05 *** legrep:x3 1 159.8 22029 25067 66.168 4.357e-16 *** op_time:legrep:x3 1 26.0 22028 25041 10.750 0.001045 ** Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Kontraster Ved kategoriske variable α 1,...,α K For mange parametre, må lage begrensning/kontrast Vanlig: Behandlingskontrast: α 1 = 0. Default i R options()$contrasts unordered "contr.treatment" I R kan referansenivå velges Alternativ: Sum-kontrast: k α k = 0 ordered "contr.poly" options(contrasts=c("contr.sum","contr.sum")) options()$contrasts options()$contrasts [1] "contr.sum" "contr.sum" Forelesning 7 STK3100/4100 p. 21/26 Forelesning 7 STK3100/4100 p. 23/26 Residual/goodness-of-fit devians 1-pchisq(deviance(fit2)/summary(fit2)$disp,summary(fit2)$df.resid) [1] 1 Invers Gaussisk regresjon Modell: y IG(µ,ν), g(µ) = x T β { 1 f(y) = 2πy3 σ exp 1 ( ) } 2 y µ,y 0 2y µσ { } 1 0.5yµ 2 = 2πy3 σ exp + µ 1 y 1,y 0 σ 2 θ = 0.5µ 2, φ = σ 2, a(θ) = 2θ E[y] =a (θ) = 1 2θ = µ, Kanonisk link: 0.5µ 2 Var[y] =φa (θ) = σ 2 ( 2θ) 3/2 = σ2 µ 3 Forelesning 7 STK3100/4100 p. 22/26 Forelesning 7 STK3100/4100 p. 24/26

Forsikringskrav for kjøretøy Ett års forsikring for 67856 kjøretøy, 4624 hadde minst et krav. Respons: claimcst0 Krav størrelse Forklaringsvariable: agecat Alderskategorier (1-6, 1 yngst) gender Kjønn (F/M) area Bopelsregion veh_value Verdi på kjøretøy veh_age Alder på kjøretøy veh_body Type kjøretøy (13 kategorier) exposure 0-1 Forelesning 7 STK3100/4100 p. 25/26 R kode Script car.r Forelesning 7 STK3100/4100 p. 26/26