Introduksjon til Generaliserte Lineære Modeller (GLM)

Like dokumenter
Introduksjon til Generaliserte Lineære Modeller (GLM)

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

Introduksjon til Generaliserte Lineære Modeller (GLM)

Generaliserte Lineære Modeller

Generaliserte Lineære Modeller

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Eksponensielle klasser

Prøveeksamen i STK3100/4100 høsten 2011.

Eksponensielle klasser og GLM

Forelesning 6 STK3100/4100

Forelesning 6 STK3100

Forelesning 8 STK3100

Forelesning 7 STK3100/4100

Forelesning 6 STK3100/4100

Forelesning 10 STK3100

Forelesning 7 STK3100/4100

UNIVERSITETET I OSLO

Forelesning 3 STK3100

Forelesning 8 STK3100/4100

Forelesning 5 STK3100/4100

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Forelesning STK september 2011

UNIVERSITETET I OSLO

Forelesning 11 STK3100/4100

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Forelesning 7 STK3100

UNIVERSITETET I OSLO

Forelesning 9 STK3100

UNIVERSITETET I OSLO

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR

Forelesning 11 STK3100/4100

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

UNIVERSITETET I OSLO

Forelesning 7 STK3100

STK Oppsummering

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2016

Tilleggsoppgaver for STK1110 Høst 2015

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Eksamensoppgave i TMA4267 Lineære statistiske modeller

TMA4240 Statistikk Høst 2009

Forelesning 6 STK3100

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

Kap. 6, Kontinuerlege Sannsynsfordelingar

TMA4245 Statistikk Eksamen desember 2016

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Oppsummering av STK2120. Geir Storvik

7. november 2011 Geir Storvik

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

10.1 Enkel lineær regresjon Multippel regresjon

Fasit og løsningsforslag STK 1110

Forelesning 9 STK3100/4100

Kontinuerlige sannsynlighetsfordelinger.

UNIVERSITETET I OSLO

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Kort overblikk over kurset sålangt

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Kap. 6, Kontinuerlege Sannsynsfordelingar

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

vekt. vol bruk

HØGSKOLEN I STAVANGER

Ekstraoppgaver for STK2120

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Ridge regresjon og lasso notat til STK2120

UNIVERSITETET I OSLO

Forelesning 13. STK november Med glattingsteknikker. leter vi ikke etter en parametrisk for for E

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Om eksamen. Never, never, never give up!

EKSTRAOPPGAVER I STK1110 H2017

Forelesning 9 STK3100/4100

STK juni 2016

UNIVERSITETET I OSLO

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Statistikk og havressurser

Statistikk og havressurser

Kap. 6, Kontinuerlege Sannsynsfordelingar

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

TMA4240 Statistikk 2014

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

UNIVERSITETET I OSLO

Om eksamen. Never, never, never give up!

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Eksamensoppgave i TMA4267 Lineære statistiske modeller

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4240 Statistikk

Ekstraoppgaver STK3100 h10

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Forelesning 5 STK3100

Transkript:

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 1/25 Introduksjon til Generaliserte Lineære Modeller (GLM) STK3100-23. august 2010 Sven Ove Samuelsen/Anders Rygh Swensen Plan for første forelesning: 1. Introduksjon, Litteratur, Program 2. Eksempler 3. Uformell definisjon av GLM 4. Noen utvidelser av GLM 5. Plan for kurset

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 2/25 Introduksjon Generaliserte lineære modeller (med utvidelser) omhandler sentrale klasser av mer kompliserte, men likevel standard modeller utover multippel regresjon / anova. Spesielt skal vi se på hvordan binære data, telledata, kategoriske (multinomiske) data og levetidsdata kan analyseres innen rammen av regresjon. Målet med emnet er både å lære å benytte disse modellene til konkrete analyser og kjenne den matematiske bagrunnen for analysene. Emnet skal altså ha både et praktisk og et teoretisk perspektiv.

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 3/25 Lærebok (litteratur) Som lærebok skal vi bruke ""Generalized Linear Models for Insurance Data" av Piet de Jong og Gillian Z. Heller." Denne boka kan kjøpes i Akademika. Boken har egen hjemmeside: http://www.actuary.mq.edu.au/research/books/glmsforinsurancedata Her finnes blant annet de fleste data settene som benyttes. Kurset vil som tidligere år vise eksempler fra mange fagfelt: medisin / biologi, samfunnvitenskap / økonomi, teknikk (?). Men vi får nå styrket eksemplene fra forsikring. Mulig støttelitteratur er "Julian J. Faraway: Extending the linear model with R. Generalized linear, mixed effect and nonparametric regression models. Chapman & Hall/CRC 2006"

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 4/25 Statistikk-program Vi skal bruke programpakken R som kjører under de vanlige operativsystemer og som kan lastes ned gratis fra http://mirrors.sunsite.dk/cran/ I hovedsak skal vi benytte rutiner som er implementert i R. Det vil ikke bli behov for å programmere mye på egenhånd. En kort introduksjon til R finnes på hjemmesiden til STK1120 for V08, se http://www.math.uio.no/avdc/kurs/stk1120/r.html og http://www.math.uio.no/avdc/kurs/stk1120/v08/intror.pdf En god innføring i R er boka til Peter Dalgaard: Introductory Statistics with R,2nd ed., 2008, Springer

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 5/25 Dataeksempel 1: Fødselsvekt og svangerskapslengde Gutter Jenter Varighet(uker) Fødselsvekt (gram) Varighet (uker) Fødselsvekt (gram) 40 2968 40 3317 38 2795 36 2729 40 3163 40 2935 35 2925 38 2754 36 2625 42 3210 37 2847 39 2817 41 3292 40 3126 40 3473 37 2539 37 2628 36 2412 38 3176 38 2991 40 3421 39 2875 38 2975 40 3231 Gj.sn. 38.33 3024.00 38.75 2911.33 En er interessert i å studere veksthastigheten pr. uke i slutten av svangerskapet, og om denne er forskjelig for de to kjønn.

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 6/25 Dataeksempel 2: Dødelig giftdose for biller Ca. 60 biller ble utsatt for hver av 8 ulike konsentrasjoner av CS 2, og antallet som døde ved hver av konsentrasjonene ble registrert. Dose (log 10 CS 2 mg l 1 ) Antall biller Antall døde 1.6907 59 6 1.7242 60 13 1.7552 62 18 1.7842 56 28 1.8113 63 52 1.8369 59 53 1.8610 62 61 1.8839 60 60 Ønsker å studere sammenhengen mellom dose og dødelighet.

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 7/25 Dataeksempel 3: Antall barn blant gravide de Jong & Heller, side 15-16: Data over antall tidligere barn blant 141 gravide kvinner i ulike aldre. Ikke uventet synes antall barn å øke med alder, se figur 1.11 i dej&h

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 8/25 Dataeksempel 3b: Antall krav fra tredjepart de Jong & Heller, side 17: Data over antall krav i 176 geografiske områder i New South Wales i en 12-måneders periode. Forklaringsvariable: Statistisk kategori, 13 kategorier Antall uhell i området Antall drepte og skadede Befolkningsstørrelse I begge eksempler: Antall, dvs. tellevariable, kanskje Poissonfordeling.

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 9/25 Typisk modell for Eks 1: Lineær regresjon For k = 1,..., 12 og j = 1, 2 (der j = 1 angir gutt og j = 2 jente) Y jk = x jk = fødselsvekt for baby nr. k kjønn nr. j svangerskapsvarighet for baby nr. k kjønn nr. j antas Y jk = α j + βx jk + ε jk der ε jk N(0,σ 2 ), dvs. normalfordelte med forventning 0 og samme varians σ 2 og dessuten uavhengige. Regresjonsparametre: β = α j = stigningskoeffisient konstantledd for kjønn j

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 10/25 Modellspesifikasjonen for Eks 1 kan alternativt skrives: Linearitet: E[Y jk ] = µ jk = α j + βx jk Konstant varians: Var[Y jk ] = σ 2 Uavhengige responser: Y jk -ene uavhengige Normalitetsantagelse: Y jk N(µ jk,σ 2 ) I STK3100 ser vi på utvidelser av lineære regresjonsmodeller til Linearitet etter transformasjon via "link-funksjon" g(): g(µ jk ) = α j + βx jk Andre fordelinger for responsene: Binomiske, Poisson, Gamma,... Variansen avhenger av forventningen til responsene

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 11/25 I Eks. 2: Dødelighet for biller er det rimelig å anta at Y i = antall døde biller med dose x i er binomisk fordelt Y i bin(n i,π i ) der π i = sannsynligheten for at en bille dør med dose x i og n i = antall biller som får dose x i En lineær modell for π i tilpasset med vanlig minste kvadrater er problematisk fordi 0 π i 1 i motsetning til lineært utrykk α + βx i Var(Y i ) = n i π i (1 π i ) Ikke-konstant (heteroskedastisk) variansstruktur

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 12/25 Vanlig løsning for Eks. 2: Logistisk regresjon Logistisk regresjonsmodell: Da blir 0 π i 1 π i = exp(α + βx i) 1 + exp(α + βx i ) Tilpasser så den logistiske regresjonsmodellen med Maximum Likelihood (ML). Tar hensyn til binomiske responser (og ikke-konstant varians) Effisiente estimater (tilnærmet med "mye" data)

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 13/25 Logistisk regresjon for Eks. 2: Andel døde biller MLE: ˆα = 60.72, ˆβ = 34.27 Predikerte sannsynligheter: ˆπ = exp(ˆα+ˆβx) 1+exp(ˆα+ˆβx)

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 14/25 Estimering logistisk regresjon Storvik: "Numerical optimization of likelihoods: Additional literature for STK1120" gir en Newton-Rahpson rutine i R for å tilpasse logistisk regresjon til disse dataene. Heldigvis er dette allerede implementert R. Bruk kommando glm(cbind(dode,ant-dode) Dose,family=binomial) glm = Generalisert Lineær Modell family=binomial angir at vi har binære eller binomiske data Ved binomiske data angir cbind(dode,ant-dode) antall suksesser og antall ikke-suksesser

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 15/25 I eks. 3: Y i = Antall barn tidligere for mor nr. i kan det være rimelig å anta at Y i er Poissonfordelt med forventning µ i der µ i avhenger av x i = mors alder. Tilsvarende Eks 2: Forventningene µ i > 0 Variansen til Y i er lik µ i, dvs. ikke-konstant varians Vanlig løsning: Poisson-regresjon Y i Po(µ i ) der µ i = exp(α + βx i ) Dette er også en generalisert lineær modell og kan tilpasses ved glm-rutinen. Må bare spesifisere at data er antatt Poissonfordelte ved family=poisson

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 16/25 Poisson-regresjon for eks. 3 MLE for (α,β) ble (ˆα, ˆβ) = ( 4.0895, 0.1129) Får dermed tilpassede forventninger ˆµ i = exp(ˆα + ˆβx i )

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 17/25 Definisjon av GLM Uavhengige responser: Y 1,Y 2,...,Y n Vektorer av forklaringsvariable x 1,x 2,...,x n der x i = (x i1,x i2,...,x ip ) er p-dimensjonale. En GLM = Generalisert Lineær Modell er definert ved Y 1,Y 2,...,Y n kommer fra samme eksponensiell klasse (Eksponensielle klasser defineres senere, nok å vite at normalfordelinger, binomiske, Poisson-, gammafordelinger etc. utgjør eksp. klasser) Lineære komponenter (prediktorer) η i = β 0 + β 1 x i1 + + β p x ip Linkfunksjon g(): Med µ i = E[Y i ] kobles forventningen til lineær komponent ved at g(µ i ) = η i

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 18/25 Lineær regresjon er en GLM Responser (Y i -er) fra normalfordelinger Lineær komponent η i = β 0 + β 1 x i1 + + β p x ip E[Y i ] = µ i = η i, dvs. linkfunksjonen g(µ i ) = µ i er identitetsfunksjonen Spesielt gjør R-kommandoene lm for lineær regresjon og glm essensielt det samme bare med litt forskjellig utskrift. Lineær regresjon er spesielt default-spesifikasjonen av for glm

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 19/25 Eks. 1: Fødselsvekter > lm(vekt sex+svlengde) Call: lm(formula = vekt sex + svlengde) Coefficients: (Intercept) sex svlengde -1447.2-163.0 120.9 > glm(vekt sex+svlengde) Call: glm(formula = vekt sex + svlengde) Coefficients: (Intercept) sex svlengde -1447.2-163.0 120.9 Degrees of Freedom: 23 Total (i.e. Null); Null Deviance: 1830000 Residual Deviance: 658800 AIC: 321.4 21 Residual

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 20/25 Logistisk regresjon er en GLM Responser (Y i -er) fra binomiske fordelinger bin(n i,π i ) Lineær komponent η i = β 0 + β 1 x i1 + + β p x ip E[Y i ]/n i = π i = exp(η i) 1+exp(η i ). Dermed fås linkfunksjon g(π i ) = log( π i 1 π i ) Kaller g(π) = log( π ) = logit(π) for logit-funksjonen. 1 π > glm(cbind(dode,ant-dode) Dose,family=binomial) Call: glm(formula = cbind(dode, Ant - Dode) Dose, family = binomial) Coefficients: (Intercept) Dose -60.72 34.27 Degrees of Freedom: 7 Total (i.e. Null); 6 Residual Null Deviance: 284.2 Residual Deviance: 11.23 AIC: 41.43

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 21/25 Poisson-regresjon er en GLM Responser Y i Po(µ i ) Lineær komponent η i = β 0 + β 1 x i1 + + β p x ip E[Y i ] = µ i = exp(η i ), dvs. linkfunksjonen g(µ i ) = log(µ i ) er (den naturlige) logaritmefunksjonen > glm(children age,family=poisson) Call: glm(formula = children age, family = poisson) Coefficients: (Intercept) age -4.0895 0.1129 Degrees of Freedom: 140 Total (i.e. Null); Null Deviance: 194.4 Residual Deviance: 165 AIC: 290 139 Residual

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 22/25 Noen utvidelser Andre GLM-er: Telledata med negativ binomisk fordeling: Overspredning Kontinuerlige, ikke-normale responser: Gammafordeling, Invers gaussisk fordeling Utvidelser av GLM: Multinomiske responser (ordinale og nominelle) Levetidsdata Analyse av avhengige data Generaliserte additive modeller (GAM) Vi skal gå inn på multinomiske responser og levetidsdata.

Oversikt boka til de Jong & Heller Kap. 1: Introduksjon, Dataeksempler, Gjennomgåes ikke detaljert Kap. 2: Diverse fordelinger (med noen unntak kjent fra før) Kap. 3: Eksponensielle klasser, ML-estimering Kap. 4: Lineær modellering (stort sett kjent fra STK1110/STK1120) Kap. 5: Generaliserte lineære modeller Kap. 6: Telledata (Poissonregresjon, overspredning) Kap. 7: Katergoriske responser (binomiske data, multinomiske data) Kap. 8: Kontinuerlige responser Kap. 9: Korrelerte data Introduksjon til Generaliserte Lineære Modeller (GLM) p. 23/25

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 24/25 Plan for kurset Vi følger boka til de Jong & Heller, men ikke til punkt og prikke, og heller ikke helt kronologisk. Dessuten må boka må fylles ut på en del punkter. Omtrentlig forelesningsplan: Introduksjon, idag! Kap. 4. Lineaere modeller, stort sett repetisjon fra STK1110/STK2120, mandag 30. august Kap. 3: Eksponensielle klasser, 6. september Kap. 5: GLM-rammen og ML-teori 13. september. Kap. 7: Binomiske og Binære data Kap. 6: Telledata

Introduksjon til Generaliserte Lineære Modeller (GLM) p. 25/25 Plan for kurset, forts. Kap. 7: Multinomiske data Kap. 8: Kort om kontinuerlige responser Levetidsanalyse (ikke i boka) Utvidelser: Korrelerte data og GAM