Forelesning 13. STK november Med glattingsteknikker. leter vi ikke etter en parametrisk for for E

Like dokumenter
Introduksjon til Generaliserte Lineære Modeller (GLM)

Prøveeksamen i STK3100/4100 høsten 2011.

Forelesning 7 STK3100

Forelesning 8 STK3100

Eksponensielle klasser og GLM

Forelesning 6 STK3100

Forelesning 6 STK3100

Forelesning 4 STK3100

Introduksjon til Generaliserte Lineære Modeller (GLM)

Forelesning 11 STK3100/4100

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

UNIVERSITETET I OSLO

Forelesning 10 STK3100

Forelesning 11 STK3100/4100

Forelesning 8 STK3100/4100

Generaliserte Lineære Modeller

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

UNIVERSITETET I OSLO

Generaliserte Lineære Modeller

Forelesning 3 STK3100

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Prøveeksamen STK2100 (fasit) - vår 2018

UNIVERSITETET I OSLO

Tilleggsoppgaver for STK1110 Høst 2015

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Kort overblikk over kurset sålangt

UNIVERSITETET I OSLO

Forelesning 9 STK3100

Forelesning 9 STK3100/4100

UNIVERSITETET I OSLO

Forelesning 5 STK3100/4100

UNIVERSITETET I OSLO

Inferens i regresjon

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

7. november 2011 Geir Storvik

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

UNIVERSITETET I OSLO

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Forelesning 9 STK3100/4100

Prøveeksamen STK vår 2017

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

10.1 Enkel lineær regresjon Multippel regresjon

STK juni 2016

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Eksponensielle klasser

Forelesning 6 STK3100/4100

Forelesning 6 STK3100/4100

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

UNIVERSITETET I OSLO

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Kapittel 3: Studieopplegg

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

STK Oppsummering

3.A IKKE-STASJONARITET

STK Oppsummering

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR

Ref.: Fall SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 05

Ekstraoppgaver STK3100 h10

Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

Multippel lineær regresjon

Generelle lineære modeller i praksis

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Kapittel 4.4: Forventning og varians til stokastiske variable

Ridge regresjon og lasso notat til STK2120

UNIVERSITETET I OSLO

Klassisk ANOVA/ lineær modell

Bootstrapping og simulering Tilleggslitteratur for STK1100

Eksamensoppgave i ST3001

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

UNIVERSITETET I OSLO

EKSAMENSOPPGAVER STAT100 Vår 2011

UNIVERSITETET I OSLO

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Kp. 12 Multippel regresjon

Forelesning 7 STK3100/4100

TMA4240 Statistikk Høst 2016

Løsningsforslag øving 9, ST1301

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Bioberegninger, ST1301 Onsdag 1. juni 2005 Løsningsforslag

Mer om Markov modeller

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Forelesning STK september 2011

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Forelesning 7 STK3100/4100

TMA4240 Statistikk Eksamen desember 2015

vekt. vol bruk

Punktestimator. STK Bootstrapping og simulering - Kap 7 og eget notat. Bootstrapping - eksempel Hovedide: Siden λ er ukjent, bruk ˆλ:

Transkript:

" & " + Med glattingsteknikker Forelesning 13 STK3100 19 november 2007 S O Samuelsen 1 Glatting 2 Generaliserte additive modeller GAM)) 3 Mispesifiserte modeller 4 Generaliserte estimeringsligninger GEE) 5 Varianskomponentmodeller leter vi ikke etter en parametrisk for for E På bagrunn av data dataavhengig estimat % Eksempler på glattingteknikker: Glidende gjennomsnitt % mean Kjerneestimatorer Lokale regresjoner er MKE for slike at prøver vi å lage et fleksibelt for E " % % % " Robuste vektede) lokale regresjoner: "Loess" "Splines" kan varieres % % Forelesning 13 p1/31 Forelesning 13 p3/3 Glatting: Ofte vil lineære modeller Eksempel: Simulerer data fra modell E passe dårlig til data Generelt kan vi ha sammenheng + *) N 0 / E for en eller anne funksjon på ulike måter Inklu 2 gradsledd i modellen E Polynomisk regresjon: E Inklusjon av andre funksjoner av Kategorisering av : E Denne situasjonen kan angripes feks " # y Glattingsteknikker Forelesning 13 p2/31 Forelesning 13 p4/3

y y y y Simuleringseksempel Bergner glidende gjennomsnitt lokale regresjoner loess "kubiske" splines I dette tilfellet er det vanskelig å si hvilken estimator som fungerer best Glidende gjennomsnitt Lokal regresjon Glatting i R: Kan bruke funksjonen / biblioteket gam biblioteket må lastes ned fra CRAN) > <100:100)/50 > y<+sin*pi)+rnorm201)*05 > librarygam) > gamy sdf=10)) Call: gamformula = y s df = 10)) Loess Splines Degrees of Freedom: 200 total; 1900006 Residual Residual Deviance: 4580014 > gamy lospan=017)) Call: gamformula = y lo span = 017)) Forelesning 13 p5/31 Degrees of Freedom: 200 total; 1896566 Residual Residual Deviance: 4628176 Forelesning 13 p7/3 Kubiske splines Estimer ved å minimere varierer graden av glatthet Vi straffer altså for stor dobbeltivert "vingling" dvs stor grad av Forbløffende nok har dette en løsning som kubiske splines med "knots" i ene dvs er 3 gradspolynom på dvs mellom ordnede verdier) % % er kontinuerlig 2 ganger iverbar så i ene Forelesning 13 p6/31 Syntaks: gamtilpasningen gjøres ved struktur anal til glm s) angir splinesglatting lo) angir loessglatting robust vektet lokal minste kvadrater) Graden av glatting angis for splines ved å angi et visst antall frihetsgra som svarer til en viss verdi av glattingsparameteren ) For Loess angis graden av glatting ved span som så kan oversettes til frihetsgra Min erfaring er at defaultgrad av glatting fungerer bra for monotone eller entoppede sammenhenger men at det med flertoppede funksjoner trengs nærmere unsøkelse av glattingsgrad Forelesning 13 p8/3

+ Additive modeller: Flere kovariater Flere funksjoner Modell: + gamrutinen tillater slike modeller ved "backfitting"algoriten: 1 Sentrer ene: 2 Gjør splinestilpasning av 3 Bergen % 4 Gjør splinestilpasning av 5 Fortsett prosedyren for mot mot 6 Gjenta trinnene 2 til 5 inntil konvergens % % N GAM = Generaliserte additive modeller Modell: fra eksponensiell klasse med forventning linkfunksjon GAM er altså en utvidelse av GLMrammen med vilkårlige glatte funksjoner istedetfor lineære effekter GAM tilpasses med Iterativt revektede minste kvadraters algoritmen IRLS) utvidet med backfitting i hver iterasjon Og dette konvergerer ganske trofast Forelesning 13 p9/31 Forelesning 13 p11/3 Eksempel: Lungekapasitet FEV1) etter kjønn al høyde BMI = vekt i kg høyde i m plotgamafev1 kjonn+sal)+shoyde)+sbmi))se=t) partial for kjonn 01 00 01 02 sal) 10 00 05 10 Eks GAM: Biller > glmcbinddodeantdode) Dosefamily=binomial) Degrees of Freedom: 7 Total ie Null); 6 Residual Null Deviance: 2842 Residual Deviance: 1123 AIC: 4143 > gamcbinddodeantdode) sdose)family=binomial) Degrees of Freedom: 7 total; 299988 Residual Residual Deviance: 166544 10 12 14 16 18 20 kjonn 40 60 80 100 al > glmcbinddodeantdode) Dosefamily=binomiallink=cll)) shoyde) 1 0 1 2 140 160 180 200 hoyde sbmi) 08 06 04 02 00 20 30 40 50 bmi Forelesning 13 p10/31 Degrees of Freedom: 7 Total ie Null); 6 Residual Null Deviance: 2842 Residual Deviance: 3446 AIC: 3364 > gamcbinddodeantdode) sdose)family=binomiallink=cll)) Degrees of Freedom: 7 total; 299998 Residual Residual Deviance: 123021 Forelesning 13 p12/3

Gamplott: Biller Feilspesifiserte modeller Eksempel: Anta er binære med forventning sdose) 2 0 2 4 6 litlink sdose) clllink E dvs lineær i kovariatene Hva skjer hvis vi estimerer vanlig minste kvadrater? med Estimatene er konsistente konvergerer mot sann verdi når ) Estimatene er asymptotisk normale 170 175 180 185 Dose 170 175 180 185 Dose Feilspesifisert konstant varians le til gale variansestimater Forelesning 13 p13/31 Forelesning 13 p15/3 Eks GAM: Biller sammendrag Med litmodell forbedret 2 gradsledd modellen GAM finner automatisk avviket fra modellen med 1 gradsmodell Med clllink var 2 gradsledd unødvendig Heller ingen forbedring med GAM Feilspesifiserte modeller forts Mer generelt anta at er uavhengige med forventning korrekt spesifisert linkfunksjon men feilspesifisert variansstruktur Var Vi estimerer da ved å løse scorefunksjonen GAM behandles mer inngående i STK4030: Mone dataanalyse H08) Siden forventningsstrukturen er korrekt spesifisert er E E Dessuten siden ene er uavhengige er tilnærmet Forelesning 13 p14/31 N VAR ved sentralgrenseteoremet for ikkeidentiske fordelte variable såsant ikke et lite antall av dominerer ) Forelesning 13 p16/3

Feilspesifiserte modeller forts II Spesielt får vi at kovariansmatrisen til gis ved Feilspesifiserte modeller Avhengige data Anta så at VAR Var som avviker fra forventet informasjon respons individ i familie at forventningsstruktur variansstruktur Var er korrekt spesifisert at familier er uavhengige men at det er avhengighet innen familier siden Var imidlertid % Ved vanlig 1 ordens Taylor har vi Restledd altså tilnærmet som en lineærtransformasjon av tilnærmet normalfordelt Forelesning 13 p17/31 En MLanalyse som behandler dataene som uavhengige vil gi når Konsistente asymptotiske normalfordelte estimater Gale variansestimater er små % Forelesning 13 p19/3 Sandwich estimator Men "med" blir så tilnærmet normalfordelt med forventning kovariansmatrise % Spesielt med forventning kovariansmatrise for VAR Estimert kovariansmatrise for VAR % blir med % % % Kovariansmatriser på denne formen kalles ofte Sandwichestimatoren for kovariansmatrisen Sandwichestimatoren betegnes ofte som robust varians fordi den er gyldig når variansstrukturen er feilspesifisert multivariat normalfordelt blir kovariansmatrisen for minste kvadraters estimater Hvis er designmatrisen for familie den totale designmatrisen ene er kjente er det altså lett å estimere kovariansmatrisen Forelesning 13 p18/31 Forelesning 13 p20/3

Men det er så mulig å finne en effisient estimator ved å maksimere en matrise)vektet minstekvadraters estimator: Minimer Generalisering til andre eksponensielle familier Merk at for uavhengige univariate responser scoreligningene kan vi skrive eller løs estimeringsligningene % % siden Var Dette uttrykket kan generaliseres til klyngedata familiedata) ved husk at er vektorer) som gir estimator % med kovariansmatrise Forelesning 13 p21/31 matrisen av iverte av er kovariansmatrisen til mhp Forelesning 13 p23/3 Kovariansmatriser Typisk er ikke kovariansmatrisene kjent men avhenger av ukjente parametre Et vanlig valg for kovariansmatrisen er den såkalt ubyttbare echangable) formen GEE = Generaliserte estimeringsligninger Her kan vi vie uttrykke diagonalmatrisen av variansene til mellom ene for gitt klynge er korrelasjonene dvs cor for alle Alternativt kan vi ha vilkårlig unstructured) kovariansmatrise med cor Et ytterligere alternativt er "autoregressiv" kovariansmatrise med cor Forelesning 13 p22/31 Estimering skjer typisk ved at Estimer ved vanlig GLM dvs un urealistisk uavhengighetsantagelse Estimer så kovariansmatriser fra % Løs estimeringsligningene innsatt Iterer til konvergens estimater Denne teknikken kalles ofte Generaliserte estimering ligninger equations) forkortes GEE for % Forelesning 13 p24/3

Variansestimering GEE Gitt kovariansmatriser Men i praksis må modellavvik skal GEE gi effisiente estimater ene estimeres Det kan dessuten være Derfor anbefales det gjerne å benytte robust sandwichestimator for kovariansmatrisen til % Eks forts > geefit GEE: GENERALIZED LINEAR MODELS FOR DEPENDENT DATA gee Sfunction version 413 modified 98/01/27 1998) Model: Link: Lit Variance to Mean Relation: Binomial Correlation Structure: Echangeable Number of observations : 480 Maimum cluster size : 12 Working Correlation[1:41:4] [1] [2] [3] [4] [1] 10000000 02141313 02141313 02141313 [2] 02141313 10000000 02141313 02141313 [3] 02141313 02141313 10000000 02141313 [4] 02141313 02141313 02141313 10000000 Forelesning 13 p25/31 Forelesning 13 p27/3 Eksempel Faraway): Balanseevne individ klarer å balansere i forsøk Kovariater: Kjønn høyde vekt overflate lys vision) Må laste ned biblioteket gee fra Cran > geefit<geestable Se+Height+Weight+Surface+Visionid=Subject family=binomialcorstr="echangeable"scalefi=true) Beginning Cgee Sfunction @#) geeformulaq 413 98/01/27 running glm to get initial regression estimate Intercept) Semale Height Weight Surfacenorm 732816427 139447913 009643925 004385627 396736680 Visiondome Visionopen 036371247 318734280 Eks forts forts > roundsummarygeefit)coef2) Estimate Naive SE Naive z Robust SE Robust z Intercept) 832 516 161 577 144 Semale 168 070 241 090 187 Height 010 004 278 004 237 Weight 004 002 171 003 132 Surfacenorm 392 041 950 056 696 Visiondome 036 034 107 040 089 Visionopen 318 038 844 046 689 De naive variansene er her ofte ellers) mindre enn de robuste Forelesning 13 p26/31 Forelesning 13 p28/3

Varianskomponenter random effects): En annen tilnærming til klyngedata er varianskomponentmodeller For lineærnormale klyngedata kan vi anta + familievariasjonen gis ved N individvariasjonen ved N som er uavhengige Vi finner da at indivi i samme familie har Cov + Cov at korrelasjonen mellom indivi i familie blir altså som ved en utbyttbar korrelasjonsstruktur Vi ser at modellen kan skrives om til Forelesning 13 p29/31 Varianskomponenter slutt Denne type modeller kalles ofte GLMM eller GLMMi pga blanding mellom fied effects varianskomponenter Mer om denslags feks i STK4070 som antagelig ikke går før V09) Men det er gis et kurs i tidsrekkeanalyse STK4060) V08 som omhandler andre aspekter ved avhengige data Og med er forelesningene i STK3100/STK4100 slutt for dette semesteret Forelesning 13 p31/3 Varianskomponenter forts Vi ser at modellen kan skrives om til varianskomponenten N Dette åpner for en generalisering til + + så er kovariater varianskomponenter er en vektor av uavhengige Dette formen kan utvides til GLMmodeller med lineær prediktor Likelihood gitt er standard GLM Likelihood marginalt ved å integrere ut fordelingen til Kan være numerisk komplekst Bayesianske teknikker som MCMC = Markov Chain Forelesning Monte 13 p30/31