Forelesning 8 STK3100

$ $ $ # Fortolkning av Dermed blir -ene Vi får variasjonen i '& '& $ Dermed har fortolkning som andel av variasjonen forklart av regresjonen Alternativt: pga identiteten Forelesning 8 STK3100 p3/3 Multippel Disse representasjonene generaliseres til multippel regresjon ved som fortsatt har fortolkningen forklart andel av variasjonen benevnes så som Coefficient of determination *) For å angi antall kovariater i modellen skrives ofte Forelesning 8 STK3100 p4/3 Forelesning 8 STK3100 15 oktber 2007 S O Samuelsen Plan for forelesning: 1 Multippel 2 Litt om modellvalg 3 Konfundering 4 GLM Binære data 5 Link-funksjoner Forelesning 8 STK3100 p1/37 nkel lineær regresjon: Uavhengige responser, Med N der er MK gitt ved Dessuten er korrelasjonen mellom -er gitt ved -er % $ Forelesning 8 STK3100 p2/37

# modellvalg Hvis en ny kovariat introduseres i modellen vil vi alltid øke Dermed egner ikke seg godt til modellvalg Alternativt brukes ofte justert : ) adj på Anova-data fra forrige forelesning > summaryanovafita) Call: lmformula = inntekt factorsted)) adj # Residual standard error: 2753 on 21 degrees of freedom Multiple R-Squared: 05321, Adjusted R-squared: 04875 F-statistic: 1194 on 2 and 21 DF, p-value: 0000344 som altså straffer for antall parametre i modellen kan ha en maksimalverdi over mulige modeller Men det er nok bedre å benytte predikert pred definert ved > summaryanovafitb) Call: lmformula = inntekt factorkjonn)) Residual standard error: 329 on 22 degrees of freedom Multiple R-Squared: 03001, Adjusted R-squared: 02683 F-statistic: 9435 on 1 and 22 DF, p-value: 0005583 der er predikert verdi av estimert uten å benytte individ Forelesning 8 STK3100 p5/37 Forelesning 8 STK3100 p7/3 Predikert hatt-matrisen adj eksempel, forts Det kan se ut som om predikerte verdier tilpasser alle regresjoner der ett ett individ utelates Men vi kan benytte hatt-matrisen med diagonalelementer Da blir faktisk) krever at vi > summaryanovafitab) Call: lmformula = inntekt factorsted) + factorkjonn)) Residual standard error: 1689 on 20 degrees of freedom Multiple R-Squared: 08322, Adjusted R-squared: 08071 F-statistic: 3307 on 3 and 20 DF, p-value: 6012e-08 > summaryanovafitab) altså pred # Call: lmformula = inntekt factorsted) * factorkjonn)) Residual standard error: 1765 on 18 degrees of freedom Multiple R-Squared: 08352, Adjusted R-squared: 07894 F-statistic: 1824 on 5 and 18 DF, p-value: 174e-06 Forelesning 8 STK3100 p6/37 Forelesning 8 STK3100 p8/3

pred på ANOVA-eksempelet AIC, Man innser sammenhengen i definisjonene > SSTOT<-suminntekt-meaninntekt))ˆ2) > SSTOT [1] 3401562 > 1-sumresidualsanovafitA)/1-hatvaluesanovafitA)))ˆ2)/SSTOT [1] 03888763 > 1-sumresidualsanovafitB)/1-hatvaluesanovafitB)))ˆ2)/SSTOT [1] 01671061 > 1-sumresidualsanovafitAB)/1-hatvaluesanovafitAB)))ˆ2)/SSTOT [1] 07584345 > 1-sumresidualsanovafitAB)/1-hatvaluesanovafitAB)))ˆ2)/SSTOT [1] 07069974 hatvalueslmfit) gir diagonalelementene til diagnostikkmål, sjekk >?influencemeasures For flere Forelesning 8 STK3100 p9/37 ved at, med ML, Konstant AIC straffer for å ha mange parametre i modellen på lignende måte som justert) adj, men legg merke til AIC benytter AIC er vanligvis et strengere kriterium enn å velge modellen som gir maksimal adj Men: AIC er tilnærmet det samme som å velge modell med maksimal pred Forelesning 8 STK3100 p11/3 Akaike informasjonskriterium AIC) defineres generelt ved der antall parametre i modellen maksimum l-likelihood under modellen Akaike-kriteriet benyttes ved å velge den modellen med minst AIC-verdi For lineære modeller, med kovariater samt et konstantledd, dvs parametre er definisjon ofte AIC i R: Bruk glm istedet for lm > summaryanovafita) Null deviance: 34016 on 23 degrees of freedom Residual deviance: 15916 on 21 degrees of freedom AIC: 23204 > summaryanovafitb) Null deviance: 34016 on 23 degrees of freedom Residual deviance: 23806 on 22 degrees of freedom AIC: 2397 > summaryanovafitab) Null deviance: 340156 on 23 degrees of freedom Residual deviance: 57062 on 20 degrees of freedom AIC: 20942 > summaryanovafitab) Null deviance: 340156 on 23 degrees of freedom Residual deviance: 56062 on 18 degrees of freedom AIC: 21300 Forelesning 8 STK3100 p10/37 Forelesning 8 STK3100 p12/3

Modellvalg ved signifikans: Stepwise rutiner n annen framgangsmåte for å velge modell er forover) trinnvis-utvelgelse der kovariater inkluderes hvis de har signifikant effekt utover de allerede inkluderte kovariatene Med 5% signifikansnivå for inklusjon er dette typisk mer restriktivt enn å bruke AIC Signifikanstesting krever nøstede modeller, i motsetning til AIC Både AIC stepwise-rutiner vil inkludere kovariater som har reell effekt når antall observasjoner blir stort MK med ukorrelerte kovariater Når man planlegger et forsøk er det fordelaktig å velge ukorrelerte kovariater Dermed er ikke den estimerte effekten for en kovariat avhengig av effektene regresjonsparametrene) for de andre kovariatene Det er likevel nyttig å tilpasse modellen simultant: stimert varians blir som oftest mindre, hvilket ofte gir større utsagnskraft n analyse er tilstrekkelig for å anslå alle parametre Forelesning 8 STK3100 p13/37 Forelesning 8 STK3100 p15/3 MK med ukorrelerte kovariater I en oppgave til torsdag vises det at hvis kovariater er ukorrelerte så endres ikke ) ved å utelate ) fra modellen Dobson diskuterer dette fenomenet mer generelt ved å se på blokkdeling av kovariater hvor blokkene er ukorrelert Isåfall Utelatelse av en blokk endrer ikke estimatene for øvrige blokker av kovariater Utvidelsen er nyttig når en ser på kategoriske kovariater hvor hver kategorisk kovariat er en blokk Siden et individ vil ha kun ett nivå på en kategorisk kovariat, vil det nødvendigvis være avhengighet innen blokken Forelesning 8 STK3100 p14/37 Konfunderende effekter I observasjonelle studier er det vanligvis ikke mulig å samle inn ukorrelerte kovariater Da vil estimerte effekter avhenge av hvilke kovariater som er med i modellen Å utelate en kovariat kan da gi en annen fortolkning av estimert effekt Vi skal kvantifisere effekten av å utelate en kovariat Forelesning 8 STK3100 p16/3

# # # Binomiske responser er uavhengige Da har vi data fra en Anta eksponensiell klasse Vi kan skrive opp tettheten for andelen responser med mens # der spredningsleddet er kjent Som kjent blir Var Forelesning 8 STK3100 p19/3 Binære responser, #%$ & Da er ) skal vi begrense oss eller Siden modellen formuleres for til å se på binære data Binomiske data oppnås som kjent ved å summere uavhengige binære responser med samme suksesssannsynlighet Forelesning 8 STK3100 p20/3 Konfunderende effekter, forts Anta modell: der kovariatene er trukket fra en simultan fordeling Da er, når, analyseres istedet modellen Hvis vi bare benytter kovariat har vi er lineær i gitt Hvis nå forventningen til er korrelasjonen mellom de to kovariatene der er standardavvik for kovariat Forelesning 8 STK3100 p17/37 Konfunderende effekter, III Dermed dvs den estimerte effekten av er den reelle effekten pluss effekt av mediert med graden av samsvar mellom kovariatene, men, dvs avhenger ikke reelt av vil vi likevel estimere en effekt av Så hvis feks Forelesning 8 STK3100 p18/37

% # GLM binære responser Uavhengige binære Lineær prediktor Linkfunksjon med suksesssannsynlighet Vi har sålangt kun sett på link-funksjonen som gir lit Kumulativ tetthet i standard listisk fordeling Kumulativ listisk fordeling Tetthet listisk fordeling F) 00 02 04 06 08 10 f) 00 005 010 015 020 025 Spesielt er dette den kanoniske link-funksjonen, ie kanonisk parameter Som kjent gir lit-linken listisk regresjon Forelesning 8 STK3100 p21/37 Tettheten er symmetrisk om, så forventningen er lik 0 Dessuten kan det vises at variansen i standard-listisk Forelesning 8 STK3100 p23/3 Krav til linkfunksjon binære responser bør være glatt minst to ganger deriverbar) strengt monoton voksende) verdier over alle reelle tall eller ekvivalent kumulativ fordelingsfunksjon for kontinuerlig fordeling på Lit-linken tilfredstiller disse kravene Spesielt er kumulativ i listisk fordeling der tettheten er Forelesning 8 STK3100 p22/37 Probit-link: Invers av kumulativ for standard-normal Siden kravet til en link-funksjon er at den er invers av en kumulativ er en naturlig kandiat til link: der Siden tettheten i standardnormalfordelingen er symmetrisk om får vi ofte resultater tilsvarende list regresjon med probit link probit analyse) Imidlertid Normalfordelingen har lettere haler enn listisk fordeling, kan ha situasjoner der probit passer bedre Standardavviket i N0,1) er 1, parameterestimatene ofte ca så store med lit Forelesning 8 STK3100 p24/3

Kumulativ tetthet for lit probit Kumulative fordelingsfunksjoner Tettheter R-utskrift Biller: Lit > summarylistfit) F) 00 02 04 06 08 10 listisk probit skalert) f) 00 005 010 015 020 025 Deviance Residuals: Min 1Q Median 3Q Ma -15941-03944 08329 12592 15940 stimate Std rror z value Pr> z ) Intercept) -60717 5181-1172 <2e-16 *** Dose 34270 2912 1177 <2e-16 *** --- Signif codes: 0 *** 0001 ** 001 * 005 01 1 Dispersion parameter for binomial family taken to be 1) Null deviance: 284202 on 7 degrees of freedom Residual deviance: 11232 on 6 degrees of freedom AIC: 4143 Forelesning 8 STK3100 p25/37 Forelesning 8 STK3100 p27/3 R-utskrift Biller: Lit vs Probit > listfit<-glmcbindd,n-d) Dose,family=binomiallink=lit)) > probitfit<-glmcbindd,n-d) Dose,family=binomiallink=probit)) > listfit Intercept) Dose -6072 3427 Degrees of Freedom: 7 Total ie Null); 6 Residual Null Deviance: 2842 Residual Deviance: 1123 AIC: 4143 > probitfit Intercept) Dose -3494 1973 Degrees of Freedom: 7 Total ie Null); 6 Residual Null Deviance: 2842 Residual Deviance: 1012 AIC: 4032 > listfit$coef/probitfit$coef Intercept) Dose 1737999 1737147 Forelesning 8 STK3100 p26/37 R-utskrift Biller: Probit > summaryprobitfit) Deviance Residuals: Min 1Q Median 3Q Ma -15714-04703 07501 10632 13449 stimate Std rror z value Pr> z ) Intercept) -34935 2648-1319 <2e-16 *** Dose 19728 1487 1327 <2e-16 *** --- Signif codes: 0 *** 0001 ** 001 * 005 01 1 Dispersion parameter for binomial family taken to be 1) Null deviance: 284202 on 7 degrees of freedom Residual deviance: 10120 on 6 degrees of freedom AIC: 40318 Number of Fisher Scoring iterations: 4 Forelesning 8 STK3100 p28/3

Cauchit = link basert på Cauchy-fordeling er så implentert i R Den er basert på Cauchy tetthet: Cauchy kumulativ: Cauchit-link: # Cauchit svarer altså til en symmetrisk, klokkeformet tetthet tilsvarende lit probit, men med mye tyngre haler Spesielt eksisterer ingen momenter i Cauchy-fordelingen R-utskrift Biller: Cauchit > cauchitfit<-glmcbindd,n-d) Dose,family=binomiallink=cauchit) > summarycauchitfit) Deviance Residuals: Min 1Q Median 3Q Ma -15750 03094 04912 19346 28854 stimate Std rror z value Pr> z ) Intercept) -77320 11348-6814 951e-12 *** Dose 43526 6378 6824 885e-12 *** --- Null deviance: 284202 on 7 degrees of freedom Residual deviance: 20158 on 6 degrees of freedom AIC: 50356 > listfit$coef/cauchitfit$coef Intercept) Dose 07852785 07873560 Forelesning 8 STK3100 p29/37 Forelesning 8 STK3100 p31/3 Kumulativ tetthet for cauchit, lit probit F) 00 02 04 06 08 10 Kumulative fordelingsfunksjoner listisk probit skalert) Cauchy skaler) f) 00 005 010 015 020 025 Tettheter Forelesning 8 STK3100 p30/37 cl-l-link basert på Gumbel-fordelingen Linken komplementære l-l-linken Dens inverse er gitt ved kalles den som er kumulativ for den standardiserte) Gumbelfordelingen Fra Oppgave 12 har vi at denne fordelingen ikke er symmetrisk veldig lette haler mot haler som listisk fordeling mot forventning er - ulers s konstant varians # Forelesning 8 STK3100 p32/3

Kumulativ tetthet Gumbelfordeling Kumulative fordelingsfunksjon Gumbel Tetthet Gumbel Tilpassede sannsynligheter for billedata med listisk regresjon cll-link: F) 00 02 04 06 08 10 f) 00 01 02 03 andel dode biller 00 02 04 06 08 10 listisk cll 170 175 180 185-4 -2 0 2 4-4 -2 0 2 4 dose l_10) Cll-linken treffer observerte andeler bedre enn listisk regr, Forelesning 8 STK3100 p33/37 svarer til residual-devians på 345 for cll 1123 for listisk regresjon Forelesning 8 STK3100 p35/3 R-utskrift Biller: Probit > cllfit<-glmcbindd,n-d) Dose,family=binomiallink=cll)) > summarycllfit) Deviance Residuals: Min 1Q Median 3Q Ma -080329-055135 003089 038315 128883 stimate Std rror z value Pr> z ) Intercept) -39572 3240-1221 <2e-16 *** Dose 22041 1799 1225 <2e-16 *** Null deviance: 2842024 on 7 degrees of freedom Residual deviance: 34464 on 6 degrees of freedom AIC: 33644 Number of Fisher Scoring iterations: 4 > listbiller$coef/cllfit$coef Intercept) Dose 1534342 1554832 Forelesning 8 STK3100 p34/37 Tilpassede sannsynligheter for billedata så med listisk regresjon 2 gradsledd i Dose andel dode biller 00 02 04 06 08 10 listisk cll listisk, 2 gradsledd 170 175 180 185 dose l_10) 2 gradsledd ga en devians på 319 sammenlignet med 344 for cll-linken AIC-verdier ble 3593 med 2 gradsledd 3364 for cll Forelesning 8 STK3100 p36/3

L-link R har så implementert l-link der eller Denne linken begrenser ikke til verdier mindre enn 1 er lite nyttig for data med andeler er nær 1 Forsøk på å tilpasse l-link for billedataene i R gir > lfit<-glmcbindd,n-d) Dose,family=binomiallink=l)) rror: no valid set of coefficients has been found: please supply starting values L-linken er likevel nyttig ved når sannsynlighetene veldige store gir da lett fortolkbare regresjons-parametre ikke er Forelesning 8 STK3100 p37/37