Forelesning STK september 2011

Like dokumenter
Forelesning 5 STK3100

Forelesning 6 STK3100

Generaliserte Lineære Modeller

Generaliserte Lineære Modeller

Forelesning 7 STK3100/4100

Forelesning 7 STK3100/4100

Introduksjon til Generaliserte Lineære Modeller (GLM)

Forelesning 6 STK3100

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

Forelesning 5 STK3100/4100

Eksponensielle klasser

Forelesning 11 STK3100/4100

Forelesning 6 STK3100/4100

Forelesning 6 STK3100/4100

Introduksjon til Generaliserte Lineære Modeller (GLM)

Forelesning 9 STK3100/4100

Løsningsforslag eksamen 27. februar 2004

Forelesning 7 STK3100

UNIVERSITETET I OSLO

Forelesning 9 STK3100/4100

Forelesning 8 STK3100/4100

STK juni 2016

Tilleggsoppgaver for STK1110 Høst 2015

Oppsummering av STK2120. Geir Storvik

Forelesning 8 STK3100

Forelesning 3 STK3100

UNIVERSITETET I OSLO

STK Oppsummering

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Prøveeksamen i STK3100/4100 høsten 2011.

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Oppgave 1. Kilde SS df M S F Legering Feil Total

Forelesning 7 STK3100

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Forelesning 11 STK3100/4100

TMA4240 Statistikk Høst 2009

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Ekstreme bølger. Geir Storvik Matematisk institutt, Universitetet i Oslo. 5. mars 2014

Notater i ST2304 H. T. L. 1 Fordelingsfunksjonene i R α-kvantilen... 3

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

TMA4240 Statistikk Høst 2007

Forelesning 10 STK3100

TMA4240 Statistikk Høst 2015

Eksponensielle klasser og GLM

Ekstraoppgaver for STK2120

Forelesning 9 STK3100

Løsningsforslag eksamen 25. november 2003

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

LØSNINGSFORSLAG ) = Dvs

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Løsningsforslag: STK2120-v15.

Oppgave 14.1 (14.4:1)

Kapittel 6 - modell seleksjon og regularisering

Fasit for tilleggsoppgaver

7. november 2011 Geir Storvik

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

STK Oppsummering

UNIVERSITETET I OSLO

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

H 0 : Null hypotese. Konservativ. H 1 : Alternativ hypotese. Endring. Kap.10 Hypotesetesting

TMA4240 Statistikk 2014

Fasit og løsningsforslag STK 1110

Om eksamen. Never, never, never give up!

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

UNIVERSITETET I OSLO

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Om eksamen. Never, never, never give up!

TMA4240 Statistikk 2014

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Prøveeksamen STK2100 (fasit) - vår 2018

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

UNIVERSITETET I OSLO

10.1 Enkel lineær regresjon Multippel regresjon

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk H2010 (22)

Kp. 12 Multippel regresjon

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2012

Transkript:

Forelesning STK3100 12. setember 2011 Geir Storvik (S. O. Samuelsen) Plan for forelesning: 1. Mer om evians 2. Devians og Gooness-of-fit tester 3. GLM og resiualer En Mettet (saturate) moell er en moell som har en arameter er observasjon. Sesielt er alle anre moeller nøstet i en mettee moellen. Eks: Biller Den mettee moellen har ulike sannsynligheter µ i for hver giftose og tilassee sannsynligheter blir µ i = Y i /n i. For GLM får vi en erfekt tilasning til ata Y i slik at reikerte forventninger µ i = Y i. Den mettee moellen får også maksimal onåelig likelihoo l over alle tenkelige moeller. Forelesning STK3100. 1/31 Forelesning STK3100. 3/31 Mål å hvor go en moell er Ønsker mål å hvor go en moell er (log-)likelihoo vanskelig a skala avhenger av moell og menge ata Alternativ: Sammenlikne me best mulig moell. Devians Vi efinerer Deviansen ve 2( l l) er altså l er log-likelihoo for en mettee moellen. Eks: Y i N(µ i,σ 2 ): Den mettee moellen har µ i = Y i l = n 2 log(2µσ2 ) 1 2σ 2 (Y i µ i ) 2 l = n 2 log(2µσ2 ) Derme finner vi at likelihoo ratio mellom mettet moell og en vilkårlig moell (å log-skala) blir 2( l l) = 1 σ 2 (Y i µ i ) 2 Forelesning STK3100. 2/31 Devians er generalisering av kvaratsum! Forelesning STK3100. 4/31

Devians = 2( l l) Merk: l = l(θ,φ) l avhenger ikke av θ,φ = (θ,φ) = 2( l l(θ,φ)) arg max θ,φ l(θ,φ) = arg min θ,φ (θ,φ) Minimering av er ekvivalent me maksimering av likelihooen. Devians og binomisk foreling f(y i,µ i ) = ( ni y i µ i =y i /n i l(µ) = [log l = [log =2 ) µ y i i (1 µ i) n i y i ( ni y i ( ni y i ) + y i log(µ i ) + (n i y i ) log(1 µ i )] ) + y i log( µ i ) + (n i y i ) log(1 µ i )] [y i log( µ i /µ i ) + (n i y i ) log((1 µ i )/(1 µ i ))] Forelesning STK3100. 5/31 Forelesning STK3100. 7/31 Devians og Poisson foreling f(y i,µ i ) = µy i i e µ i y! µ i =y i l(µ) = [y i log(µ i ) µ i log(y i!)] l = [y i log(y i ) y i log(y i!)] =2 [y i log(y i /µ i ) (y i µ i )] Et ar anre begreer Resiual evians = Devians i aktuell moell g(µ i ) = β 0 + β 1 x i1 +... + β x i, vs. eviansen innsatt MLE ˆβ Devians uner H 0 = Devians me Moell: µ i = µ eller g(µ i ) = β 0, vs. kun konstantle i moellen Maksimal evians Har 0 Resiual evians Null evians Forelesning STK3100. 6/31 Forelesning STK3100. 8/31

LRT og Devians Ariori MLE ˆβ = (ˆβ 1,..., ˆβ ) gir Devians ˆ = 2[ l ˆl] = 2[ l l(ˆβ)] Uner nullhyotesen er β q+1 = = β = 0. Da fås MLE β = (β 1,...,β q, 0,..., 0) som gir evians = 2[ l l ] = 2[ l l(β )]. Likelihoo ratio testen gis nå ve at uner H 0 G = 2[l(ˆβ) l(β )] = ˆ χ 2 q. Vi gjør altså LRT ve å beregne evianser for moellene som sammenlignes! Test for H 0 : β = β 0 : Wal-test Me ˆβ MLE for β og se stanarfeil for ˆβ : Z = ˆβ β 0 se N(0, 1) (tilnærmet) Likelihoo-Ratio-test: Ariori MLE ˆβ = (ˆβ 1,..., ˆβ ) Uner nullhyotesen fås MLE β = (β 1,...,β 1,β 0 ) Likelihoo ratio testen gis a ve at tilnærmet G = 2[l(ˆβ) l(β )] = ˆ χ 2 1 (kjikvaratforelt me 1 frihetsgra). Forelesning STK3100. 9/31 Forelesning STK3100. 11/31 Eksemel: Biller Ariori moell: logit(µ i ) = β 0 + β 1 x i Nullhyotese: β 1 = 0 Nullevians: = 284.2 Resiual evians: ˆ = 11.23 LRT: G = ˆ = 272.97, vs. soleklar forkastning sml. χ 2 1 Ariori moell: logit(µ i ) = β 0 + β 1 x i + β 2 x 2 i Nullhyotese: β 2 = 0 Devians uner H 0 : = 11.23 Resiual evians: ˆ = 3.195 LRT: G = ˆ = 8.03, -veri P(χ 2 1 > 8.03) = 0.0046, vs. signifikant avvik LR-test for H 0 : β = β 0 0 i R For å utføre enne LR-testen i R benyttes et som kalles offset. Uner nullhyotesen er lineær reiktor η i = β 0 + β 1 x i1 + + β 1 x i, 1 + β 0 x i er β 0 x i er kjente størrelser. Disse må sesifiseres i rogrammet! I R gjøres ette ve å legge inn offset(beta0*x) i moellformelen, f.eks. > glm(y x1+x2+x3+offset(beta40*x4),family=oisson) Da vil arametrene β 0,β 1,β 2 og β 3 estimeres uner en forutsetning at β 4 = β 40. Forelesning STK3100. 10/31 Forelesning STK3100. 12/31

Eks. Biller: H 0 : β 1 = 40 uner logit-lineær moell β 0 + β 1 x i. Wal-test: Vi hae ˆβ 1 = 34.27 me se 1 = 2.912. Vi får Z 1 = 34.27 40 2.915 = 1.966 og (tosiig) -veri blir 2P(Z 1 > 1.966) = 0.049. LR-test: Finn ˆ = 11.23 = evians ariori Finner = 14.72 = evians når β 1 = 40. Differansen G = ˆ = 3.49 Devians og gooness-of-fit tester Uner gitte forutsetninger gjeler tilnærmet ˆ χ 2 n 1 uner moell η i = β 0 + β 1 x i1 + + β x i Sesielt gjeler ette når Y i Bin(n i,µ i ) er n i µ i > 5 og n i (1 µ i ) > 5 Y i Po(µ i ) og µ i > 5 Dette kan brukes til å teste om moellen svikter. Dersom P(χ 2 n 1 > ˆ ) er liten er et grunn til å tvile å moellen. som skal være trukket fra en tilnærmet χ 2 1 uner nullhyotesen, gir -veri P(χ 2 1 > 3.49) = 0.062 Forelesning STK3100. 13/31 Forelesning STK3100. 15/31 LR-Biller: H 0 : β 1 = 40 i R > glmfit0biller<-glm(cbin(doe,ant-doe) Dose,family=binomial) > glmfit2biller<-glm(cbin(doe,ant-doe) offset(40*dose), family=binomial) > anova(glmfit2biller,glmfit0biller,test="chisq") Analysis of Deviance Table Moel 1: cbin(doe, Ant - Doe) offset(40 * Dose) Moel 2: cbin(doe, Ant - Doe) Dose Resi. Df Resi. Dev Df Deviance P(> Chi ) 1 7 14.7188 2 6 11.2322 1 3.4866 0.0619 > glmfit2biller Coefficients: (Intercet) -70.9 Degrees of Freeom: 7 Total (i.e. Null); 7 Resiual Null Deviance: 14.72 Resiual Deviance: 14.72 AIC: 42.92 Resiual evians i lineær-normal moell Me ˆµ i = ˆβ 0 + ˆβ 1 x i1 +... + ˆβ x i blir resiual-eviansen ˆ = 1 σ 2 (Y i ˆµ i ) 2 = (n 1)ˆσ2 σ 2 er ˆσ 2 = n (Y i ˆµ i ) 2 /(n 1) er forventningsrett for σ 2. Men når Y i N(β 0 + β 1 x i1 +... + β x i,σ 2 ) er essuten uten tilnærmelse. ˆ χ 2 n 1 Resultatet egner seg ikke til gooness-of-fit testing for lineærnormale moeller sien vi må estimere σ 2. I moeller uten (eller me kjent) sreningsle blir et annerlees. Forelesning STK3100. 14/31 Forelesning STK3100. 16/31

Eks: Biller Me (logit)-lineær moell β 0 + β 1 x i ble ˆ = 11.23. Hvis ette er en go moell bure a ˆ = 11.23 ikke være en ekstrem veri i forhol til χ 2 6. Vi finner P(χ 2 6 > 11.23) = 0.082, altså en inikasjon å at et er mulig å forbere moellen. Vi finner a også at kvaratleet i en utviee moellen er signifikant. Kvaratlesmoellen får resiualevians 3.195 og me P(χ 2 5 > 3.195) = 0.67 er et ikke lenger antyning til moell-avvik. Pearson Kjikvarat X 2 Utrykket 1 σ 2 (Y i ˆµ i ) 2 kan også generaliseres ve Pearson Kjikvarat: X 2 = (Y i ˆµ i ) 2 Var(Y i ) Som resiualevians ˆ vil X 2 være tilnærmet χ 2 n 1 uner forutsetning av at Y i -ene er tilnærmet normalforelte. Binomisk Poisson X 2 = n (Y i n iˆµ i ) 2 X 2 = n n iˆµ i (1 ˆµ i ) (Y i ˆµ i ) 2 ˆµ i Forelesning STK3100. 17/31 Forelesning STK3100. 19/31 Kravene n i µ i > 5 og n i (1 µ i ) > 5 kan sjekkes: Beregner n iˆµ i > 5 og n i (1 ˆµ i ) > 5 > glmfit0biller<-glm(cbin(doe,ant-doe) Dose,family=binomial) > roun(ant*glmfit0biller$fit,2) 3.46 9.84 22.45 33.90 50.10 53.29 59.22 58.74 > roun(ant*(1-glmfit0biller$fit),2) 55.54 50.16 39.55 22.10 12.90 5.71 2.78 1.26 > glmfit1biller<-glm(cbin(doe,ant-doe) Dose+I(Doseˆ2),family=binomial) > roun(ant*glmfit1biller$fit,2) 7.03 10.52 19.00 29.96 49.20 54.73 60.82 59.74 > roun(ant*(1-glmfit1biller$fit),2) 51.97 49.48 43.00 26.04 13.80 4.27 1.18 0.26 Noen reikerte verier er litt små i forhol til kravet, gooness-of-fit testene å forrige sie er antagelig noe konservative. Pearson X 2 for billeataene Pearson X 2 er ikke imlementert i R, men lett å beregne: > yhat<-ant*glmfit0biller$fit > varhat<-ant*glmfit0biller$fit*(1-glmfit0biller$fit) > X2<-sum((Doe-yhat)ˆ2/varhat) > X2 [1] 10.02682 > 1-chisq(X2,6) [1] 0.1235272 > yhat<-ant*glmfit1biller$fit > varhat<-ant*glmfit1biller$fit*(1-glmfit1biller$fit) > X2<-sum((Doe-yhat)ˆ2/varhat) > X2 [1] 3.00387 > 1-chisq(X2,5) [1] 0.6993891 Altså X 2 nokså lik ˆ her. Forelesning STK3100. 18/31 Forelesning STK3100. 20/31

Resiualer LM: ˆε = y i ŷ i, tilnærmet normal GLM: Ikke normale, varianser avhengige av forventning. Trenger alternative resiualer Flere muligheter Deviansresiualer Vi kan også efinere resiualer basert å biragene til eviansen ˆ = 2 [ l i ˆl i ] er l i og ˆl i er log-likelihoo-birag i mettet moell og ve MLE ˆβ. Sesifikt efineres Devians-resiualer ve r i = sign(y i ˆµ i ) 2( l i ˆl i ) = + 2( l i ˆl i ) hvis Y i > ˆµ i 2( l i ˆl i ) hvis Y i < ˆµ i slik at vi onår ˆ = n r2 i. Forelesning STK3100. 21/31 Forelesning STK3100. 23/31 Pearson-resiualer efineres ve r Pi = Y i ˆµ i Var(Y i ) 0.5 og er altså en irekte generalisering av vanlige resiualer e i = (Y i ˆµ i )/ˆσ hvor et tas hensyn til at varians tyisk avhenger av forventningen i GLM. Deviansresiualer for binomiske ata r i = sign(y i n iˆµ i ) 2[Y i log( µ i ˆµ i ) + (n i Y i ) log( 1 µ i 1 ˆµ i )] ser ikke umielbart ut som resiualer, men gir verier som ofte ikke avviker mye fra Pearson-resiualer Merk at Pearson X 2 = n r2 Pi. > roun(resiuals(glmfit0biller,tye="earson"),2) 1.41 1.10-1.18-1.61 0.59-0.13 1.09 1.13 > sum(resiuals(glmfit0biller,tye="earson")ˆ2) [1] 10.02682 Forelesning STK3100. 22/31 > roun(resiuals(glmfit0biller,tye="eviance"),2) 1.28 1.06-1.20-1.59 0.61-0.13 1.25 1.59 > sum(resiuals(glmfit0biller,tye="eviance")ˆ2) [1] 11.23223 De er essuten efault i R: roun(resiuals(glmfit0biller),2) 1.28 1.06-1.20-1.59 0.61-0.13 1.25 1.59 Forelesning STK3100. 24/31

Sammenligning av resiualene me (logit-)lineær moell: resiualer -1.5-1.0-0.5 0.0 0.5 1.0 1.5 Deviansresiualer Pearson-resiualer 1.70 1.75 1.80 1.85 Dose Anscomberesiualer For valgte funksjoner h() kan man generelt efinere resiualer ve r ia = h(y i) h(ˆµ i ) Var[h(Y i )] 0.5 Det viser seg at h() gitt ve h (µ) = V (µ) 1/3 gir trejeorensmoment E[h(Y i ) E(h(Y i ))] 3 0 tilnærmet symmetrisk foreling bere tilnærming til normalforeling Isåfall blir også Var[h(Y i )] φ i h (µ i ) 2 V (µ i )(= φ i V (µ i ) 1/3 ) og Anscombe-resiualene r ia = h(y i) h(ˆµ i ) φi h (ˆµ i ) V (ˆµ i ) Forelesning STK3100. 25/31 Forelesning STK3100. 27/31 Sammenligning av resiualene Anscomberesiualer, forts. me moell: logit(µ i ) = β 0 + β 1 x i + β 2 x 2 i V (µ) =µ Poisson resiualer -0.5 0.0 0.5 1.70 1.75 1.80 1.85 Dose h (µ) =µ 1/3, h(µ) = 3 2 µ2/3 r ia = 3 Y 2/3 i ˆµ 2/3 i 2 ˆµ 1/6 i V (µ) =µ 3 h (µ) =µ 1, h(µ) = log µ r ia = log Y i log ˆµ i ˆµi Inv. Gaussisk Ser ingen kurvatur i lottet nå! V (µ) =µ(1 µ) Binomisk Forelesning STK3100. 26/31 Forelesning STK3100. 28/31

Anscomberesiualer, forts. Poeng me Anscomberesiualer: Nærmere normalforelte resiualer Sammenligning Anscombe, evians og Pearson resiualer: Viser seg å være tilnærmet like eviansresiualer resiualer 1.5 1.0 0.5 0.0 0.5 1.0 1.5 a a a a a a a a a Devians Pearson Anscombe 1.70 1.75 1.80 1.85 Forelesning STK3100. 29/31 Dose Forelesning STK3100. 31/31 Eks. Anscomberesiualer for billene M1<-glm(cbin(Doe,Ant-Doe) Dose,family=binomial,ata=biller) attach(biller) y0<-doe/ant n<-length(ant) varfu<-function(i) i*(1-i) her<-function(i) varfu(i)ˆ(-1/3) anscomberes<-numeric(0) for (i in 1:n) { i0<-m1$fit[i] anscomberes[i]<-integrate(her,i0,y0[i])$value anscomberes[i]<-anscomberes[i]*sqrt(ant[i])/(her(i0)*sqrt(varfu(i0))) } > roun(anscomberes,2) [1] 1.29 1.06-1.20-1.60 0.61-0.13 1.26 1.69 Forelesning STK3100. 30/31