Forelesning 8 STK3100/4100

Like dokumenter
Forelesning 9 STK3100/4100

Forelesning 9 STK3100/4100

Forelesning 11 STK3100/4100

Forelesning 11 STK3100/4100

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

7. november 2011 Geir Storvik

Tilleggsoppgaver for STK1110 Høst 2015

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Prøveeksamen i STK3100/4100 høsten 2011.

Forelesning 7 STK3100/4100

Forelesning 3 STK3100

UNIVERSITETET I OSLO

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Forelesning 7 STK3100/4100

UNIVERSITETET I OSLO

Kapittel 6 - modell seleksjon og regularisering

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Forelesning 7 STK3100

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Forelesning 10 STK3100

UNIVERSITETET I OSLO

STK2100. Obligatorisk oppgave 1 av 2

Introduksjon til Generaliserte Lineære Modeller (GLM)

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Generelle lineære modeller i praksis

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Prøveeksamen STK vår 2017

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Løsningsforslag eksamen 27. februar 2004

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

10.1 Enkel lineær regresjon Multippel regresjon

vekt. vol bruk

Prøveeksamen STK2100 (fasit) - vår 2018

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Oppsummering av STK2120. Geir Storvik

Oppgave N(0, 1) under H 0. S t n 3

Statistikk og havressurser

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Statistikk og havressurser

Generaliserte Lineære Modeller

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

EKSAMENSOPPGAVER STAT100 Vår 2011

Løsningsforslag eksamen 25. november 2003

STK Oppsummering

UNIVERSITETET I OSLO

Oppgave 1. Kilde SS df M S F Legering Feil Total

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Forelesning 6 STK3100

STK juni 2016

Forelesning 8 STK3100

UNIVERSITETET I OSLO

Klassisk ANOVA/ lineær modell

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

UNIVERSITETET I OSLO

Introduksjon til Generaliserte Lineære Modeller (GLM)

Variansanalyse og lineær regresjon notat til STK2120

Lineære modeller i praksis

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

UNIVERSITETET I OSLO

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

EKSTRAOPPGAVER I STK1110 H2017

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

Generaliserte Lineære Modeller

Fra boka: 10.32, 10.33, 10.34, 10.35, 10.3 og (alle er basert på samme datasett).

Fasit og løsningsforslag STK 1110

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

1 + γ 2 X i + V i (2)

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Statistisk analyse av data fra planlagte forsøk

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

HØGSKOLEN I STAVANGER

Ekstraoppgaver for STK2120

Forelesning 6 STK3100/4100

Til nå, og så videre... TMA4240 Statistikk H2010 (25) Mette Langaas. Foreleses mandag 15.november, 2010

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Kp. 12 Multippel regresjon

Eksamensoppgave i TMA4255 Anvendt statistikk

Oppgave 14.1 (14.4:1)

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Ridge regresjon og lasso notat til STK2120

EKSAMENSOPPGAVE STA-1001.

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

Transkript:

Forelesning STK300/400 Plan for forelesning: 0. oktober 0 Geir Storvik. Lineære blandede modeller. Eksempler - data og modeller 3. lme 4. Indusert korrelasjonsstruktur. Marginale modeller. Estimering - ML og REML 7. Modell seleksjon Eksempel: Vekst av rotter Vekt av 30 rotter målt ukentlig i uker Weight 0 00 0 300 30 0 0 30 3 days p. /33 p. 3/33 Lineær regresjon Modell y i = x T i β + ε i, i =,...,n der E[ε i ] = 0 ε,...,ε n uavhengige Var[ε i ] = σ (samme for alle obs) Vanlig lineær modell Respons Y i,j er vekt av rotte i for uke j. Individuelle forskjeller i nivå. Mulig modell: Y i,j = α i + β x j + ε i,j, ε i,j N(0,σ ) der x j er antall dager. Kan estimere α,...,α 30,β,σ ved vanlig lineær regresjon. ε i er Gaussisk Hva hvis noen av disse antagelsene ikke er tilstede? Her: Se på situasjonen med uavhengighet p. /33 p. 4/33

Eksempel rotter (forts) 30 rotter utvalg av populasjon. Av interesse hele populasjonen. Alternativ modell Y i,j = α + b i + β x j + ε i,j, ε i,j N(0,σ ) der nå b i N(0,d ). Eksempel på blandet modell Eksempel: Biomangfold i sjøen Antall arter RIKZ målt innenfor 9 områder. observasjoner innen hvert område (ulike sites ) Ønsker å forklare variasjon ved NAP : Høyde ved stasjon i forhold til gj.snittelig høyde Exposure: Index kombinert fra ulike ting (felles for hvert område) Totalt 4 obsevasjoner p. /33 p. 7/33 Indusert korrelasjonsstruktur Boksplott Y i,j =α + b i + β x j + ε i,j Var[Y ij ] =d + σ 0 hvis k i Cov[Y ij,y k,l ] = d hvis k = i,l j 0 hvis k i Cor[Y ij,y k,l ] = d hvis k = i,l j d +σ 0 0 0 3 4 7 9 p. /33 p. /33

Regresjon innen område Kombinert modell Y ij = α i + β i NAP ij + ε ij Y ij =α i + β i NAP ij + ε ij β i =η + τexposure i + b i RIKZ$Richness 0 0 0 gir Y ij =α i + (η + τexposure i + b i )NAP ij + ε ij =α i + ηnap ij + τexposure i NAP ij + b i NAP ij + ε ij.0 0. 0.0 0..0..0 RIKZ$NAP p. 9/33 p. /33 To-trinns analyse > round(beta,3) [] -0.37-4.7 -.7 -.49 -.900 -.39 -. -.93 -.9 Nivå modell β i = η + τexposure i + b i > exp = RIKZ$Exposure[c(:9)*-4] > fit = lm(beta exp) > summary(fit) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -3.739 9.4437 -.40 0.03 exp.033 0.90. 0.9 Ulemper to-trinns analyse Oppsummerer data fra hvert område med en parameter (β i ) Analyserer regresjonsparametre, ikke respons Usikkerhet i ˆβ i ikke brukt i -trinn. Endelig modell fornuftig, men ønsker en enhetlig analyse Residual standard error:.9 on 7 degrees of freedom Multiple R-squared: 0.3,Adjusted R-squared: 0.037 F-statistic:. on and 7 DF, p-value: 0.97 p. 0/33 p. /33

Lineære blandede modeller Antar Y i = X i β + Z i b i + ε i Rotte modell Y i =X i β + Z i b i + ε i Fast effekt/parameter: β med forklaringsvariable X i Tilfeldig effekt: b i med forklaringsvariable Z i. Kalles Blandet modell (mixed model) og Y i,j =α + β x j + b i + ε i,j, ε i,j N(0,σ ) p. 3/33 gir β = (α,β) T, b i = b i,σ = σ I,D = d og x x X i = x 3, Z i = x 4 x p. /33 Modell med alle antagelser Y i =X i β + Z i b i + ε i b i N(0,D) ε i N(0,Σ i ) b,..,b N,ε,...,ε N uavhengige Laird & Ware modell formulering Ofte: Forenklede strukturer på D,Σ i D = d I,Σ i = σ I Biomangfold Forenklet modell Y ij =α + b i + β i NAP ij + ε ij gir β = (α,β) T, b i = b i,σ = σ I,D = d og NAP i NAP i X i = NAP i3, Z i = NAP i4 NAP i p. 4/33 p. /33

Tilfeldig konstantledd Random intercept modell Y ij =α + b i + x T i β + ε ij Konstantledd (intercept) α + b i N(α,d ). Funksjonen lme - output - Rottedata > summary(fit) Linear mixed-effects model fit by REML Data: d AIC BIC loglik 4.30 7.90 -.0 Random effects: Formula: id (Intercept) Residual StdDev: 4.033.03 Fixed effects: weight days Value Std.Error DF t-value p-value (Intercept) 0.7 3.037970 9 3.074 0 days.7 0.0739 9 9.44 0 Number of Observations: 0 Number of Groups: 30 Her er ˆd = 4.033 = 9.939 og ˆσ =.03 = 7.303 p. 7/33 p. 9/33 Funksjonen lme lme: Lineære blandede modeller Kall vedlig likt lm. Ekstra variabel random som beskjriver tilfeldig variabel (Merk: ε ij er som vanlig direkte spesifisert i modellen) > library(nlme) > names(rats) [] "days" "weight" "id" > fit = lme(weight days,random= id,data=rats) id er her en faktor som angir hvilken rotte en observasjon tilhører random= id betyr at vi modellerer et konstantledd innenfor id, dvs vår b i. Antar direkte (default) Uavhengighet mellom bi -ene bi N(0, d ). Biomangfold > RIKZ$fBeach <- factor(rikz$beach) > Mlme <- lme(richness NAP, random = fbeach,data=rikz) > summary(mlme) Linear mixed-effects model fit by REML Data: RIKZ AIC BIC loglik 47.40 4.0-9.740 Random effects: Formula: fbeach (Intercept) Residual StdDev:.9440 3.0977 Fixed effects: Richness NAP Value Std.Error DF t-value p-value (Intercept).93.097 3.00 0 NAP -.400 0.49474 3 -.974 0 Her er ˆd =.944 =. og ˆσ = 3.00 = 9.3. p. /33 p. 0/33

Koeffisienter > Mlme <- lme(richness NAP, random = fbeach,data=rikz) > summary(mlme)$coef $fixed (Intercept) NAP.93 -.400 $random $random$fbeach (Intercept).9.990 3 -.70 4 -.7.9079 -.940 7 -.7477 -.0 9-0.4334 ˆbi = E[b i data, estimerte parametre]. Tilpassede verdier Richness 0 0 0 3 4 9 9 3 7 3 749 3 4.0 0. 0.0 0..0..0 NAP 97 Level 0 Level 47 3 47 9 p. /33 p. 3/33 Tilpassede verdier Y i =X i β + Z i b i + ε i To opsjoner for tilpassede verdier: ˆµ i =X iˆβi Nivå 0 µ i =X iˆβi + Z i ˆbi Nivå Mlme <- lme(richness NAP, random = fbeach,data=rikz) F0<-fitted(Mlme,level=0) F<-fitted(Mlme,level=) Tilfeldig konstant- og stigningsledd Random intercept and slope model Biomangfold Y ij =α + b i + (β + b i )NAP i + ε ij Konstantledd (intercept) α + b i N(α,d ). Stigning (slope) β + b i N(β,d ). Kan også ha Cov[b i,b i ] = d = d. Mlme <- lme(richness NAP, random = + NAP fbeach, data = RIKZ) p. /33 p. 4/33

R kode Indusert korrelasjonsstruktur > Mlme <- lme(richness +NAP, + random = + NAP fbeach, data = RIKZ) > summary(mlme) Random effects: Formula: + NAP fbeach Structure: General positive-definite, Log-Cholesky parametrization StdDev Corr (Intercept) 3.49074 (Intr) NAP.7499-0.99 Residual.7079 Fixed effects: Richness NAP Value Std.Error DF t-value p-value (Intercept).74.473 3.094 0e+00 NAP -.3009 0.79473 3-3.947 4e-04 Correlation: (Intr) NAP -0.9 gir Y i =X i β + Z i b i + ε i b i N(0,D) ε i N(0,Σ i ) Y i N(X i β,v i ) V i =Z i D Z T i + Σ i p. /33 p. 7/33 Tilpassede linjer Indusert korrelasjonsstruktur Y ij =α + b i + (β + b i )NAP i + ε ij RIKZ$Richness 0 0 0 3 4 9 9 3 7 3 749 3 4 97 47 3 47 9 Var[Y ij ] =d + NAP ij d + NAP ij d + σ Cov[Y ij,y ik ] =d + (NAP ij + NAP ik ) d + (NAP ij NAP ik ) d + σ.0 0. 0.0 0..0..0 RIKZ$NAP p. /33 p. /33

Intrakorrelasjon og effektiv sample størrelse Enkel situasjon: Y i = (Y i,...,y in ), E[Y ij ] =µ, Var[Y ij ] = σ, Cov[Y ij,y ik ] = ρσ ˆµ =Ȳ Var[Ȳ ] = n [ n j= Var[Y ij ] + k j Cov[Y ij,y ik ]] = + n(n )ρσ ] = σ [ + (n )ρ] n [nσ n Varians økt med + (n )ρ. Design effekt Eksempel: n =, ˆρ = 0.4 gir + (n )ρ =.9. Effektiv sample størrelse: N effective = N n design effekt = 9.9 =.4 p. 9/33 REML REML = Restricted maximum likelihood Modell (vanlig lineær regresjon): Y i = X i β + ε i, ε i N(0,σ ) Ide: Transformere data slik at β forsvinner. A er en n (n p) matrise slik at A T X = 0. Gir A T Y i =A T X i β + A T ε i N(0,σ A T A) Estimer σ ved ML basert på A T Y i. p. 3/33 Estimering Vanlig: ML estimering. REML og blandede modeller Modell gir ˆµ = ȳ og Y i uif N(µ,σ ) kombinert Y i N(X i β,v i ), V i = Z i D Z T i + Σ i ˆσ = n Foretrekker ofte n (y i ȳ) Forventningsskjev i= ˆσ = n n (y i ȳ) Forventningsrett i= Forventningsskjevhet i ML-estimat: Tar ikke hensyn til usikkerhet i µ p. 30/33 Y N(Xβ,V) Definer A slik at A T X = 0. Gir A T Y N(0,A T VA) Estimer parametre i V ved ML estimering basert på A T Y. Merk: Resultat ikke avhengig av hvordan vi spesifiserer A. Gir forventningsrette estimater! p. 3/33

Eksempel RIKZ$fExp<-RIKZ$Exposure RIKZ$fExp[RIKZ$fExp==]<-0 RIKZ$fExp<-factor(RIKZ$fExp,levels=c(0,)) M0.ML <- lme(richness NAP, data = RIKZ, random = fbeach, method = "ML") M0.REML <-lme(richness NAP, data = RIKZ, random = fbeach, method = "REML") M.ML <- lme(richness NAP+fExp, data = RIKZ, random = fbeach, method = "ML") M.REML <- lme(richness NAP+fExp, data = RIKZ, random = fbeach, method = "REML") p. 33/33