Prøveeksamen i STK3100/4100 høsten 2011.



Like dokumenter
UNIVERSITETET I OSLO

Introduksjon til Generaliserte Lineære Modeller (GLM)

7. november 2011 Geir Storvik

Forelesning 8 STK3100

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

UNIVERSITETET I OSLO

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR

Forelesning 8 STK3100/4100

Forelesning 11 STK3100/4100

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Forelesning 6 STK3100

Introduksjon til Generaliserte Lineære Modeller (GLM)

Eksponensielle klasser og GLM

Forelesning 9 STK3100/4100

Forelesning 9 STK3100/4100

UNIVERSITETET I OSLO

Tilleggsoppgaver for STK1110 Høst 2015

UNIVERSITETET I OSLO

Forelesning 11 STK3100/4100

Generaliserte Lineære Modeller

UNIVERSITETET I OSLO

Forelesning 9 STK3100

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

Forelesning 5 STK3100/4100

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Forelesning 7 STK3100

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Klassisk ANOVA/ lineær modell

UNIVERSITETET I OSLO

Forelesning 10 STK3100

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

UNIVERSITETET I OSLO

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Forelesning 6 STK3100/4100

EKSAMENSOPPGAVER STAT100 Vår 2011

Generaliserte Lineære Modeller

UNIVERSITETET I OSLO

SKOLEEKSAMEN I SOS KVANTITATIV METODE. 27. februar 2017 (4 timer)

UNIVERSITETET I OSLO

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Prøveeksamen STK2100 (fasit) - vår 2018

Forelesning 6 STK3100/4100

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Kort overblikk over kurset sålangt

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

STK juni 2016

Prøveeksamen STK vår 2017

Forelesning 7 STK3100/4100

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Forelesning 7 STK3100/4100

Fra boka: 10.32, 10.33, 10.34, 10.35, 10.3 og (alle er basert på samme datasett).

Eksamensoppgave i ST3001

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Generelle lineære modeller i praksis

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Tidspunkt: Fredag 18. mai (3.5 timer) Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler.

UNIVERSITETET I OSLO

STK2100. Obligatorisk oppgave 1 av 2

UNIVERSITETET I OSLO

10.1 Enkel lineær regresjon Multippel regresjon

EKSAMENSOPPGAVE STA-2004.

regresjonsmodeller multippel logistisk regresjon logistisk regresjon prediksjon vs assosiasjon den logistisk funksjonen (2)

UNIVERSITETET I OSLO

Lineære modeller i praksis

Løsningsforslag øving 9, ST1301

Statistisk modellering for biologer og bioteknologer, ST august, 2012 Kl. 913 Sensur: 3 uker etter eksamen

Inferens i regresjon

HØGSKOLEN I STAVANGER

TMA4245 Statistikk Eksamen desember 2016

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 3. juni Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Eksponensielle klasser

TMA4240 Statistikk Høst 2009

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4255 Anvendt statistikk

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Forelesning 6 STK3100

Ekstraoppgaver STK3100 h10

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler. Oppgaveteksten er på 11 sider.

Transkript:

Prøveeksamen i STK3100/4100 høsten 2011. Oppgave 1 (a) Angi tetthet/punktsannsynlighet for eksponensielle klasser med og uten sprednings(dispersjons)ledd. Nevn alle fordelingsklassene du kjenner som kan skrives på en slik form. (b) Utled generelle uttrykk for forventning og varians innen eksponensielle klasser. (c) Velg en av fordelingsklassene du nevnte i punkt (a) (dog ikke normalfordelingen) og vis at denne er en eksponensiell klasse. Finn på denne bakgrunn forventning og varians i klassen. (d) Gi den generelle definisjonen av en generalisert lineær modell. Utledd score ligningene for modellen. (e) Utledd et uttrykk for forventet informasjon under generaliserte lineære modeller. Hvordan må linkfunksjonen avhenge av variansfunksjonen for at forventet informasjon ikke skal avhenge av responsenes forventninger? Oppgave 2 I en studie av forekomst av Type II diabetes fant man diabets hos 97 av 21779 normalvektige og hus 623 av 16897 overvektige. (a) Beregn odds-ratioen for diabetes mellom overvektige og normalvektige. Forklar hva odds-ratioen estimerer og hvordan den fortolkes for disse dataene. (Overvekt defineres gjennom Body Mass Index = BMI = (vekt i kg)/(høyde i m) 2 der overvekt svarer til BMI 25 og normalvektig til BMI < 25.) (b) La x i = (x i1,..., x ip ) være en kovariat, β = (β 0, β 1,..., β p ) T en regresjonsparameter og η i = β 0 + β 1 x i1 + + β p x ip en lineær prediktor for individ nr. i. Med Y i = indikator for at individ i har diabetes, antas den logistiske regresjonsmodellen P (Y i = 1) = eη i 1 + e η i. Forklar hvorfor e β j kan fortolkes som en odds-ratio for j = 1,..., p. (c) På neste side er det angitt resultater fra diabetesstudien mot kovariatene x i1 = alder (i år) og x i2 = BMI (målt kontinuerlig). Beregn odds-ratioen for diabetes (i) mellom 50-åringer og 25-åringer

2 (ii) mellom individer med BMI=20 og BMI=30 (iii) mellom 50-åringer med BMI=30 og 25-åringer med BMI=20 > summary(glm(diab~alder+bmi,family=binomial)) (Intercept) -11.6387 0.2674-43.5262 alder 0.0412 0.0030 13.7757 bmi 0.2075 0.0079 26.2496 Residual deviance: 6080.9 on 38673 degrees of freedom Correlation of (Intercept) alder alder -0.5108 bmi -0.7727-0.1316 (d) Finn 95% konfidensintervall for odds-ratioene du beregnet i forrige punkt. Finn også et 95% konfidensintervall for sannsynligheten for at en 50 åring med BMI skal få diabetes. (e) Under er angitt resultater fra logistiske regresjonsanalyser bare mot alder og bare mot BMI. Gi en forklaring på fenomenet som opptrer. alder og BMI var lik 0.32 i denne studien. > summary(glm(diab~alder,family=binomial)) (Intercept) -6.74306 0.15856-42.52612 alder 0.05467 0.00276 19.75154 Korrelasjonen mellom Residual deviance: 6689.7 on 38674 degrees of freedom > summary(glm(diab~bmi,family=binomial)) (Intercept) -10.07061 0.21893-45.99865 alder 0.22902 0.00749 30.42720 Residual deviance: 6282.5 on 38674 degrees of freedom

3 Oppgave 3 Vi vil i denne oppgaven se på et datasett fra Ohio. Datasettet som omhandler 536 barn var samlet inn som en del av et studie om effekten av luftforurensning. Barna var med i studiet i 4 år fra alder 7 til 10. Response var en binær variabel lik 1 hvis barnet hadde en tung pust (hvesing) og 0 ellers. I tillegg var følgende variabler registert: id en variabel som identifiserer barnet age 7 år=-2, 8 år=-1, 9 år=0, 10 år = 1 smoke en indikator om mor var røyker i første år av studiet (1=røker, 0 ellers) For hvert barn er det 4 observasjoner, ett per år. (a) Nedenfor følger en utskrift av en glm tilpasning med binomisk fordeling på responsen og logit link samt age og smoke som forklaringsvariable Call: glm(formula = resp ~ age + smoke, family = binomial, data = ohio) Pr(> z ) (Intercept) -1.88373 0.08384-22.467 <2e-16 *** age -0.11341 0.05408-2.097 0.0360 * smoke 0.27214 0.12347 2.204 0.0275 * (Dispersion parameter for binomial family taken to be 1) Null deviance: 1829.1 on 2147 degrees of freedom Residual deviance: 1819.9 on 2145 degrees of freedom AIC: 1825.9 Number of Fisher Scoring iterations: 4 (b) Forklar hva de ulike deler av utskriften betyr. Hvilke svakheter ligger i denne analysen? (c) En utvidet analyse der id er tatt med som en kategorisk forklaringsvariabel ga følgende resultat (der regresjonstabellen er forkortet ned ved at rader tilhørende id faktorene ikke er tatt med) Call:

4 glm(formula = resp ~ age + smoke + as.factor(id), family = binomial, data = ohio) Deviance Residuals: Min 1Q Median 3Q Max -1.836e+00-5.710e-06-8.363e-07-5.912e-07 1.840e+00 Pr(> z ) (Intercept) -4.968e+07 3.415e+07-1.455 0.14573 age -2.353e-01 7.893e-02-2.981 0.00288 ** smoke 1.149e+13 1.037e+14 0.111 0.91179... (Dispersion parameter for binomial family taken to be 1) Null deviance: 1829.09 on 2147 degrees of freedom Residual deviance: 774.72 on 1609 degrees of freedom AIC: 1852.7 Number of Fisher Scoring iterations: 25 Utfør en likelihood ratio test for å sammenlikne de to modellene. Hvilken modell vil du konkludere med er best? Hvilken konklusjon får du hvis du bruker AIC kriteriet? (d) Forklar hvorfor residual deviansen for modellen som innkluderer id som forklaringsvariabel har så mye færre frihetsgrader. Diskuter svakheter med denne tilnærmingen (e) Vi vil nå istedet se på en blandet modell der logit(p ij ) = X ij β + b i der b i N(0, σ 2 b ) og der vi nå antar Y ij b i Binom(1, p ij ) og gitt b i -ene så er alle Y ij -ene uavhengige. Diskuter fordeler med en slik modell. Diskuter også hvilke (beregningsmessige) problemer slike modeller kan gi. (f) Skisser kort ulike strategier for estimering innen en GLMM modell. (g) Nedenfor følger en utskrift av tilpasning basert på GLMM modellen ovenfor.

5 Generalized linear mixed model fit by the Laplace approximation Formula: resp ~ age + smoke + (1 id) Data: ohio AIC BIC loglik deviance 1598 1621-795 1590 Random effects: Groups Name Variance Std.Dev. id (Intercept) 5.4906 2.3432 Number of obs: 2148, groups: id, 537 Fixed effects: Pr(> z ) (Intercept) -3.37398 0.18710-18.033 <2e-16 *** age -0.17677 0.06995-2.527 0.0115 * smoke 0.41465 0.29599 1.401 0.1612 Hva blir estimatet for σ 2 b her? Vil du foretrekke denne modellen fremfor de tidligere modeller? Begrunn svaret. Virker det som smoke er en viktig forklaringsvariabel her? Oppgave 4 Anta en GLMM modell Y ij b i uif Poisson(µ i j) log(µ ij ) =x T ijβ + b i b i uif N(0, σ 2 b ) Du kan i denne oppgaven bruke (uten å vise det) at E[exp(b i )] = exp(0.5σ 2 b ) Var[b i ] =(exp(σ 2 b ) 1) exp(σ2 b ) (a) Finn den marginale forventning til Y ij og diskuter resultatet i forhold til fortolkning av regresjonskoeffisienter på individ og populasjonsnivå. (b) Finn også den marginale variansen til Y ij samt kovariansen mellom Y ij og Y ik. Diskuter hvordan disse resultatene kan brukes for å gjøre uformelle sjekk på om modellen er rimelig.