Eksamen ST2303 Medisinsk statistikk Torsdag 30 november 2006 kl

Like dokumenter
Eksamen ST2303 Medisinsk statistikk Onsdag 3 juni 2009 kl

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Slope-Intercept Formula

Besvar tre 3 av følgende fire 4 oppgaver.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamen ST2303 Medisinsk statistikk Tirsdag 6 desember 2005 kl

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

EXAMINATION PAPER. Exam in: STA-3300 Applied statistics 2 Date: Wednesday, November 25th 2015 Time: Kl 09:00 13:00 Place: Teorifagb.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i GEOG1004 Geografi i praksis Tall, kart og bilder

KROPPEN LEDER STRØM. Sett en finger på hvert av kontaktpunktene på modellen. Da får du et lydsignal.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

0:7 0:2 0:1 0:3 0:5 0:2 0:1 0:4 0:5 P = 0:56 0:28 0:16 0:38 0:39 0:23

UNIVERSITETET I OSLO

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

NORGES TEKNISK-NATURVITENSKAPELIGE UNIVERSITET Geografisk institutt

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

Eksamen PSY1010 / PSYC1100 Forskningsmetode I

EKSAMENSOPPGAVE I SØK 1002 INNFØRING I MIKROØKONOMISK ANALYSE

EKSAMENSOPPGAVER/ EXAM QUESTIONS: BI3010 Populasjonsgenetikk / Population Genetics

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i GEOG Geografi i praksis - Tall, kart og bilder

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

Exam in Quantum Mechanics (phys201), 2010, Allowed: Calculator, standard formula book and up to 5 pages of own handwritten notes.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Medisinsk statistikk, KLH3004 Dmf, NTNU Styrke- og utvalgsberegning

UNIVERSITETET I OSLO

Speed Racer Theme. Theme Music: Cartoon: Charles Schultz / Jef Mallett Peanuts / Frazz. September 9, 2011 Physics 131 Prof. E. F.

Eksamen ENG1002/1003 Engelsk fellesfag Elevar og privatistar/elever og privatister. Nynorsk/Bokmål

Eksamen PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Våren 2011

TMA4240 Statistikk 2014

FINAL EXAM IN STA-2001

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Generalization of age-structured models in theory and practice

Oppgave 2. Benytt informasjonen i vedlagte Tabell 1 og 2 (Appendix) og besvar følgende:

Eksamensoppgave i ST3001

Databases 1. Extended Relational Algebra

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

EKSAMENSOPPGAVE I BI2034 Samfunnsøkologi EXAMINATION IN: BI Community ecology

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMEN I EMNE ST1201/ST6201 STATISTISKE METODER Onsdag 5. desember 2007 Tid: 09:00 13:00

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

EKSAMENSOPPGAVE I SØK1004 STATISTIKK FOR ØKONOMER STATISTICS FOR ECONOMISTS

Lifetime (duration of a state)

UNIVERSITETET I OSLO

FINAL EXAM. Exam in: STA-3300 Applied Statistics 2 Date: Wednesday 28. November Time: 09:00 13:00 Place: Åsgårdvegen 9. All printed and written

Examination paper for SØK2009 International Macroeconomics

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Universitetet i Bergen Det matematisk-naturvitenskapelige fakultet Eksamen i emnet Mat131 - Differensiallikningar I Onsdag 25. mai 2016, kl.

Kartleggingsskjema / Survey

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Kapittel 3: Studieopplegg

Eksamen i TFY4230 STATISTISK FYSIKK Onsdag 21. desember, :00 19:00

EN Skriving for kommunikasjon og tenkning

Emneevaluering GEOV272 V17

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Minimumskrav bør være å etablere at samtykke ikke bare må være gitt frivillig, men også informert.

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2016

TMA4240 Statistikk Høst 2013

Eksamensoppgave i AFR1000 Innføring i Afrikastudier

UNIVERSITETET I OSLO

Examination paper for BI2034 Community Ecology and Ecosystems

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

Eksamen PSY1010 PSYC1100 Forskningsmetode I vår 2013

Surgical Outcome of Drug-Resistant Epilepsy in Prasat Neurological Institute

EKSAMENSOPPGAVE I BI3013 EKSPERIMENTELL CELLEBIOLOGI

UNIVERSITY OF OSLO. Faculty of Mathematics and Natural Sciences

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

EXAM TTM4128 SERVICE AND RESOURCE MANAGEMENT EKSAM I TTM4128 TJENESTE- OG RESSURSADMINISTRASJON

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

EKSAMENSOPPGAVE I SØK2005 FINANSMARKEDER

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

Eksamensoppgave i SOS1000 Innføring i sosiologi

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

The exam consists of 2 problems. Both must be answered. English

Eksamensoppgave i GEOG1005 Jordas naturmiljø

Transkript:

Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Faglig kontakt under eksamen Stian Lydersen tlf 73867270 / 92632393 Eksamen ST2303 Medisinsk statistikk Torsdag 30 november 2006 kl 0900-300 Tillatte hjelpemidler: Godkjent kalkulator. Tabeller og formler i statistikk, Institutt for matematiske fag. håndskrevet A4-ark (stemplet ark fra Institutt for matematiske fag) Eksamenssettet består av 6 sider norsk versjon, 6 sider engelsk versjon. Oppgave I et dobbelt blindt, randomisert klinisk forsøk sammenliknes to behandlinger A og B for en bestemt sykdom. 2 av 60 pasienter som ble behandlet med A ble friske, og 9 av 60 pasienter som ble behandlet med B, ble friske. Estimer sannsynlighetene p A og p B for å bli frisk hhv ved behandling A og behandling B. Beregn et 95% konfidensintervall for p A - p B. Vi ønsker å teste om det er forskjell på behandlingene, dvs H 0 : p A = p B versus p A p B. Fisher s eksakte test gir p-verdi=0.053. Forklar (med ord, ved å skrive opp en formel, og/eller ved å skissere en figur) hvordan verdien er regnet ut. Du skal ikke gjennomføre selve beregningen. c) Regn ut p-verdien for Pearson s kjikvadrattest uten Yates kontinuitetskorreksjon. (Du kan bruke at dersom χ 2 er kjikvardratfordelt med frihetsgrad, så er 2 P( χ x) = 2 PZ ( x) hvor Z er standard normalfordelt.) Er forutsetningene for testen oppfylt her? d) Hvilke gode og/eller dårlige egenskaper, har hhv Fisher s eksakte test og Pearson s kjikvardrattest? Hvilken test vil du anbefale her og hvorfor? Sammenlikne med svarene i, og c) og kommenter.

2 Oppgave 2 Tabellen nedenfor viser klassifisering gjort av en radiolog for CT (computer tomografi) bilder for 99 pasienter der en hadde indikasjoner på nevrologiske problemer. Den sanne sykdoms-statusen ble også fastslått. Count status Total frisk (0) syk () CT klassifiserinig av radiolog sikkert sannsynligvis sannsynligvis frisk () frisk (2) syk (3) sikkert syk (4) Total 3 6 0 2 49 4 2 33 50 35 8 2 35 99 Anta i dette punktet at pasienten klassifiseres som syk dersom radiologen klassifiserer vedkommende som sannsynligvis syk (3) eller sikkert syk (4). Estimer sensitivitet og spesifisitet i denne situasjonen. Tegn den empiriske ROC-kurven for datamaterialet. Ved øyemål, hva vil du anslå arealet under ROC-kurven til å være? Hvilke(n) fortolkning(er) har dette arealet? Hva vil arealet være hhv for en perfekt diagnostisk test, og for en fullstendig ikkeinformativ diagnostisk test? c) I en logistisk regresjonsmodell med status som avhengig variabel og klassifisering som uavhengig variabel fås estimatene ˆ β 0 = 3.890 og ˆ β =.498. Basert på disse tallene, estimer sannsynligheten for at en pasient som er klassifisert som sannsynligvis syk (3), virkelig er syk. Virker svaret rimelig, hvis du sammenlikner med tabellen og/eller resultater ovenfor? Oppgave 3 Multippel imputasjon (MI) er en metode for å håndtere manglende data. Forklart kort (f.eks med 4-5 setninger) hva MI går ut på. ( ) La Q være en populasjons-størrelse vi ønsker å estimere. La Q ˆ j ( j) og U være estimat og estimert varians for estimatoren, fra imputasjon nr j. Rubin s formler for å kombinere resultatene er gitt ved Q m ˆ ( j) = Q () m j =

3 U m ( j) U m j = = (2) 2 ˆ (3) m ( j) B = Q Q m j= T = U + + B m (4) Hva regnes ut i hver av disse formlene? Vanligvis er verdien m=0 tiltrekkelig stor. Forklar kort hvorfor man ville oppnå lite ved å øke m særlig ut over dette. Oppgave 4 Figur viser Kaplan-Meier plott for overelevelse for 55 pasienter operert for hjernesvulst. Svulstene var gradert etter WHO grad (5 pasienter) eller 2 (40 pasienter), hvor grad 2 er den mest aggressive. Pasientene var i alder 5-70 år ved operasjonstidspunktet, 33 av dem var menn. Observasjonstiden pr pasient varierte fra 200 til 5900 dager, og i denne tiden døde 2 av grad pasientene, og 20 av grad 2 pasientene. Figur

4 Hva vil det si at en levetid er sensurert? Hvor mange av disse levetidene var sensurert? Basert på figuren, hva kan du si om median overlevelse for hver av de to WHO grad gruppene? Tabellen nedenfor viser resultater fra en Cox-analyse (Proportional Hazards Analysis) for det samme pasientmaterialet. Alder er gitt i år, og kjønn er kodet som mann () og kvinne (2). whograd alder kjønn B SE,585,748,043,020 -,632,468 Regn ut p-verdien for WHO grad. Sammenlikne denne med P-verdien for log rang testen for WHO grad, som i dette tilfelle er 0.00. Hva forteller hver av de to p- verdiene? c) I mange Cox-analyser for tid til død inkluderer man alder og kjønn slik som ovenfor. Figur 2 og 3 viser dødelighet som funksjon av alder og kjønn i Norge, basert på tall fra Statistisk Sentralbyrå. (Bildet er liknende for andre land i vår del av verden.) Basert på Figur 2 og/eller Figur 3, kommenter om det er i samsvar med forutsetningene for Cox-modellen å inkludere alder og kjønn slik som ovenfor. 30000 menn 25000 kvinner dødelighet, pr 00000 person-år 20000 5000 0000 5000 0 0 0 20 30 40 50 60 70 80 90 00 alder, år Figur 2: Dødelighet i Norge 2005, lineær Y-akse.

5 00000 menn 0000 kvinner dødelighet, pr 00000 person-år 000 00 0 0 0 20 30 40 50 60 70 80 90 00 alder, år Figur 3: Dødelighet i Norge 2005, logaritmisk Y-akse. Oppgave 5 Aktivert protein-c (APC) resitans kan være en risikofaktor for trombose (blodpropp). Tabellen nedenfor viser verdier målt på 0 pasienter, med 2 uavhengige målinger pr pasient (Tabell 2.7 i Rosner: Fundamentals of Biostatistics) 2 3 4 5 6 7 8 9 0 2 3 4 5 6 7 8 9 20 Total N Case Summaries a id APC 2,22 2 3,42 3 3,68 4 2,64 5 2,68 6 3,29 7 3,85 8 2,24 9 3,25 0 3,30,88 2 3,59 3 3,0 4 2,37 5 2,26 6 3,04 7 3,57 8 2,29 9 3,39 0 3,6 20 20 a. Limited to first 00 cases.

6 La Y ij betegne j te måling på pasient nr i. Anta at observasjonene er normaltfordelte. Skriv opp modellen for fordelingen til Y ij. Skriv opp korrelasjonen mellom to målinger på samme pasient, uttrykt ved parametrene i denne modellen. Hva kalles denne korrelasjonen, og hvilken annen fortolkning har den enn en korrelasjon? Hva blir estimatet for denne, basert på (hele eller deler av) utskriften nedenfor? Descriptive Statistics Dependent Variable: APC id Mean Std. Deviation N 2,0500,24042 2 2 3,5050,202 2 3 3,3450,47376 2 4 2,5050,9092 2 5 2,4700,29698 2 6 3,650,7678 2 7 3,700,9799 2 8 2,2650,03536 2 9 3,3200,09899 2 0 3,2300,09899 2 Total 2,9565,58640 20 Variance Estimates Component Estimate Var(id),309 Var(Error),05 Dependent Variable: APC

7 The Norwegian University of Science and Technology Department of Mathematical Sciences Academic contact during the exam: Stian Lydersen, tel 73867270 / 92632393 Exam ST2303 Medical statistics Thursday 30 November 2006, 0900-300 Permitted aids: Approved calculator, Tabeller og formler i statistikk, Institutt for matematiske fag. hand written A4 sheet (stamped sheet from Institutt for matematiske fag) The exam consists of 6 pages Norwegian version, 6 pages English version. Problem Two treatments A and B for a certain disease were compared in a double blind, randomized clinical trial. 2 of 60 patients treated with A were cured, and 9 of 60 patients treated with B were cured. Estimate the probabilities p A and p B of cure for treatment A and for treatment B. Compute a 95% confidence interval for p A - p B. We want to test if there is a difference between the treatments, that is, H 0 : p A = p B versus p A p B. Fisher s exact test gives p-value= 0.053. Explain using words, a formula, and/or a figure how the value is computed. Do not carry out the computation of the value. c) Compute the p-value for Pearson s chi square test without Yates continuity correction. (You may use the fact that if χ 2 is chi square distributed with degree of freedom, 2 then P( χ x) = 2 PZ ( x) where Z is standard normal distributed.) Are the assumptions for the test fulfilled here? d) What are the good and/or bad properties of Fisher s exact test and Pearson s chi square test, respectively? Which test would you recommend here, and why? Compare the answers in,, and c) and comment.

8 Problem 2 The table below shows a classification by a radiologist for CT (computer tomography) scans of 99 patients with indications of neurological problems. The true illness status was also recorded. Count status Total frisk (0) syk () CT klassifiserinig av radiolog sikkert sannsynligvis sannsynligvis frisk () frisk (2) syk (3) sikkert syk (4) Total 3 6 0 2 49 4 2 33 50 35 8 2 35 99 Assume (here in point that the patient is classified as ill if the radiologist classifies the patient as sannsynligvis syk (3) or sikkert syk (4). Estimate the sensitivity and specificity in this situation. Draw the empirical ROC-curve for the data set. Using a rough eye measure, what is the approximate area under the ROC-curve. Which interpretation does this area have? What is the area for a perfect test and for a completely non-informative test? c) In a logistic regresssion model with status as dependent variable and klassifisering as independent variable, we obtain the estimates ˆ β 0 = 3.890 and ˆ β =.498. Based on these numbers, estimate the probability that a patient classified as sannsynligvis syk (3), really is ill. Is the answer reasonable, compared to the table and/or results above? Oppgave 3 Multiple imputation (MI) is a method for handling missing data. Explain short (for example 4-5 sentences) the principle of MI. ( ) Let Q be a population quantity we want to estimate. Let Q ˆ j ( j) and U be its estimate and the estimated variance for the estimator, from imputation no j. Rubin s formulas for combining the results are given by Q m ˆ ( j) = Q (5) m j =

9 U m ( j) U m j = = (6) 2 ˆ (7) m ( j) B = Q Q m j= T = U + + B m (8) What is computed in each of these formulas? Usually the value m=0 is sufficiently large. Explain short why little would be obtained by increasing m much more than this. Problem 4 Figure shows a Kaplan-Meier plot for survival for 55 pasienter operated for brain tumor. The tumors were graded according to WHO grade (5 patients) or 2 (40 patients), where grade 2 is the most aggressive. The patients were 5-70 years old at the time of operation, and 33 of them were men. The observation time per patient varied from 200 to 5900 days, and during the observation time 2 of the grade pasients died, and 20 of the grade 2 pasients died. Figure. Survival probability as function of days from operation.

0 What does it mean that a lifetime is censored? How many of these lifetimes were censored? Based on the figure, what can you say about the median survival for each of the two WHO grade groups? The table below shows results of a Cox (Proportional Hazards) analysis for the same patient material. Age ( alder ) is given in years, and sex ( kjønn ) is coded as man () and woman (2). whograd alder kjønn B SE,585,748,043,020 -,632,468 Compute the P-value for WHO grade. Compare it to the P-value for the log rank test for WHO grade, which is 0.00. What do the two P-values tell? c) In many Cox-analyses for time to death, age and sex is included in the way above. Figure 2 and 3 show mortality as function of age and sex in Norway, based on numbers from Statistisk Sentralbyrå. (The picture is similar for other countries in our part of the world.) Based on Figure 2 and/or Figure 3, comment whether including age and sex as above agrees with the assumptions for the Cox model. 30000 menn 25000 kvinner dødelighet, pr 00000 person-år 20000 5000 0000 5000 0 0 0 20 30 40 50 60 70 80 90 00 alder, år Figure 2: Mortality in Norway 2005, linear Y-axis.

00000 menn 0000 kvinner dødelighet, pr 00000 person-år 000 00 0 0 0 20 30 40 50 60 70 80 90 00 alder, år Figure 3: Mortality in Norway 2005, logarithmic Y-axis. Problem 5 Activated protein-c (APC) resitance may be a risk factor for trombosis (blood clot). The table below shows values measured on 0 patients, with 2 independent measurements per patient (Table 2.7 in Rosner: Fundamentals of Biostatistics) 2 3 4 5 6 7 8 9 0 2 3 4 5 6 7 8 9 20 Total N Case Summaries a id APC 2,22 2 3,42 3 3,68 4 2,64 5 2,68 6 3,29 7 3,85 8 2,24 9 3,25 0 3,30,88 2 3,59 3 3,0 4 2,37 5 2,26 6 3,04 7 3,57 8 2,29 9 3,39 0 3,6 20 20 a. Limited to first 00 cases.

2 LetY ij denote measurement number j on patient number i. Assume normal distributed data. Write down the model for the distribution of Y ij. Express the correlation between two measurements on the same patient, expressed by the parameters in the model. What is this correlation called, and which other interpretation than a correlation does it have? What is its estimate, based on (all or parts of) the printout below? Descriptive Statistics Dependent Variable: APC id Mean Std. Deviation N 2,0500,24042 2 2 3,5050,202 2 3 3,3450,47376 2 4 2,5050,9092 2 5 2,4700,29698 2 6 3,650,7678 2 7 3,700,9799 2 8 2,2650,03536 2 9 3,3200,09899 2 0 3,2300,09899 2 Total 2,9565,58640 20 Variance Estimates Component Estimate Var(id),309 Var(Error),05 Dependent Variable: APC