STK H-26 Løsnngsforslag Alle deloppgaver teller lkt vurderngen av besvarelsen. Oppgave I et tlfeldg utvalg på normalvektge personer, og overvektge personer, måles konsentrasjonen av 2 ulke protener blodet. For omtrent halvparten av dsse protenene ser verdene ut tl å være relatvt normalfordelte ( begge gruppene). For resten av protenene ser verdene ut tl å være skjevfordelte ( begge gruppene), og for 4 av protenene er fordelngen ekstremt skjev. Verdene tl de 4 sstnevnte protenene er knapt målbare for majorteten av de 2 personene studen, mens et fåtall personer hver gruppe har ekstremt høye verder. a) Hvlke oppsummerngstall (deskrptv statstkk) vlle du brukt for å beskrve konsentrasjonen av dsse protenene blod? De normalfordelte: x og sd for hver gruppe. De skjevfordelte og de ekstremt skjevfordelte: Medan og kvartler for hver gruppe. Begrunn svaret. x og sd gr gode oppsummernger av data som er tlnærmet normalfordelte (rmelg symmetrske og med lette haler), jfr regelen for x 2 sd og x 3 sd Medan og kvartler er robuste tall og egner seg for å beskrve data som kke er symmetrske om mdten. b) Sett opp nullhypotese og alternatv hypotese for å undersøke om det er forskjell konsentrasjonen av protener blodet tl deltakerne de to gruppene. Hvlke(n) hypotesetest(er) vl du bruke for å sammenlgne gruppene? Begrunn svaret.
Gjelder alle: Alternatv formulerng for de normalfordelte: H: Gruppene er lke Eller H: Gruppene er kke lke Eller Alternatv formulerng for de skjevfordelte (ford n er stor og CLT trolg slår nn) Eller Eller Der er forventnngsverden den normalvektge gruppa (gruppe ) og er forventnngsverden den overvektge gruppa (gruppe ) To-utvalgs t-test Alternatv formulerng for de ekstremt skjevfordelte Rangsum = Rangsum Rangsum Rangsum Der Rangsummene er summen av rangerngene tl verdene de to gruppene. Wlcoxon rank sum test Ford n er stor, antas det at man kan bruke to-utvalgs t-test både for de normalfordelte dataene og de skjevfordelte dataene, unntatt de 4 ekstremt skjeve. Dsse er trolg for skjeve tl at CLT (Sentralgrenseteoremet) har slått nn nok ved denne utvalgsstørrelsen. Wlcoxon rank sum test er tryggest her. c) Forskerne som planla denne studen ønsket å bruke et sgnfkansnvå på 5%, altså α=.5. Hva betyr dette? Sgnfkansnvået er den (subjektvt vurdert) maksmalt akseptable sannsynlgheten for Type I-fel. P(Type I-fel) = P(Forkaste H H) =.5 Anta at H er sann for alle de 2 protenene. Hvor mange sgnfkante gruppeforskjeller kan man allkevel forvente å fnne? (Dersom man gjør 2 uavhengge hypotesetester, hver med sgnfkansnvå 5%?) Med 2 tester og P(Type I-fel) = P(Forkaste H H) =.5 hver test: Forventer 2*.5= sgnfkante tester. Anta så at man gjør en stude der man kke gjør tester for alle de 2 protenene, men velger tre av dem, som antas å være uavhengge. Hvs sgnfkansnvået er 5% hver test, hva er den totale sannsynlgheten for type -fel denne studen? Ved tre tester: P(Type I-fel) = P(Forkaste H H) = P(Mnst én H forkastes Alle 3 H er sanne) = = P(Alle H beholdes H) = -.95 3 =.426: Oppgave 2 I en test av meterstokker/tommestokker som Forbrukerrådet gjorde 26, ble 2 meterstokker vurdert etter hvor nøyaktge de var. Med hjelp fra Justervesenet ble meterstokkene festet en kalbrert rgg, og så ble
punktet der meterstokken vste 99 cm sammenlgnet med fast ved hjelp av lasernferometer. Forbrukerrådet ønsket å teste om nøyaktgheten på meterstokkene hadde en sammenheng med prsen. De to utskrftene under vser en korrelasjonsanalyse og en regresjonsanalyse for sammenhengen mellom prs ( kr), y, og nøyaktghet ( mm), x. OBS: Det ble oppdaget tdlg på eksamen (av en student) at x og y var ombyttet. Dette ble det gjort oppmerksom på alle eksamensrommene (ca halvves), og faglærer gkk rundt etterpå. Rktg oppgavetekst er De to utskrftene under vser en korrelasjonsanalyse og en regresjonsanalyse for sammenhengen mellom prs ( kr), x, og nøyaktghet ( mm), y. a) Formulér regresjonsmodellen som er utgangspunktet for regresjonsanalysen. y x, ~ N(, ) Ta så utgangspunkt de to analysene utskrftene over, og formulér de tlhørende to sett med hypoteser (altså nullhypotese og alternatv hypotese), for to ulke parametere, som begge kan brukes når man vl teste om det er en sammenheng mellom prs og nøyaktghet. Korrelasjonsanalyse for om det er en sammenheng mellom prs og nøyaktghet: Korrelasjonen «populasjonen» (den sanne korrelasjonen) er ρ. H: Ingen sammenheng mellom prs og nøyaktghet, ρ = H: Det er en sammenheng mellom prs og nøyaktghet, ρ (Alternatvt ensdge hypoteser, der nøyaktgheten øker med prsen ) Regresjonsanalyse for prs og nøyaktghet: y x H: Ingen sammenheng mellom prs og nøyaktghet, β = H: Det er en sammenheng mellom prs og nøyaktghet, β (Alternatvt ensdge hypoteser, der nøyaktgheten øker med prsen) Begrunn hvorfor du velger ensdg eller tosdge hypoteser. Jeg har valgt tosdge hypoteser ford det er mest konservatvt, og jeg kke vet noe om verken produksjon av meterstokker, deres nøyaktghet, eller prsmodeller som blr brukt. (Alternatvt Jeg har valgt ensdge hypoteser ford det er grunn tl å undersøke om nøyaktgheten øker med prs.) Hvlke(n) konklusjon(er) trekker du? Både korrelasjonsanalysen basert på Pearson s r, og regresjonsanalysen gr en p-verd for (H: ˆ =) på.397, som vl g konklusjonen «Behold H» på alle sgnfkansnvåer under.397. V beholder derfor H, og konkluderer med at det er ngen sgnfkant sammenheng mellom nøyaktghet og prs. Pearson's product-moment correlaton p-value =.3969 Coeffcents: Estmate Std. Error t value Pr(> t ) prs.752.22.867.397
Oppgave 3 I en stude av 2 frske gravde kvnner ble deltakerne rekruttert etter hvert som de søkte fødeplass på et gtt sykehus. Forskerne ønsket å fnne ut om det var en sammenheng mellom mors blodsukkernvå (målt mmol/l) og barnets fødselsvekt (målt gram). På nklusjonstdspunktet var kvnnene gravde tredje måned, og fastende blodsukker ble målt. Det måles om morgenen før frokost. Følgende regresjonsanalyse ble gjort: a) Hva er effektmålet her, Effektmål: Et tall som oppsummerer effekten av (varasjon ) blodsukker på (varasjon ) fødselsvekt. I en regresjonsanalyse er det regresjonskoeffsenten som vser stgnngstallet tl regresjonslnja ( regresjonslgnngen y x ). og hvordan tolkes det? er stgnngstallet tl regresjonslnja. Det vser hvor mange enheters forskjell fødselsvekt (y) som forventes når blodsukkeret (x) øker med en enhet. G et estmat for sammenhengen mellom mors blodsukkernvå og barnets fødselsvekt, Fra utskrften: ˆ 72 og beregn et 95% konfdensntervall for det samme. Bakgrunnen for studen [ mye om de fysologske prosessene dette ] påvrker kroppens evne tl å regulere blodsukkeret. b) Hva menes med en konfunderende varabel (confounder eller lurkng varable)? En konfunderende varabel er en varabel som både påvrker responsvarabelen og forklarngsvarabelen en regresjonsanalyse (common cause), og dermed også påvrker sammenhengen (estmatet for effektmålet) mellom de to varablene. V må ha ekspertkunnskap om problemet for å avgjøre om en varabel er en konfounder.
Kan mors body mass ndex (bm), altså (vekt kg)/(høyde m) 2, ses å være en konfunderende varabel for sammenhengen mellom mors blodsukkernvå og barnets fødselsvekt? Ja. Begrunn svaret. Her har v nok opplysnnger oppgaveteksten tl å kunne anta at bm kan påvrke (det målte) blodsukkeret, altså forklarngsvarabelen, og at bm også kan fødselsvekta (responsvarabelen) gjennom andre mekansmer enn blodsukkeret. I så fall vl estmatet for sammenhengen mellom blodsukker og fødselsvekt være based/felaktg, hvs v kke tar hensyn tl bm analysen. c) Bruk følgende utskrft tl å g et nytt estmat Fra utskrften: ˆ 94 og et nytt 95% konfdensntervall for sammenhengen mellom mors blodsukkernvå og barnets fødselsvekt. Er det en sammenheng mellom mors blodsukkernvå og barnets fødselsvekt? Ne, det er kke en sgnfkant sammenheng mellom mors blodsukkernvå og barnets fødselsvekt. Begrunn svaret Begrunnelse : Dette tlsvarer en hypotesetest for H: Ingen sammenheng mellom mors blodsukkernvå og barnets fødselsvekt, β =, mot H: Det er en sammenheng mellom mors blodsukkernvå og barnets fødselsvekt, β en regresjonsmodell med tre parametere, y x 2x2, der x er blodsukker og x2 er bm, som vst den sste utskrften oppgaven. Der ser v at p-verden er.28, hvlket betyr at H beholdes på nvå.5. Begrunnelse 2: 95% KI for fra c) nneholder H-verden =, og det forteller oss det samme som hypotesetesten, nemlg at v beholder H (på nvå.5). Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) 2964.5 336.97 8.798 7.3e-6 *** blodsukker 93.763 87.426.72.2848 bm 9.883 8.397 2.368.89 * Den sgnfkante sammenhengen mellom mors blodsukkernvå og barnets fødselsvekt som v så oppgave a) forsvnner altså når v korrgerer for den konfunderende varabelen bm, og det er derfor grunn tl å tro at sammenhengen mellom mors blodsukkernvå og barnets fødselsvekt kke var reell, men skyldtes konfunderng.
Oppgave 4 I en stude av øretermometere fant man ut at sammenhengen mellom den sanne kroppstemperaturen (sentraltemperaturen) y, og målngene fra øretermometeret x (kalt ear utskrften), kunne uttrykkes ved regresjonslgnngen y x, ~ N(, ) Gjennomsntt og standardavvk ( ºC) var x 37.,. 83 sd, og y 37. 89, sd. 92. Utskrften vser en regresjonsanalyse som ble gjort på målnger av 237 ntensvpasenter, der det var mulg å gjøre en nøyaktg målng av sentraltemperaturen: Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) 3.74544.5257 2.476.4 * ear.927.475 22.58 <2e-6 *** Resdual standard error:.572 on 235 degrees of freedom a) G estmater for parameterne og Fra utskrften ser v at estmatet for ˆ 3. 7, og ˆ. 92. og tolknng av estmatene for parameterne og, x y ˆ vser hvor regresjonslgnnga skjærer y-aksen. Hvs øretermometer og sentraltemperaturen vste det samme (som de deelt sett burde gjøre), vlle denne vært. At ˆ >, vser at sentraltemperaturen er ltt høyere enn øretemperaturen. Tlsvarende vser ˆ stgnngstallet tl regresjonslnja. Igjen, hvs øretermometer og sentraltemperaturen vste det samme (som de deelt sett burde gjøre), vlle denne vært. og sett opp hypotesene de hypotesetestene som reflekteres de to første p-verdene utskrften. H: β =, mot H: β (p-verd.4) og H: β =, mot H: β (p-verd <.)
b) Lag et 95% predksjonsntervall for sentraltemperaturen når øretemperaturen vser 38 ºC.
c) Dfferansene mellom målngene av sentraltemperaturen og øretemperaturen hadde et gjennomsntt på.78 ºC og et standardavvk på.52 ºC. Beregn et 95% konfdensntervall for forventet forskjell på de to målemetodene, og kommentér svaret. Både regresjonsanalysen tdlgere oppgaven og konfdensntervallet vser at det er en statstsk sgnfkant forskjell på øretemperaturen og sentraltemperaturen, mer spesfkt at sentraltemperaturen (den rktge temperaturen) er høyere enn det øretemperaturen vser. Det er derfor grunn tl å være forsktg med å bruke øretemperatur, speselt hvs man har med krtsk syke pasenter å gjøre, eller pasenter som kke tåler å ha høy feber.