Løsningsforslag Til Statlab 5 Jimmy Paul September 6, 007 Oppgave 8.1 Vi skal se på ukentlige forbruk av søtsaker blant barn i et visst område. En pilotstudie gir at standardavviket til det ukentige forbruket σ = 80gr. Pilotstudier angir altså standardavviket til populasjonen. Vi skal estimere standardfeilen til gjennomsnittet for utvalgstørrelser på 5,100 og 65. Vi ser nå på tilfellet der n = 5. σ x = σ n = 80 5 = 16g Ser på tilfellet der n = 100. σ x = σ n = 80 100 = 4g Ser på tilfellet der n = 65. σ x = σ n = 80 65 = 3.g Jo større utvalget er, jo mindre blir standardfeilen. Usikkerheten i gjennomsnitt avtar når antallet observasjoner øker. 1
Oppgave A3 (d-e) X er en stokastisk variabel som angir blodtrykket målt i mmhg. Vi har at den X N(136, 18) og antall personer n = 36. Vi skal finne sannsynligheten for at det gjennomsnittlige blodtrykket blant de 36 overstiger ( X 136 Pr(X 140) = Pr 18/ 36 = P r(z 4 18/6 ) = P r(z 4 3 ) = 1 P r(z 4 3 ) = 1 0.908 = 0.0918 = 9.18% ) 140 136 18/ 36 e) Sentralgrenseteoremet sier at en sum av mange uavhengige stokastiske variable blir tilnærmet normalfordelt hvis ingen av dem har en dominerende inflytelse på resultatet. I d) har vi en slik sum (gjennomsnittet er jo lik summen delt på n) av mange uanhengige variabler hvor ingen er dominerende (siden de kommer fra samme fordeling). Det betyr at gjennomsnittet vil være tilnærmet normalfordelt uansett, selv om ikke blodtrykket er det. Oppgave 8.6 Oppgaven tar utgangspunktet i en undersøkelse over kostvanene til 16 gutter som gikk på en videregående skole. Vi lager først et histogram over melkeforbruket til guttene.
melk pr dag antall gutter 0.0-1 0 1- -3 0 3-4 8 4-5 5-6 1 6-7 7-8 0 8-9 0 9-10 1 b) Vi beregner gjennomsnittet. X = 1 16 16 i=1 X i = 6.3 + 6.9 + 3.0 +... + 5.6 + 3.0 16 = 66 16 = 4.15 b) Vi beregner medianen. Den finner vi på plass nr n+1 = 16+1 = 8.5 i tall materialet når observasjonene er sotert fra minste observasjon til største observasjon. Det tilsvarer gjennomsnittet av observasjon 8 og 9. Median = 3.6 + 3.6 = 3.6 c) Vi skal konstruere et 95% KI for det forventede melkeforbruket pr dag. til en tilfeldig utvalgt gutt fra den videregående skolen. Dvs. et intervall som har sannsynlighet 0.95 for å dekke den sanne forventningen. Et KI er gitt som følger. X ± C s X hvor X er gjennomsnittlig melkeforbruk, 4.15 dl C er hentet fra Studentfordelingen, tabell s 39. Antall frihetsgrader er n 1 = 16 1 = 15. Sannsynligheten for å overstige angitt grense er α = 0.05 = 0.05. Det gir c =.131 Estimert standardfeil s X = s n =.1 16 =.1 4 3
[4.15 ±.131.1 ] = [3.03, 5.7] 4 Vi påstår med 95% sikkerhet at den sanne differansen vil ligge i dette intervallet. For å kunne gjøre en slik beregning har vi forutsatt at De 16 enkeltobservasjoenen kan oppfattes som uavhengige stokastiske variable. Hver av de enkeltobservasjonene er normalfordelte. De kan oppfattes som tilfeldige trekninger fra normalfordeling Hvis flere av guttene er nære venner, kan det hende at disse har samme kostvaner og derfor tilnærmet likt melkeforbruk. Disse observasjonene vil være uavhengige og forutsetningene om uavhengighet vil ikke være oppfylt. d) 16 jenter har gjennomsnittlig melkeforbruk på.59 dl pr dag med std.avvik på 1. dl. Vi skal teste følgende påstand. Er tallene en klar indikasjon på at gutter jevnt over drikker mer melk enn jenter?. Vi tester på 5% nivå. H 0 : µ 1 = µ H A : µ 1 µ Vi har to uavhengige utvalg og under H 0 vil følgende teststørrelse være t- fordelt med n + n = 16 + 16 = 30 frihetsgrader. t = X 1 X 1 S f n 1 + 1 n der S f er gitt som t = S f = (n 1 1)s 1 + (n 1)s n 1 + n 4.15.59 (16 1).1 +(16 1) 1. 16+16 1 + 1 16 16 =.58 4
Vi finner så p-verdien. P verdi : P r(t.58) < 0.01 = 0.0(eksakt verdi kan finnes i SPSS) Siden P-verdi 0.0 og 0.0 0.05, forkaster vi H 0 og aksepterer ar de sanne (men ukjente) forventningene er ulike. Det er nærliggende å tro at guttenes forventede melkeforbruk er høyere enn jentenes i den aktuelle aldersfruppen. Når det gjelde P (T.58) kan vi lese i tabell side 39 at denne sannsynligheten ligger mellom 0.01 og 0.005 siden.457 <.58 <.750. Oppgave 8.8 Oppgaven tar utgangspunkt i et forsøk utført på 8 personer med Angina Pectoris. Han var interessert i å vurdere betydningen av røyking. Personene syklet først på ergometersykkel med en bestemt belastning. En målte så tiden inntil de begynte å kjenne smerter i brystet. Etter en pause ble hver person bedt om å røyke fem sigaretter. Deretter syklet de på nytt, og målte igjen tiden til de fikk smerter i brystet. a) Først beregner vi differansen mellom tidene før og etter røyking for hver enkelt pasient. Pasient nr 1 3 4 5 6 7 8 Før røyking 3 10 51 46 4 39 0 11 tid i sekunder Etter røyking 135 119 145 11 136 14 118 107 Differanse 97 91 106 15 88 115 10 104 Finner gjennomsnittet for de åtte differansene. X = 1 8 16 i=1 X i = 97 + 91 + 106 + 15 + 88 + 115 + 10 + 104 8 = 103, 5 5
Finner medianen for de åtte differansene. Medianen finnes på plass nr n+1 = 8+1 = 4.5 når differansene er sotert fra minste til største observasjon. Dvs snittet av observasjon nr 4 og nr 5. Median = 10 + 104 b) Vi skal beregne et 95% KI for den forventede reduksjonen i tid til smerte når pasienten har røyket fem sigaretter. Dvs. et intervall som har sannsylighet 0.95 for å dekke den sanne differansen. Et konfidensintervall er gitt som X ± C s X hvor X er gjennomsnittlig differanse, 103.5 C er hentet fra Studentfordelingen, tabell s 39. Antall frihetsgrader er n 1 = 8 1 = 7. Sannsynligheten for å overstige angitt grense er α = 0.05 = 0.05. Det gir c =.365 Estimert standardfeil s X = s n = 1. 8 [103.5 ±.365 1. 8 ] = [93.3, 113.7] Vi påstår med 95% sikkerhet at den sanne differansen vil ligge i dette intervallet. Oppgave 8.11 Oppgaven tar utgangspunkt i en studie av nivået av serum kolesterol på 10 pasienter. Nivået er målt før og etter diett i kombinasjon med mosjon. Aller først beregner vi differnasen mellom disse nivåene. Den er et mål på effekten. 6
Pasient Før Etter Differanse 1 01 00 1 1 16 5 3 8 4 4 4 37 16 1 5 36 96 30 6 35 195 40 7 40 07 33 8 57 47 10 9 84 60 4 10 10 09 1 Vi vil avgjøre om mosjon i kombinasjon med diett reduserer kolesterolnivået. a) Vi lar X være en stokastisk variabel som måler differansen i kolesterolnivået på hver pasient. H 0 : µ = 0, ingen forskjell H A : µ 0, vi kan ikke utelukke det motsatte hvor µ er forventet reduksjon. Testen er tosidig med nivå på 0.05. Teststørrelsen t = X 0, der X er gjennomsnittlig reduksjon og s s X er standardfeilen til den X gjennomsnittlige reduksjonen, er t-fordelt med 9 frihetsgrader under H 0 X = 1 10 s X = 10 i=1 s n = X i = 16.9 1 10 10 i=1 (X i X) 10 = 14.505 10 = 4.5861 t = 16.9 0 4.5861 = 3.69 P-verdien,sannsynligheten for å få en teststørrelse som er like stor som denne eller enda større, gitt at H 0 er sann: P (T t) = P (T 3.69) < 0.005 = 0.01 Siden 0.01 < 0.05 forkaster vi H 0 og godtar diett i kombinasjon med mosjon gir ulikt forventet kolesterolnivå. Det er nærliggende å tro at diett i kombinasjon med mosjon gir reduksjon i kolesterolnivået. 7
b) Antallet pasienter som får nedgang i kolesterolnivået er binomsik fordelt fordi Pasientene er uavhengige av hverandre Hos hver pasient registreres det om det er blitt reduksjon i kolesterolnivået Sannsynligheten for reduksjon er lik hos hver pasient La p være sannsynligheten for reduksjon. Vi tester da H 0 : p = 0.5, ingen forskjell H A : p 0.5, Vi har observert at Y = 10. P-verdien blir da P (Y 10) = P (Y = 10) = ( ) 10 0.5 10 0.5 0 = 0.5 10 10 = 0.00098 = 0.00196 Siden 0.00196 < 0.05, forkaster vi H 0 og aksepterer at pasientene som deltar i opplegget med diett i kombinasjon med mosjon har en sannsynlighet for reduksjon som er ulik 0.5. Det er nærliggende å tro at behandlingen har positiv effekt. c) Metoden i b) betrakter bare hvorvidt det var en nedgang i kolesterolnivået eller ikke, og ikke størrelsen på nedgangen. Fordelen med det er at det da vil være lettere å oppdage en reell men liten reduksjon. En annen fordel er at metoden i b) ikke forutsetter noe om fordelingen til verdiene, (bare at antall pasienter er binomisk fordelt) mens den egentlig bygger på normalfordelte verdier. 8
Oppgave 8.14 F pers Dil+grapejuice Dil+vann Diff Rang Ord Rekk 1 95.4 44.5 50.9 10 10 64.3 56.9 7.4 4 5 3 71. 57.9 13.3 8 8 4 36.8 4.7-5.9 5 63.1 57.3 5.8 1 3 6 53.5 40.8 1.7 7 7 7 109.9 70.3 39.6 9 9 8 54.1 61.8-7.7 5 1 9 79.1 67.9 11. 6 6 10 80.9 74.4 6.5 3 4 a) Vi skal benytte en ikke-parametrisk test til å vurdere om det er forskjell i plasmakonsentrasjonen av diltiazem inntatt med og uten grapefruktjuice. Vi velger 5% nivå. H 0 : µ = 0 H A : µ 0 Hvor µ er den sanne,men ukjente,differansen. Som testobservator bruker vi summen av rangtall for de negative verdiene. T µ = + 5 = 7 Under H 0 vil følgende størrelse være standardnormalfordelt. Z = T µ E(T ) SD(T ) Den forventede summen av negative rangtall E(T n(n + 1) 10(10 + 1) ) = = 4 4 n(n + 1)(n + 1) 10(10 + 1)( 10 + 1) SD(T ) = = 4 4 = 9.81 9
Bruker dette til å finne følgende. Z = 7 7.5 =.09 9.81 P-verdi : = P (Z.09) = (1 P (Z.09)) = (1 0.9817) = 0.0366 H 0 forkaster på 5% nivå siden 0.0366 < 0.05. Vi godtar at det er forskjell i plasmakonsentrasjon. b) Det er rimelig å velge en ikke-parametrisk metode fordi fordelingen til differansen har to ekstremverdier,og vi har få observasjoner. c) Vi skal estimere median forskjell. Medianen finnes på plass n+1 = 10+1 = 5.5. Det vil si snittet observasjon 5 og 6(når observasjonene er i ordnet rekkefølge) 7.4 + 11. Median = = 9.3 Tilhørende konfidensintervall på 95% (observasjon d nedenifra,observasjon d ovenfra) d = (n + 1 1.96 n) = (10 + 1 1.96 10) =.4 = Vi må runde ned til nærmeste heltall,intervallet vil bli bredere og derfor større enn 95% konfidensintervall. ( 5.9, 39.6) Dette intervallet inneholder 0, og H 0 forkastes derfor ikke her. Grunnen til at vi har en annen konklusjon enn i a) er at signifikansnivået ikke lenger er 5%, men endel lavere. Det er lavere enn 3.66%. 10