Løsigsforslag adre obligatoriske oppgave i STK 1110 høste 2014 Oppgave 1 Vi har 10 måliger av kroppstemperatur for friske kvier x 1,x 2,...,x 10 og 10 måliger for friske me y 1,y 2,...,y 10 a) Vi lager et boksplott for de to variablee ved hjelp av R på følgede måte: kvier <- c(36.6, 36.7, 36.8, 36.8, 36.7, 37.0, 37.1, 37.3, 36.9,37.4) me <- c(36.1, 36.3, 36.4, 36.6, 36.6, 36.7, 36.7, 37.0, 36.5, 37.1) boxplot(me, Kvier, ames=c("me", "Kvier")) og får utskrifte 36.2 36.4 36.6 36.8 37.0 37.2 37.4 Me Kvier Fra boksplottet ovefor ser det ut som om kvier har oe høyere kroppstemperatur e me. Vi ser også at temperaturee hos de målte kviee er mer skjevt fordelt e hos meee, me her skal vi huske på at 10 observasjoer er lite. b) Vi lager kvatilplott (qqplot) vha R: par(mfrow=c(1,2)) qqorm(me, ylab="kroppstemperatur til me") 1
qqlie(me) qqorm(kvier, ylab="kroppstemperatur til kvier") qqlie(kvier) og får følgede resultat Normal Q Q Plot Normal Q Q Plot kroppstemperatur til me 36.2 36.4 36.6 36.8 37.0 kroppstemperatur til kvier 36.6 36.8 37.0 37.2 37.4 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Theoretical Quatiles 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Theoretical Quatiles Vi ser at det er oe observasjoer som ligger lagt fra lija i begge plottee så det er vaskelig å avgjøre om måligee kommer fra e ormalfordelig. Dette ka skyldes at utvalgee er veldig små. I reste av oppgave skal vi ata at observasjoee er uavhegige og kommer fra ormalfordeliger. c) La X 1,...,X m represetere kroppstemperature hos m kvier og Y 1,...,Y hos me der X i N(µ X,σX 2 ), i = 1,...,m ogy i N(µ Y,σY 2 ), i = 1,..., alle uavhegige av hveradre. Vi atar at variase er de samme for begge to utvalg, σ 2 := σx 2 = σ2 Y. (Vi ser utfra boksplottet at variasee er gaske like. Dette skal vi uasett teste i deloppgave (e)) Side variase er de samme har vi at Z = X Y (µ X µ Y ) σ 2( 1 + ) N(0,1). 1 m Vi er ødt til å estimere σ 2. Vi utfører e pooled t-prosedyre som er basert på atagelse om lik varias som ma estimerer vha. SX 2 og S2 Y på følgede måte: Side S 2 X og S2 Y S 2 p := ˆσ 2 = m 1 m+ 2 S2 X + 1 m+ 2 S2 Y. er uavhegige, ka ma se at m+ 2 S 2 σ 2 p = m 1 S 2 σ 2 X + 1 S 2 σ 2 Y χ 2 m 1 +χ 2 1 χ 2 m+ 2 2
slik at T = X Y (µ X µ Y ) ( t m+ 2. (1) 1 + 1 m ) S 2 p Vi setter opp ullhypoteseh 0 : "det er ige forskjell mellom de forvetede kroppstemperaturee" vs. H a : "det er forskjell": Uder H 0 har vi at H 0 : µ X µ Y = 0, vs. H a : µ X µ Y 0. T = X Y ( Sp 2 1 + 1 m ) t m+ 2. (2) Vi setter i dataee (X for kvier og Y for me) i (2) og får test-observator: t = x y sp( 2 1 + ) = 36.93 36.6 1 m 0.08117 ( 1 + ) = 2.59. 1 10 10 P-verdie (sasylighet, uder H 0, for at vi observerer oe mer ekstremt e det vi har observert) for dee to-sidige teste er: P-verdi =2P(T > t H 0 ) der T t 18. Vi brukte tabell A.8 og fat P(T > 2.5) = 0.011, P-verdie må derfor være midre e 2 0.011 = 0.022. Side P-verdie er midre e α = 0.05 ka vi forkaste H 0 på ivå 5%. Vi skal lage et kofidesitervall vha. (1). Vi velger et sigifikatsivå α (0,1). 1 α = P t α/2,m+ 2 < X Y (µ X µ Y ) ( < t α/2,m+ 2 1 + 1 m ) = P (X Y t α/2,m+ 2 S 2 p S 2 p ( 1 m + 1 ) ( 1 < µ X µ Y < X Y +t α/2,m+ 2 Sp 2 m + 1 ) ). Et kofidesitervall for µ X µ Y på ivå α = 0.05 med våre data er x y ±t α/2,m+ 2 s 2 p R-KODE: t.test(kvier,me, var.equal = T) R-UTSKRIFT: Two Sample t-test ( 1 m + 1 ) = (0.0623, 0.598) 3
data: kvier ad me t = 2.5901, df = 18, p-value = 0.01848 alterative hypothesis: true differece i meas is ot equal to 0 95 percet cofidece iterval: 0.06232131 0.59767869 sample estimates: mea of x mea of y 36.93 36.60 d) Hvis vi å atar at det er ulik varias i de to gruppe, blir vår test-observator Z = X Y (µ X µ Y ) σ 2 Xm + σ2 Y N(0,1). Nå estimerer vi σ X og σ Y vha. estimatore S X og S Y, heholdsvis. Slik at T = X Y (µ X µ Y ) S 2 Xm + S2 Y t ν der ν estimeres fra data slik: Uder H 0 : µ X µ Y = 0 har vi ν = ( s 2 X m + s2 Y ) 2 (s 2 X /m)2 + (s2 Y /)2 m 1 1. T = X Y S 2 Xm + S2 Y t ν med Så ν = 17.734 17. t obs = x y = 36.93 36.6 s 2 X m + s2 Y 0.07122 + 0.09111 10 10 = 2.59 Vi fikk de samme verdie som i forrige deloppgave, så P-verdie blir de samme og dermed koklusjoe også. Vi får altså forkastig avh 0 i begge situasjoee og det på tilærmet samme ivå. Grue til at p-verdie er omtret de samme som tidligere, er at sidem = er de to testobservatoree like, og estimatet for atall frihetsgrader er este likt 18, som er +m 2. Fra boksplottet ka det se ut til at variasjoe i de to gruppee er like. Ka testes! 4
R-KODE: t.test(kvier,me) R-UTSKRIFT: Welch Two Sample t-test data: kvier ad me t = 2.5901, df = 17.734, p-value = 0.01863 alterative hypothesis: true differece i meas is ot equal to 0 95 percet cofidece iterval: 0.06203301 0.59796699 sample estimates: mea of x mea of y 36.93 36.60 e) Nå skal vi teste atagelse om lik varias.test-observatore ka variere avhegig av om ma bruker kvier/me (0.7817) eller me/kvier (1.279). Betrakt følgede observator F = S2 X /σ2 X S 2 Y /σ2 Y F m 1, 1. Vi setter opp hypotesee: H 0 : σ Y = σ X, vs. H a : σ Y σ X. Uder H 0 er F = S2 Y S 2 X F 1,m 1. Det er rimelig å forkaste H 0 hvis test-observatore f = s2 Y s 2 X dataee får vi og P-verdie er da f = s2 Y s 2 X = 1.279 P-verdi = 2P(F > f H 0 ), er tilstrekkelig lagt fra 1. For disse der F F 9,9. Fra tabelle fier vi ku P(F > 1.28) > P(F > 2.59) = 0.1. P-verdie må derfor være større e 2 0.1 = 0.2 slik at vi ka kokludere med at H 0 ikke ka forkastes (ige gru til å påstå at variasee er ulike). De øyaktige P-verdie ka bereges vha. R og i dette tilfellet er P-verdi = 0.36. R-KODE: var.test(me,kvier) R-UTSKRIFT: 5
F test to compare two variaces data: me ad kvier F = 1.2793, um df = 9, deom df = 9, p-value = 0.7197 alterative hypothesis: true ratio of variaces is ot equal to 1 95 percet cofidece iterval: 0.3177479 5.1502577 sample estimates: ratio of variaces 1.279251 f) Vi atar å at variase hos me og kvier er lik og øsker å lage et prediksjositervall for forskjelle X 11 Y 11. E[X 11 Y 11 ] = µ X µ Y og ( X Ȳ) er e estimator for µ X µ Y der = m = 10. Derfor er det rimelig å bruke de samme estimatore til å aslå X 11 Y 11. Side vi har atatt at "alt" er ormalt er X 11 Y 11 ( X Ȳ) også ormal side det er e lieærkombiasjo av ormalfordelte variable. Videre er E[X 11 Y 11 ( X Ȳ)] =0 V(X 11 Y 11 ( X Ȳ)) =σ 2 (1+1+1/+1/) =σ 2 (2+2/) side vi har atatt at X 1,...,X 10 og X 11 er uavhegige (tilsvarede for Y j -ee). Fra side 504 i boka har vi at S 2 p(2 2)/σ 2 χ 2 2 2 og derfor, hvis vi estimerer ˆσ 2 vha. S p har vi at T = X 11 Y 11 ( X Ȳ) 0 ˆσ(2+2/) 1/2 = [X 11 Y 11 ( X Ȳ)]/σ(2+2/) 1/2 S p (2+2/) 1/2 /σ(2+2/) 1/2 Z = [Sp(2 2)/σ 2 2 ] 1/2 /(2 2) 1/2 Z = [X 2 /(2 2)] t 1/2 2 2 hvor Z N(0,1) og X 2 χ 2 2 2 (vi bør egetlig også argumetere for uavhegighet mellom teller og ever). Vi har da at 1 α = Pr{ t α/2,2 2 T t α/2,2 2 } =Pr{ X Ȳ t α/2,2 2 S 2 p(2+2/) X 11 Y 11 X Ȳ +t α/2,2 2 S 2 p(2+2/)}. Så et 95%-prediksjositervall for X 11 Y 11 er gitt ved x ȳ ±t α/2,2 2 s 2 p(2+2/) 6
Fra datee ( = 10, x ȳ = 0.33, t α/2,2 2 = t 0.025,18 = 2.101 og s 2 p = 0.08117) bereger vi itervallet ( 0.558,1.218). Prediksjositervaller gjelder ye observasjoer, kofidesitervaller gjelder ukjete parametre. Tolkige av et (1 α)100% kofidesitervall er at i gjetatte uavhegige forsøk vil i (1 α)100% av tilfellee de kostruerte kofidesitervallee ieholde de ukjete parametere. De tilsvarede tolkige for prediksjositervaller er at ved gjetatte forsøk vil i (1 α)100% av tilfellee prediksjositervallee ieholde de ye observasjoee. Forsøk betyr i dette tilfellet to uavhegige utvalg, hver med 10 observasjoer samt differase mellom de to ekstra observasjoee, som ikke brukes til å berege estimatoree. Oppgave 2 a) Vi bruker e parret t-prosedyre. Eeggede tvilliger har samme geetiske utgagspukt. Vi sammeliger effekte av to "behadliger" (oppvekst med og ute biologiske foreldre) på ellers like idivider. Vi atar at observasjoee (X 1,Y 1 ),...,(X,Y ) er uavhegige par med E[X i ] = µ X og E[Y i ] = µ Y, for i = 1,...,. La D 1,...,D være gitt av D i = X i Y i, for i = 1,...,, hvor vi også atar at D i N(µ D,σ 2 D ), hvor µ D = µ X µ Y. b) Vi øsker å teste hypoteseh 0 : µ D = 0 mot alterativeth a : µ D 0. LaT = D/SE D være vår testobservator der SE D = ˆσ/ 1/2. Uder H 0 er T t 1 med = 31. Vi fier at t obs = 2.06 og de tilhørede p-verdie er gitt ved p = P(t 1 t obs ) = P(t 1 2.06) 0.048. Så vi forkaster H 0 på ivå α = 0.05 og kokluderer med sigifikat forskjell i forvetet IQ mellom de som har vokst opp hos biologiske foreldre og de som ikke har det. c) Et 95% kofidesitervall for µ D er gitt ved ( ) s D d±t α/2, 1 = ( 6.492, 0.028). Det at itervallet ku dekker egative verdier betyr, som vi observerte i b), at vi vil forkaste H 0 på ivå α. De korte forklarige om sammehege er følgede; ata at vi øsker å teste ull hypotese H 0 : θ = θ 0 (hvor θ er e iteressat størrelse) mot alterativet H a : θ θ 0. Da forkaster vi H 0 på ivå α hvis det korrespoderede (1 α) kofidesitervallet for θ ikke dekker de aktuelle verdie θ 0. Oppgave 3 Her skal vi se på om det er e forskjell i adel mellom to populasjoer, vi bruker derfor stoffet i kappitel 10.4. 7
Propositio (10.4.1). La X Bi(m,p 1 ) og Y Bi(,p 2 ) med X og Y uavhegige variable. Da er E[ˆp 1 ˆp 2 ] = p 1 p 2 slik at ˆp 1 ˆp 2 er e forvetigsrett estimator av p 1 p 2 og V[ˆp 1 ˆp 2 ] = p 1(1 p 1 ) m Fra dette har vi at vaiable Z, defiert ved + p 2(1 p 2 ). Z = ˆp 1 ˆp 2 (p 1 p 2 ) ( ), p1(1 p1) + (p 2(1 p 2 ) m er tilærmet stadard ormal fordelt (her er m og store). Uder H 0 : p 1 p 2 = 0 har vi Z = ˆp 1 ˆp 2 p(1 p)( 1m + 1 ), hvor p = p 1 = p 2. Her er det viktig å merke seg at vi ikke vet de sae verdie p, og har derfor fortsatt e ukjet. Vi må derfor approksimere p med ˆp = m m+ˆp 1 + m+ˆp 2. La p 1 og være adele av fedre som opplever tidsklemma og p 2 være adele av mødre som opplever tidsklemma. Vi bereger ˆp = 3000 3000 0.162+ 0.147 = 0.1545 og verdie av testobservatore 6000 6000 z = = ˆp 1 ˆp 2 ˆp(1 ˆp)( 1 + 1) m 0.162 0.147 0.1545(1 0.1545)(2/3000) 1.61, Vi har i tabell A.3: P(Z 1.61) = 1 0.9463 = 0.0537. Ved å teste H 0 : p 1 = p 2 mot H a : p 1 > p 2 får vi P-verdie 0.0537. Vi vil dermed forkaste H 0 for alle sigifikasivå 0.0537. Hvis vi derimot velger de tosidge teste H 0 : p 1 = p 2 mot H a : p 1 p 2, blir forkastigs området vi har fordelt på begge sider av 0 slik at vi forkaster ved α 2 0.0537 = 0.1074. Så P-verdie (de miste α slik at vi forkaster H 0 ) er 0.1074. Dette er e idikasjo på at forholdee er de samme for begge populasjoer (vi beholder H 0 i e esidig test ved α = 0.05 og α = 0.1 i de tosidige). 8
b) For de alterative hypotese H a : p 1 > p 2 får vi R-KODE: prop.test(c(486,441),c(3000,3000), correct=f, alterative="greater") R-UTSKRIFT: 2-sample test for equality of proportios without cotiuity correctio data: c(486, 441) out of c(3000, 3000) X-squared = 2.5836, df = 1, p-value = 0.05399 alterative hypothesis: greater 95 percet cofidece iterval: -0.0003464932 1.0000000000 sample estimates: prop 1 prop 2 0.162 0.147 For de alterative hypotese H a : p 1 p 2 får vi R-KODE: prop.test(c(486,441),c(3000,3000), correct=f) R-UTSKRIFT: 2-sample test for equality of proportios without cotiuity correctio data: c(486, 441) out of c(3000, 3000) X-squared = 2.5836, df = 1, p-value = 0.108 alterative hypothesis: two.sided 95 percet cofidece iterval: -0.003286474 0.033286474 sample estimates: prop 1 prop 2 0.162 0.147 Oppgave 4 a) Vi skal lage e ekel lieær regresjosmodell for sammehege mellom sømegde og vastad. Vastad er de avhegige variabele (Y ) mes sømegde er de uavhegige variabele (x). Vi har følgede relasjo mellom vastad og sømegde: Y = β 0 +β 1 x+ǫ, 9
der ǫ atas ormalfordelt med forvetig 0 og varias σ 2. Vi tilpasser regresjosmodelle i R og plotter observasjoee med regresjoslija. Fra R-utskrifte fier vi følgede estimater for de ukjete koeffisietee: ˆβ0 = 0.28 og ˆβ 1 = 0.51. somegde = c(23.1,32.8,31.8,32.0,30.4,24.0,39.5,24.2,52.5,37.9,30.5,25.1,12.4, 35.1,31.5,21.1,27.6,27.6) vastad = c(10.5,16.7,18.2,17.0,16.3,10.5,23.1,12.4,24.9,22.8,14.1,12.9,8.8, 17.4,14.9,10.5,10.5,16.1) vaso.lm =lm(vastad~somegde) plot(somegde, vastad, ylab="vastad", xlab="somegde") ablie(vaso.lm) summary(vaso.lm) R-UTSKRIFT: Call: lm(formula = vastad ~ somegde) Residuals: Mi 1Q Media 3Q Max -3.7341-1.4207-0.1391 1.5444 3.3584 Coefficiets: Estimate Std. Error t value Pr(> t ) (Itercept) 0.28001 1.71191 0.164 0.872 somegde 0.50558 0.05508 9.180 8.91e-08 *** --- Sigif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual stadard error: 1.943 o 16 degrees of freedom Multiple R-squared: 0.8404, Adjusted R-squared: 0.8305 F-statistic: 84.27 o 1 ad 16 DF, p-value: 8.913e-08 Fra figur 1 ser det ut til å være e rimelig god lieær sammeheg. For eksempel ser det ut til at år megde sø øker vil vi forvete mer va i elve, oe som passer fit med ituisjoe. b) Fra residualplottet og ormalfordeligsplottet, figur 2 ser det ikke ut til å være klare avvik fra modellatagelsee side residualplottet viser e sky av pukter og ormalfordeligsplottet viser pukter lags e tekt rett lije. 10
Vastad 10 15 20 25 20 30 40 50 Somegde Figure 1: Observasjoer med tilpasset regresjoslije. Normal Q Q Plot Residualer 4 3 2 1 0 1 2 3 Stadardisert Residualer 2 1 0 1 20 30 40 50 So 2 1 0 1 2 Normal kvatiler Figure 2: Residualplott. 11
R-KODE: vaso.res=resid(vaso.lm) vaso.stdres = rstadard(vaso.lm) par(mfrow=c(1,2)) plot(somegde,vaso.res, ylab="residualer", xlab="so") ablie(0, 0) qqorm(vaso.stdres, ylab="stadardisert Residualer", xlab="normal kvatiler") qqlie(vaso.stdres) c) Et estimat for variase til feilleddee er gitt av ˆσ 2 = s 2 = SSE/( 2) = i=1 (y i ŷ i ) 2 /( 2) = 3.77. Fra kjet teori (se 12.3 i boka) har vi at [ˆβ 1 β 1 ]/sˆβ1 t 2, hvor sˆβ1 = ˆσˆβ1 = s 2 /[ i x2 i ( i x i) 2 ]. Bruker vi dette ka vi utlede at et 95% kofidesitervall for β 1 er gitt av ˆβ 1 ±sˆβ1 t α/2, 2. Fra observasjoee bereger vi at sˆβ1 = 0.055 og får itervallet [0.39, 0.62]. d) Vi øsker å teste ullhypotese H 0 : β 0 = 0 mot alterativet H a : β 0 0. Vi bruker at [ˆβ 0 β 0 ]/sˆβ0 t 2, hvor sˆβ0 = ˆσˆβ0 = s 2 i x2 i/[ i x2 i ( i x i) 2 ]. Fra data fier sˆβ0 = 1.71 og vi får følgede p-verdi p = Pr{ [ˆβ 0 0.28 H 0 sa } = 0.872 (3) som ikke gir oss grulag til å forkaste ullhypotese på ivå α = 0.05 (merk at vår testobservator ble t = 0.164 < 2.12 = t 0.025,18 2 ). Leser data fra summary() fuksjoe. Se R-kode og R-utskrift uder pukt a) 12