Løsningsforslag andre obligatoriske oppgave i STK 1110 høsten 2014

Like dokumenter
X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

Løsningsforslag til eksamen i STK desember 2010

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)

TMA4240 Statistikk Høst 2016

Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

TMA4240 Statistikk Høst 2015

MOT310 Statistiske metoder 1, høsten 2011

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

Oppgaver fra boka: X 2 X n 1

TMA4240 Statistikk Høst 2016

ECON240 Statistikk og økonometri

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

Løsningsforslag Oppgave 1

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

Til nå, og så videre... TMA4240 Statistikk H2010 (25) Mette Langaas. Foreleses mandag 15.november, 2010

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

Rep.: generelle begrep og definisjoner Kp. 10.1, 10.2 og 10.3

TMA4245 Statistikk Eksamen mai 2017

Kapittel 8: Estimering

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

ST1201 Statistiske metoder

TMA4245 Statistikk Eksamen august 2015

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

Estimering 2. -Konfidensintervall

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,

Kap. 9: Inferens om én populasjon

Løsningsforslag ST2301 øving 3

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5

TMA4240 Statistikk Høst 2016

Hypotesetesting, del 4

TMA4240 Statistikk 2014

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

TMA4245 Statistikk Vår 2015

TMA4240 Statistikk Eksamen desember 2015

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

Kap. 9: Inferens om én populasjon

Statistikk og økonomi, våren 2017

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

TMA4240 Statistikk Høst 2015

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

UNIVERSITETET I OSLO

Lineær regresjonsanalyse (13.4)

2. Hypotesetesting i ulike sitausjoner: i. for forventingen, μ, i målemodellen med normalantakelse og kjent varians, σ 2.

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

TMA4240 Statistikk Høst 2015

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

TMA4240 Statistikk Høst 2009

Oppgaven består av 9 delspørsmål, A,B,C,., som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<.. >>.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 2

Oversikt over konfidensintervall i Econ 2130

Estimering 1 -Punktestimering

TMA4240 Statistikk H2010

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006

TMA4240/4245 Statistikk 11. august 2012

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

TMA4245 Statistikk. Øving nummer 12, blokk II Løsningsskisse. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Mer om utvalgsundersøkelser

Estimering 1 -Punktestimering

Oversikt over konfidensintervall i Econ 2130

MOT310 Statistiske metoder 1, høsten 2012

STK1100 våren 2017 Estimering

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Modeller og parametre. STK Punktestimering - Kap 7. Eksempel støtfangere. Statistisk inferens. Binomisk fordeling. p X (x) = p x (1 p) n x

Høgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 12. desember 2008

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Eksempler fra slutten av forrige uke. Eksempler (styrke, dimensjonering,...) Eksempler fra slutten av forrige uke

Oversikt, del 5. Vi har sett på styrkefunksjon for ensidige tester. Eksempler (styrke, dimensjonering,...) Eksempler fra slutten av forrige uke

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan

Econ 2130 Forelesning uke 11 (HG)

Løsning TALM1005 (statistikkdel) juni 2017

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 5 Estimering. Målemodellen.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 4. Hypotesetesting, del 4

To-utvalgstest (def 8.1) vs ettutvalgstest: Hypotesetesting, to utvalg (Kapitel 8) Longitudinell studie (oppfølgingsstudie) - eqn 8.1. Eksempel 8.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Oppsummering

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering.

Sammendrag i statistikk

betegne begivenheten at det trekkes et billedkort i trekning j (for j=1,2,3), og komplementet til

n 2 +1) hvis n er et partall.

Hypotesetesting, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

Transkript:

Løsigsforslag adre obligatoriske oppgave i STK 1110 høste 2014 Oppgave 1 Vi har 10 måliger av kroppstemperatur for friske kvier x 1,x 2,...,x 10 og 10 måliger for friske me y 1,y 2,...,y 10 a) Vi lager et boksplott for de to variablee ved hjelp av R på følgede måte: kvier <- c(36.6, 36.7, 36.8, 36.8, 36.7, 37.0, 37.1, 37.3, 36.9,37.4) me <- c(36.1, 36.3, 36.4, 36.6, 36.6, 36.7, 36.7, 37.0, 36.5, 37.1) boxplot(me, Kvier, ames=c("me", "Kvier")) og får utskrifte 36.2 36.4 36.6 36.8 37.0 37.2 37.4 Me Kvier Fra boksplottet ovefor ser det ut som om kvier har oe høyere kroppstemperatur e me. Vi ser også at temperaturee hos de målte kviee er mer skjevt fordelt e hos meee, me her skal vi huske på at 10 observasjoer er lite. b) Vi lager kvatilplott (qqplot) vha R: par(mfrow=c(1,2)) qqorm(me, ylab="kroppstemperatur til me") 1

qqlie(me) qqorm(kvier, ylab="kroppstemperatur til kvier") qqlie(kvier) og får følgede resultat Normal Q Q Plot Normal Q Q Plot kroppstemperatur til me 36.2 36.4 36.6 36.8 37.0 kroppstemperatur til kvier 36.6 36.8 37.0 37.2 37.4 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Theoretical Quatiles 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Theoretical Quatiles Vi ser at det er oe observasjoer som ligger lagt fra lija i begge plottee så det er vaskelig å avgjøre om måligee kommer fra e ormalfordelig. Dette ka skyldes at utvalgee er veldig små. I reste av oppgave skal vi ata at observasjoee er uavhegige og kommer fra ormalfordeliger. c) La X 1,...,X m represetere kroppstemperature hos m kvier og Y 1,...,Y hos me der X i N(µ X,σX 2 ), i = 1,...,m ogy i N(µ Y,σY 2 ), i = 1,..., alle uavhegige av hveradre. Vi atar at variase er de samme for begge to utvalg, σ 2 := σx 2 = σ2 Y. (Vi ser utfra boksplottet at variasee er gaske like. Dette skal vi uasett teste i deloppgave (e)) Side variase er de samme har vi at Z = X Y (µ X µ Y ) σ 2( 1 + ) N(0,1). 1 m Vi er ødt til å estimere σ 2. Vi utfører e pooled t-prosedyre som er basert på atagelse om lik varias som ma estimerer vha. SX 2 og S2 Y på følgede måte: Side S 2 X og S2 Y S 2 p := ˆσ 2 = m 1 m+ 2 S2 X + 1 m+ 2 S2 Y. er uavhegige, ka ma se at m+ 2 S 2 σ 2 p = m 1 S 2 σ 2 X + 1 S 2 σ 2 Y χ 2 m 1 +χ 2 1 χ 2 m+ 2 2

slik at T = X Y (µ X µ Y ) ( t m+ 2. (1) 1 + 1 m ) S 2 p Vi setter opp ullhypoteseh 0 : "det er ige forskjell mellom de forvetede kroppstemperaturee" vs. H a : "det er forskjell": Uder H 0 har vi at H 0 : µ X µ Y = 0, vs. H a : µ X µ Y 0. T = X Y ( Sp 2 1 + 1 m ) t m+ 2. (2) Vi setter i dataee (X for kvier og Y for me) i (2) og får test-observator: t = x y sp( 2 1 + ) = 36.93 36.6 1 m 0.08117 ( 1 + ) = 2.59. 1 10 10 P-verdie (sasylighet, uder H 0, for at vi observerer oe mer ekstremt e det vi har observert) for dee to-sidige teste er: P-verdi =2P(T > t H 0 ) der T t 18. Vi brukte tabell A.8 og fat P(T > 2.5) = 0.011, P-verdie må derfor være midre e 2 0.011 = 0.022. Side P-verdie er midre e α = 0.05 ka vi forkaste H 0 på ivå 5%. Vi skal lage et kofidesitervall vha. (1). Vi velger et sigifikatsivå α (0,1). 1 α = P t α/2,m+ 2 < X Y (µ X µ Y ) ( < t α/2,m+ 2 1 + 1 m ) = P (X Y t α/2,m+ 2 S 2 p S 2 p ( 1 m + 1 ) ( 1 < µ X µ Y < X Y +t α/2,m+ 2 Sp 2 m + 1 ) ). Et kofidesitervall for µ X µ Y på ivå α = 0.05 med våre data er x y ±t α/2,m+ 2 s 2 p R-KODE: t.test(kvier,me, var.equal = T) R-UTSKRIFT: Two Sample t-test ( 1 m + 1 ) = (0.0623, 0.598) 3

data: kvier ad me t = 2.5901, df = 18, p-value = 0.01848 alterative hypothesis: true differece i meas is ot equal to 0 95 percet cofidece iterval: 0.06232131 0.59767869 sample estimates: mea of x mea of y 36.93 36.60 d) Hvis vi å atar at det er ulik varias i de to gruppe, blir vår test-observator Z = X Y (µ X µ Y ) σ 2 Xm + σ2 Y N(0,1). Nå estimerer vi σ X og σ Y vha. estimatore S X og S Y, heholdsvis. Slik at T = X Y (µ X µ Y ) S 2 Xm + S2 Y t ν der ν estimeres fra data slik: Uder H 0 : µ X µ Y = 0 har vi ν = ( s 2 X m + s2 Y ) 2 (s 2 X /m)2 + (s2 Y /)2 m 1 1. T = X Y S 2 Xm + S2 Y t ν med Så ν = 17.734 17. t obs = x y = 36.93 36.6 s 2 X m + s2 Y 0.07122 + 0.09111 10 10 = 2.59 Vi fikk de samme verdie som i forrige deloppgave, så P-verdie blir de samme og dermed koklusjoe også. Vi får altså forkastig avh 0 i begge situasjoee og det på tilærmet samme ivå. Grue til at p-verdie er omtret de samme som tidligere, er at sidem = er de to testobservatoree like, og estimatet for atall frihetsgrader er este likt 18, som er +m 2. Fra boksplottet ka det se ut til at variasjoe i de to gruppee er like. Ka testes! 4

R-KODE: t.test(kvier,me) R-UTSKRIFT: Welch Two Sample t-test data: kvier ad me t = 2.5901, df = 17.734, p-value = 0.01863 alterative hypothesis: true differece i meas is ot equal to 0 95 percet cofidece iterval: 0.06203301 0.59796699 sample estimates: mea of x mea of y 36.93 36.60 e) Nå skal vi teste atagelse om lik varias.test-observatore ka variere avhegig av om ma bruker kvier/me (0.7817) eller me/kvier (1.279). Betrakt følgede observator F = S2 X /σ2 X S 2 Y /σ2 Y F m 1, 1. Vi setter opp hypotesee: H 0 : σ Y = σ X, vs. H a : σ Y σ X. Uder H 0 er F = S2 Y S 2 X F 1,m 1. Det er rimelig å forkaste H 0 hvis test-observatore f = s2 Y s 2 X dataee får vi og P-verdie er da f = s2 Y s 2 X = 1.279 P-verdi = 2P(F > f H 0 ), er tilstrekkelig lagt fra 1. For disse der F F 9,9. Fra tabelle fier vi ku P(F > 1.28) > P(F > 2.59) = 0.1. P-verdie må derfor være større e 2 0.1 = 0.2 slik at vi ka kokludere med at H 0 ikke ka forkastes (ige gru til å påstå at variasee er ulike). De øyaktige P-verdie ka bereges vha. R og i dette tilfellet er P-verdi = 0.36. R-KODE: var.test(me,kvier) R-UTSKRIFT: 5

F test to compare two variaces data: me ad kvier F = 1.2793, um df = 9, deom df = 9, p-value = 0.7197 alterative hypothesis: true ratio of variaces is ot equal to 1 95 percet cofidece iterval: 0.3177479 5.1502577 sample estimates: ratio of variaces 1.279251 f) Vi atar å at variase hos me og kvier er lik og øsker å lage et prediksjositervall for forskjelle X 11 Y 11. E[X 11 Y 11 ] = µ X µ Y og ( X Ȳ) er e estimator for µ X µ Y der = m = 10. Derfor er det rimelig å bruke de samme estimatore til å aslå X 11 Y 11. Side vi har atatt at "alt" er ormalt er X 11 Y 11 ( X Ȳ) også ormal side det er e lieærkombiasjo av ormalfordelte variable. Videre er E[X 11 Y 11 ( X Ȳ)] =0 V(X 11 Y 11 ( X Ȳ)) =σ 2 (1+1+1/+1/) =σ 2 (2+2/) side vi har atatt at X 1,...,X 10 og X 11 er uavhegige (tilsvarede for Y j -ee). Fra side 504 i boka har vi at S 2 p(2 2)/σ 2 χ 2 2 2 og derfor, hvis vi estimerer ˆσ 2 vha. S p har vi at T = X 11 Y 11 ( X Ȳ) 0 ˆσ(2+2/) 1/2 = [X 11 Y 11 ( X Ȳ)]/σ(2+2/) 1/2 S p (2+2/) 1/2 /σ(2+2/) 1/2 Z = [Sp(2 2)/σ 2 2 ] 1/2 /(2 2) 1/2 Z = [X 2 /(2 2)] t 1/2 2 2 hvor Z N(0,1) og X 2 χ 2 2 2 (vi bør egetlig også argumetere for uavhegighet mellom teller og ever). Vi har da at 1 α = Pr{ t α/2,2 2 T t α/2,2 2 } =Pr{ X Ȳ t α/2,2 2 S 2 p(2+2/) X 11 Y 11 X Ȳ +t α/2,2 2 S 2 p(2+2/)}. Så et 95%-prediksjositervall for X 11 Y 11 er gitt ved x ȳ ±t α/2,2 2 s 2 p(2+2/) 6

Fra datee ( = 10, x ȳ = 0.33, t α/2,2 2 = t 0.025,18 = 2.101 og s 2 p = 0.08117) bereger vi itervallet ( 0.558,1.218). Prediksjositervaller gjelder ye observasjoer, kofidesitervaller gjelder ukjete parametre. Tolkige av et (1 α)100% kofidesitervall er at i gjetatte uavhegige forsøk vil i (1 α)100% av tilfellee de kostruerte kofidesitervallee ieholde de ukjete parametere. De tilsvarede tolkige for prediksjositervaller er at ved gjetatte forsøk vil i (1 α)100% av tilfellee prediksjositervallee ieholde de ye observasjoee. Forsøk betyr i dette tilfellet to uavhegige utvalg, hver med 10 observasjoer samt differase mellom de to ekstra observasjoee, som ikke brukes til å berege estimatoree. Oppgave 2 a) Vi bruker e parret t-prosedyre. Eeggede tvilliger har samme geetiske utgagspukt. Vi sammeliger effekte av to "behadliger" (oppvekst med og ute biologiske foreldre) på ellers like idivider. Vi atar at observasjoee (X 1,Y 1 ),...,(X,Y ) er uavhegige par med E[X i ] = µ X og E[Y i ] = µ Y, for i = 1,...,. La D 1,...,D være gitt av D i = X i Y i, for i = 1,...,, hvor vi også atar at D i N(µ D,σ 2 D ), hvor µ D = µ X µ Y. b) Vi øsker å teste hypoteseh 0 : µ D = 0 mot alterativeth a : µ D 0. LaT = D/SE D være vår testobservator der SE D = ˆσ/ 1/2. Uder H 0 er T t 1 med = 31. Vi fier at t obs = 2.06 og de tilhørede p-verdie er gitt ved p = P(t 1 t obs ) = P(t 1 2.06) 0.048. Så vi forkaster H 0 på ivå α = 0.05 og kokluderer med sigifikat forskjell i forvetet IQ mellom de som har vokst opp hos biologiske foreldre og de som ikke har det. c) Et 95% kofidesitervall for µ D er gitt ved ( ) s D d±t α/2, 1 = ( 6.492, 0.028). Det at itervallet ku dekker egative verdier betyr, som vi observerte i b), at vi vil forkaste H 0 på ivå α. De korte forklarige om sammehege er følgede; ata at vi øsker å teste ull hypotese H 0 : θ = θ 0 (hvor θ er e iteressat størrelse) mot alterativet H a : θ θ 0. Da forkaster vi H 0 på ivå α hvis det korrespoderede (1 α) kofidesitervallet for θ ikke dekker de aktuelle verdie θ 0. Oppgave 3 Her skal vi se på om det er e forskjell i adel mellom to populasjoer, vi bruker derfor stoffet i kappitel 10.4. 7

Propositio (10.4.1). La X Bi(m,p 1 ) og Y Bi(,p 2 ) med X og Y uavhegige variable. Da er E[ˆp 1 ˆp 2 ] = p 1 p 2 slik at ˆp 1 ˆp 2 er e forvetigsrett estimator av p 1 p 2 og V[ˆp 1 ˆp 2 ] = p 1(1 p 1 ) m Fra dette har vi at vaiable Z, defiert ved + p 2(1 p 2 ). Z = ˆp 1 ˆp 2 (p 1 p 2 ) ( ), p1(1 p1) + (p 2(1 p 2 ) m er tilærmet stadard ormal fordelt (her er m og store). Uder H 0 : p 1 p 2 = 0 har vi Z = ˆp 1 ˆp 2 p(1 p)( 1m + 1 ), hvor p = p 1 = p 2. Her er det viktig å merke seg at vi ikke vet de sae verdie p, og har derfor fortsatt e ukjet. Vi må derfor approksimere p med ˆp = m m+ˆp 1 + m+ˆp 2. La p 1 og være adele av fedre som opplever tidsklemma og p 2 være adele av mødre som opplever tidsklemma. Vi bereger ˆp = 3000 3000 0.162+ 0.147 = 0.1545 og verdie av testobservatore 6000 6000 z = = ˆp 1 ˆp 2 ˆp(1 ˆp)( 1 + 1) m 0.162 0.147 0.1545(1 0.1545)(2/3000) 1.61, Vi har i tabell A.3: P(Z 1.61) = 1 0.9463 = 0.0537. Ved å teste H 0 : p 1 = p 2 mot H a : p 1 > p 2 får vi P-verdie 0.0537. Vi vil dermed forkaste H 0 for alle sigifikasivå 0.0537. Hvis vi derimot velger de tosidge teste H 0 : p 1 = p 2 mot H a : p 1 p 2, blir forkastigs området vi har fordelt på begge sider av 0 slik at vi forkaster ved α 2 0.0537 = 0.1074. Så P-verdie (de miste α slik at vi forkaster H 0 ) er 0.1074. Dette er e idikasjo på at forholdee er de samme for begge populasjoer (vi beholder H 0 i e esidig test ved α = 0.05 og α = 0.1 i de tosidige). 8

b) For de alterative hypotese H a : p 1 > p 2 får vi R-KODE: prop.test(c(486,441),c(3000,3000), correct=f, alterative="greater") R-UTSKRIFT: 2-sample test for equality of proportios without cotiuity correctio data: c(486, 441) out of c(3000, 3000) X-squared = 2.5836, df = 1, p-value = 0.05399 alterative hypothesis: greater 95 percet cofidece iterval: -0.0003464932 1.0000000000 sample estimates: prop 1 prop 2 0.162 0.147 For de alterative hypotese H a : p 1 p 2 får vi R-KODE: prop.test(c(486,441),c(3000,3000), correct=f) R-UTSKRIFT: 2-sample test for equality of proportios without cotiuity correctio data: c(486, 441) out of c(3000, 3000) X-squared = 2.5836, df = 1, p-value = 0.108 alterative hypothesis: two.sided 95 percet cofidece iterval: -0.003286474 0.033286474 sample estimates: prop 1 prop 2 0.162 0.147 Oppgave 4 a) Vi skal lage e ekel lieær regresjosmodell for sammehege mellom sømegde og vastad. Vastad er de avhegige variabele (Y ) mes sømegde er de uavhegige variabele (x). Vi har følgede relasjo mellom vastad og sømegde: Y = β 0 +β 1 x+ǫ, 9

der ǫ atas ormalfordelt med forvetig 0 og varias σ 2. Vi tilpasser regresjosmodelle i R og plotter observasjoee med regresjoslija. Fra R-utskrifte fier vi følgede estimater for de ukjete koeffisietee: ˆβ0 = 0.28 og ˆβ 1 = 0.51. somegde = c(23.1,32.8,31.8,32.0,30.4,24.0,39.5,24.2,52.5,37.9,30.5,25.1,12.4, 35.1,31.5,21.1,27.6,27.6) vastad = c(10.5,16.7,18.2,17.0,16.3,10.5,23.1,12.4,24.9,22.8,14.1,12.9,8.8, 17.4,14.9,10.5,10.5,16.1) vaso.lm =lm(vastad~somegde) plot(somegde, vastad, ylab="vastad", xlab="somegde") ablie(vaso.lm) summary(vaso.lm) R-UTSKRIFT: Call: lm(formula = vastad ~ somegde) Residuals: Mi 1Q Media 3Q Max -3.7341-1.4207-0.1391 1.5444 3.3584 Coefficiets: Estimate Std. Error t value Pr(> t ) (Itercept) 0.28001 1.71191 0.164 0.872 somegde 0.50558 0.05508 9.180 8.91e-08 *** --- Sigif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual stadard error: 1.943 o 16 degrees of freedom Multiple R-squared: 0.8404, Adjusted R-squared: 0.8305 F-statistic: 84.27 o 1 ad 16 DF, p-value: 8.913e-08 Fra figur 1 ser det ut til å være e rimelig god lieær sammeheg. For eksempel ser det ut til at år megde sø øker vil vi forvete mer va i elve, oe som passer fit med ituisjoe. b) Fra residualplottet og ormalfordeligsplottet, figur 2 ser det ikke ut til å være klare avvik fra modellatagelsee side residualplottet viser e sky av pukter og ormalfordeligsplottet viser pukter lags e tekt rett lije. 10

Vastad 10 15 20 25 20 30 40 50 Somegde Figure 1: Observasjoer med tilpasset regresjoslije. Normal Q Q Plot Residualer 4 3 2 1 0 1 2 3 Stadardisert Residualer 2 1 0 1 20 30 40 50 So 2 1 0 1 2 Normal kvatiler Figure 2: Residualplott. 11

R-KODE: vaso.res=resid(vaso.lm) vaso.stdres = rstadard(vaso.lm) par(mfrow=c(1,2)) plot(somegde,vaso.res, ylab="residualer", xlab="so") ablie(0, 0) qqorm(vaso.stdres, ylab="stadardisert Residualer", xlab="normal kvatiler") qqlie(vaso.stdres) c) Et estimat for variase til feilleddee er gitt av ˆσ 2 = s 2 = SSE/( 2) = i=1 (y i ŷ i ) 2 /( 2) = 3.77. Fra kjet teori (se 12.3 i boka) har vi at [ˆβ 1 β 1 ]/sˆβ1 t 2, hvor sˆβ1 = ˆσˆβ1 = s 2 /[ i x2 i ( i x i) 2 ]. Bruker vi dette ka vi utlede at et 95% kofidesitervall for β 1 er gitt av ˆβ 1 ±sˆβ1 t α/2, 2. Fra observasjoee bereger vi at sˆβ1 = 0.055 og får itervallet [0.39, 0.62]. d) Vi øsker å teste ullhypotese H 0 : β 0 = 0 mot alterativet H a : β 0 0. Vi bruker at [ˆβ 0 β 0 ]/sˆβ0 t 2, hvor sˆβ0 = ˆσˆβ0 = s 2 i x2 i/[ i x2 i ( i x i) 2 ]. Fra data fier sˆβ0 = 1.71 og vi får følgede p-verdi p = Pr{ [ˆβ 0 0.28 H 0 sa } = 0.872 (3) som ikke gir oss grulag til å forkaste ullhypotese på ivå α = 0.05 (merk at vår testobservator ble t = 0.164 < 2.12 = t 0.025,18 2 ). Leser data fra summary() fuksjoe. Se R-kode og R-utskrift uder pukt a) 12