Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Dette er det andre settet med obligatoriske oppgaver i STK1110 høsten 2010. Oppgavesettet består av fire oppgaver. Det er valgfritt om du vil skrive besvarelsen for hånd eller om du vil bruke et tekstbehandlingsprogram. Der du bruker R, må utskrifter legges ved/limes inn. Det er helt i orden og utmerket om dere samarbeider og diskuterer hvordan oppgavene skal løses, men utformingen og formuleringen av besvarelsene må være individuelle. Så hvis flere studenter samarbeider om å løse oppgavene, må likevel hver student levere sin selvstendige besvarelse. Det må gå fram av besvarelsen hvem du har samarbeidet med. Se ellers Regelverk for obligatoriske oppgaver som er gitt på kursets hjemmeside. Besvarelsen leveres i en egen kasse for obligatoriske innleveringer som står i gangen i 7. etasje i Niels Henrik Abels hus (nær ekspedisjonen til Matematisk institutt). Frist for innlevering er torsdag 11. november kl. 14.30. Oppgave 1 I denne oppgaven skal vi studere nærmere om veitrafikken i Norge har blitt sikrere de siste ti årene. I tabellen nedenfor er det gitt antall biler 1 og antall dødsulykker 2 i trafikken for årene 2000, 2003, 2006 og 2009. Merk at enheten for antall biler er 100 000, slik at tallene i tabellen må ganges med 10 5 for å få det faktiske antallet biler. År (i) 2000 2003 2006 2009 Antall biler 10 5 ( ) 20.84 22.01 24.14 26.29 Antall dødsulykker (X i ) 301 247 226 186 Vi vil anta at antall dødsulykker i trafikken i årene 2000, 2003, 2006 og 2009 er observerte verdier av uavhengige og Poisson fordelte stokastiske variable X 2000, X 2003, X 2006 og X 2009 med forventningsverdier λ 2000, λ 2003, λ 2006 og λ 2009. Her angir λ i -ene den underliggende risikoen for dødsulykker, og avvik fra de forventede verdiene skyldes tilfeldige variasjoner. a) Vi kan skrive λ i -ene på formen λ i = θ i der -ene er antall biler (jf. tabellen). Forklar at θ i kan fortolkes som forventet antall dødsulykker per 100 000 biler i år i (i = 2000, 2003, 2006, 2009). 1 Se: www.ssb.no/emner/10/12/20/bilreg/tab-2010-04-27-01.html 2 Se: www.ssb.no/vtuaar/tab-2010-06-01-01.html

b) Vis at ˆθ i = X i er en forventningsrett ( unbiased ) estimator for θ i. Forklar at ˆθ i er tilnærmet N(θ i, θ i / )-fordelt. (Hint: Hvis X er Poisson fordelt med forventningsverdi λ, så er X tilnærmet normalfordelt når λ er tilstrekkelig stor. En tommelfingerregel er at vi kan bruke normaltilnærmelsen når λ 15.) c) Forklar at ˆθ i ˆθ j (θ i θ j ) θ i + θ j w j er tilnærmet standardnormalfordelt når i j er to forskjellige år. d) En kan vise at også ˆθ i ˆθ j (θ i θ j ) ˆθ i + ˆθ j w j Bruk det til å bestemme et 95% kon- er tilnærmet standardnormalfordelt. fidensintervall for θ i θ j. e) Beregn estimatene ˆθ i for i = 2000, 2003, 2006, 2009. Bestem også 95% konfidensintervall for θ 2000 θ 2003, θ 2003 θ 2006 og θ 2006 θ 2009. Diskuter hva resultatene sier deg om hvordan sikkerheten i veitrafikken har endret seg de siste ti årene. Oppgave 2 Anta at X 1, X 2,..., X 10 er uavhengige observasjoner fra eksponentialfordelingen med sannsynlighetstetthet 1 µ f(x) = e x/µ hvis x 0 0 ellers hvor µ > 0. (Merk at vi har parameterisert eksponentialfordelingen på en annen måte enn på side 194 i læreboka.) a) Vis at E(X i ) = µ. b) Vis at 2 10 X i /µ er kjikvadrat fordelt med 20 frihetsgrader. (Hint: Vis først at 2X i /µ er kjikvadrat fordelt med 2 frihetsgrader.)

Vi ønsker å teste nullhypotesen H 0 : µ = 1 mot alternativet H a : µ > 1. c) Vis at vi får en test med signifikansnivå 5% hvis vi forkaster H 0 såsant 2 10 X i > 31.41 d) Bestem sannsynligheten for feil av type II når µ = 2. (Hint: Tabell A.7 i læreboka er ikke tilstrekkelig, så du må bruke R her.) e) Vi ønsker at sannsynligheten for feil av type II skal være 10% når µ = 2. Hvor mange observasjoner må vi ha da? (Hint: Bestem først en test med signifikansnivå 5% basert på n observasjoner; jf. punkt c. Finn så et uttrykk for sannsynligheten for feil av type II når µ = 2; jf. punkt d.) Oppgave 3 Tabellen i vedlegget gir vekten (i kg) og bensinforbruket (i liter per mil) for 38 ulike bilmerker. Vi er interessert i å studere hvordan bensinforbruket (responsvariabel) avhenger av bilens vekt (forklaringsvariabel). Du skal bruke R til beregningene i denne oppgaven. For hjelp til bruk av R, se de eksemplene som er gitt under Forelesninger på kurssiden. Du kan selv taste dataene inn i R, eller du kan lese dem inn ved å gi kommandoen: bensin=read.table("http://www.uio.no/studier/emner/matnat/math/stk1110/h10/bensin.txt",header=t) a) Lag et plott av bensinforbruket som funksjon av vekten til bilene. Kommenter hva plottet forteller deg. b) Beskriv en enkel lineær regresjonsmodell for sammenhengen mellom bensinforbruk og vekt. Bestem minste kvadraters estimater for konstantleddet β 0 og stigningstallet β 1 og gi en fortolkning av estimatene. c) Lag et plott av observasjonene sammen med den tilpassede regresjonslinja. Ser regresjonsmodellen ut til å gi en god beskrivelse av sammenhengen mellom bensinforbruk og vekt? d) Bestem et 95% konfidensintervall for stigningstallet β 1 og diskuter hva intervallet forteller deg. Oppgave 4 Når vi bruker en lineær regresjonsmodell, vil vi vanligvis ha med et konstantledd i modellen. Men noen få ganger kan det være aktuelt å bruke en modell uten konstantledd. Kan du tenke deg noen slike situasjoner?

Vi vil i denne oppgaven se nærmere på den enkle lineære regresjonsmodellen uten konstantledd. Mer presist vil vi se på følgende situasjon. Vi antar at Y i = βx i + ϵ i ; i = 1, 2,..., n; (1) hvor x i -ene er gitte størrelser, ϵ i -ene er uavhengige og N(0, σ 2 )-fordelte, og β og σ 2 er ukjente parametere. a) Vis at minste kvadraters estimator for β er n x i Y i ˆβ = n. x 2 i b) Vis at ˆβ er forventningsrett ( unbiased ) og bestem variansen til ˆβ. Forklar at ˆβ er normalfordelt. En estimator for σ 2 er S 2 = 1 n 1 n ( Yi ˆβx ) 2 i. Det kan vises at ˆβ og S 2 er uavhengige og at (n 1)S 2 /σ 2 er kji-kvadrat fordelt med n 1 frihetsgrader. (Du skal ikke vise det.) c) Forklar at ˆβ β S n x 2 i er t-fordelt med n 1 frihetsgrader. d) Vi ønsker å teste nullhypotesen H 0 : β = β 0 mot den alternative hypotesen H a : β β 0, der β 0 er et gitt tall (for eksempel β 0 = 0). Bestem en test med signifikansnivå α for dette hypoteseprøvingsproblemet. e) Vis at n (Y i ˆβx n i ) 2 = Yi 2 ˆβ 2 n x 2 i, og bruk det til å vise at S 2 er en forventningsrett ( unbiased ) estimator for σ 2. (Du får altså her ikke benytte resultatet gitt rett før punkt c.)

Vedlegg Tabellen gir vekten (i kg) og bensinforbruket (i liter per mil) for 38 ulike bilmerker. Vekt Forbruk 1980 1.39 1840 1.52 1640 1.22 1790 1.27 980 0.78 1160 0.85 1040 0.86 1010 0.76 1280 1.16 1420 1.38 1270 1.09 1550 1.45 1530 1.14 1390 1.13 1640 1.26 1550 1.30 1740 1.38 1690 1.34 1790 1.42 1740 1.29 1170 0.89 1320 1.07 900 0.69 870 0.67 1210 0.86 900 0.75 970 0.80 1210 0.83 1180 0.82 1220 0.88 1160 0.70 1000 0.69 920 0.74 970 0.63 990 0.77 1280 1.07 1180 1.09 870 0.74