Fakultet for naturvitenskap og teknologi EKSAMENSOPPGAVE Eksamen i: STA-1001. Dato: Mandag 28. mai 2018. Klokkeslett: 09-13. Sted: Tillatte hjelpemidler: Administrasjonsbygget B154/AUDMAX. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Type innføringsark (rute/linje): Antall sider inkl. forside: Kontaktperson under eksamen: Telefon/mobil: Rute. 6 Georg Elvebakk 77646532 Vil det bli gått oppklaringsrunde i eksamenslokalet? Svar: JA. Hvis JA: ca. kl. 10:00 og 11:30. Postboks 6050 Langnes, N-9037 Tromsø / 77 64 40 00 / postmottak@uit.no / uit.no
VIKTIG: Merk at i R-utskriftene kan noen av talla være erstatta av?. Om ikke anna er spesifisert skal signifikansnivået for tester være 5%. Deloppgavene vil telle likt ved vurderinga. Oppgave 1 Ola samler på spillerkort av fotballspillere (fotballkort). Korta kjøper han ett og ett av gangen, men de er innpakka så han veit ikke på forhand om det er et kort han allerede har eller ikke. Vi går ut fra at alle korta han kjøper er fra en spesiell serie med 10 ulike spillerkort, at det i hvert kjøp er lik sannsynlighet for alle de 10 ulike spillerkorta, og at korta er uavhengige. Ola ønsker seg framfor alt ett bestemt spillerkort (vi kaller han spiller A). La X vere antall kort han må kjøpe til han får dette kortet. a) Forklar hva fordelinga for X blir. Hva er sannsynligheten for at han får spillerkortet på det fjerde kjøpet? Hva er sannsynligheten for at han ikke får spillerkortet på de to første kjøpa? La oss nå tenke oss at det er to spillerkort (spiller A og B) Ola spesielt ønsker seg, og at han kjøper kort til han har fått begge. La X være antall kjøp til han får det første av disse spillerkorta, og la Y være antall kjøp etter han fikk det første til han får det andre. La T være hvor mange kort han må kjøpe totalt for å få disse to spillerkorta: T = X +Y b) Argumentér kort for hvorfor X geom(p = 1/5) og Y geom(p = 1/10), og at X og Y er uavhengige. Bruk kjente formler for forventning og varians i geometrisk fordeling til å finne forventning og varians til T. La oss nå tenke oss at Ola ikke kan kjøpe ett og ett kort, men pakker av n = 20 kort av gangen, forutsetningene er ellers de samme som før. Han kjøper ei slik pakke. c) Hva er fordelinga for antallet kort i pakka som er med spiller A? Hva er sansynligheten for at Ola får minst ett kort med spiller A i pakka? Hva er forventa antall ulike spillerkort i pakka? (Hint: Indikatorvariabler for hvert spillerkort.) 2
Oppgave 2 Vi skal se på rekkevidde for en elektrisk bilmodell (kjørelengde fra batteriet er fullt til det er tomt). Det blir påstått at bilprodusenter oppgir urealistisk lang rekkevidde, derfor lar vi n = 15 tilfeldig valgte sjåfører bruke bilen til normal kjøring til batteriet er tomt, for hver sjåfør er kjørelengda (km) registrert. Vi går ut fra at disse kjørelengdene er et tilfeldig utvalg fra en populasjon med forventning µ og standardavvik σ, der disse parametrene er ukjente. > lengde [1] 187 196 197 205 190 210 219 194 209 214 184 195 205 198 213 > mean(lengde) [1] 201.0667 > var(lengde) [1] 111.0667 > qqnorm(lengde) > qqline(lengde) Normal Q Q Plot Sample Quantiles 185 190 195 200 205 210 215 220 1 0 1 Theoretical Quantiles a) Forklar veldig kort prinsippet bak QQ-plotting. Hva vil du konkludere fra plottet over? Finn estimater for µ og σ. Hva representerer parametrene i denne situasjonen. Produsenten av bilmodellen påstår at forventa rekkevidde under tilsvarende forhold er 210 (km). Vi vil undersøke om det er grunnlag for å påstå at reell rekkevidde er lavere enn dette. b) Sett opp hypoteser og testobservator, og utfør en test for problemstillinga over med signifikansnivå 5%. Finn både forkastingsområde og (tilnærma) p-verdi. Hva blir konklusjonen? Vi er òg interessert i hvor mye rekkevidda kan variere. c) Utled et 90%-konfidensintervall for variansen σ 2. Finn intervallestimatet fra observasjonene. Hva kan du konkludere fra intervallet? 3
Vi ønsker òg å sammenlikne modellen med en annen bilmodell. Vi lar ei anna gruppe på n 2 = 15 sjåfører bruke denne andre modellen. Resultat: > lengde2 [1] 186 189 181 201 190 187 192 187 182 196 189 210 216 203 208 > mean(lengde2) [1] 194.4667 > var(lengde2) [1] 115.1238 Vi går ut fra at variansen for rekkeviddene er lik for de to ulike populasjonene. d) Gjør de nødvendige forutsetningene for de to utvalga, og regn ut et estimert 95%-konfidensintervall for forskjell i forventa rekkevidde mellom de to modellene. Hva kan du konkludere fra dette intervallet. Om du skulle ha utført disse to forsøka, kan du tenke deg måter å gjennomføre forsøket som kunne gitt et meir nøyaktig resultat? Oppgave 3 Fordelinga til en kontinuerleg stokastisk variabel X er gitt ved følgende sannsynlighetstetthetsfunksjon: f(x) = Vi er interessert i følgende hendelser: { 2 9 x, 0 < x < 3 0, ellers A = {X > 1} og B = {X > 2} a) Er disse hendelsene disjunkte? Hva er sannsynligheten for B. Hva er sannsynligheten for B gitt A? Er disse hendelsene uavhengige? 4
Oppgave 4 Rideau-kanalen i Ottawa i Canada blir om vinteren brukt som skøytebane (7.8km lang). Kanalen blir åpna når isen er tjukk nok, og er åpen så lenge isen er trygg, han er typisk åpen fra januar til mars. Dager fra åpningsdag til stengningsdag (issesongdager) har blitt registrert fra 1971 til 2018, og er vist i plottet nedenfor. Merk at år går fra 1 (=1971) til 48 (=2018). Issesong (dager) 0 20 40 60 80 0 10 20 30 40 Vi er interessert i utviklinga i antallet issesongdager, og vil derfor tilpasse en lineær regresjonsmodell for Y = dager, og x = år (fra 1971), det vil si År Y i = β 0 +β 1 x i +ǫ i, i = 1,...,48 der vi går ut fra at feilledda ǫ 1,...,ǫ 48 er uavhengige og normalfordelte med forventning 0 og varians σ 2. Regresjonsanalysen er gjennomført i R: > summary(lm(y~x)) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 67.1746 3.5936 18.693 < 2e-16 *** x -0.4110 0.1277-3.219 0.00236 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 12.25 on 46 degrees of freedom Multiple R-squared: 0.1839. > mean(x) [1] 24.5 > sum((x-mean(x))^2) [1] 9212 > res = residuals(lm(y~x)) > sum(res^2)/(48-2) [1] 150.1756 5
a) Skriv ned minste kvadrat-estimatorene for β 0 og β 1 (du skal ikke utlede disse), og finn estimata frå R-utskrften. Gi ei presis tolking av hva de estimerte verdiene forteller deg om sammenhengen. Bruk den estimerte regresjonslinja til å finne en predikert verdi for issesongdager i 2019. Vi er spesielt interessert i den totale endringa i sesonglengde som har skjedd fra starten i 1971 (x = 1) til 2018 (x = 48). Som en estimator for endring i forventa issesongdager i løpet av de 47 åra skal vi nytte Ŷ = Ŷ48 Ŷ1 (Her er Ŷi = B 0 +B 1 x i, altså estimert regresjonslinje år x i.) b) Vis at Ŷ = (48 1) B 1, der B 1 er estimatoren for stigningstallet. Vis at Ŷ er en forventningsrett estimator for endringa over 47 år, og finn variansen til estimatoren. Bruk dette som utgangspunkt til å utlede et 95%-konfidensintervall for forventa endring, og estimer intervallet ved hjelp av utskriftene over. Kan du ut fra dette intervallet påstå signifikant endring i issesongdager? 6
Fakultet for naturvitenskap og teknologi EKSAMENSOPPGÅVE Eksamen i: STA-1001. Dato: Måndag 28. mai 2018. Klokkeslett: 09-13. Stad: Lovlege hjelpemiddel: Administrasjonsbygget B154/AUDMAX. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med eigne notat. Godkjent kalkulator. Type innføringsark (rute/linje): Rute. Antall sider inkl. forside: Kontaktperson under eksamen: Telefon/mobil: 6 Georg Elvebakk 77646532 Skal det gåast trøysterunde i eksamenslokalet? Svar: JA. Hvis JA: ca. kl. 10:00 og 11:30. Postboks 6050 Langnes, N-9037 Tromsø / 77 64 40 00 / postmottak@uit.no / uit.no
VIKTIG: Merk at i R-utskriftene kan nokon av tala vere erstatta av?. Om ikkje anna er spesifisert skal signifikansnivået for testar vere 5%. Deloppgåvene vil telje likt ved vurderinga. Oppgåve 1 Ola samlar på spelarkort av fotballspelarar (fotballkort). Korta kjøper han eitt og eitt av gongen, men dei er innpakka så han veit ikkje på førehand om det er eit kort han allereie har eller ikkje. Vi går ut frå at alle korta han kjøper er frå ein spesiell serie med 10 ulike spelarkort, at det i kvart kjøp er likt sannsyn for alle dei 10 ulike spelarkorta, og at korta er uavhengige. Ola ønsker seg framfor alt eitt bestemt spelarkort (vi kallar han spelar A). La X vere tal på kort han må kjøpe til han får dette kortet. a) Forklar kva fordelinga for X blir. Kva er sannsynet for at han får spelarkortet på det fjerde kjøpet? Kva er sannsynet for at han ikkje får spelarkortet på dei to første kjøpa? La oss no tenkje oss at det er to spelarkort (spelar A og B) Ola spesielt ønsker seg, og at han kjøper kort til han har fått begge. La X vere tal på kjøp til han får det første av desse spelarkorta, og la Y vere tal på kjøp etter han fekk det første til han får det andre. La T vere kor mange kort han må kjøpe totalt for å få desse to spelarkorta: T = X +Y b) Argumentér kort for kvifor X geom(p = 1/5) og Y geom(p = 1/10), og at X og Y er uavhengige. Bruk kjente formlar for forventing og varians i geometrisk fordeling til å finne forventing og varians til T. La oss no tenkje oss at Ola ikkje kan kjøpe eitt og eitt kort, men pakker av n = 20 kort av gongen, føresetnadene er elles dei same som før. Han kjøper ei slik pakke. c) Kva er fordelinga for talet på kort i pakka som er med spelar A? Kva er sansynet for at Ola får minst eitt kort med spelar A i pakka? Kva er forventa tal på ulike spelarkort i pakka? (Hint: Indikatorvariablar for kvart spelarkort.) 2
Oppgåve 2 Vi skal sjå på rekkevidde for ein elektrisk bilmodell (køyrelengde frå batteriet er fullt til det er tomt). Det blir påstått at bilprodusentar oppgir urealistisk lang rekkevidde, derfor lar vi n = 15 tilfeldig valde sjåførar bruke bilen til normal køyring til batteriet er tomt, for kvar sjåfør er køyrelengda (km) registrert. Vi går ut frå at desse køyrelengdene er eit tilfeldig utval frå ein populasjon med forventing µ og standardavvik σ, der desse parametrane er ukjende. > lengde [1] 187 196 197 205 190 210 219 194 209 214 184 195 205 198 213 > mean(lengde) [1] 201.0667 > var(lengde) [1] 111.0667 > qqnorm(lengde) > qqline(lengde) Normal Q Q Plot Sample Quantiles 185 190 195 200 205 210 215 220 1 0 1 Theoretical Quantiles a) Forklar veldig kort prinsippet bak QQ-plotting. Kva vil du konkludere frå plottet over? Finn estimat for µ og σ. Kva representerer parametrane i denne situasjonen. Produsenten av bilmodellen påstår at forventa rekkevidde under tilsvarande forhold er 210 (km). Vi vil undersøke om det er grunnlag for å påstå at reell rekkevidde er lågare enn dette. b) Set opp hypotesar og testobservator, og utfør ein test for problemstillinga over med signifikansnivå 5%. Finn både forkastingsområde og (tilnærma) p-verdi. Kva blir konklusjonen? Vi er òg interessert i kor mykje rekkevidda kan variere. c) Utlei eit 90%-konfidensintervall for variansen σ 2. Finn intervallestimatet frå observasjonane. Kva kan du konkludere frå intervallet? 3
Vi ønsker òg å samanlikne modellen med ein annan bilmodell. Vi lar ei anna gruppe på n 2 = 15 sjåførar bruke denne andre modellen. Resultat: > lengde2 [1] 186 189 181 201 190 187 192 187 182 196 189 210 216 203 208 > mean(lengde2) [1] 194.4667 > var(lengde2) [1] 115.1238 Vi går ut frå at variansen for rekkeviddene er lik for dei to ulike populasjonane. d) Gjer dei nødvendige føresetnadene for dei to utvala, og rekn ut eit estimert 95%-konfidensintervall for forskjell i forventa rekkevidde mellom dei to modellane. Kva kan du konkludere frå dette intervallet. Om du skulle ha utført desse to forsøka, kan du tenkje deg måtar å gjennomføre forsøket som kunne gitt eit meir nøyaktig resultat? Oppgåve 3 Fordelinga til ein kontinuerleg stokastisk variabel X er gitt ved følgjande sannsynstettleiksfunksjon: { 2 9 f(x) = x, 0 < x < 3 0, elles Vi er interessert i følgjande hendingar: A = {X > 1} og B = {X > 2} a) Er desse hendingane disjunkte? Kva er sannsynet for B. Kva er sannsynet for B gitt A? Er desse hendingane uavhengige? 4
Oppgåve 4 Rideau-kanalen i Ottawa i Canada blir om vinteren brukt som skeisebane(7.8km lang). Kanalen blir opnanår isen er tjukk nok, og er open så lenge isen er trygg, han er typisk open frå januar til mars. Dagar frå opningsdag til stengingsdag (issesongdagar) har blitt registrert frå 1971 til 2018, og er vist i plottet nedanfor. Merk at år går frå 1 (=1971) til 48 (=2018). Issesong (dagar) 0 20 40 60 80 0 10 20 30 40 Vi er interessert i utviklinga i talet på issesongdagar, og vil derfor tilpasse ein lineær regresjonsmodell for Y = dagar, og x = år (frå 1971), det vil seie År Y i = β 0 +β 1 x i +ǫ i, i = 1,...,48 der vi går ut frå at feilledda ǫ 1,...,ǫ 48 er uavhengige og normalfordelte med forventing 0 og varians σ 2. Regresjonsanalysen er gjennomført i R: > summary(lm(y~x)) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 67.1746 3.5936 18.693 < 2e-16 *** x -0.4110 0.1277-3.219 0.00236 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 12.25 on 46 degrees of freedom Multiple R-squared: 0.1839. > mean(x) [1] 24.5 > sum((x-mean(x))^2) [1] 9212 > res = residuals(lm(y~x)) > sum(res^2)/(48-2) [1] 150.1756 5
a) Skriv ned minste kvadrat-estimatorane for β 0 og β 1 (du skal ikkje utleie desse), og finn estimata frå R-utskrften. Gi ei presis tolking av kva dei estimerte verdiane fortel deg om samanhengen. Bruk den estimerte regresjonslinja til å finne ein predikert verdi for issesongdagar i 2019. Vi er spesielt interessert i den totale endringa i sesonglengde som har skjedd frå starten i 1971 (x = 1) til 2018 (x = 48). Som ein estimator for endring i forventa issesongdagar i løpet av dei 47 åra skal vi nytte Ŷ = Ŷ48 Ŷ1 (Her er Ŷi = B 0 +B 1 x i, altså estimert regresjonslinje år x i.) b) Vis at Ŷ = (48 1) B 1, der B 1 er estimatoren for stigningstalet. Vis at Ŷ er ein forventingsrett estimator for endringa over 47 år, og finn variansen til estimatoren. Bruk dette som utgangspunkt til å utleie eit 95%-konfidensintervall for forventa endring, og estimer intervallet ved hjelp av utskriftene over. Kan du ut frå dette intervallet påstå signifikant endring i issesongdagar? 6