Fakultet for naturvitenskap og teknologi EKSAMENSOPPGAVE Eksamen i: STA-1001. Dato: Mandag 9. mai 017. Klokkeslett: 09 13. Sted: Åsgårdvegen 9. Tillatte hjelpemidler: «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Type innføringsark (rute/linje): Antall sider inkl. forside: Kontaktperson under eksamen: Rute. 5 Georg Elvebakk Telefon/mobil: 7764653 NB! Det er ikke tillatt å levere inn kladdepapir som del av eksamensbesvarelsen. Hvis det likevel leveres inn, vil kladdepapiret bli holdt tilbake og ikke bli sendt til sensur. Postboks 6050 Langnes, N-9037 Tromsø / 77 64 40 00 / postmottak@uit.no / uit.no
VIKTIG: Om ikke anna er spesifisert skal signifikansnivået for tester være 5%. Deloppgavene vil telle likt ved vurderinga. Oppgave 1 En spiller har to mynter. En er vanlig og har 50% sjanse for kron, mens den andre falsk og har 70% sjanse for kron. En av myntene blir tilfeldig valgt ut og kasta en gang. a) Hva er sannsynligheten for at resultatet av kastet blir kron? Gitt at resultatet blei kron, hva er sannsynligheten for at det var den falske mynten som blei valgt? Nå går vi ut fra at det er den falske mynten som er valgt. Vi vil finne ut hvor mange ganger, X, denne må kastes for at en for første gang får mynt. b) Hva slags fordeling får vi for X? Hva er sannsynlighetne for at X = 3 Gitt at de første to kasta begge blei kron, hva blir P (X = 5)? Oppgåve Den stokastiske variabelen X har sannsynlighetstetthet f(x) = { 1 x + 3 x3, 0 < x < 1. 0, ellers. a) Finn kumulativ fordelingsfunksjon F (x). Lag en (grov) skisse av denne. Finn forventning av X og av 1/X.
Oppgåve 3 Vi antar at antallet vafler, X som en kvinnelig student spiser på en vaffelrekningskveld er poissonfordelt med rate λ per time: f(x) = e λt (λt) x, x = 0, 1,... x! a) Dersom λ = hva er sannsynligheten for at en kvinneleg student spiste akkurat to vafler i løpet av den første halvtimen? Hva må λ være for det skal vere en sannsynlighet på akkurat 50% for at studenten ikke spiste vafler i løpet av den første halvtimen? Nå vil arrangøren av vaffelrekninga undersøke hvor mange vafler som er nødvendig. De registrerer derfor hvor mange vafler som faktisk blei spist av 40 kvinnelige og 30 mannlige studenter i løpet av en time. De antar at antallet vafler en student spiser er poissonfordelt. Men for en kvinneleg student er raten λ, og for en mannleg er raten aλ, der vi antar at a = 1.5 (50% høgere). La X være antallet vafler en kvinneleg student spiser i løpet av t = 1 time: f(x) = e λ λ x, x = 0, 1,... E(X) = λ x! La Y være antallet vafler en mannleg student spiser i løpet av t = 1 time: f(y) = e aλ (aλ) y, y = 0, 1,... E(Y ) = aλ y! Resultatet for studentene blei: 40 i=1 x i = 60 og 30 i=1 y i = 75 De ønsker å nytte begge datasetta til å estimere λ, men det er foreslått to ulike estimatorer: ˆλ 1 = 40 i=1 X i + 30 i=1 Y i 40 + 30 a og ˆλ = 40 i=1 X i + 30 i=1 Y i a 40 + 30 (Husk at a = 1.5.) b) Vis at ˆλ 1 er forventningsrett og at V ar(ˆλ 1 ) = λ/85. Finn forventning og varians av ˆλ. Argumenter for hvilken estimator som er best? I siste punkt vil vi bruke estimatoren ˆλ 1. c) Gi et argument for at estimatoren ˆλ 1 er tilnærma normalfordelt. Bruk denne estimatoren til å utføre en test for om λ er under. Sett opp hypoteser og testobservator, finn p-verdien og konkluder. 3
Oppgåve 4 Vi skal se på innhold av fosfor i ferdig rensa vann frå renseanlegg. Det er tatt n = 10 målinger av fosforinnholdet (gram per kubikkmeter) frå et bestemt renseanlegg på tilfeldige dager. Vi antar at dette er et tilfeldig utvalg fra en normalfordelt populasjon med forventing µ og standardavvik σ, disse parametrene er her ukjente. > fosfor [1] 0.63 0.8 0.458 0.349 0.30 0.165 0.318 0.300 0.501 0.176 > mean(fosfor) [1] 0.313 > var(fosfor) [1] 0.01133796 Det er viktig at fosforinnholdet ikke er for høgt, så vi ønsker å undersøke om det forventa fosforinnhold fra anlegget er over 0.8. a) Finn estimater for µ og σ. Hva representerer disse parametrene? Sett opp hypoteser og testobservator, og utfør en test for problemstillinga over med signifikansnivå 5%. Hva blir konklusjonen? Sjøl om gjennomsnittet i det lange løp er innafor det akseptable er det viktig at innholdet på enkeltdagar ikke kan bli eksepsjonelt høgt. b) Forklar forskjellen på konfidensintervall og prediksjonsintervall. Hvorfor er prediksjonsintervall alltid videre enn konfidensintervall? Finn et intervall som med 95% sannsynlighet vil inneholde fosforinnholdet for en ny dag. 4
Oppgåve 5 Det er ugunstig med for mye variasjon i vekt i oppdrettslaks, og du er blitt leid inn for å sammenlikne to produsenter, her kalt produsent 1 og. For å undersøke dette får du målt vekter for n 1 = 10 laks frå produsent 1, og n = 1 laks frå produsent. Vi antar at fisken fra produsent 1 er fra en populasjon med varians σ 1, de fra produsent er fra en populasjon med varians σ. > laks1 [1].96.97.91 3.00.86.89 3.01 3.09 3.05.84 > laks [1] 3.13.9 3.16.90 3.14 3.18.91.91.91.90 3.11.91 > var(laks1) [1] 0.006773333 > var(laks) [1] 0.01498788 Vi ønsker å sammenlikne variansene σ1 og σ, og gjør ein analyse i R. Funksjonen var.test utfører F-test (og gir konfidensintervall) for forholdet σ 1 : σ > var.test(x=laks1,y=laks,confidence.level=0.95) F test to compare two variances data: laks1 and laks F = 0.4519, num df = 9, denom df = 11, p-value = 0.431 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.159569 1.7679476 sample estimates: ratio of variances 0.451907 a) Hvilke forutsetninger er gjort i denne analysen. Skriv opp uttrykket for konfidensintervallet for forholdet σ 1. σ Finn intervallestimatet fra utskrifta over. Kan du fra intervallet konkludere at det er forskjeller i varians mellom produsentene? Ei stund etter at du har publisert denne analysen får du plutselig vite at det var gjort en feil med dataene. Det viser seg at vektene ikke var for enkeltlaks, de var faktisk gjennomsnittsvekter av kasser med laks. Hver av de 10 kassene fra produsent 1 inneholdt 5 fisk, mens de 1 kassene fra produsent B inneholdt 10 fisk hver. Etter å ha tenkt litt på hvilke implikasjonar dette får kommer du fram til at konfidensintervallet over er for varianser av gjennomsnitt. Og det må korrigeres slik at det gjelder for varianser av enkeltobservasjoner. b) Hva er variansen til et gjennomsnitt av 5 laks fra produsent 1? Hva er variansen til et gjennomsnitt av 10 laks fra produsent? Ta utgangspunkt i konfidensintervallet fra punktet over og gjør de nødvendige korreksjonene. Endrer dette konklusjonen fra a)? 5
Fakultet for naturvitskap og teknologi EKSAMENSOPPGÅVE Eksamen i: STA-1001. Dato: Mandag 9. mai 017. Klokkeslett: 09 13. Stad: Åsgårdvegen 9. Lovlege hjelpemiddel: «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med eigne notat. Godkjent kalkulator. Type innføringsark (rute/linje): Antall sider inkl. forside: Kontaktperson under eksamen: Rute. 5 Georg Elvebakk Telefon/mobil: 7764653 NB! Det er ikkje lov å levere inn kladd saman med svaret. Om det likevel leverast inn, vil kladden bli heldt tilbake og ikkje sendt til sensur. Postboks 6050 Langnes, N-9037 Tromsø / 77 64 40 00 / postmottak@uit.no / uit.no
VIKTIG: Om ikkje anna er spesifisert skal signifikansnivået for testar vere 5%. Deloppgåvene vil telje likt ved vurderinga. Oppgåve 1 Ein spelar har to myntar. Ein er vanleg og har 50% sjanse for kron, medan den andre falsk og har 70% sjanse for kron. Ein av myntane blir tilfeldig valt ut og kasta ein gong. a) Kva er sannsynet for at resultatet av kastet blir kron? Gitt at resultatet blei kron, kva er sannsynet for at det var den falske mynten som blei valt? No går vi ut fra at det er den falske mynten som er valt. Vi vil finne ut kor mange gonger, X, denne må kastast for at ein for første gong får mynt. b) Kva slags fordeling får vi for X? Kva er sannsynet for at X = 3 Gitt at dei første to kasta begge blei kron, kva blir P (X = 5)? Oppgåve Den stokastiske variabelen X har sannsynstettleik f(x) = { 1 x + 3 x3, 0 < x < 1. 0, elles. a) Finn kumulativ fordelingsfunksjon F (x). Lag ei (grov) skisse av denne. Finn forventing av X og av 1/X.
Oppgåve 3 Vi går ut frå at talet på vaflar, X som ein kvinneleg student et på ein vaffelrekningskveld er poissonfordelt med rate λ per time: f(x) = e λt (λt) x, x = 0, 1,... x! a) Dersom λ = kva er sannsynet for at ein kvinneleg student åt akkurat to vaflar i løpet av den første halvtimen? Kva må λ vere for det skal vere eit sannsyn på akkurat 50% for at studenten ikkje åt vaflar i løpet av den første halvtimen? No vil arrangøren av vaffelrekninga undersøkje kor mange vaflar som er nødvendig. Dei registrerer derfor kor mange vaflar som faktisk blei ete av 40 kvinnelege og 30 mannlege studentar i løpet av ein time. Dei går ut fra at talet på vaflar ein student et er poissonfordelt. Men for ein kvinneleg student er raten λ, og for ein mannleg er raten aλ, der vi går ut frå at a = 1.5 (50% høgare). La X vere talet på vaflar ein kvinneleg student et i løpet av t = 1 time: f(x) = e λ λ x, x = 0, 1,... E(X) = λ x! La Y vere talet på vaflar ein mannleg student et i løpet av t = 1 time: f(y) = e aλ (aλ) y, y = 0, 1,... E(Y ) = aλ y! Resultatet for studentane blei: 40 i=1 x i = 60 og 30 i=1 y i = 75 Dei ønskjer å nytte begge datasetta til å estimere λ, men det er foreslått to ulike estimatorar: ˆλ 1 = 40 i=1 X i + 30 i=1 Y i 40 + 30 a og ˆλ = 40 i=1 X i + 30 i=1 Y i a 40 + 30 (Hugs at a = 1.5.) b) Vis at ˆλ 1 er forventingsrett og at V ar(ˆλ 1 ) = λ/85. Finn forventing og varians av ˆλ. Kva estimator er best? I siste punkt vil vi bruke estimatoren ˆλ 1. c) Gje eit argument for at estimatoren ˆλ 1 er tilnærma normalfordelt. Bruk denne estimatoren til å utføre ein test for om λ er under. Set opp hypotesar og testobservator, finn p-verdien og konkluder. 3
Oppgåve 4 Vi skal sjå på innhald av fosfor i ferdig rensa vatn frå renseanlegg. Det er tatt n = 10 målingar av fosforinnhaldet (gram per kubikkmeter) frå eit bestemt renseanlegg på tilfeldige dagar. Vi går ut frå at dette er eit tilfeldig utval frå ein normalfordelt populasjon med forventing µ og standardavvik σ, desse parametrane er her ukjende. > fosfor [1] 0.63 0.8 0.458 0.349 0.30 0.165 0.318 0.300 0.501 0.176 > mean(fosfor) [1] 0.313 > var(fosfor) [1] 0.01133796 Det er viktig at fosforinnholdet ikkje er for høgt, så vi ønskjer å undersøkje om det forventa fosforinnhald frå anlegget er over 0.8. a) Finn estimat for µ og σ. Kva representerer desse parametrane? Set opp hypotesar og testobservator, og utfør ein test for problemstillinga over med signifikansnivå 5%. Kva blir konklusjonen? Sjølv om gjennomsnittet i det lange løp er innafor det akseptable er det viktig at innholdet på enkeltdagar ikkje kan bli eksepsjonelt høgt. b) Forklar forskjellen på konfidensintervall og prediksjonsintervall. Kvifor er prediksjonsintervall alltid vidare enn konfidensintervall? Finn eit intervall som med 95% sannsyn vil innehalde fosforinnhaldet for ein ny dag. 4
Oppgåve 5 Det er ugunstig med for mykje variasjon i vekt i oppdrettslaks, og du er blitt leigd inn for å sammenlikne to produsentar, her kalt produsent 1 og. For å undersøkje dette får du målt vekter for n 1 = 10 laks frå produsent 1, og n = 1 laks frå produsent. Vi går ut frå at fisken frå produsent 1 er frå ein populasjon med varians σ 1, dei fra produsent er fra ein populasjon med varians σ. > laks1 [1].96.97.91 3.00.86.89 3.01 3.09 3.05.84 > laks [1] 3.13.9 3.16.90 3.14 3.18.91.91.91.90 3.11.91 > var(laks1) [1] 0.006773333 > var(laks) [1] 0.01498788 Vi ønskjer å samanlikne variansane σ1 og σ, og gjer ein analyse i R. Funksjonen var.test utfører F-test (og gir konfidensintervall) for forholdet σ 1 : σ > var.test(x=laks1,y=laks,confidence.level=0.95) F test to compare two variances data: laks1 and laks F = 0.4519, num df = 9, denom df = 11, p-value = 0.431 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.159569 1.7679476 sample estimates: ratio of variances 0.451907 a) Kva for føresetnader er gjort i denne analysen. Skriv opp uttrykket for konfidensintervallet for forholdet σ 1. σ Finn intervallestimatet frå utskrifta over. Kan du frå intervallet konkludere at det er forskjellar i varians mellom produsentane? Ei stund etter at du har publisert denne analysen får du plutselig vite at det var gjort ein feil med dataene. Det viser seg at vektene ikkje var for enkeltlaks, dei var faktisk gjennomsnittsvekter av kasser med laks. Kvar av dei 10 kassene frå produsent 1 inneholdt 5 fisk, medan dei 1 kassene frå produsent B inneholdt 10 fisk kvar. Etter å ha tenkt litt på kva implikasjonar dette får kjem du fram til at konfidensintervallet over er for variansar av gjennomsnitt. Og det må korrigerast slik at det gjeld for varians av enkeltobservasjonar. b) Kva blir variansen til eit gjennomsnitt av 5 laks frå produsent 1? Kva blir variansen til eit gjennomsnitt av 10 laks frå produsent? Ta utgangspunkt i konfidensintervallet frå punktet over og gjer dei nødvendige korreksjonane. Endrar dette konklusjonen frå a)? 5