Løsningskisse for oppgaver til undervisningsfri uke 14 (6.-9. april)

HG April 010 Løsningskisse for oppgaver til undervisningsfri uke 14 (6.-9. april) Innledende merknad. De fleste oppgavene denne uka er øvelser i bruk av den viktige regel 5.0, som er sentral i dette kurset, og som det forventes at studentene behersker til eksamen. Les også eksempel 5.18 i boka nøye, som viser et trikk (såkalt heltallskorreksjon) for å forbedre tilnærmelsen av en heltallsfordeling til normalfordelingen. Dette er nyttig i situasjoner der kriteriet for tilnærmelse til normalfordelingen (dvs. at variansen σ 5) så vidt er oppfylt. Hvis variansen er vesentlig større enn 5, er trikket overflødig. Tilnærmingen kan oppsummeres som følger: La X være en heltallsvariabel med en fordeling som angitt i regel 5.0. La μ og σ betegne forventning og variansen til X henholdsvis, og la Gz ( ) være den kumulative fordelingsfunksjonen i N(0, 1)-fordelingen. Tilnærmingen har da følgende form: Uten heltallskorreksjon (brukt når σ er betydelig større enn 5): x μ PX ( x) G σ Med heltallskorreksjon (brukt når σ er større og relativt nær 5): x + 0,5 μ PX ( x) G σ Oppg. 5.5. Oppgaven inneholder en liten felle. Merk at X er definert som antall frø som spirer - ikke antall millioner frø. Dvs. enheten er et enkelt frø og ikke en million frø. Derfor må vi omgjøre tallene i oppgaven til riktig enhet. Forøvrig synes forutsetningene for en binomisk modell å være rimelige (diskuter selv). Modell: X bin( np, ) der n = 7 00 000 og p = P(et vilkårlig frø spirer) = 0,8.

:I denne modellen er E( X) = np og var( X) = np(1 p) Vi skal finne PX ( 6800000). I følge regel 5.0 er X normalfordelt hvis np(1 p) 5 og p ikke er for nær 0 eller 1. Dette er klart oppfylt her. Dermed: ( ( ), var( ) ) = (, (1 ) ) = ( 5 760 000; 1073,313) X N E X X N np np p N hvorav (ved hjelp av Gz ( ) = PZ ( z) der Z N(0,1) ) 6 800 000 5 760 000 PX ( 6 800 000) G = G( 968,96) 1 1073,313 = Den siste likheten følger av tabellen (D.3) i boka siden vi vet at Gz ( ) er en ikkeavtagende funksjon av z samtidig som Gz ( ) 1for alle z. Dermed blir nemlig tabell D.3 1 G(968,96) G(3, 09) = 0,9990. Mao., 0,9990 G(968,96) 1, og vi kan sette G (968,96) = 1 som er tilstrekkelig nøyaktig for de fleste praktiske formål. Merknad. Som et kuriosum (uten praktisk betydning) kan nevnes at G(968,96) ligger veldig mye nærmere 1 enn grensen 0,9990 fra tabell D.3 skulle tilsi. Videregående metoder utenfor pensum gir faktisk at 03 476 9-tall 03 476 G(968,96) = 1 10 = 0,99999...9. Oppg. 5.6 La X = antall barn i utvalget som har lærevansker. Andel barn med lærevansker i populasjonen av barn antas å være p = 0,15. Utvalgsstørrelsen er n = 900. Utvalget antas å være et rent tilfeldig utvalg trukket fra populasjonen. I så fall er X egentlig hypergeometrisk fordelt, men siden populasjonen er stor, kan vi uten vesentlig tap av realisme anta en binomisk modell for X: Modell: X bin( n, p ) = bin(900;0,15) Vi skal finne P(115 X 150). Betingelsene i regel 5.0 er opplagt oppfylt, og vi kan utnytte at X er normalfordelt: ( ( ), var( ) ) = (, (1 ) ) = ( 135; 10,7114) X N E X X N np np p N

3 Siden X bare kan anta hele verdier, er begivenheten ( X 115) ekvivalent med ( X > 114), og vi får (ved hjelp av Gz ( ) = PZ ( z) der Z N(0,1) ): P(115 X 150) = P(114 < X 150) = P( X 150) P( X 114) 150 135 114 135 tabell D.3 G G G(1,40) G( 1,96) 0,919 0,050 10,7114 = = 10,7114 = 0,894 Oppg. 5.11 Populasjonen består av N = 6400 elger, hvorav M = 1400 er merket. Andelen av merkete elger i populasjonen er dermed M p = = 0,1875 N Utvalgsstørrelsen er n = 800 og X er antall merkete elger i utvalget. Vi ønsker å beregne sannsynlighetene PX ( 00) og P(160 X 185) = P(159 < X 185) = PX ( 185) PX ( 159). Oppgaven har flere (akseptable) løsninger: Versjon 1: Vi antar at utvalget kan anses å være rent tilfeldig trukket fra populasjonen. I så fall er X hypergeometrisk fordelt, og vi kan utnytte regel 5.0 for å finne sannsynlighetene (betingelsen for dette er klart oppfylt): Regel 5.0 gir da X N E X X N np np p N N 1 N n ( ( ), var( ) ) =, (1 ) = ( 175; 10,9384) hvorav (ved hjelp av Gz ( ) = PZ ( z) der Z N(0,1) ): 00 175 PX ( 00) G = G(, 9) = 0,989 10,9384 og

4 185 175 159 175 P(160 X 185) G G G(0,91) G( 1,46) 0,8186 0,071 10,9384 = = 10,9384 = 0,7465 Versjon : Siden populasjonen er relativt stor, kunne vi som en forenkling, uten vesentlig tap av realisme, i utgangspunktet anta at X er binomisk (n,p)-fordelt. Regel 5.0 gir i så fall ( ( ), var( ) ) = (, (1 ) ) = ( 175; 11,697) X N E X X N np np p N som gir PX ( 00) 0,984 tabell D.3 P(160 X 185) G(0,86) G( 1,37) = 0,7198 (Fasiten tyder på at Løvås antakelig har valgt versjon. Små avvik for øvrig kan skyldes avrunding) Oppg. 5.16 La X = antall dødsulykker i en gitt måned. Som modell antar vi at X er poisson-fordelt, X pois(1) (som bl.a. innebærer at E( X ) = 1). Punktsannsynlighetene er gitt ved Vi får da 1 1 PX x e x x! e x! x 1 ( = ) = = for = 0,1,, 1 1 PX ( = 0) = 0,368 og PX ( ) 0,184 e = = = e = La Y være antall dødsulykker i et helt år. Hvis poisson-forutsetningene gjelder i hele året, kan vi anta Y pois(1 1) = pois(1). Denne fordelingen omfattes av tabell D. som gir og PY ( = 6) = PY ( 6) PY ( 5) = 0,046 0,00 = 0,06 PY ( 8) = 0,155

5 Oppg. 5.17 La X være antall diskotekbranner i løpet av et år og Y = antall personer som omkommer i diskotekbranner i et år. Oppgaven hevder det er rimelig å anta en poisson-fordeling for X, og spør om hvorfor det samme er en urimelig antakelse for Y. Da må vi se på de grunnleggende forutsetningene som impliserer poisson-fordelingen. Forutsetningen om neglisjerbar sannsynlighet for opphopning av begivenheter i et kort tidsrom, virker åpenbart urimelig siden det gjerne er flere omkomne i samme diskotekbrann. Derfor virker poissonmodellen klart som en dårlig modell for Y. Merknad. Også poisson-modellen for X, kan naturligvis diskuteres. En trussel mot den modellen kan være avskrekningseffekten som en større diskotekbrann kan ha. Etter en slik katastrofe kan man godt tenke seg at mange diskoteker fokuserer mer på sikkerhet, i hvert fall i en periode etterpå. Dette ville i så fall føre til at forutsetningen om uavhengighet mellom hendelser i ikke-overlappende tidsintervaller sprekker. Hvis avskrekningseffekten er sterk, vil således poisson-modellen også være dårlig for X. Oppg. 5.0 Tidsenheten i denne oppgaven er måned (se merknad i slutten av oppgaven). La X være antall døde av hjerte- og karsykdommer i et gitt år. De tre forutsetningene for poissonfordelingen synes rimelige her. (Er du enig? Sjekk selv). Vi antar derfor at X er poissonfordelt, X pois(1 λ ) der lambda ( λ ) er forventet dødsrate pr. mnd (dvs. λ = E( X 1)), som i oppgaven antas å være kjent lik 3000. Betingelsen for tilnærming til normalfordelingen er klart oppfylt siden v ar( X ) = 1 3000 er godt over 5. Det er heller ikke aktuelt med noen heltallskorreksjon som i eksempel 5.18 for å forbedre tilnærmingen siden vi ligger så langt over grensen (5) for akseptabel tilnærming. Vi har dermed ( ( ), var( ) ) = ( 1 λ, 1λ) = ( 36 000; 189,737) X N E X X N N Vi finner (idet vi ignorerer ytterligere tilnærmelser som skyldes avrunding) 35 799 36 000 PX ( < 35 800) = PX ( 35 799) G = G( 1,06) = 0,1446 189,737 For å finne hvor mange dødsfall vi kan forvente pr. dag, er det lurt å definere en stokastisk variabel, Y = antall dødsfall en vilkårlig dag i løpet av det aktuelle året. Vi er

6 altså ute etter E( Y ). Siden (en dag) = (et år)/365 og poisson-modellen er antatt å gjelde i det aktuelle året, følger at 1 Y pois 1λ 365 [Merk at dette uttrykket fortsatt har formen pois( tλ 1) der λ1 = 1λ nå er forventet dødsrate pr. år, og t = 1/365.] Dermed følger av egenskapene for poissonfordelingen (jfr. Definisjon 5.8 i Løvås) at 1 EY ( ) = λ = 1183,6 365 Merknad. Tidsenheten måned er åpenbart upresis i og med at antall dager i en måned varierer litt. I oppgaven regner vi imidlertid som om hver måned består av et fast antall dager, 365/1 = 30,4 dager. I praksis er det ikke bryet verdt å presisere dette siden månedslengden varierer så lite. Oppg. 5.33 Regel 5.14 følger av definisjon 5.13. Denne definisjonen inneholder bl.a. en regel (setning), som kan bevises, og burde vært formulert som en egen regel (se notat til kapittel 5), nemlig: X μ X N E( X), var( X) = N( μσ, ) N(0,1) σ (*) ( ) Kall den stokastiske variabelen X μ for Z. I følge (*) er altså Z N(0,1). σ La de kumulative fordelingsfunksjonene for X og Z være gitt ved Da har vi fra F( x) = P( X x) og G( z) = P( Z z) (*) X μ x μ x μ x μ F( x) = P( X x) = P = P Z = G σ σ σ σ som var det vi skulle vise.