Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag ST/ST Sannsynlighetsregning og statistikk Vår 9 Oppgaver fra boka 3..9 Ved et terningkast anses utfallet antall øyne lik for å være suksess mens alt annet er fiasko. Sannsynligheten for å slå en sekser er uniform, lik p =, samt konstant ved hvert terningkast. Hvert kast anses som uavhengig av hverandre. Det vil si at den stokastiske variabelen X = antall seksere er binomisk fordelt. P (minst sekser på kast) = P (X ) P (X = ) ( ) ( ) ( ( ) 5 =.5 P (minst sekser på kast) = P (X ) [P (X = ) + P (X + )] [ ( ) ] ( ) k ( ) k k [ k= ( 5 ) + ( ) ] 5 =.87 [ ] P (minst 3 sekser på 8 kast) = P (X 3) P (X = k) [ k= ( k ) ( k= ] ) k ( ) k [.375 +.35 +.987] =.5973 Altså mest sannsynlig å få minst en sekser på terningkast. ) 3.. La X = antall missiler som treffer flyet og Y = antall raketter som treffer båten. For hver avfyrt missil/rakett er det snakk om uavhengige forsøk med konstant sannsynlighet for suksess (treffe målet) henholdsvis p X =. og p Y =.5. Så både X og Y kan anses som binomisk fordelt. Det er opplyst at flyet styrter hvis det treffes av eller flere missiler, mens båten. januar 9 Side av 9
synker hvis den treffes av én rakett. Dvs. P (flyet styrter) = P (X ) k= ( k ) ( 5 P (X = k) k= ) k ( ) k [. +.378] =.3 P (båten synker) = P (Y ) P (Y = ) ( ) ( ) (.5987 =. Så det er størst sannsynlighet for å overleve i flyet. ) 3.. Hvert barn er et uavhengig forsøk med konstant sannsynlighet p =.5 for at barnet er ei jente (suksess). Så med barn er det snakk om forsøk og ( ) ( ) ( P ( av hvert kjønn) = =.375 ) P (3 av hvert kjønn) =P (3 jenter og gutt) + P ( jente og 3 gutter) ( ) ( ) 3 ( = 3 ( ) ( ) ( + 3 ) ( ) ( ) = =.5 3 Så det er størst sannsynlighet for å få 3 barn av samme kjønn. ) 3.. En populasjon på 9 bjørner består av mørke og 3 lyse. Av disse er observert forskjellige. La X være antall observerte mørke bjørner. Siden det er observert forskjellige bjørner er det snakk om et udvalg uten tilbakeleging og X vil være hypergeometrisk fordelt. Hvis det skal være observert minst dobbelt så mange mørke som lyse bjørner, ut av i alt observert, må det være observert minimum mørke bjørner. Så spørsmålet kan besvares ved P (X ) = x= P (X = x) hvor den øvre grense skyldes antallet observerte bjørner. P (X ) = P (X = x) x= ( = )( 3 ) ( 9 ) + ( )( 3 ( )( 3 5( ) 9 + ( ) 9 ) ) =.5357 +.3 +.9 =.79 3.. Det velges 5 av mulige spørsmål til eksamen. Hvis Anne kan svare på 8 av de mulige spørsmål, har hun da minst 85% sannsynlighet for å kunne svare på minst av 5 spørsmål?. januar 9 Side av 9
La X betegne antall korrekte svar på eksamen. Oppgaven er da å finne sannsynligheten for å trekke 5 spørsmål ut fra en pulje på spørsmål (uten tilbakeleging), hvor hun kan svare på minst. Dvs. ( 8 )( ( 8 )( P (X ) = P (X = ) + P (X = 5) = ( ) 5 ) + ( ) ) =.778 5 5 Så Anne har ikke 85% sannsynlighet for å kunne svare riktig på av 5 spørsmål ved kun å kunne 8 av mulige spørsmål. 3.3. a) Urnen inneholder 5 baller nummerert til 5 og det trekkes baller samtidig. La X være det største nummeret assosiert med de to trukne baller. Den største verdien vil alltid være > da baller trekkes uten tilbakelegning og 5, så utfallsrommet er begrenset til S X = {, 3,, 5}. Med et så overkommelig utfallsrom kan sannsynlighetsfordelingen konstrueres som P (X = k) = antall muligheter for X = k antall mulige kombinasjoner Antall mulige kombinasjoner de to ballene kan trekkes, som er gitt ved antall permutasjoner n P k = 5 P =. Sannsynligheten for hvert utfall kan da lett finnes ved telling av mulige kombinasjoner. F.eks. for k = er det kun utfallene {(, ), (, )}, for k = 3 er det {(, 3), (, 3), (3, ), (3, )} osv. Samlet gir det sannsynlighetsfordelingen k 3 5 p X (k) / / 3/ / som oppfyller kravene til en diskret sannsynlighetsfordeling. b) La nå V være summen av de to ballenes verdi. Utfallsrommet består av helltal i intervallet 3 til 9, og på samme vis som i forrige spørsmål kan en sannsynlighetsfordeling for V konstrueres ved simpel kombinatorik og telling. k 3 5 7 8 9 p V (k) / / / / / / / 3.3. a) Nå blir ballene i forrige oppgave trukket med tilbakeleging, verdien av. ball er nå uavhengig av. balls verdi. Utfallsrommet utvides til S X = {,, 3,, 5} og en fordeling p X (k) kan konstrueres på samme måte som før, hvor antall mulige kombinasjoner nå er 5 = 5. Så f.eks. for k = er det kun et mulig utfall (, ), for k = er det utfallene {(, ), (, ), (, )} som teller, mens det for k = 3 er {(, 3), (, 3), (3, 3), (3, ), (3, )} osv. Dette gir sannsynlighetsfordeling p X (k):. januar 9 Side 3 av 9
k 3 5 p X (k) /5 3/5 5/5 7/5 9/5 b) Utfallsrommet for V er nå utvidet til heltall i intervallet [, ], men framgangsmåten er den samme som i spørsmål 3.3. b) Den diskrete sannsynlighetsfordeling p V (k) blir da: k 3 5 7 8 9 p V (k) /5 /5 3/5 /5 5/5 /5 3/5 /5 /5 3.3.3 Vi kaster en rettferdig terning (altså en "vanligterning der alle utfall er like sannsynlige) tre ganger. X er det største antallet øyne på de tre kastene. Utfallsrommet er S X = {,, 3,, 5, }. La (a, b, c) være verdiene vi kaster, og vi har 3 = muligheter for kastene ( utfall per kast). Det betyr at sannsynligheten for at X = er /, fordi da må (a, b, c) = (,, ). X = når minst én av a, b, c er og resten er. Da har vi tre muligheter for ett -tall, tre muligheter for to -tall, og én mulighet for tre -tall, som gir oss P (X = ) = 7/. En mer generell tankegang er at vi har to muligheter for hvert terningkast ( eller ), og derfor har 3 = 8 muligheter, minus de der vi ikke har noen -tall, som her er (a, b, c) = (,, ). Det blir altså 3 / / = 7/. For X = 3 må minst én av terningene ha 3 øyne, mens de andre har, eller 3. Da har alle 3 muligheter, 3 3 = 7, minus de situasjonene der ingen er 3-tall (og bare og ) som har 3 = 8 muligheter. Altså, P (X = 3) = 3 3 / 3 / = 9/. Nå ser vi et system her, for X = k har vi k 3 minus (k ) muligheter. Da kan vi skrive ned den generelle formelen: p X (k) = k3 (k )3 som vi kan se at vil summere til, så dette er en gyldig sannsynlighetstetthet. 3.3. Terningen blir kastet 3 ganger og X er det største antall øyne på de tre kastene. Ved Definisjon 3.3. er da F X (k) = P (X k) = P (max(a, b, c) k) hvor (a, b, c) er antall øyne i hvert av de tre kastene (se også Eksempel 3.). For at det største antall øyne X k må det nødvendigvis gjelde at a k og b k og c k. Da hendelsene a, b og c er uavhengige fås F X (k) = P (max(a, b, c) k) = P ((a k) (b k) (c k)) = P (a k)p (b k)p (c k) = k k k ( ) k 3 = k =,...,. januar 9 Side av 9
da P (a k) = k x=. 3.3. Den kumulative fordelingsfunksjon for den diskrete variabelen X har formen F X (x) = x(x + )/ i punktene x =,,...,. For å finne sannsynlighetsfordelingen p X (x) bruker vi at F X (x) = x k= p X(k) og dermed p X (x) = F X (x) F X (x ) = hvor p X () = F X () = også er dekket. x(x + ) x(x ) = x x =,,..., 3..3 f Y (y) = 3 y, y. Da er P ( Y < ) =P ( < Y < ) =P ( < Y < 3 ) = P (Y < 3 ) P (Y < ) Vi må finne den kumulative sannsynlighetsfordelingen: Da har vi at F Y (y) = y f Y (y)dy = y = (y3 ( ) 3 ) = (y3 + ) 3 y dy = 3 y y dy = 3 [ ] y 3 y3 P ( Y = P (Y < 3 ) P (Y < ) ( (3 = ) ( 3 ( + ) ) 3 + ) = (7/ / + ) = (/) = 3/ = ((7/ + ) (/ + )) 3.. Når man har en spesiell type malaria kan man beskrive tiden man er i remisjon (remissionpå engelsk) ved den kontinuerlige pdf-en f Y (y) = 9 y, y 3, der Y måles i år. Sannsynligheten for at en malariapasients remisjonstid varer mer enn år er da P (Y > ) P (Y ) f Y (y)dy 9 y dy 9 [(/3)y ] 7 = 7. januar 9 Side 5 av 9
3.. Vi vet at f Y (y) = (n + )(n + )y n ( y), y, n N. For at f Y (y) skal være en sannsynlighetstetthet, må den oppfylle. f Y (y), y.. f Y (y) dy =. For å vise. holder det å vise at alle faktorene som inngår i f Y (y) er større eller lik null når y. Siden n N, vet vi at (n + ) > (n + ) >. Videre, ser vi at y n og at ( y) innenfor det angitte intervallet. Følgelig er f Y (y). Vi viser. ved å utføre integrasjonen: f Y (y) dy = (n + )(n + )y n ( y) dy () = [ (n + )y n+ (n + )y n+] = (n + ) (n + ) =. Altså er f Y (y) en sannsynlighetstetthet. 3..8 Y er en eksponensialfordelt stokastisk variabel. Sannsynlighetstettheten er f Y (y) = λe λy, y. Vi finner den kumulative sannsynlighetsfordelingen F Y (y): F Y (y) = f Y (y) dy = λe λy dy = C e λy () Vi finner konstanten C ved å kreve at sannsynlighetstettheten integrerer til : lim y F Y (y) = C =. Altså er F Y (y) e λy.. januar 9 Side av 9
3.. Y er en kontinuerlig stokastisk variabel med kumulativ sannsynlighetsfordeling, y < F Y (y) = y, y, y Den tilhørende sannsynlighetstettheten er f Y (y) = y, y. Vi skal finne P ( < Y 3 ) ved å. Bruke den kumulative sannsynlighetsfordelingen, F Y (y).. Bruke sannsynlighetstettheten, f Y (y). Metode : Metode : P ( < Y 3 ) = P (Y 3 ) P (Y ) = F Y ( 3 ) F Y ( ) () P ( < Y 3 ) = 3 f Y (y) dy = 3 = 9 = 5. y dy = [ y ] 3 (3) = 5. (5) Alternativt, for metode, ser vi at sannsynlighetstettheten er lineær i dette problemet - altså kan vi beregne integralet ved å finne arealet av trapesen sannsynlighetstettheten danner med x-aksen. P ( < Y 3 ) = f Y ( )(3 ) + (f Y ( 3 ) f Y ( ))(3 ) () = + = 5. 3..8 Farerate ("hazard rate") er gitt ved: h(y) = f Y (y) F Y (y) Fra 3..8 har vi for eksponensiell familie at f Y (y) = λe λy, y og F Y (y) = e λy. Da er fareraten h(y) = λe λy ( e λy ) = λe λy e λy = λ. januar 9 Side 7 av 9
R-oppgave library(ggplot) library(scales) a Stokastisk variabel fra Øving : X N (, ), altså en normalfordelt varabel med gjennomsnitt og varians. Utfallsrommet er hele den reelle tallinja. b Hendelsesfamilien til X: den minste familien av mengder som inneholder alle intervall på den reelle tallinja. Sannsynlighetsfordelingen til X er en normalfordeling med gjennomsnitt og varians. c # temperatur i Celcius fra 9-8 temp_3 <- c(.3, 5.,, 5., 5.8, 8., 8.3, 8.8, 7.5,.) temp_ <- c(.9, 9.5, 7.8, 5.5,.8,.,.3, 8.7,., 5.) temp <- c(temp_3, temp_) mean(temp) ## [] 3.85 var(temp) ## [] 8.3 T er en stokastisk variabel som måler temperatur, og utfallsrommet er hele den reelle tallinja. Merk at de mulige verdiene T kan ta kun er større enn -73.5 (men utfallsrommet inneholder tall lavere enn det, sannsynligheten for at T kan ta disse verdiene er ). Hendelsesfamilien til T : den minste familien av mengder som inneholder alle intervall på den reelle tallinja (den samme som X i forrige oppgave). Sannsynlighetsfordelingen til T er ikke kjent. Det er riktignok vanlig å anta at temperatur er normalfordelt. Gjennomsnittet er 3.85 og variansen er 8.3 i dataene fra Røros. d ggplot(data.frame(temperatur = temp), aes(x = Temperatur, y =..density..)) + geom_histogram(bins = 3)
.3. density.. 5 Temperatur