MAT110. Statistikk 1. Kompendium 2018, del 2. Per Kristian Rekdal

Like dokumenter
Kompendium V-2016 MAT110. Statistikk 1. Del 2 av 2. Per Kristian Rekdal

Formelsamling V MAT110 Statistikk 1. Per Kristian Rekdal

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

Oppgavesett nr. 5. MAT110 Statistikk 1, Et transportfirma har et varemottak for lastebiler med spesialgods, se figur 1.

Kompendium V-2014 MAT110. Statistikk 1. Del 2 av 2. Per Kristian Rekdal

Kapittel 4: Matematisk forventning

MAT110. Statistikk 1. Løsning til øvingsoppgaver Per Kristian Rekdal

MAT110. Statistikk 1. Løsning til øvingsoppgaver Per Kristian Rekdal

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Eksamen i. MAT110 Statistikk 1

3.4: Simultanfordelinger (siste rest) 4.1,4.2,4.3: Multivariat del (ferdig med kapittel 3 og 4 etter denne forelesningen)

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

statistikk, våren 2011

Eksamen i. MAT110 Statistikk 1

LØSNING: Eksamen 22. mai 2018

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

MAT110. Statistikk 1. Kompendium 2018, del 1. Per Kristian Rekdal

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

ÅMA110 Sannsynlighetsregning med statistikk, våren

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

Statistikk 1 kapittel 5

Statistikk 1 kapittel 5

Statistikk 1 kapittel 5

Statistikk 1 kapittel 5

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Betinget sannsynlighet

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

MAT110 Statistikk 1 Løsningsforslag til eksamensoppgaver

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

Forelesning 13. mars, 2017

FORMELSAMLING TIL STK1100 OG STK1110

TMA4240 Statistikk Høst 2008

Bernoulli forsøksrekke og binomisk fordeling

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Forventning og varians.

ØVINGER 2017 Løsninger til oppgaver. Lineærkombinasjonen Z = 5X + 8Y har forventningsverdi

Forventning og varians.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

Foreleses onsdag 8. september 2010

LØSNING: Oppgavesett nr. 1

Oppgavesett nr. 6. MAT110 Statistikk 1, 2018

HØGSKOLEN I STAVANGER

Kapittel 2: Hendelser

Sannsynlighetsregning og kombinatorikk

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

Fasit for tilleggsoppgaver

MAT110. Statistikk 1. Samling av øvingsoppgaver Per Kristian Rekdal

Forelening 1, kapittel 4 Stokastiske variable

Statistikk 1 kapittel 4

Kapittel 5: Tilfeldige variable, forventning og varians.

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

Stokastisk variabel. Eksempel augefarge

Oppgavesett nr. 1. MAT110 Statistikk 1, Etterspørsel y=y i Figur 1: Sammenheng mellom pris x og etterspørsel y.

MAT110. Statistikk 1. Samling av øvingsoppgaver Per Kristian Rekdal

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

TMA4240 Statistikk H2015

Formelsamling i medisinsk statistikk

FORMELSAMLING TIL STK1100 OG STK1110

Tema 1: Hendelser, sannsynlighet, kombinatorikk Kapittel ST1101 (Gunnar Taraldsen) :19

DEL 1 GRUNNLEGGENDE STATISTIKK

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

TMA4245 Statistikk Eksamen desember 2016

Forelesning 7. mars, 2017

UNIVERSITETET I OSLO

Kompendium V-2014 MAT110. Statistikk 1. Del 1 av 2. Per Kristian Rekdal

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

Regneregler for forventning og varians

Oppfriskning av blokk 1 i TMA4240

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

TMA4240 Statistikk H2010

3.1 Stokastisk variabel (repetisjon)

Eksempel: kast med to terninger

La U og V være uavhengige standard normalfordelte variable og definer

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Statistikk og dataanalyse

STK Oppsummering

SANNSYNLIGHETSREGNING

Løsningskisse seminaroppgaver uke 15

µ = E(X) = Ʃ P(X = x) x

STK1100 våren Forventningsverdi. Forventning, varians og standardavvik

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Sum to terninger forts. Eksempel: kast med to terninger. Sum to terninger forts. Kapittel 3. TMA4240 H2006: Eirik Mo

Eksamensoppgave i TMA4240 Statistikk

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

ST0202 Statistikk for samfunnsvitere

Innhold. Innledning. Del I

Tilfeldige variable (5.2)

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Fagdag ) Du skal fylle ut en tippekupong. På hvor mange måter kan dette gjøres?

HØGSKOLEN I STAVANGER

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Høgskoleni Øs fold EKSAMEN. Om noe er uklart eller mangelfullt i oppgaven inngår det som en del av oppgaven å ta de nødvendige forutsetninger.

Løsningsforslag, eksamen statistikk, juni 2015

Transkript:

MAT110 Statistikk 1 Kompendium 2018, del 2 Per Kristian Rekdal

2

Innhold 0 Introduksjon 7 0.1 Statistikk........................................ 8 0.2 Oversikt over MAT110 Statistikk 1......................... 9 0.3 Anvendelsesområder.................................. 10 0.4 Målsetning for MAT110 Statistikk 1.......................... 11 1 Beskrivende statistikk 13 1.1 Populasjon og utvalg.................................. 14 1.2 Statistiske mål (èn variabel)............................. 19 1.2.1 Lokaliseringsmål................................ 19 1.2.2 Spredningsmål.................................. 24 1.3 Statistiske mål (to variabler)............................ 38 1.4 Grafisk fremstilling av data.............................. 51 2 Sannsynlighetsregning 53 2.1 Utfallsrom........................................ 54 2.2 Sannsynligheter..................................... 58 2.3 Begivenhet........................................ 62 2.4 Uniforme sannsynlighetsmodeller........................... 65 2.5 Mengdelære....................................... 69 2.6 Regning med sannsynligheter............................. 73 2.6.1 Addisjonssetningen............................... 74 2.6.2 Komplementsetningen............................. 86 2.6.3 Total sannsynlighet............................... 88 2.6.4 Tvillingsetningene................................ 90 3 Kombinatorikk 97 3.1 Koblinger........................................ 98 3.2 4 situasjoner (endelig populasjon)........................... 102 3.3 Binomialkoeffisienten.................................. 110 3.4 Kombinatoriske sannsynligheter............................ 111 4 Betinget sannsynlighet 123 4.1 Betinget sannsynlighet................................. 124 4.1.1 Multiplikasjonssetningen............................ 128 4.1.2 Bayes lov.................................... 130 4.2 Sannsynlighetstrær................................... 136 3

4.3 Oppsplitting av Ω.................................... 138 4.4 Uavhengighet...................................... 142 5 Stokastiske variabler, forventning og varians 155 5.1 Stokastiske variabler.................................. 156 5.2 Forventning og varians................................. 162 5.2.1 Forventning................................... 162 5.2.2 Varians..................................... 165 5.2.3 Noen regneregler................................ 171 5.3 Generelle forventninger................................. 180 6 Simultane sannsynlighetsfordelinger 195 6.1 Simultan- og marginalfordeling............................ 196 6.2 Generelle forventninger................................. 205 6.3 Kovarians........................................ 216 7 Sentrale sannsynlighetsfordelinger 237 7.1 Den binomiske fordelingen............................... 238 7.1.1 Forventingsverdi................................ 254 7.1.2 Varians..................................... 256 7.2 Den hypergeometriske fordelingen........................... 262 7.2.1 Forventning og varians............................. 270 7.3 Sammenheng mellom Hyp[N, M, n] og Bin[n, p]................... 274 7.3.1 Forventningsverdi................................ 275 7.3.2 Varians..................................... 275 7.4 Poissonfordelingen................................... 278 7.4.1 Forventning og varians............................. 284 7.5 Normalfordelingen (kontinuerlig).......................... 288 7.5.1 Standardisering................................. 292 7.5.2 Sammenhengen mellom P (Z z) og G(z).................. 295 7.5.3 Diskret vs kontinuerlig fordeling: en viktig forskjell............. 309 7.5.4 Standardavvik σ og %-vis areal........................ 310 7.6 Oversikt: Bin, Hyp, Poi og N............................ 323 7.7 Sentralgrensesetningen................................. 326 7.8 Diskrete fordelinger normalfordeling...................... 343 7.9 Sammenheng: Bin, Hyp, Poi og N.......................... 353 7.10 Sum av uavhengige stokastiske variabler....................... 355 11 Regresjonsanalyse 365 11.1 Introduksjon....................................... 366 11.2 Lineære sammenhenger................................. 367 11.3 Teoretisk modell vs estimert modell.......................... 371 11.4 Residual og SSE.................................... 372 11.5 Minste kvadraters regresjonslinje........................... 375 11.6 Forklaringsstyrke og SST............................... 380 4

Kapittel 6 Simultane sannsynlighetsfordelinger Figur 6.1: Simultane sannsynlighetsfordelinger. 195

6.1 Simultan- og marginalfordeling La oss se på situasjonen med to stokastiske variabler X og Y det er koblinger mellom variablene. simultan samtidig. Vi ønsker å finne ut om Eksempel: ( leveringstid ) I Kristiansund er det to firma, Tools og Würth, som leverer samme produkt, trykkluftverktøy til offshoreindistrien. Anta at det kun er disse to firmaene som leverer trykkluftverktøy i Kristiansund. La : X = hvilket firma som velges, ( 1 eller 2, hvor 1=Tools og 2=Würth) Y = leveringstid i antall dager, ( 0, 1 eller 2 ) L E V E R I N G S T I D Y = 0 Y = 1 Y = 2 F I R M A X = 1 X = 2 0.05 0.10 0.30 0.20 0.10 0.25 Figur 6.2: Simultanfordelingen til X og Y, firma og leveringstid. Figur 6.3: Tools og Würth. 196

a) Vis at p(x, y) = P (X = x og Y = y) er en gyldig sannsynlighetsfordeling. b) Hva er sannsynligheten for at kundene velger å kjøpe produktet hos firma 1, (uansett hvor lang tid firma 1 bruker på leveringen)? c) Hva er sannsynligheten for at kundene velger å kjøpe produktet hos firma 2, (uansett hvor lang tid firma 2 bruker på leveringen)? d) Hva er sannsynligheten for at kundene kjøper produktet, uansett hvor det kjøpes, dersom leveringstiden er Y = 0 dager? Y = 1 dag? Og Y = 2 dager? 197

Løsning: Fra tabell figur (6.2) ser vi at de 2 3 = 6 simultane sannsynlighetene er firma nr. 1 : firma nr. 2 : p(1, 0) = P (X = 1 og Y = 0) = 0.05 p(1, 1) = P (X = 1 og Y = 1) = 0.10 p(1, 2) = P (X = 1 og Y = 2) = 0.30 p(2, 0) = P (X = 2 og Y = 0) = 0.20 p(2, 1) = P (X = 2 og Y = 1) = 0.10 p(2, 2) = P (X = 2 og Y = 2) = 0.25 a) Summen av de simultane sannsynlighetene: p(x, y) = p(1, 0) + p(1, 1) + p(1, 2) + p(2, 0) + p(2, 1) + p(2, 2) (6.1) x y = 0.05 + 0.10 + 0.30 + 0.20 + 0.10 + 0.25 (6.2) = 1 (6.3) er 1, og p(x, y) er en gyldig sannsynlighetfordeling. 198

b) Firma 1 er mest interessert i at kundene kjøper produktet hos dem, uansett hvor lang tid firmaet bruker på leveringstiden. marginalfordeling { }} { firma 1 P ( X = 1) = y p(1, y) (6.4) = p(1, 0) + p(1, 1) + p(1, 2) = 0.05 + 0.10 + 0.30 = 0.45 (6.5) som er sannsynligheten for at kundene velger å kjøpe produktet hos oss i firma 1, (uansett hvor lang tid vi bruker på leveringen). c) Firma 2 ønsker å finne ut til det tilsvarende for dem: Firma 2 er mest interessert i at kundene kjøper produktet hos dem, uansett hvor lang tid firmaet bruker på leveringstiden. marginalfordeling { }} { firma 2 P ( X = 2) = y p(2, y) (6.6) = p(2, 0) + p(2, 1) + p(2, 2) = 0.20 + 0.10 + 0.25 = 0.55 (6.7) Konklusjon: Firmaene 1 og 2 har nesten samme markedsandel. 199

d) Begge firmaene er interessert i å finne ut hvor viktig leveringstiden er for kundene. Derfor ønsker de svar på spørsmålet: Hva er sannsynligheten for at kundene kjøper produktet, uansett hvor det kjøpes, dersom leveringstiden er Y = 0 dager? Y = 1 dag? Og Y = 2 dager? marginalfordeling P (Y = 0) = p(x, 0) = p(1, 0) + p(2, 0) = 0.05 + 0.2 = 0.25 (6.8) x marginalfordeling P (Y = 1) = p(x, 1) = p(1, 1) + p(2, 1) = 0.10 + 0.10 = 0.20 (6.9) x marginalfordeling P (Y = 2) = p(x, 2) = p(1, 2) + p(2, 2) = 0.30 + 0.25 = 0.55 (6.10) x Vi kan utvide tabellen i figur (6.2) slik at marginalfordelingene er inkludert: L E V E R I N G S T I D Y = 0 Y = 1 Y = 2 P(X=x) F I R M A X = 1 X = 2 0.05 0.10 0.30 0.20 0.10 0.25 0.45 0.55 P(X=1) P(X=2) P(Y=y) 0.25 0.20 0.55 P(Y=0) P(Y=1) P(Y=2) Figur 6.4: Simultanfordelingen (rød og blå) og marginalfordelingene (svart) til X og Y. 200

Definisjon: ( simultanfordeling ) La X og Y være to stokastiske variabler. Med simultanfordeling menes: p(x, y) = P (X = x og Y = y) (6.11) Simultanfordeling er som en og -sannsynlighet: den sier noe om hvor stor sannsynlighet det er for at X = x og samtidig Y = y. Definisjon: ( marginalfordeling ) La X og Y være to stokastiske variabler. Med marginalfordeling menes: P (X = x) = y p(x, y) (6.12) P (Y = y) = x p(x, y) (6.13) Marginalfordeling er som en individuell sannsynlighet: - den sier noe om hvor stor sannsynlighet det er for at X = x, uansett hva verdien av Y er - den sier noe om hvor stor sannsynlighet det er for at Y = y, uansett hva verdien av X er 201

Eksempel, (forts): ( leveringstid, uavhengighet ) La oss fortsette med eksempelet fra side 196: Dersom vi ønsker å finne ut om de to stokastiske variablene X og Y er uavhengige så kan vi gjøre det på analog måte som i eksempelet på side 149: Er valg av firma og leveringstid uavhengig? Figur 6.5: Tools og Würth. 202

Løsning: Uavhengighet mellom stokastiske variabler testes ved å regne ut: 1 P (X = x og Y = y) vs P (X = x) P (Y = y) (6.14) Dersom disse to er like, så er de stokastiske variablene X og Y uavhengige, jfr. den spesielle multiplikasjonssetningen i lign.(4.41). i) Fra figur (6.2) ser vi direkte at P (X = 1 og Y = 0) = 0.05 (6.15) ii) Produktet P (X = 1) P (Y = 0) kan vi også regne ut siden vi kjenner verdiene P (X = 1) = 0.5 og P (Y = 0) = 0.3: P (X = 1) P (Y = 0) = 0.45 0.25 = 0.1125 (6.16) Alt i alt: = 0.1 P (X = 1 og Y = 0) = 0.15 P (X = 1) P (Y = 0) (6.17) Konklusjon: I dette eksemplet er de stokastiske variablene X og Y ikke uavhengige. 1 Fra kapittel 4 brukte vi multiplikasjonssetingen for å teste uavhengighet. Her bruker helt tilsvarende metode. 203

Definisjon: ( uavhengighet ) 2 La X og Y være to stokastiske variabler. Disse er uavhengige dersom: P (X = x og Y = y) }{{} = p(x,y) = P (X = x) P (Y = y) (6.18) for alle X = x og Y = y. NB: Denne definisjonen er helt analog med spesielle multiplikasjonssetningen i forbindelse med kapitlet om betinget sannsynlighet, se lign.(4.41). Her, i lign.(6.18), dreier deg seg uavhengighet mellom stokastiske variabler X og Y. I lign.(4.41), dvs. den spesielle multiplikasjonssetningen P (A B) = P (A) P (B), dreier deg seg uavhengighet mellom begivenheter A og B. 2 Jamfør den analoge setn. for uavhengighet mellom begivenheter A og B i lign.(4.41): P (A B) = P (A) P (B). 204

6.2 Generelle forventninger I kapittel (5.3) definerte vi den generelle diskrete forventingsverdi av funksjonen h(x) på følgende måte: E[ h(x) ] lign.(5.72) = m i=1 h(x i ) P (X = x i ) (6.19) Denne definisjonen fra forrige kapittel kan vi nå utvide til funkjoner med to variable: Definisjon: ( generell forventingsverdi, diskret ) For diskrete stokastiske variabel X, Y og funksjonen h(x, Y ) så gjelder E[h(X, Y )] = m n i=1 j=1 h(x i, y j ) p(x i, y j ) (6.20) 205

Spesialtilfelle: La oss se på et spesialtilfelle av lign.(6.20), nemlig det spesialtilfellet når: h(x, Y ) = X Y (6.21) Da er: E[X Y ] = m n i=1 j=1 x i y j p(x i, y j ) (6.22) 206

Eksempel: ( h(x, Y ) ) Anta at studenter ved Høgskolen i Molde som tar faget SCM300 Survey Design har utført en spørreundersøkelse. Resualtet av denne spørreundersøkelsen gir følgende simultanfordeling for de stokastiske variablene X og Y : Y = 1 Y = 2 X = 0 X = 1 0.3 0.1 0.2 0.4 Figur 6.6: Simultanfordelingen til X og Y. La h(x, y) = (x + 1)(y + 5y 2 ) være en funksjon av X og Y. Da er E[ h(x, y) ] lign.(6.20) = 2 2 i=1 j=1 h(x i, y j ) p(x i, y j ) (6.23) = (0 + 1)(1 + 5 1 2 ) 0.3 }{{} X=0, Y =1 + (1 + 1)(1 + 5 1 2 ) 0.2 }{{} X=1, Y =1 + (0 + 1)(2 + 5 2 2 ) 0.1 }{{} X=0, Y =2 + (1 + 1)(2 + 5 2 2 ) 0.4 }{{} X=1, Y =2 (6.24) (6.25) = 1.8 + 2.2 + 2.4 + 17.6 (6.26) = 24 (6.27) 207

Setning: ( uavhengighet ) Dersom X og Y er to uavhengige stokastiske variabler 3 så gjelder: E[X Y ] = E[X] E[Y ] (6.29) Bevis: Dersom de stokastiske variablene X og Y er uavhengige så er: P (X = x i og Y = y j ) }{{} = p(x i,y j ) = P (X = x i ) P (Y = y }{{} j ) }{{} = p(x i ) = p(y j ) (6.30) Ut fra definisjonen av forventning, se lign.(6.22), får vi da: E[X Y ] lign.(6.20) = uavh. = = m i=1 m i=1 n j=1 n j=1 ( m i=1 x i y i p(x i, y j ) (6.31) x i y i p(x i ) p(y j ) (6.32) ) ( n x i p(x i ) }{{} = E[X] j=1 ) y j p(y j ) }{{} = E[Y ] (6.33) = E[X] E[Y ] (6.34) 3 Ut fra definisjonen av uavhengighet mellom to stokastiske variabler ( se lign.(6.18) ) så vet vi X og Y er uavhengige dersom: P (X = x og Y = y) }{{} = p(x,y) lign.(6.18) = P (X = x) P (Y = y) (6.28) for alle X = x og Y = y. 208

Eksempel: ( aksjer, økonomi ) Du jobber som aksjemegler ved Oslo Børs. Du og dine kollegaer ønsker å se nærmere på sammenhengen mellom aksjekurs (pris) og antall aksjer som omsettes per dag. Siden du har spesialisert deg på offshorenæringen så er aksjekursen til Seadrill interessant for deg. Du bestemmer deg for å definere de stokastiske variablene X og Y : X = kursen (prisen) på en Seadrill-aksje en gitt dag Y = antall Seadrill-aksjer som omsettes per dag Basert på erfaring har du funnet følgende simultanfordelingen for X og Y : # aksjer omsatt per dag Y = 80 000 Y = 120 000 X = 70 1/12 3/12 Kurs (NOK) X = 100 1/6 1/6 X = 130 3/12 1/12 Figur 6.7: Simultanfordelingen til X og Y. Figur 6.8: Oslo Børs og Seadrill. 209

a) Hva er sannsynligheten for at verdien på Seadrill-aksjen er X = 70 NOK, uavhengig av omsetning? Og at aksjekursen er X = 100 NOK? Og X = 130 NOK? b) Hvor stor sannsynlighet er det for å omsette Y = 80 000 aksjer per dag? Og Y = 120 000 aksjer per dag? c) Hva er forventet aksjekurs (pris) på Seadrill-aksjene? d) Hva er forventet antall Seadrill-aksjer som omsettes per dag? e) Hva er forventet omsetning per dag? f) Hva aksjekurs (pris) og antall aksjer som omsettes per dag uavhengig? 210

Løsning: Fra tabellen i figur (6.7) ser vi at de simultane sannsynlighetene p(x, y) er: 4 kurs (verdi) på en aksje = 70 NOK : kurs (verdi) på en aksje = 100 NOK : kurs (verdi) på en aksje = 130 NOK : p(70, 80 000) = P (X = 70 og Y = 80 000) = 1 12 p(70, 120 000) = P (X = 70 og Y = 120 000) = 3 12 p(100, 80 000) = P (X = 100 og Y = 80 000) = 1 6 p(100, 120 000) = P (X = 100 og Y = 120 000) = 1 6 p(130, 80 000) = P (X = 130 og Y = 80 000) = 3 12 p(130, 120 000) = P (X = 130 og Y = 120 000) = 1 12 a) Sannsynligheten for at verdien på Seadrill-aksjen er X = 70 NOK: (uavhengig av omsetning) marginalfordeling lav kurs P ( X = 70) = p(70, y) = p(70, 80 000) + p(70, 120 000) y = 1 12 + 3 12 = 1 3 (6.35) 4 Totalt er det 6 sannsynligheter i tabellen i figur (6.7). 211

Sannsynligheten for at verdien på Seadrill-aksjen er X = 100 NOK: (uavhengig av omsetning) marginalfordeling middels kurs P ( X = 100 ) = p(100, y) = p(100, 80 000) + p(100, 120 000) y = 1 6 + 1 6 = 1 3 (6.36) Sannsynligheten for at verdien på Seadrill-aksjen er X = 130 NOK: (uavhengig av omsetning) marginalfordeling høy kurs P ( X = 130) = p(130, y) = p(130, 80 000) + p(130, 120 000) y = 3 12 + 1 12 = 1 3 (6.37) 212

b) Sannsynlighet er det for å omsette Y = 80 000 aksjer per dag: marginalfordeling P (Y = 80 000) = p(x, 80 000) = p(70, 80 000) + p(100, 80 000) + p(130, 80 000) x = 1 12 + 1 6 + 3 12 = 1 2 (6.38) Sannsynlighet er det for å omsette Y = 120 000 aksjer per dag: marginalfordeling P (Y = 120 000) = p(x, 120 000) = p(70, 120 000) + p(100, 120 000) + p(130, 120 000) x = 3 12 + 1 6 + 1 12 = 1 2 (6.39) 213

Vi kan nå utvide tabellen i figur (6.2) slik at marginalfordelingene er inkludert: # aksjer omsatt per dag Y = 80 000 Y = 120 000 P(X=x) X = 70 1/12 3/12 1/3 P(X=70) Kurs (NOK) X = 100 1/6 1/6 1/3 P(X=100) X = 130 3/12 1/12 1/3 P(X=130) P(Y=y) 1/2 1/2 P(Y=80 000) P(Y=120 000) Figur 6.9: Simultanfordelingen p(x, y) og marginmalfordelingene P (X = x) og P (Y = y). c) Forventet aksjekurs (pris) på Seadrill-aksjene: E[X] lign.(5.16) = 3 i=1 x i P (X = x i ) = ( 70 1 3 + 100 1 3 + 130 1 ) NOK = 100 NOK (6.40) 3 214

d) Forventet antall aksjoner som omsettes: E[Y ] lign.(5.16) = 2 i=1 y i P (Y = y i ) = 80 000 1 1 + 120 000 2 2 = 100 000 (6.41) e) Siden omsetning = pris antall aksjer omsatt = X Y, så er forventet omsetning: E[X Y ] lign.(6.22) = = 3 i=1 2 j=1 x i y j p(x i, y j ) (6.42) ( 1 70 80 000 12 + 70 120 000 + 100 80 000 1 6 + 130 80 000 3 12 3 1 + 100 120 000 12 6 + 130 120 000 1 12 ) NOK = 9 800 000 NOK (6.43) f) Fra lign.(6.40) og (6.41) ser vi at E[X] E[Y ] = 10 000 000, dvs.: E[X Y ] E[X] E[Y ] (6.44) Konklusjon: X og Y er avhengige. 215

6.3 Kovarians Definisjon: ( kovarians ) 5 La X og Y være to stokastiske variabler. Med samvariasjon/korrelasjon kovariansen mellom disse mener vi: samvariasjon/korrelasjon Cov[X, Y ] = E [ (X E[X])(Y E[Y ]) ] (6.45) Kovariansen er et mål på grad av samvariasjon/korrelasjon: Cov[X, Y ] < 0: Cov[X, Y ] > 0: betyr at store X gir små Y betyr at store X gir store Y Figur 6.10: Samvariasjon. 5 Jamfør den analoge definisjonen av empirisk kovarians i lign.(1.42): S xy = 1 n 1 n i=1 (x i x)(y i ȳ). 216

Eksempel, forts.: ( aksjer, økonomi ) Regn ut kovariansen for de stokastiske variablene X og Y fra eksempel på side 209 om Oslo Børs og Seadrill. Vil store Y høre sammen med små Y? Eller omvendt? Figur 6.11: Oslo Børs og Seadrill. 217

For å regne ut samvariasjon/korrelasjon kovariansen benytter vi oss igjen av lign.(6.45): Cov[X, Y ] lign.(6.45) = E [ (X E[X])(Y E[Y ]) ] (6.46) lign.(6.20) = 3 2 i=1 j=1 ( xi E[X] ) (y j E[Y ] ) p(x i, y j ) = + =70 100 {( }}{ x1 E[X] ) =80 000 100 000 {( }}{ y1 E[Y ] ) =1/12 p(x 1, y 1 ) ( x1 E[X] ) } {{ } =70 100 (y 2 E[Y ] ) }{{} =120 000 100 000 p(x 1, y 2 ) }{{} =3/12 + + =100 100 ( x2 E[X] ) =80 000 100 000 {( }}{ y1 E[Y ] ) =1/6 p(x 2, y 1 ) ( x2 E[X] ) } {{ } =100 100 (y 2 E[Y ] ) }{{} =120 000 100 000 p(x 2, y 2 ) }{{} =1/6 + + =130 100 ( x3 E[X] ) =80 000 100 000 {( }}{ y1 E[Y ] ) =3/12 p(x 3, y 1 ) ( x3 E[Y ] ) } {{ } =130 100 (y 2 E[Y ] ) }{{} =120 000 100 000 p(x 3, y 2 ) }{{} =1/12 1 = ( 30) ( 20 000) 12 + ( 30) 20 000 3 12 + 0 + 0 (6.47) 3 1 + 30 ( 20 000) + 30 20 000 12 12 = 200 000 (6.48) 218

Konklusjon: samvariasjon Cov[X, Y ] < 0: betyr at store X gir små Y, dvs. lite antall aksjer omsatt er forbundet med høy kurs Som vi ser: Å bruke definisjonen for regne ut Cov[X, Y ] kan være omstendelig. Men det finnes en setning som forenkler regningen i en del tilfeller. Setningen er som følger: 6 6 Vi hopper over beviset i dette kompendiumet. 219

Setning: ( kovarianssetningen ) La X og Y være to stokastiske variabler. For samvariasjon/korrelasjon kovariansen gjelder da: samvariasjon/korrelasjon Cov[X, Y ] = E[X Y ] E[X] E[Y ] (6.49) Figur 6.12: Samvariasjon. 220

Før vi ser nærmere på et eksempel som illustrerer at lign.(6.49) kan være svært arbeidsbesparende, så la oss se på et spesialtilfelle av kovarians-setningen: Via lign.(6.29) presenterte vi en setning som sier at dersom to stokastiske variabler er uavhengige så gjelder: E[X Y ] = E[X] E[Y ] (6.50) Fra lign.(6.49) ser vi da umiddelbart at da er også X og Y ukorrelerte siden Cov[X, Y ] = 0. Dette er så viktig at vi formulerer det i en egen setning: Setning (spesialtilfelle, kovarians ) La X og Y være to stokastiske variabler. Dersom X og Y er uavhengige, dvs.: E[X Y ] uavh. = E[X] E[Y ] (6.51) så er Cov[X, Y ] = 0 }{{} X og Y ukorrelerte (6.52) 221

Eksempel, forts.: ( aksjer ) For de stokastiske variablene X og Y fra eksempel 3, regn ut kovariansen Cov[X, Y ] uten å bruke definisjonen i lign.(6.45). Figur 6.13: Oslo Børs og Seadrill. Løsning: Siden vi kjenner E[X Y ] så vel som E[X] og E[Y ] så får vi: Cov[X, Y ] lign.(6.49) = E[X Y ] }{{} = 9 800 000 E[X] }{{} = 100 000 E[Y ] }{{} = 100 = 200 000 (6.53) Med andre ord: svært arbeidsbesparende i forhold å bruke definisjonen, jfr. lign.(6.48). 222

Problemet med Cov[X, Y ] er at vi kan få tall som er vanskelig å tolke, bla. fordi: Cov[X, Y ] kan gi store eller små tall. For å forstå om tallet er lite eller stort så må vi sammenlige det med andre relevante størrelser. Cov[X, Y ] er benevningsavhengig. Dersom en aksjekurs regnes i NOK får den en annen verdi enn dersom kursen oppgis i USD $. For å gi en mer presis tolkning av graden av samvariasjon/korrelasjon så går vi derfor et skritt videre og definerer korrelasjonskoeffisienten: 223

Definisjon: ( korrelasjonskoeffisienten ) 7 La X og Y være to stokastiske variabler. Med korrelasjonskoeffisienten ρ[x, Y ] mener vi da: 8 ρ[x, Y ] = samvariasjon/korrelasjon Cov[X, Y ] V ar[x] } {{ } spredning V ar[y ] }{{} spredning (6.55) 7 Jamfør den analoge definisjonen av korrelasjonskoeffisienten R xy i lign.(1.49): R xy = Sxy S x S y. 8 Siden σ[x] V ar[x], se lign.(5.30), så kan korrelasjonskoeffisienten ρ[x, Y ] skrives på en alternativ måte: ρ[x, Y ] = samvariasjon/korrelasjon Cov[X, Y ] σ[x] }{{} spredning σ[y ] }{{} spredning (6.54) 224

Noen kommentarer I: Ved å dele på σ[x] = V ar[x] og σ[y ] = V ar[y ] så får man en normalisert versjon av Cov[X, Y ], dvs. 1 ρ[x, Y ] 1 (6.56) ρ[x, Y ] = 0: variablene ukorrelerte, Cov[X, Y ] = 0. ρ[x, Y ] = 1: sterk negativ korrelasjon, dvs. store X hører sammen med små Y. lineær 9 sammenheng mellom X og Y, ( jfr. figur (1.19) ) ρ[x, Y ] = 1: sterk positiv korrelasjon, dvs. store X hører sammen med store Y. lineær sammenheng mellom X og Y, ( jfr. figur (1.19) ) ρ[x, Y ] er benevningsuavhengig Vi kan f.eks. sammenligne korrelasjonskoeffisienter fra f.eks. økonomiske analyser utført i ulike land, med ulike pengeenheter (valuta). 9 Lineær sammenhenger mellom X og Y betyr at de kan skrives på formen: Y = ax + b. 225

Noen kommentarer II: 1) Uavhengighet er et sterkere krav enn ukorrelert. 10 2a) Dersom X og Y er uavhengige så er de også ρ[x,y ] = Cov[X,Y ] = 0 ukorrelerte : uavhengige }{{} sterkt krav ρ[x,y ] = Cov[X,Y ] = 0 ukorrelerte }{{} svakt krav (6.57) 2b) Den andre veien er ikke alltid tilfelle: selv om X og Y er ukorrelerte så behøver de ikke være uavhengige 3a) Lign.(6.49) sier: ukorrelerte ρ[x, Y ] = Cov[X, Y ] = 0 E[X Y ] = E[X] E[Y ] (6.58) 3b) Men: selv om E[X Y ] = E[X] E[Y ] så betyr ikke det nødvendigvis at X og Y er uavhengige 10 Kommentar til dette med sterkere : Dersom en skøyteløper har verdenrekorden på 10 000 meter så har han/hun også norgesrekorden. 226

Eksempel, forts.: ( aksjer ) For de stokastiske variablene X og Y fra eksempelet fra 209 om Oslo Børs og Seadrill, regn ut korrelasjonskoeffisienten ρ[x, Y ]. Figur 6.14: Oslo Børs og Seadrill. 227

Løsning: For å regne ut korrelasjonskoeffisienten ρ[x, Y ] så trenges variansen. Variansen for kursen er: V ar[x] lign.(5.24) = E [ (x E[X]) 2 ] (6.59) lign.(6.20) = 3 i=1 ( xi E[X] ) 2 P (X = xi ) (6.60) = = (70 100) {}} 2 = 1/3 { (x 1 E[X]) 2 P (X = x 1 ) + + (x 3 E[X]) 2 P (X = x }{{} 3 ) }{{} = (130 100) 2 = 1/3 = (100 100) {}} 2 { (x 2 E[X]) 2 = 1/3 P (X = x 2 ) (6.61) (6.62) = 600 (6.63) Variansen for antall aksjer som omsettes per dag er: V ar[y ] lign.(5.24) = E [ (y E[Y ]) 2 ] (6.64) lign.(6.20) = 2 i=1 ( yi E[Y ] ) 2 P (Y = yi ) (6.65) = = (80 000 100 000) 2 = 1/2 (y 1 E[Y ]) 2 P (Y = y 1 ) + = (120 000 100 000) 2 (y 2 E[Y ]) 2 = 1/2 P (Y = y 2 ) (6.66) = (20 000) 2 (6.67) 228

Korrelasjonskoeffisienten ρ[x, Y ] er dermed: ρ[x, Y ] lign.(6.55) = = 200 000 Cov[X, Y ] V ar[x] V ar[y ] }{{} = 600 = (20 000) 2 = 0.41 (6.68) Konklusjon: Klar, men ikke ekstrem, grad av (negativ) lineær samvariasjon. Det er en sammenheng mellom varians og kovarians. Dette viktige sammenhengen skal vi formulere i den egen setning. 229

Setning: ( kovarians II ) 11 La X og Y være to stokastiske variabler. Generelt gjelder da følgende sammenhengen mellom variansen og kovariansen: 12 samvariasjon variasjon/(spredning) V ar[ax + by ] = a 2 V ar[x] + b 2 V ar[y ] + 2ab Cov[X, Y ] (6.70) hvor a og b er konstanter. Lign.(6.70) bevises ved å bruke første kvadratsetning, (se f.eks. læreboken). 11 Sammenlign lign.(6.70) med lign.(5.34). Men kan altså ikke naivt generalisere til tilfellet V ar[ax + by ] = a 2 V ar[x] + b 2 V ar[y ] siden X og Y generelt kan være korrelerte. 12 Siden σ[x] 2 V ar[x], se lign.(5.30), og siden Cov[X, Y ] = ρ[x, Y ] σ[x] σ[y ], se lign.(6.55), så kan variansen V ar[x + Y ] skrives på en alternativ måte: variasjon/spredning samvariasjon/korrelasjon σ[ax + by ] 2 = a 2 σ[x] 2 + b 2 σ[y ] 2 + 2ab ρ[x, Y ] σ[x] σ[y ] (6.69) 230

Visualisering av variasjon og samvariasjon: Y X Figur 6.15: Variasjon og samvariasjon, dvs. V ar[x + Y ] og Cov[X, Y ]. La: X = guttens plassering sett fra mannens ståsted, se figur (6.15) Y = fakkelens plassering sett fra guttens ståsted, se figur (6.15) X + Y = fakkelens plassering i forhold til mannens ståsted (bakken) Her er det 2 stokastiske variabler. Da gjelder lign.(6.70): V ar[x + Y ] lign.(6.70) = V ar[x] + V ar[y ] + 2 Cov[X, Y ] (6.71) 231

Da har vi: Cov[X, Y ] > 0: armene i beveges i samme retning stor samvariasjon Cov[X, Y ] < 0: Cov[X, Y ] = 0: armene i beveges i motsatt retning liten samvariasjon ingen sammenheng mellom guttens og mannens armbevegelser 232

La oss nå se på et spesialtilfelle av denne kovarians-setningen: I lign.(6.52) så vi at dersom X og Y er uavhengige så er Cov[X, Y ] = 0. Derfor gjelder: Setning (spesialtilfelle, kovarians II ) La X og Y være to stokastiske variabler. Dersom X og Y er ukorrelerte, så er: Da gjelder: 13 Cov[X, Y ] = 0 (6.72) V ar[ax + by ] = a 2 V ar[x] + b 2 V ar[y ] (6.74) 13 Siden σ[x] 2 V ar[x], se lign.(5.30), så kan variansen V ar[x + Y ] skrives på en alternativ måte: variasjon/(spredning) σ[ax + by ] 2 = a 2 σ[x] 2 + b 2 σ[y ] 2 (6.73) 233

Eksempel: ( aksjer, økonomi ) En aksjemegler har 10 000 NOK som hun skal investere for. Når megleren gjør investeringene, anta at aksjeprisen på Statoil-aksjene er 200 NOK, prisen på Seadrill-aksjene er 250 NOK og prisen på Yara-aksjene er 500 NOK. Et tidspunkt etter at disse investeringene er gjennomført, f.eks. En uke etter, ønsker hun å finne standardavviket til verdien av investeringen. Aksjemegleren kan statistikk og innser at det er hensiktsmessig å definere følgende stokastiske variabler: X = prisen på Statoil-aksjene en uke etter investeringen, (produsererer olje) (6.75) Y = prisen på Seadrill-aksjene en uke etter investeringen, (produsererer olje) (6.76) Z = prisen på Yara-aksjene en uke etter investeringen, (produsererer (6.77) kunstgjødsel) Anta videre at en aksjemegler som kan statistikk har funnet ut at følgende standardavvik og korrelasjonskoeffisienter gjelder for den tidsperioden som hun ser på: σ[x] = 10 NOK (6.78) σ[y ] = 20 NOK (6.79) σ[z] = 15 NOK (6.80) ρ[x, Y ] = 0.5 (6.81) ρ[x, Z] = 0.5 (6.82) ρ[y, Z] = 0.3 (6.83) Figur 6.16: Statoil, Seadrill og Yara. 234

a) Anta er aksjemegleren bestemmer seg for å investere alt i olje, og fordeler invesetringen likt mellom Statoil (5000 NOK) og Seadrill (5000 NOK). Verdien V på investeringen er da: V = ( antall pris) Statoil + ( antall pris) Seadrill (6.84) = ax + bz (6.85) hvor a = 5000 200 = 25 og b = 5000 250 = 20. Hvor stort er standardavviket til verdien av investeringen en uke etter at investeringen er foretatt? b) Anta er aksjemegleren bestemmer seg for å fordele investere likt mellom olje og kunstgjødsel, dvs. Statoil (5000 NOK) og Yara (5000 NOK). Verdien V på investeringen er da: V = ( antall pris) Statoil + ( antall pris) Yara (6.86) = ax + cy (6.87) hvor a = 5000 200 = 25 og c = 5000 500 = 10. Hvor stort er standardavviket til verdien av investeringen en uke etter at investeringen er foretatt? 235

Løsning: a) Standardavviket er gitt ved formelen i lign.(6.69): σ[ax + by ] lign.(6.69) = a2 σ[x] 2 + b 2 σ[y ] 2 + 2ab ρ[x, Y ] σ[x] σ[y ] (6.88) = 252 10 2 + 20 2 20 2 + 2 25 20 0.5 10 20 NOK (6.89) 568 NOK (6.90) b) Standardavviket er gitt ved formelen i lign.(6.69): σ[ax + cz] lign.(6.69) = a2 σ[x] 2 + c 2 σ[z] 2 + 2ac ρ[x, Z] σ[x] σ[z] (6.91) = 252 10 2 + 10 2 15 2 + 2 25 10 ( 0.5) 10 15 NOK (6.92) 218 NOK (6.93) Hvordan vil du tolke disse resultatene? Hvilken av disse to investeringene er forbundet med størst risiko? 236

Kapittel 7 Sentrale sannsynlighetsfordelinger Figur 7.1: Sentralgrensesetningen ( CLT ). 237

7.1 Den binomiske fordelingen Binomisk forsøksserie: 1. Hvert forsøk skal ha 2 mulige utfall, s (suksess) eller f (fiasko). 2. Det skal være samme sannsynlighet p for suksess i alle n forsøkene. 3. Alle forsøk er uavhengige. 4. Vi gjennomfører et bestemt antall forsøk, n. n ( n trekk totalt ) p = sannsynlighet for suksess 1 - p = sannsynlighet for fiasko 1) To typer kuler: suksess-kuler fiasko-kuler 2) Ukjent fordeling, men vi kjenner sannsynligheten for suksess: p Figur 7.2: Binomisk forsøksserie. 238

s f Utfallet er enten suksess eller fiasko, dvs. P (s) + P (f) = 1 (7.1) Siden så følger umiddelbart at P (s) = p (s = suksess) (7.2) P (f) = 1 p (f = fiasko) (7.3) 239

Eksempel: ( binomisk forsøksserie, gitt sekvens ) La oss se på en forsøksserie som består av n = 5 forsøk. La oss videre anta at disse forsøkene også oppfyller de 4 kriteriene til binomisk forsøksserie. Hva er sannsynligheten P (ssfsf) for 3 suksesser av totalt n = 5 forsøk? Løsning: Siden alle n = 5 forsøkene er per antagelse uavhengige, så kan vi benytte oss av den spesielle multiplikasjonssetningen, se lign.(4.41). Dermed: P (ssfsf) = P (s) P (s) P (f) P (s) P (f) (7.4) = p p (1 p) p (1 p) = p 3 (1 p) 2 (7.5) som er sannsynligheten for at den gitte sekvensen ssf sf skal inntreffe. Merk: Sannsynligheten i lign.(7.5) er sannsynligheten for en gitt sekvens. 240

Ut fra dette eksemplet er det lett å generalisere: For en gitt sekvens med et gitt antall suksesser n suksess så blir dermed sannsynligheten: P (n suksess suksesser av totalt n forsøk for gitt sekvens) = p n suksess (1 p) n n suksess (7.6) hvor n suksess = antall suksesser (7.7) p = sannsynligheten for suksess for ett forsøk (7.8) 241

diskret Eksempel: ( binomisk forsøksserie, 3 suksesser ) Vi gjør igjen n = 5 forsøk. Hva er sannsynligheten for x = 3 suksesser, dvs. hva er P (3 suksesser av totalt 5 forsøk) =? (7.9) n = 5 ( 5 trekk totalt ) x = 3 ( 3 suksess-kuler av totalt 5 ) p = sannsynlighet for suksess 1 - p = sannsynlighet for fiasko 1) To typer kuler: suksess-kuler fiasko-kuler 2) Ukjent fordeling, men vi kjenner sannsynligheten for suksess: p Figur 7.3: n = 5 binomiske forsøk. 242

Løsning: Sannsynligheten for 3 suksesser for en (hvilken som helst) gitt sekvens er gitt ved lign. (7.5); P (gitt mulig sekvens) = p 3 (1 p) 2 (7.10) Men 3 suksesser kan fås på flere forskjellige måter: sssff, ssfsf, ssffs, sfssf, sfsfs, sffss, fsssf, fssfs, fsfss, ffss }{{} = totalt 10 mulige måter/sekvenser å få 3 suksesser på (7.11) Alle disse sekvensene har samme sannsynlighet. Dermed kan vi bruke urnemodellen for å telle opp antall mulige måter å få 3 suksesser på (av totalt 5 forsøk). 1 Egenskapene til forsøksserien i lign.(7.11) er: siden sannsynligheten p er uendret etter trekking så tilsvarer et valg uten tilbakelegging rekkefølge har ikke betydning, dvs. ikke-ordnet utvalg Dette er derfor et ikke-ordnet utvalg uten tilbakelegging, dvs. situasjon 3 i kap. (3.2). Dermed gjelder lign.(3.16): # ikke-ordnede komb. u/tilbakelegging = 5! (5 3)! 3! ( ) 5 3 }{{} binomialkoeff. = 10 (7.12) 1 Urnemodellen ble introdusert i kapittel 3.2. 243

hvor n = 5 (antall valgobjekter/trekk) (7.13) x = 3 (antall objekter som velges) (7.14) Dermed, siden hver sekvens svarer til enkeltutfall 2, så gjelder den spesielle addisjonssetningen fra lign.(2.52): P (3 suksesser av totalt 5 forsøk) lign.(2.52) = P (sssff ssfsf... ffss) (7.15) spes. add. = P (sssff) + P (ssfsf) +... + P (ffss) (7.16) = p 3 (1 p) 2 + p 3 (1 p) 2 +... + p 3 (1 p) 2 (7.17) = 10 p 3 (1 p) 2 (7.18) = antall måter å få en gitt mulig sekvens på P (gitt mulig sekvens) (7.19) = ( ) 5 p 3 (1 p) 2 (7.20) 3 Dette eksemplet kan vi lett generalisere: 2 Dvs. begivenhetene/utfallene er disjunkte (ingen felles elementer) 244

2 param. diskret Definisjon: ( binomisk fordeling, X Bin[n, p] ) 3 Punktsannsynlighetene for en binomisk fordeling er: P (X = x) def. = ( ) n p x (1 p) n x (7.21) x hvor X = stokastisk variabel (7.22) = antall suksesser i en binomisk forsøksserie på totalt n forsøk p = sannsynlighet for suksess (7.23) n = totalt antall forsøk (7.24) ( ) n x }{{} binomialkoeff. = n! (n x)! x! ( n over x ) (7.25) n ( antall trekk totalt ) x ( antall suksess-kuler av totalt n ) p = sannsynlighet for suksess 1 - p = sannsynlighet for fiasko 1) To typer kuler: suksess-kuler fiasko-kuler 2) Ukjent fordeling, men vi kjenner sannsynligheten for suksess: p Figur 7.4: Binomisk forsøksserie. 2 param. 3 Skrivemåten X Bin[n, p] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x) som er binomisk fordelt. 245

P(X=x) x Figur 7.5: Binomiske sannsynlighetsfordelinger P (X = x). 246

diskret Eksempel: ( binomisk forsøksserie, Sport Management ) La oss se på en fotballspiller som prøver å score mål i løpet av en fotballkamp. Spilleren har en målscoringssannsynliget på 25 % for hvert skuddforsøk mot mål. Sannsynligheten antas altså å være den samme for hvert skudd, uansett om det foregående skuddet gikk i mål eller ikke. Alle skuddforsøkene er med andre ord uavhengige. Vi antar en spilleren får 4 slike skuddsjanser i løpet av en kamp. Vi definerer den stokastiske variabelen X = antall mål som scores av spilleren i løpet av en kamp dersom hun får 4 skuddsjanser i løpet av kampen (7.26)! a) Hva er sannsynligheten for at han scorer 0 mål i løpet av en 4-sjanserskamp, dvs. P (X = 0)? b) Hva er P (X = 1)? c) Hva er P (X = 2)? d) Hva er P (X = 3)? e) Hva er P (X = 4)? Figur 7.6: Skudd på mål. 247

Løsning: Dette forsøket med skudd på mål har følgende egenskaper: 1. Hvert forsøk har bare 2 mulige utfall, p = 0.25, (et gitt skudd går i mål, suksess ) 1 p = 1 0.25 = 0.75, (et gitt skudd går ikke i mål, fiasko ). 2. Det er samme sannsynlighet p = 0.25 for mål ( suksess ) i alle n = 4 forsøkene. 3. Alle n = 4 forsøkene er uavhengige. 4. Vi gjennomfører et bestemt antall forsøk, n = 4. Dermed er dette en binomiske fordeling, dvs. vi kan bruke formel i lign.(7.21). n = 4 ( 4 trekk (målsjanser) totalt ) x ( x suksess-kuler (mål) av totalt 4 ) p = 0.25 = sannsynlighet for suksess 1 - p = 0.75 = sannsynlighet for fiasko 1) To typer kuler: suksess-kuler fiasko-kuler 2) Ukjent fordeling, men vi kjenner sannsynligheten for suksess: p = 0.25 Figur 7.7: n = 4 binomiske forsøk. 248

a) Sannsynlighet for at spilleren scorer 0 mål i løpet av en 4-sjanserskamp: P (X = 0) = ( ) n p 0 (1 p) n 0 = 0 ( ) 4 0.25 0 (1 0.25) 4 0 = 0.32 (7.27) 0 b) Sannsynlighet for at spilleren scorer 1 mål i løpet av en 4-sjanserskamp: P (X = 1) = ( ) n p 1 (1 p) n 1 = 1 ( ) 4 0.25 1 (1 0.25) 4 1 = 0.42 (7.28) 1 c) Sannsynlighet for at spilleren scorer 2 mål i løpet av en 4-sjanserskamp: P (X = 2) = ( ) n p 2 (1 p) n 2 = 2 ( ) 4 0.25 2 (1 0.25) 4 2 = 0.21 (7.29) 2 d) Sannsynlighet for at spilleren scorer 3 mål i løpet av en 4-sjanserskamp: P (X = 3) = ( ) n p 3 (1 p) n 3 = 3 ( ) 4 0.25 3 (1 0.25) 4 3 = 0.05 (7.30) 3 e) Sannsynlighet for at spilleren scorer 4 mål i løpet av en 4-sjanserskamp: P (X = 4) = ( ) n p 4 (1 p) n 4 = 4 ( ) 4 0.25 4 (1 0.25) 4 4 = 0.004 (7.31) 4 249

diskret Eksempel: ( revisjon I, binomisk forsøksserie ) Vi gjør et tilfeldig utvalg med 150 bilag fra en revisjon. Dette tilfeldige utvalget på 150 er slik at sannsynligheten for at et gitt bilag er feil, er 2 %, dvs. p = 0.02. La videre X = antall bilag med feil i utvalget på 150 (7.32) a) Hva er sannsynligheten for at ingen av de 150 bilagene har noen feil 4, dvs. P (X = 0)? b) Hva er sannsynligheten for at kun ett av de 150 bilagene inneholder feil, dvs. P (X = 1)? c) Hva er sannsynligheten for at mindre enn 2 av de 150 bilagene har feil, dvs. P (X 1)? d) Hva er sannsynligheten for at minst 2 av de 150 bilagene har feil, dvs. P (X 2)? Figur 7.8: Revisjon I. 4 Alternativt og ekvivalent spørsmål: Hva er sannsynligheten for at alle 150 bilagene feilfrie, dvs. P (X = 0)? 250

Løsning: Dette forsøket med et tilfeldig utvalg med 150 bilag fra en revisjon har følgende egenskaper: 1. Hvert forsøk har bare 2 mulige utfall, p = 0.02, (feil i bilag, suksess ) 5 1 p = 1 0.02 = 0.98, (ingen feil i bilag, fiasko ). 2. Det er samme sannsynlighet p = 0.02 for feil i bilag ( suksess ) i alle n = 150 forsøkene. 3. Alle n = 150 forsøkene er uavhengige. 4. Vi gjennomfører et bestemt antall forsøk, n = 150. Dermed er dette en binomisk fordeling, dvs. vi kan bruke formel i lign.(7.21). n = 150 ( 150 trekk totalt ) x ( x suksess-kuler av totalt 150 ) p = 0.02 sannsynlighet for suksess 1 - p = 0.98 = sannsynlighet for fiasko 1) To typer kuler: suksess-kuler fiasko-kuler 2) Ukjent fordeling, men vi kjenner sannsynligheten for suksess: p = 0.02 Figur 7.9: n = 150 binomiske forsøk. 5 Suksess og fiasko er bare betegnelser/merkelapper. Disse merkelappene kan vi velge som vi vil. Det kan virke litt rart at suksess assosieres med feil i bilag, men det er altså bare merkelapper. Suksess behøver ikke nødvendigvis å være noe positivt. 251

a) Sannsynlighet for at ingen av de 150 bilagene har noen feil, dvs. alle er feilfrie: P (X = 0) = ( ) n p 0 (1 p) n 0 = 0 ( ) 150 0.02 0 (1 0.02) 150 = 0.0483 (7.33) 0 b) Sannsynlighet for at kun ett bilag av de 150 har feil: P (X = 1) = ( ) n p 1 (1 p) n 1 = 1 ( ) 150 0.02 1 (1 0.02) 150 1 = 0.1478 (7.34) 1 c) Sannsynlighet for at mindre enn 2 bilag av de 150 har feil: 6 P (X 1) = P (X = 0) + P (X = 1) }{{} mindre enn 2 = 0.0483 + 0.1478 = 0.1961 (7.35) d) Sannsynlighet for at minst 2 bilag av de 150 har feil: P (X 2) kompl. setn. = 1 P (X 1) = 1 0.1961 = 0.8039 (7.36) 6 Siden alle forsøk er uavhengige så kan vi addere sannsynlighetene, jfr. den spesielle addisjonssetningen i lign.(2.52). 252

Kommentar: Binomiske forsøk benyttes i omtrent alle sammenhenger der vi forsøksrekke. Her er noen eksempler: binomisk teller opp antall suksesser i en antall sukseser i n uavhengige forsøk antall ja i en spørreundersøkelse antall bilag med feil i en revisjon antall defekte enheter i et vareparti antall oppmøtte studenter til en forelesning antall mål som scores i en fotballkamp 253

7.1.1 Forventingsverdi Fra lign.(7.118) vet vi at X = antall observerte utfall av typen suksess (7.37) dvs. X = antall suksesser. La oss nå introdusere en stokastisk variabel med kun to utfall: 7 8 Y i = 1, dersom suksess for forsøk nr. i 0, dersom fiasko for forsøk nr. i (7.38) Denne binære variabelen har altså kun to mulige utfall, 0 eller 1. Dermed innser vi at X = Y 1 + Y 2 +... + Y n (7.39) Forventingen E[Y i ] er dermed 9 E[Y i ] = forventning p( sukesess ) verdi for sukesss + p( fiasko ) verdi for fiasko (7.40) = p 1 + (1 p) 0 = p (7.41) Generelt for stokastiske 10 variabler så gjelder setningen i lign.(5.34), dvs. E[Y +Z] = E[Y ]+E[Z]. Dette gjelder uansett om Y og Z er uavhengige eller ikke. Forventingen av variabelen X er dermed: E[X] = E[Y 1 + Y 2 +... + Y n ] = = n stk. ledd E[Y 1 ] + E[Y }{{} 2 ] +... + E[Y }{{} n ] }{{} = p = p = p = n p (7.42) Dette er et viktig resultat. La oss derfor formulere dette i en egen setning. 7 Ja-nei -variabel, også kalt en stokastisk binær variabel. 8 For de av dere som har emnet SCM200 så kjenner dere igjen denne type variabler som ja-nei -beslutninger. 9 Fra kap.(5) og lign.(5.16) vet vi at forventning er definert ved: E[X] = m i=1 x i P (X = x i ). 10 En stokastisk variabel er en variabel som beskriver et tilfeldig forsøk hvor utfallet ikke er kjent. 254

Setning: ( forventing av X 2 param. Bin[n, p] ) La X være en binomisk variabel, dvs. X Bin[n, p]. Da gjelder: E[X] = n p (7.43) n ( antall trekk totalt ) x ( antall suksess-kuler av totalt n ) p = sannsynlighet for suksess 1 - p = sannsynlighet for fiasko 1) To typer kuler: suksess-kuler fiasko-kuler 2) Ukjent fordeling, men vi kjenner sannsynligheten for suksess: p Figur 7.10: Binomisk forsøksserie. 255

7.1.2 Varians Tilsvarende som i forrige avsnitt så regne ut variansen for en gitt hjelpevariabel H i : V ar[h i ] = E[H 2 i ] E[H i ] 2 ( jfr. lign.(5.27) ) (7.44) Dermed ser vi at vi behøver E[H 2 i ] = forventning p( sukesess ) (verdi for sukesss ) 2 + p( fiasko ) (verdi for fiasko ) 2 (7.45) = p 1 2 + (1 p) 0 2 = p (7.46) Videre behøver vi E[H i ] 2. Men vi regnet ut E[H i ] = p i forrige avsnitt. Dermed har vi alt vi trenger for å regne ut variansen i lign.(7.44): V ar[h i ] = E[H 2 i ] E[H i ] 2 = p p 2 = p (1 p) (7.47) Nå kommer et viktig poeng: I en binomisk fordeling er alle forsøkene uavhengige. Dermed gjelder setningen i lign.(6.74), dvs. V ar[y +Z] = V ar[y ]+V ar[z]. Her må Y og Z være uavhengige for at dette skal gjelde. Variansen av variabelen X er dermed: V ar[x] = V ar[h 1 + H 2 +... + H n ] = = n stk. ledd V ar[h 1 ] + V ar[h }{{} 2 ] +... + V ar[h }{{} n ] }{{} = p(1 p) = p(1 p) = p(1 p) (7.48) = n p (1 p) (7.49) Dette er også et viktig resultat. Vi formulerer derfor dette i en egen setning. 256

Setning: ( varians av X 2 param. Bin[n, p] 11 ) La X være en binomisk variabel, dvs. X Bin[n, p]. Da gjelder: V ar[x] = n p (1 p) (7.50) n ( antall trekk totalt ) x ( antall suksess-kuler av totalt n ) p = sannsynlighet for suksess 1 - p = sannsynlighet for fiasko 1) To typer kuler: suksess-kuler fiasko-kuler 2) Ukjent fordeling, men vi kjenner sannsynligheten for suksess: p Figur 7.11: Binomisk forsøksserie. 2 param. 11 Skrivemåten X Bin[n, p] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x) som er binomisk fordelt. 257

Kommentar: Husk sammenhengen mellom standardavvik og varians: σ[x] def. = V ar[x] (7.51) Dermed gjelder, for en binomisk variabel X Bin[n, p], at σ[x] Bin. = n p(1 p). 258

diskret Eksempel: ( revisjon II, binomisk forsøksserie ) Anta at vi har n = 7600 regnskap med bilag. La X = antall bilag med feil i disse 7600 regnskapene (7.52) Anta videre at sannsynligheten for at et regnskap har et bilag med feil er p = 5 %. a) Hva slags fordeling har X? b) Hva er forventningen E[X]? c) Hva er standardavviket σ[x]? Figur 7.12: Revisjon II. 259

Løsning: a) La oss betegne s = suksess = feil i bilag, og f = fiasko = ingen feil i bilag 12. Dette er en situasjon hvor vi teller opp antall suksesser. Vår serie med forsøk oppfyller alle 4 punktene i kapittel 7.1. Dermed er dette en binomisk forsøksserie b) Siden X er binomisk fordelt, dvs. X Bin[n, p], så er forventingen gitt ved lign.(7.43): E[X] Bin. = n p = 7600 0.05 = 380 (7.53) c) Siden X er binomisk fordelt, dvs. X Bin[n, p], så er standardavviket gitt ved kvadratroten av lign.(7.50): σ[x] def. = V ar[x] Bin. = n p (1 p) (7.54) = 7600 0.05 (1 0.05) = 361 = 19 (7.55) 12 Suksess og fiasko er bare betegnelser/merkelapper. Disse merkelappene kan vi velge som vi vil. Det kan virke litt rart at suksess assosieres med feil i bilag, men det er altså bare merkelapper. Suksess behøver ikke nødvendigvis å være noe positivt. 260

Merk: Noen ganger oppgis forventning og standardavvik på følgende måte: E[X] ± σ[x] = tyngdepunkt ± spredning = 380 ± 19 (7.56) NB: Dette er samme presentasjonsmåte som vi benyttet oss av da vi studerte vekten av n = 12 skolebarn i kapittel 1, se side 33. 261

7.2 Den hypergeometriske fordelingen Vi skiller mellom to situasjoner: ukjent og kjent fordeling mellom kulene i urnen. 1) Binomisk P (X=x) Ukjent fordeling mellom kulene i urnen: La oss igjen se på eksempel 4 på side 250. Vi vet ikke den eksakte fordelingen mellom antall bilag med feil og antall bilag uten feil Vi kjenner derimot sannsynligheten for at et tilfeldig trukket bilag inneholder feil, p = 0.02 2) Hypergeo. P (X=x) Kjent fordeling mellom kulene i urnen: Vi vet den eksakte fordelingen mellom antall bilag med feil og antall bilag uten feil 3 bilag med feil 147 bilag som er feilfire Binomisk P(X=x) Hypergeo. P(X=x) 150 bilag p = 0.02 for å trekke bilag med feil 150 bilag 3 bilag med feil 147 feilfrie bilag Ukjent fordeling på kulene ( samme sannsynlighet p ) Kjent fordeling på kulene ( forskjellige sannsynligheter ) Figur 7.13: Ukjent og kjent fordeling mellom kulene i urnen. 262

1) Binomisk P (X=x) Ukjent fordeling mellom kulene i urnen: ( p 1 = p 2 = p 3... p ) 150 bilag p = 0.02 for å trekke bilag med feil Figur 7.14: Urne med 150 bilag. Vi skal nå argumentere for at enhver trekning har alltid samme sannsynlighet p = 0.02 til å inneholde et bilag med feil. Uansett resultatet av foregående trekninger: Dersom vi trekker et tilfeldig bilag fra den røde urnen så er sannsynligheten p 1 = 0.02 (7.57) for at dette tilfeldig trukne bilaget inneholder feil. Dersom vi nå gjør en ny trekning, dvs. trekning nr. 2 fra den røde urnen, så er sannsynligheten fortsatt p 2 = 0.02 (7.58) for at det 2. tilfeldig trukne bilaget inneholder feil. Uansett hva utfallet av 1. trekning ble. Dersom vi trekker en 3. gang, så er også sannsynligheten fortsatt p 3 = 0.02 (7.59) for at det 3. tilfeldig trukne bilaget inneholder feil. Uansett hva utfallet av 1. trekning og 2. trekning ble. Med andre ord, binomial-betingelsen det skal være samme sannsynlighet p for suksess i alle n forsøkene (7.60) er oppfylt. Dette er altså den situasjonen vi så på i eksempel 4 side 250 i dette kapitlet, dvs. binomisk forsøksserie. 263

2) Kjent fordeling: ( p 1 p 2 p 3... ) 150 bilag 3 bilag med feil 147 feilfrie bilag Figur 7.15: Urne med 150 bilag. La oss igjen se på 150 bilag fra en revisjon. Anta denne gangen at vi vet at det er 3 bilag som inneholder feil. Disse bilagene samles i en blå urne, se figur (7.15). Det betyr at dersom vi trekker et tilfeldig bilag fra den blå urnen så er sannsynligheten p 1 = 3 150 (= 0.02) (7.61) for at dette tilfeldig trukne bilaget inneholder feil. Altså samme sannsynliget som for den røde urnen. La oss nå gjør en ny trekning, dvs. trekning nr. 2 fra den blå urnen. Vi legger ikke bilaget vårt tilbake i urnen (!). For trekning nr. 2 så gjelder følgende sannsynlighet: p 2 = 2, dersom bilaget i 1. trekning inneholder feil 149 3, dersom bilaget i 1. trekning ikke inneholder feil 149 (7.62) dvs. sannsynligheten for trekning nr. 2 er avhengig av utfallet i 1. trekning. Forutseningene for en binomisk forsøksserie er dermed ikke oppfylt. Denne situasjonen illustrerer forutsetningene for en hypergeometrisk forsøksserie. 264

diskret Eksempel: ( revisjon III, hypergeometrisk forsøksserie ) La oss atter en gang se på et tilfeldig utvalg med 150 bilag fra en revisjon 13. Av de N = 150 bilagene vet vi at M = 3 bilag inneholder feil, se figur (7.16). La oss anta at vi gjør en forsøksserie med n = 10 trekninger fra vår urne. La oss definere den stokastiske variabelen X = antall bilag av de n = 10 trukne bilagene som inneholder feil (7.63) n = 10 n-x = 8 x = 2 M = 3 N-M = 147 N = 150 (totalt) Figur 7.16: Trekker n = 10 bilag. Hva er sannsynligheten for at x = 2 av disse n = 10 trukne bilagene inneholder feil, dvs. hva er P (X = 2)? 13 La oss se på situasjonen ii) fra side 263 og 264. 265

Løsning: Sannsynligheten er den samme for å trekke de forskjellige bilagene. Dette er derfor en tellesituasjon som kan beskrives med urnemodellen. Fra kaptittel 3 vet vi da at det er en sammenheng mellom sannsynlighet og antall kombinasjoner, se lign.(3.26): P (X = 2) = antall gunstige kombinasjoner for å oppnå x = 2 antall mulige kombinasjoner totalt (7.64) Vi legger ikke bilagene/kulene tilbake i urnen. Rekkefølgen betyr heller ikke noe. Derfor derier dette seg om: situasjon 3 Det betyr at vi skal bruke binomialkoeffisienten, se lign.(3.16), for å finne # gunstige og # mulige. Dermed: P (X = 2) = ( ) ( ) M N M x n x ( ) = N n 2 med feil ( ) 3 2 ( 150 10 8 feilfrie {( }} ){ 147 8 ) = 63 5513 ( 1.14%) (7.65) Dette eksemplet kan vi lett generalisere: 266

diskret 3 param. Definisjon: ( hypergeometrisk fordeling, X Hyp[N, M, n] 14 ) Punktsannsynlighetene for en hypergeometrisk fordeling er P (X = x) def. = ( ) ( ) M N M x n x ( ) (7.66) N n hvor X = stokastisk variabel = antall spesielle elementer i det tilfeldige utvalget på (7.67) n trukne elementer N = antall elementer i grunnmengden (7.68) M = antall spesielle elementer (7.69) N M = antall vanlige elementer (7.70) n = antall trukne elementer (7.71) ( ) N n }{{} binomialkoeff. = N! (N n)! n! ( N over n ) (7.72) Merk: En hypergeometrisk forsøksserie tilsvarer en situasjon med trekning uten tilbakelegging. 14 Skrivemåten X Hyp[N, M, n] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x) som er hypergeometrisk fordelt. 267

n ( n trekk totalt ) x ( x spesielle kuler av totalt n ) N = antall kuler totalt M = antall spesielle kuler N - M = antall vanlige kuler 1) To typer kuler: spesielle kuler vanlige kuler 2) Kjent fordeling mellom kulene Figur 7.17: Hypergeometrisk forsøk. 268

P(X=x) x Figur 7.18: Hypergeometriske sannsynlighetsfordelinger P (X = x). 269

7.2.1 Forventning og varians Ut fra fordelingsfunksjonen P (X = x) til en hypergeometrisk forsøksserie så kan vi utlede forventning og varians. Utregningen av dette er matematisk og ganske teknisk krevende. Derfor utelater vi det her. Vi presenterer imidlertid resultatene: Setning: ( forventing av X 3 param. Hyp[N, M, n] 15 ) La X være en hypergeometrisk variabel, dvs. X Hyp[N, M, n]. Da gjelder: E[X] = n M N (7.73) Setning: ( varians av X 3 param. Hyp[N, M, n] ) La X være en hypergeometrisk variabel, dvs. X Hyp[N, M, n]. Da gjelder: V ar[x] = N n N 1 n M ( N 1 M ) N (7.74) 3 param. 15 Skrivemåten X Hyp[N, M, n] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x) som er hypergeometrisk fordelt. 270

diskret Eksempel: ( revisjon IV, hypergeometrisk forsøksserie ) La oss igjen en gang se på et tilfeldig utvalg med 150 bilag fra en revisjon fra eksempel 5 i dette avsnittet (se side 265). La X være den stokastiske variabelen definert ved X = antall bilag av de n = 10 trukne bilagene som inneholder feil (7.75) n = 10 n-x = 8 x = 2 M = 3 N-M = 147 N = 150 (totalt) Figur 7.19: Trekker n = 10 bilag. a) i) Hva er E[X]? ii) Tolk resultatet E[X]. b) ii) Hva er σ[x]? ii) Tolk resultatet σ[x]. 271

Løsning: Situasjonen i figur (7.19) beskriver en hypergeometrisk forsøksserie. Dermed kan bruke formelene for E[X] og σ[x] 16. En hypergeometrisk stokastisk variabel X Hyp[N, M, n] bestemmes av 3 størrelser: N = 150 (antall elementer i grunnmengden) (7.76) M = 3 (antall spesielle elementer) (7.77) n = 10 (trekte elementer) (7.78) a) i) Forventningen til X: E[X] Hyp = n M N = 10 3 150 = 0.2 (7.79) ii) E[X] = forventet verdi for den antall bilag med feil i den hypergeometriske forsøksserien, er 0.2 Kommentar: Selv om antall bilag med feil er heltall så behøver ikke forventningen av den stokastiske variabelen X å være et heltall. 16 Formelene finnes i formelsamlingen! 272

b) ii) Siden standardavviket til X er σ[x] = V ar[x] (7.80) så må vi først finne variansen. Variansen er gitt ved lign.(7.74): V ar[x] Hyp. = N n N 1 n M ( N 1 M ) N (7.81) = ( 150 10 150 1 10 3 150 1 3 ) 15 = 0.1842 686 3725 (7.82) Dermed er standardavviket σ[x] = V ar[x] = 686 3725 0.4291 (7.83) ii) σ[x] = standardavviket (som er et mål for spredning) av antall bilag med feil i den hypergeometrisk forsøksserien, er 0.4291 Kommentar: Legg merke til at E[X] < σ[x] (7.84) betyr at den stokastiske variabelen X har stor spredning. 273

7.3 Sammenheng mellom Hyp[N, M, n] og Bin[n, p] Anta at grunnmengden N i en hypergeo. forsøkserie er mye større enn utvalget n, dvs. anta at: N n (7.85) Dersom dette vilkåret er oppfylt så vil første leddet i variansen til X Hyp[N, M, n] være nesten 1, se lign. (7.74): N n N 1 N n 1 (7.86) I dette tilfellet blir ikke sannsynligheten nevneverdig endret for hver gang vi trekker. Den er nesten konstant. Denne nesten konstante sannsynligheten er P (X = x) lign.(7.66) = Hyp. ( ) ( ) M N M x n x ( ) N n }{{} konstant M N (7.87) hvor vi kan innføre notasjonen p M N (7.88) 274

7.3.1 Forventningsverdi Forventningsverdien til X Hyp[N, M, n] reduserer seg da til E[X] lign.(7.73) = Hyp. n = p M N = n p (7.89) dvs. den samme som forventningsverdien til X Bin[n, p]. 7.3.2 Varians Tilsvarende, variansen til X Hyp[N, M, n], se lign. (7.74): V ar[x] lign.(7.74) = Hyp. 1 N n N 1 n = p ( M N 1 = p M N ) N n n p (1 p) (7.90) dvs. den samme som variansen til X Bin[n, p]. 275

3 param. Setning: ( Hyp[N, M, n] 2 param. Bin[n, p] ) Dersom grunnmengden N i en hypergeometrisk forsøkserie er mye større enn utvalget n, typisk så er N 20 n (7.91) X Hyp[N, M, n] N 20 n X Bin[n, p] (7.92) Binomisk P(X=x) Hypergeo. P(X=x) 150 bilag p = 0.02 for å trekke bilag med feil 150 bilag 3 bilag med feil 147 feilfrie bilag Ukjent fordeling på kulene ( samme sannsynlighet p ) Kjent fordeling på kulene ( forskjellige sannsynligheter ) Figur 7.20: Ukjent og kjent fordeling mellom kulene i urnen. 276

Noen kommentarer: 1. Alternativt til lign.(7.92) kan vi skrive: hypergeometrisk forsøksserie }{{} u / tilbakelegging N 20 n binomisk }{{} forsøksserie (7.93) m / tilbakelegging 2. På godt norsk betyr lign.(7.91) og (7.92): Dersom grunnmengden N er stor i forhold til antall forsøk n så betyr det ikke så mye om det er med eller uten tilbakelegging. (7.94) 3. hypergeometrisk forsøksserie: kan beskrives med urnemodellen uten tilbakelegging 17 4. binomisk forsøksserie: kan beskrives med urnemodellen med tilbakelegging 18 17 Uten tilbakelegging er det generelt ikke samme sannsynlighet hver gang vi trekker. Men dersom N 20 n så er det nesten samme sannsynlighet p hver gang vi trekker. 18 Med tilbakelegging er det lik sannsynlighet p hver gang vi trekker. 277

7.4 Poissonfordelingen Den binomiske fordelingsfunksjonen P (X = x) fra lign. (7.21) er vanskelig å regne ut i de tilfellene hvor p er liten og n er stor (7.95) Matematisk betyr dette p 0 + og n (7.96) n ( MANGE trekk ) x ( x suksess-kuler av totalt n ) p = sannsynlighet for suksess 0 1 - p = sannsynlighet for fiasko 1 1) To typer kuler: suksess-kuler fiasko-kuler 2) Ukjent fordeling mellom kulene, men vi kjenner sannsynligheten for suksess: p 0 Figur 7.21: Poisson fordeling = binomisk fordeling når p 0 + og n. 278

I slike ekstremtilfeller av den binomiske fordelingsfunksjonen så er binomialkoeffisienten så stor at verken en kalkulator eller PC kan håndtere det (!). Men, dersom p n = konstant }{{} RATE = λ (7.97) så representerer denne konstanten en RATE, dvs. λ = } konstant {{} RATE = antall begivenheter innenfor et en gitt tid eller gitt rom Eksempler på slike konstante rater kan være: 19 antall fly som ankommer en flyplass per time antall bakteriekolonier på en glassplate per cm 2 antall bilulykker på en bestemt strekning antall kunder som venter på å bli ekspedert i en bank i løpet av èn time I slike tilfeller er det en ny fordeling, Poissonfordelingen, som beskriver situasjonen. Denne nye sannsynlighetsfordelingen er altså bare et spesialtilfelle av den binomiske sannsynlighetsfordelingen, nemlig når lign.(7.96) inntreffer. Legg også merke til at biominalfordlingen har to parametre, n og p, mens Poissonfordelingen kun har èn, nemlig λ. 19 Poissonfordelingen benyttes i såkalte telleforsøk. 279

diskret 1 param. Definisjon: ( Poissonfordeling, X Poi[λ] ) 20 21 ) Punktsannsynlighetene for en Poissonfordeling er P (X = x) def. = λx x! e λ (7.98) hvor X = stokastisk variabel = antall begivenheter som inntreffer innenfor en gitt tid eller gitt rom (7.99) λ = gjennsomsnittlig antall begivenheter innenfor en gitt tid eller gitt rom (7.100) n ( MANGE trekk ) x ( x suksess-kuler av totalt n ) p = sannsynlighet for suksess 0 1 - p = sannsynlighet for fiasko 1 p n = λ 1) To typer kuler: suksess-kuler fiasko-kuler 2) Ukjent fordeling mellom kulene, men vi kjenner sannsynligheten for suksess: p 0 Figur 7.22: Poisson fordeling = binomisk fordeling når p 0 + og n. 20 Kalles ofte loven om sjeldne begivenheter. 21 Skrivemåten X Poi[λ] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x) som er Poissonfordelt. 280

P(X=x) x Figur 7.23: Poissonfordelinger P (X = x). 281

2 param. Setning: ( Bin[n, p] 1 param. Poi[λ] ) I en binomisk sannsynlighetsfordeling, dersom sannsynligheten for suksess p er svært liten og antall forsøk n er svært stor, typisk så er n 50 og p 0.05 (7.101) X Bin[n, p] n 50 og p 0.05 X Poi[λ] (7.102) 282

Noen kommentarer: 1. Biominalfordlingen har to parametre, n og p, mens Poissonfordelingen kun har èn, λ. 2. Poissonfordelingen benyttes i såkalte telleforsøk, dersom vi kjenner raten λ. 3. Raten ifm. Poissonfordelingen er: λ = konstant }{{} RATE = antall begivenheter innenfor et en gitt tid eller gitt rom 4. Poissonfordelingen kalles ofte loven om sjeldne begivenheter. 283

7.4.1 Forventning og varians Ut fra fordelingsfunksjonen P (X = x) til en Poissonfordelingen så kan vi utlede forventning og varians. Utregningen av dette er matematisk og ganske teknisk krevende. Derfor utelater vi det her. Vi presenterer imidlertid resultatene: Setning: ( forventing av X Poi[λ] 22 ) La X være en Poissionfordelt variabel, dvs. X Poi[λ]. Da gjelder: E[X] = λ (7.103) Setning: ( varians av X Poi[λ] ) La X være en Poissonfordelt variabel, dvs. X Poi[λ]. Da gjelder: V ar[x] = λ (7.104) 22 Skrivemåten X Poi[λ] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x) som er Poissonfordelt. 284

diskret Eksempel: ( Poissonfordeling, logistikk ) Det viser seg at det kommer 30 kunder innom Shell-stasjonen på Rensvik i Kristiansund hver time for å fylle diesel. En god antagelse i denne sammenheng er at disse kundene kommer uavhengige av hverandre. Anta videre at hver kunde bruker 5 minutter på å fylle diesel. Det er 2 dieselpumper på stasjonen. Anta videre at dersom alle pumpene er opptatt så kjører de potensielle kundere videre til nærmeste konkurrent. Dermed er salget tapt for vår Shell-stasjonen på Rensvik. La oss definere den stokastiske variabelen: X = antall dieselkunder som kommer inneom Shell-stasjonen i en 5 minutters periode (7.105) a) Hva slags sannsynlighetsfordeling har den stokastiske variabelen X? b) Hvor mange kunder svinger innem innom Shell-stasjonen på Rensvik hver 5. minutt? c) Hva er sannsynligheten for at Shell-stasjonen på Rensvik mister en kunde? d) Hva er forventet antall kunder innenfor en 5. minutters periode? e) Hva er standardavviket for X? Figur 7.24: Shell-stasjonen på Rensvik i Kristiansund. 285

Løsning: a) Her er ikke suksess -sannsynligheten p og antall forsøk n oppgitt. Så en binomisk sannsynlighetsfordeling er ikke hensiktsmessig for situasjonen som beskrevet i oppgaven. Av tilsvarende grunn er ei heller hypergeometrisk aktuell. Men siden denne oppgaven dreier seg om antall begivenheter innenfor et gitt tidsintervall (5 minutter), så vil den stokastiske variabelen X beskrives av en Poissonfordeling (7.106) b) I oppgaveteksten opplyses det at det i gjennomsnitt kommer 30 kunder per time, 30 kunder per 60 minutter. Antall kunder som i gjennomsnitt kommer hvert 5. minutt er derfor: 5 minutter λ = 30 60 minutter = 2.5 (7.107) c) Shell-stasjonen på Rensvik mister en kunde dersom det kommer flere kunder enn det er pumper, dvs. dersom: P (miste kunde) = P (X > 2) (7.108) = 1 P (X 2) (7.109) = 1 = 1 2 x=0 ( 2.5 0 λ x x! e λ (7.110) 0! e 2.5 + 2.51 1! e 2.5 + 2.52 2! e 2.5 ) (7.111) kalkis 0.46 (7.112) 286

d) Forventet antall kunder innenfor en 5. minutters periode er: E[X] Poi. = λ = 2.5 (7.113) e) Standardavviket for X: σ[x] def. = V ar[x] Poi. = λ = 2.5 1.58 (7.114) Figur 7.25: Fylle diesel. 287

7.5 Normalfordelingen (kontinuerlig) En stokastisk variabel er enten diskret 23 eller kontinuerlig 24. Alle de stokastiske variablene vi har sett på så langt har hatt diskrete verdier. I forbindelse med normalfordelingen skal vi nå se på kontinuerlige stokastiske variabler. E[X] = µ (7.115) V ar[x] = σ 2 (7.116) 23 At en variabel er diskret betyr at den er tellbar, dvs. den kan bare ha bestemte verdier. 24 At den er kontinuerlig betyr at helt glatt, dvs. alle verdier i et intervall er mulige. 288

Definisjon: ( generelle kont. normalfordeling 25, X 2 param. N[µ, σ] ) La X være en kontinuerlig stokastisk variabel. Den generelle normalfordelingen for X er 26 f X (x) = 1 2π σ 2 e (x µ)2 2 σ 2 (7.117) hvor 27 µ = E[X] = forventingen av X ( lokalisering av toppunkt ) (7.118) σ 2 = V ar[x] = variansen av X (7.119) σ = σ 2 = standardavviket av X ( halvbredden av kurven ) (7.120) f X (x) x Figur 7.26: Tetthetsfunksjoner f X (x) til ulike normalfordelinger. 25 Dette er et eksempel på en Gausskurve. 26 Lign.(7.117) er en tetthetsfunksjon. 27 µ leses my. σ leses sigma. 289

Noen egenskaper til normalfordelingen: 1. f X (x) er symmetrisk om forventingsverdien E[X] = µ 2. Arealet under kurven er alltid lik 1. Vi sier at normalfordelingen er normert til 1: 28 f X (x) dx = 1 (7.121) 3. Forventingsverdien E[X] = µ = lokalisering til toppunktet, med andre ord tyngdepunktet. 4. Standardavviket σ = V ar[x] sier noe om bredden, dvs. spredningen, til normalfordelingen, se figur (7.26). 28 Dette er helt analogt med betingelsen i lign.(2.16): n i=1 p i = 1. 290

Spesieltilfellet med E[X] = 0 og V ar[x] = 1 gjør at den generelle normalfordelingen i lign.(7.117) reduserer seg til det som kalles den standardiserte normalfordelingen. Denne standard normalfordelingen spiller en så sentral rolle at vi formulerer den i en egen setning: Definisjon: ( standardisert kont. normalfordeling, X N[µ = 0, σ = 1] ) La X være en kontinuerlig stokastisk variabel. Dersom E[X] = µ = 0, V ar[x] = σ 2 = 1 (7.122) så vil den generelle normalfordelingen i lign.(7.117) redusere seg til f X (x) = 1 2π e x2 2 (7.123) Dette kalles den standardiserte normalfordelingen. 291

7.5.1 Standardisering En hvilken som helst generell normalfordeling f X (x) (med µ 0 og σ 1) kan skaleres om til en standard normalfordeling f Z (z) (med µ = 0 og σ = 1). Dette innser vi ved å betrakte følgende sammenheng mellom Z og X: Z = X µ σ (7.124) Et illustrativt eksempel på effekten av denne OMSKALERINGEN er: x-variabel: f Z (z) z-variabel: f X (x) σ = 1.4 μ = 3 σ x z σ σ = 1 μ = 0 μ 2 4 6 x - 1 μ 1 z Figur 7.27: Tetthetsfunksjonen f X (x) med X-variabelen og f Z (z) med Z-variabelen. 292

Som figuren illustrerer, den nye OMSKALERTE variabelen har følgende effekt: fordelingen (dvs. grafen) flyttes slik at den blir symmetrisk om y-aksen, dvs. forventingen endres fra 3 til µ = 0 fordelingen (dvs. grafen) blitt smalere og høyere (!) siden standardavviket endres fra 1.4 til σ = 1 det totale arealet under grafen er forsatt normert til 1, også etter omskaleringen 29 29 Dette er kanskje ikke så lett å se med det blotte øyne, men det kan vises matematisk. 293

Matematisk så betyr det faktum at µ = 0 og σ = 1 i den nye omskalerte variabelen, følgende: E[Z] = 0, V ar[z] = 1 (7.125) Bevis: Forventning og varians for Z: ( bruker regnereglene i lign.(5.31)-(5.38) ) [ ] X µ E[Z] = E σ = 1 E[X µ] = E[X] µ = µ µ σ }{{} = 0 (7.126) = µ [ ] X µ V ar[z] = V ar σ = 1 ( ) V ar[x] V ar[µ] σ 2 }{{} = σ 2 = 0 = 1 V ar[x µ] (7.127) σ2 = 1 ( ) σ 2 0 σ 2 = σ2 σ 2 = 1 (7.128) 294

7.5.2 Sammenhengen mellom P (Z z) og G(z) La oss se på en bestemt verdi Z = z som illustrert i figur (7.28). Arealet til ventre for denne verdien z representerer en sannsynlighet: arealet til venstre for z = sannsynligheten for at den stokastiske variabelen Z har verdier mindre eller lik z = P (Z z) (7.129) Arealet til venstre for z er det samme som integralet under grafen f Z (z): 30 P (Z z) = stopp start = = G(z) z f Z (s) ds def. = G(z) (7.130) Gaussintegralet G(z) behøver ikke regnes ut av oss. Det er tabelloppslag. Tabell finnes bakerst i læreboken. f Z (z) areal = G(z) σ = 1 μ = 0-1 z 1 z Figur 7.28: Arealet som vist representerer sannsynligheten P (Z z). 30 Dette integralet er et Gaussintegral. Derfor velges bokstaven G. (En del engelske bøker bruker notasjonen Φ(z) istedet for G(z).) 295

P(Z z) = G(z) z 296

kont. Eksempel: ( P (X 4), normalfordeling ) generell normalfordeling Anta at X N[µ = 3, σ = 1.4], dvs. anta at X er normalfordelt med E[X] = µ = 3 og V ar[x] = σ = 1.4. Hva er P (X 4)? Løsning: Matematisk vet vi at det er lov å trekke fra et tall på begge sider av et ulikhetstegn, dvs. ulikheten forblir den samme. Det er også lov å dele på samme positive tall på begge sider. Dermed: P (X 4) ( standardiser X µ = P σ ( X µ = P }{{ σ } = Z 4 µ ) σ 4 3 ) } 1.4 {{} 0.71 = P (Z 0.71) = G(0.71) (7.131) (7.132) tabell = 0.7611 (7.133) x-variabel: f Z (z) z-variabel: f X (x) σ = 1.4 σ = 1 μ = 3 P(X 4) μ = 0 μ 2 4 6 x - 1 P(Z 0.71) μ 1 0.71 z Figur 7.29: Sannsynlighetene P (X 4) og P (Z 0.71) er like, dvs. det grønne og det røde arealet er likt. 297

Setning: ( P (X x), P (Z z) og G(z) ) generell n.-fordeling standard n.-fordeling La X N[µ, σ] og Z N[µ = 0, σ = 1], dvs. X og Z være kontinuerlige stokastiske variabeler relatert på følgende måte: Z = X µ σ (7.134) Da er den kumulative sannsynlighetsfordelingen gitt ved: P (X x) = P (Z z) = G(z) (7.135) hvor 31 G(z) = z f Z (z) dz (7.136) og f Z (z) er gitt ved lign.(7.123). 31 Dette integralet G(z), Gaussintegralet, behøver ikke regnes ut. Det er tabelloppslag. Tabell finnes bakerst i læreboken. 298

Setning: ( egenskap til G(z) ) Fra figur (7.30) innser vi at G(z) + G( z) = arealet under hele kurven = 1 (7.137) Altså vi kan skrive: eller ekvivalent G( z) = 1 G(z) (7.138) P (Z z) = 1 P (Z z) (7.139) Dette betyr at vi kun behøver G(z) med positivt argument. G(z) (med positivt argument) er som tidligere nevnt tabelloppslag. En slik tabell finnes f.eks. bakerst i læreboken. f Z (z) f Z (z) areal = G(z) areal = G(-z) z z - z z Figur 7.30: Arealene representerer Gaussintegralene G(z) og G( z). 299

kont. Eksempel: ( normalfordeling, logistikk ) En bedrift som produserer rør som settes sammen til gassrørledninger. Bedriften har en maskin som produserer rør, som til en bestemt rørledning skal være omtrent 9 meter lang. Lengden til rør produsert av maskinen er med god tilnærmelse beskrevet av en normalfordeling. Anta at denne maskinen produserer rør som har en forventning og standardavvik µ = 9 meter (7.140) σ = 0.1 meter (7.141) a) Hvordan vil du definere den stokastiske variabelen i dette problemet? b) Hva er sannsynligheten for at et tilfeldig valgt rør er 9.2 meter eller lengere? c) Hva er sannsynligheten for at lengden et tilfeldig valgt rør ligger mellom 8.9 meter og 9.1 meter? Figur 7.31: Gassrør som lagres etter produksjon. 300

Du jobber i bedriften som ansvarlig for leveranse av gassrør til store prosjekt. Herunder kommer også tilhørende logistikk og kvalitetssikring. Ett av flere mål på kvalitet i denne sammenheng er presisjonen av lengden på rørene. Bedriften har fått i oppdrag fra A/S Norske Shell å produsere 11.25 kilometer med gassrør for Shell på Nyhamna i Aukra. Shell krever en feilmargin på ± 5 meter. Dette betyr at Shell kan leve med at den totale lengden av rørledningen er 5 meter lengere eller kortere enn spesifisert verdi. d) Hva er forventet totallengde av rørledningen? e) Hva er variansen til totallengden? Anta at lengden til hvert rør er uavhengige. f) Hva er sannsynligheten for at totallengden blir for lang eller for kort? g) Dersom standardavviket til lengden av et gitt rør, σ, kunne justeres til en annen verdi, hvilken verdi måte det justeres til for at sannsynligheten for at rør ledningen blir for lang eller for kort, skal bli 1 %? Figur 7.32: Gassrør på Nyhamna i Aukra. 301

Løsning: a) I situasjonen som beskrevet i oppgaven er det hensiktsmessig å definere den stokastiske variabelen: X = lengden av et tilfeldig valgt rør (7.142) b) Sannsynligheten for at et tilfeldig valgt rør er 9.2 meter eller lengere: P ( X 9.2 ) ( standardiser X µ = P 9.2 µ ) }{{ σ } σ = Z ( = P Z 9.2 9 ) } 0.1 {{} = 2 (7.143) lign.(7.139) = 1 P (Z 2) lign.(7.136) 1 G(2) }{{} se tabell (7.144) = 1 0.9772 = 0.023 (7.145) c) Sannsynligheten for at lengden et tilfeldig valgt rør ligger mellom 8.9 meter og 9.1 meter? P ( 8.9 X 9.1 ) = P (X 9.1) P (X 8.9) (7.146) ( X µ = P }{{ σ } = Z 9.1 µ ) σ ( = P Z 9.1 9 ) } 0.1 {{} = 1 ( X µ P }{{ σ } = Z ( P Z 8.9 9 ) } 0.1 {{} = 1 8.9 µ ) σ (7.147) (7.148) = P (Z 1) ( 1 P (Z 1) ) (7.149) = 2 P (Z 1) 1 (7.150) 302

P ( 8.9 X 9.1 ) = 2 P (Z 1) 1 (7.151) lign.(7.136) = 2 G(1) }{{} se tabell 1 (7.152) = 2 0.8413 1 = 0.6826 (7.153) d) Shell skal ha 11 250 meter med rør. Hvert rør er 9 meter, dvs. man trenger totalt 11 250 9 = 1250 rør. Forventet totallengde av rørledningen blir dermed: E [ X total ] = E [ X 1 + X 2 +... + X 1149 + X 1150 ] (7.154) lign.(5.34) = = 1250 stk. E[X 1 ] + E[X 2 ] +... + E[X 1149 ] + E[X 1250 ] (7.155) = 1250 = µ = 9 E[X] (7.156) = 1250 9 meter (7.157) = 11 250 meter (7.158) 303

e) Siden lengden til hvert rør er uavhengige, så gjelder: V ar [ X total ] = V ar[ X 1 + X 2 +... + X 1249 + X 1250 ] (7.159) lign.(6.73) = uavh. = 1250 stk. V ar[x 1 ] + V ar[x 2 ] +... + V ar[x 1249 ] + V ar[x 1250 ] (7.160) = 1250 = 0.1 2 V ar[x] (7.161) = 1250 0.1 2 meter 2 (7.162) = 12.5 meter 2 (7.163) med tilhørende standardavvik σ[x total ] = V ar[x total ] = 12.5 3.54 meter. (7.164) 304

f) Sannsynligheten for at blir totallengden blir for lang eller for kort: P ( X total < 11 245 eller X total > 11 255 ) = P (X total < 11 245) (7.165) + P ( X total > 11 255 ) = 2 P (X total < 11 245) (7.166) hvor disse to overgangene kan forklares via figur (7.33). f Xtotal (x total ) μ = 11 250 σ = 3.54 x total 11 245 11 250 11 255 f = 2 Xtotal (x total ) x total 11 245 11 250 11 255 Figur 7.33: Visualisering av lign.(7.163). 305

P ( X total < 11 245 eller X total > 11 255 ) = 2 P ( X total < 11 245 ) (7.167) ( ) X µ 11 245 11 250 = 2 P }{{ σ }} 3.54 {{} = Z = 1.41 = 2 P ( Z 1.41 ) (7.168) = 2 = 2 ( ) 1 P (Z 1.41) }{{} = 0.9207 ( ) 1 0.9208 (7.169) (7.170) 0.16 (7.171) 306

g) Vi skal finne det standardavviket σ for lengden av et gitt rør, som gjør at sannsynligheten for at rør ledningen blir for lang eller for kort, skal bli 1 %: P (for kort eller for lang) = 0.01 (7.172) P (X total < 11 245 X total > 11 255) }{{} spes. add. = P (X total <11 245) + P (X total >11 255) = 0.01 (7.173) Siden begivenheten for kort og begivenheten for lang ikke overlapper, dvs. de er disjunkte så kan vi bruke den spesielle addisjons setning: P (X total < 11 245) + P (X total > 11 255) = 0.01 (7.174) Siden normalfordelingen er symmetrisk så innser f.eks. fra figur (7.33) at: P (X total < 11 245) = P (X total > 11 255) (7.175) dvs. sannsynligheten for at rørledningen er for kort er den samme som sannsynligheten for at den er for lang, P (for kort) = P(for lang). Lign.(7.174) gir dermed: 2 P (X total < 11 245) = 0.01 (7.176) P (X total < 11 245) = ( Xtotal µ total P 11 245 µ ) total σ[x total ] σ[x }{{} total ] = Z total P ( Z total ( P ) 11 245 11 250 1250 σ 2 ) Z total 0.1414 σ }{{} = 1 P(Z total 0.1414 σ ) standardiser = 0.01 2 0.01 2 (7.177) (7.178) = 0.005 (7.179) = 0.005 hvor vi har brukt at standardavviket for den totale rørledningen er σ[x total ] = V ar[x total ] = 1250 σ 2. 307

( P Z total < 0.1414 ) σ = 1 0.005 }{{} = 0.9950 (7.180) Ved omvendt tilbabelloppslag : tallet 0.9950 ligger midt mellom 0.9949 og 0.9951, se arealtabellen på side 296. Dette tilsvarer at argumentet er 2.575. Dermed: 0.1414 σ = 2.575 (7.181) σ = 0.1414 2.575 = 0.055 (7.182) Konklusjon: Dersom standardavviket ( usikkerheten /spredningen) til lengden av et gitt rør reduseres til σ = 0.055 meter (= 5.5 cm) så er det 1 % sannsynlighet for at dem totale rørlednigen er for kort eller for lang. 308

7.5.3 Diskret vs kontinuerlig fordeling: en viktig forskjell En viktig forskjell mellom en diskret og kontinuerlig sannsynlighetsfordeling er følgende: P (X 2) P (X 2)! disk. = 1 P (X 3) (diskret) (7.183) kont. = 1 P (X 2) }{{} (kontinuerlig) (7.184)! I det kontinuerlige tilfellet, siden integralet over kun et punkt er null, a a f X(x) dx = 0, så kan vi både ha mindre enn eller lik,, på venstre siden i lign.(7.183), og også eller lik på høyre side. Det kan vi ikke i det diskrete tilfellet. 32 Diskret: 0 1 2 3 4 X 2 X > 2 X Kontinuerlig: 0 1 2 3 4 X 2 X 2 X Figur 7.34: Diskret vs kontinuerlig fordeling: en viktig forskjell. 32 I det kontinuerlige tilfellet så kan man også dette skrives på følgende måte: P (X x) kont. = P (X < x) + P (X = x) }{{} kont. = 0 = P (X < x) (kontinuerlig) (7.185) 309

7.5.4 Standardavvik σ og %-vis areal Som vi har lært tidligere så er varians og standardavvik et mål på spredning. For en normalfordeling med et gitt standardavvik σ, så dekker intervallet µ σ X µ + σ hele 68.2 % av arealet (7.186) under sannsynlighetfordelingen f X (x). Tilsvarende dekker intervallet µ 2σ X µ + 2σ hele 95.4 % av arealet (7.187) under sannsynlighetfordelingen f X (x). Dette er illustrert i denne figuren: f X (x) z x Figur 7.35: Standardavvik σ og %-vis areal for en normalfordeling. 310

kont. Eksempel: ( SCM200: lagerstyring I, normalfordeling ) I faget SCM200 Lager- og produksjonsplanlegging lærer man blant annet om lagerstyring. Et eksempel på en situasjon hvor man bruker teorien for lagerstyring er for bedrifter som har varer på lager. Man lærer blant annet: Ved beregning av sikkerhetslager 33 forutsetter vi at etterspørselsen i ledetiden (leveringstiden) 34 er normalfordelt. }{{} N[µ,σ] Videre får vi opplyst at: Etterspørselen i ledetiden (leveringstiden) for et produkt er normalfordelt med gjennomsnitt 20 } enheter {{} og standardavvik } 5 enheter {{}. = µ = σ Figur 7.36: Lagerstyring. 33 Et sikkerhetslager er et lager som eksisterer i tilfelle noe uventet skjer. Det kan være at etterspørselen blir uventet stor eller at det tar uventet lang tid før bedriften får påfyll av varer. 34 Ledetiden er den tiden som går fra bestilling til mottak av varer, altså synonymt med leveringstid. 311

a) Hva er sannsynligheten for at etterspørselen i ledetiden (leveringstiden) i en gitt periode er mindre eller lik 30 enheter? b) Hvor mange enheter av varen må vi ha på sikkerhetslager for at sannsynligheten, dvs. sikkerhetsnivået 35 som vi fikk i oppgave a, skal oppnås? 36 c) Med sikkerhetsnivået som i oppgave a, hva er sannsynligheten for at sikkerhetslageret skal gå tomt i den gitte perioden? 35 Sikkerhetsnivået er den sannsynligheten (som vi betemmer oss for å legge oss på) for at vi ikke skal gå tom for varer i sikkerhetslageret. 36 I SCM200 så bruker man notasjonen SS for antall enheter i et sikkerhetslager. Her står SS for safety stock. Oppgave b betyr med andre ord: Finn SS. 312

Løsning: Oppgaven spør etter sannsynligheten for etterspørsel. Derfor definerer vi den stokastiske var.: X = antall enheter av varen som etterspørres i ledetiden (leveringstiden) (7.188) i en gitt periode a) Selv om X bare kan ha hele tall (X er antall enheter) så er den per antagelse tilnærmet normalfordelt, dvs. X N[µ = 20, σ = 5]. Dermed kan vi bruke lign.(7.136): }{{} generell n.-fordeling P (X 30) ( standardisèr X µ = P 30 µ ) }{{ σ } σ = Z ( ) 30 20 = P Z }{{ 5 } = 2 (7.189) = P (Z 2) lign.(7.136) G(2) }{{} se tabell = 0.9772 (7.190) Konklusjon: Det er 97.7 % sannsynlighet for at for at etterspørselen i ledetiden i en gitt periode er mindre eller lik 30 enheter. 313

b) i) Metode 1: Antall enheter av varen som bedriften må ha på sikkerhetslager for å oppnå et sikkerhetsnivå på 97.7 % er lik antall varer som overstiger forventningen µ = 20 (7.191) tilsvarende dette sikkerhetsnivået. Fra oppgave a vet vi at sikkerhetsnivået 97.7 % tilsvarer 30 enheter i den gitte perioden. Dermed: antall varer i sikkerhetslager for å oppnå 97.7 % sikkerhetsnivå = 30 µ (7.192) = 30 20 = 10 ii) Metode 2: En annen måte å finne antall varer i sikkerhetslageret på er via lign.(7.134): Z = X µ σ Z σ }{{} = SS (7.193) = X µ (7.194) hvor, i vårt tilfelle, så er Z = 2 og σ = 5. Venstre side av lign.(7.194) er det som kalles formel for sikkerhetslager i SCM200 Lager- og produksjonsplanlegging 37. Størrelsen på sikkerhetslageret, SS (safety stock), er derfor: 37 Formel for sikkerhetslager gitt ved: SS = z σ L (7.195) hvor SS = safety stock, sikkerhetslager (7.196) z = sikkerhetsfaktor/antall standardavvik (7.197) σ L = standardavvik for etterspørsel i ledetiden (7.198) 314

SS = Z σ = 2 5 = 10 (7.199) Dette er nøyaktig samme formel som i faget SCM200, se lign.(7.195), men vi bruker litt annerledes notasjon. (Vi bruker σ istedet for σ L ). c) Sannsynligheten for å gå tom i sikkerhetslageret med det gitte sikkerhetsnivået er det samme som sannsynligheten for at etterspørselen i ledetiden er større enn 30: P (X > 30) = 1 vet fra oppg. a P (X 30) = }{{} 1 0.9772 = 0.0228 (7.200) = 0.9772 Konklusjon: Det er 2.3 % sannsynlighet for at for at sikkerhetslageret går tomt i ledetiden i den gitte perioden med det gitte sikkerhetsnivået. Figur 7.37: Enighet om sikkerhetsnivå som tilsvarer 97.7 %. 315

kont. Eksempel: ( normalfordeling, økonomi ) Anta at du er økonomisjef i et selskap som produserer kjøleskapmotorer. For ha kontroll på økonomien til selskapet så må selskapet vite litt om levetiden til disse motorene. Det viser set at levetiden er normalfordelt med forventet levetid på } 19.4 {{ år }. Standardavviket er } 4.3{{ år }. = µ = σ a) Hva er sannsynligheten for at en motor fungerer i 12 år eller mindre? b) Hva er sannsynligheten for at en motor fungerer i 25 år eller mer? c) Hva er sannsynligheten for at en motor fungerer mer enn 10 år, men mindre enn 20 år? Figur 7.38: Produksjon av kjøleskap og kjøleskapmotorer. 316

For å fremme salget av sine motorerønsker selskapet å gå ut med en levetidsgaranti. Denne garantien går ut på at kunden kostnadfritt får ny motor dersom den ryker innenfor garantitiden. d) Hvor mange års garanti kan selskapet gå ut med dersom de ikke ønsker å erstatte mer enn 2 % av motorene? Selskapet tjener totalt 1200 NOK på en moter som holder hele garantitiden. For motorer som ryker innenfor garantitiden så taper selskapet 4500 NOK. e) i) Dersom selskapet opererer med 12 år garanti på motorene, hva er da forventet fortjeneste på salg av en motor? ii) Hvordan vil du tolke resultatet i forrige oppgave? 317

Løsning: La 38 X = levetiden til en tilfeldig valgt motor (7.201) Siden forventet levetid på 19.4 år med standardavvik på 4.3 år, så har vi: µ = 19.4, σ = 4.3 (7.202) a) Sannsynligheten for at en motor fungerer i 12 år eller mindre: P (X 12) = ( X µ P 12 µ ) }{{ σ } σ = Z ( ) X µ 12 19.4 = P }{{ σ }} 4.3 {{} = Z = 1.72 (7.203) = = P (Z 1.72) = 1 P (Z 1.72) }{{} = G(1.72) = 1 G(1.72) }{{} se tabell (7.204) = 1 0.9573 }{{} se tabell = 0.043 (7.205) 38 X er altså en kontinuerlig stokastisk variabel. 318

b) Sannsynligheten for at en motor fungerer i 25 år eller mer: P (X 25) = 1 P (X 25) (7.206) ( X µ = 1 P 25 µ ) }{{ σ } σ = Z ( ) X µ 25 19.4 = 1 P }{{ σ }} 4.3 {{} = Z =1.30 (7.207) = = 1 P (Z 1.30) = 1 P (Z 1.30) }{{} = G(1.30) = 1 G(1.72) }{{} se tabell (7.208) = 1 0.9032 }{{} se tabell = 0.097 (7.209) c) Sannynligheten for at en motor fungerer mer enn 10 år, men mindre enn 20 år: P (10 X 20) = P (X 20) P (X 10) (7.210) ( X µ = P }{{ σ } = Z ( X µ = P }{{ σ } = Z 20 µ ) σ ) 20 19.4 } 4.3 {{} = 0.14 ( X µ P }{{ σ } = Z ( X µ P 10 µ ) σ }{{ σ } = Z ) 10 19.4 } 4.3 {{} = 2.19 (7.211) (7.212) = P (Z 0.14) P (Z 2.19) (7.213) = P (Z 0.14) }{{} = G(0.14) ( 1 P (Z 2.19) ) (7.214) }{{} = G(2.19) = 0.5557 ( 1 0.9857 }{{} ) = 0.5414 (7.215) se tabell 319

d) La X g være den ukjente garantitiden som vi skal finne. Dersom selskapet ikke ønsker å erstatte mer enn 2 % av motorene, så betyr det: P (X X g ) = 0.02 (7.216) La oss standardisere denne: ( X µ P X ) g µ }{{ σ }}{{ σ } = Z negativ ( 1 P Z µ X ) g }{{ σ } positiv ( P Z µ X ) g σ = 0.02 (7.217) = 0.02 (7.218) = 0.98 (7.219) Ved omvendt tilbabelloppslag ser vi at 0.9798 er det som er nærmest 0.98, se arealtabellen side 296. Dette tilsvarer at argumentet er 2.05. Dermed: Z = 2.05 (7.220) µ X g σ = 2.05 (7.221) X g = 10.6 (7.222) Konklusjon: Dersom selskapet ikke ønsker å erstatte mer enn 2 % av motorene, så kan selskapet max gå ut med en levetidsgaranti på 10.6 år. 320

e) i) La F = fortjenesten til selskapet ved salg av en tilfeldig valgt motor (7.223) Utfallet til F er enten 1200 kroner eller 4500 kroner, dvs. Ω = { 4500, 1200 }. Fra kap.(5) og lign.(5.16) vet vi at forventning er: E(F ) lign.(5.16) = m i=1 = 1200 f i P (F = f i ) (7.224) må finne denne må finne denne P (F = 1200) + ( 4500) P (F = 4500) (7.225) Men sannsynlighten for å tjene 1200 kroner, P (F = 1200), er lik sannsynligheten for at motoren holder i hele garantitiden. Altså: P (F = 1200) = sanns. for å tjene 1200 kroner ved salg av en tilfeldig motor (7.226) = sanns. for at motoren holder i hele garantitiden på 12 år (7.227) = P (X 12) (7.228) = 1 P (X 12) (7.229) ( X µ = 1 P }{{ σ } = Z 12 µ ) σ ( ) 12 19.3 = 1 P Z } 4.3 {{} = 1.72 (7.230) (7.231) = 1 P (Z 1.72) (7.232) = 1 ( 1 P (Z 1.72) ) (7.233) = P (Z 1.72) = 0.9573 (7.234) 321

Tilsvarende: sannsynlighten for å tjene 1200 kroner, P (F = 1200), er like sannsynligheten for at motoren holder i hele garantitiden. Altså: P (F = 4500) = sanns. for å tjene -4500 kroner ved salg av en tilfeldig motor (7.235) = sanns. for at motoren ikke holder i hele garantitiden på 12 år (7.236) = P (X 12) (7.237) = 1 P (X 12) }{{} = 0.9573 (7.238) = 1 0.9573 = 0.0427 (7.239) Innsatt i lign.(7.225): E(F ) lign.(7.225) = 1200 0.9573 P (F = 1200) + ( 4500) 0.0427 P (F = 4500) (7.240) = 1200 0.9573 + ( 4500) 0.0427 = 956.6 (7.241) e) ii) Tolking: E[F ] = gjennomsnittlig fortjeneste per solgte motor i det lange løp (7.242) 322

7.6 Oversikt: Bin, Hyp, Poi og N Vi har i dette kapitlet lært om fire sannsynlighetsfordelinger: 1. Binomisk fordeling 2. Den hypergeometriske fordeling 3. Poissonfordelingen 4. Normalfording På de to neste sidene er det laget en oversikt over disse fire fordelingene. Særlig viktig er kommentarene. Disse kommentarene som sier blant annet noe om for hvilke situasjoner de respektive fordelingene beskriver. Når man støter på en situasjon hvor man skal avgjøre hvilken sannsynlighetsfordeling som er kan være aktuell for å beskrive/modellere en situasjon så kan en slik oversikt være til stor hjelp. 323

Bin[ n, p ] Hyp[ N, M, n ] Poi[ λ ] N[ μ, σ ] 2 param. 3 param. 1 param. 2 param. diskret diskret diskret kontinuerlig

Bin[ n, p ] Hyp[ N, M, n ] Poi[ λ ] N[ μ, σ ] 1) 2 mulig utfall 2) samme p for suksess 3) uavhengige 1) x antall suksesser / spesielle 2) N antall i grunnmengden 3) M antall spesielle 1) x antall begivenheter innenfor en gitt tid 2) λ = rate 1) Tetthetsfunksjon f X (x) 2) Gausskurve 4) n antall forsøk 4) n antall trukne elementer - kjenner ikke fordelingen i urnen - m / tilbakelegging - teller opp antall suksesser - kjenner fordelingen i urnen - u / tilbakelegging - teller opp antall suksesser - rate ( konstant ) - antall begivenheter innenfor en gitt tid eller gitt rom - telleforsøk - loven om skjeldne begivenh. - under bestemte betingelser vil mange diskrete og kontinuerige fordelinger med god tilnæring være normalfordelt (f.eks. CLT )

7.7 Sentralgrensesetningen Sentralgrenseteoremet er et sentralt teorem (=læresetning) innen matematisk statistikk og sannsynlighetsteori. Teoremet sier at en sum av uavhengige og diskret ELLER kont. identisk fordelte stokastiske variabler går mot en normal }{{} fordeling når antallet går mot uendelig.! Figur 7.39: Visualisering av sentralgrenseteoremet ( CLT ). 326

Eksempel: ( n stk. terninger, sentralgrensesetningen ) I dette eksemplet skal vi se på terningkast. Med flere terninger. Vi definerer: n = antall terninger i et terningkast (7.243) X = gjennomsnittet av antall øyne med n terninger (7.244) Her er n bare en konstant. X er en stokastisk variabel. Først skal vi gjøre et forsøk med kun èn terning, n = 1. Deretter gjør vi et nytt forsøk, men denne gangen med 2 terninger, n = 2. Deretter atter et nytt forsøk med 3 terninger n = 3 osv. Figur 7.40: Terningkast. 327

i) n = 1: Èn terning. Med bare èn terning, n = 1, så er åpenbart x = x i. Sannsynlighetsfordelingen til gjennomsnittet x, dvs. P (X = x) = 1/6 = 0.166..., kan visualiseres slik: En terning. ( n=1 ) P(X=x) x Figur 7.41: P (X = x) for en terning (n = 1). ii) n = 2: To terninger. Dersom vi kaster to terninger, n = 2, så kan vi regne ut gjennomsnittet av antall øyne til teringkastene via lign.(1.8) i kapittel 1. F.eks., dersom utfallet blir 1 øyne og 4 øyne så er gjennomsnittet: x lign.(1.8) = 1 n n x i = 1 ( 1 + 4 ) = 2.5 (7.245) 2 i=1 328

Sannsynligheten P (X = 2.5) for at våre n = 2 terninger skal gi et gjennomsnittet på x = 2.5 kan finnes via urnemodellen siden dette er en tellesituasjon: Det er 4 mulige måter at å få gjennomsnittet x = 2.5 på 39. Totalt er det 6 2 = 36 mulige utfall 40. Sannsynligheten P (X = 2.5) er da gitt ved: 41 P (X = 2.5) = antall gunstige utfall antall mulige utfall = 4 36 (7.246) Tilsvarende kan vi regne ut P (X = x) for alle andre mulige utfall av x. P(X=X) 0.15 0.10 0.05 4 mulige måter n = 2 1 2 3 4 5 6 x Figur 7.42: P (X = x) for man kaster n = 2 terninger. P (X = x) for de forskjellige mulige verdiene av x finnes via tellemetoden: P (X = 1) = 1 36 P (X = 1.5) = 2 36 P (X = 2) = 3 36 P (X = 2.5) = 4 36 P (X = 3) = 5 36 (7.247) (7.248) (7.249) (7.250) (7.251) 39 Det er utfallene (1, 4), (4, 1), (2, 3) og (3, 2). 40 Dette tilsvarer et ordnet utvalg med tilbakelegging, dvs. situasjon 1, se lign.(3.7) i kapittel 3. Med N = 6 og s = 2 får man N s = 6 2 = 36. 41 Jfr. eksempel 2 på side 54. 329

P (X = 3.5) = 6 36 P (X = 4) = 5 36 P (X = 4.5) = 4 36 P (X = 5) = 3 36 P (X = 5.5) = 2 36 P (X = 6) = 1 36 (7.252) (7.253) (7.254) (7.255) (7.256) (7.257) Sannsynlighetene i lign.(7.247)-(7.257) kan plottes i en figur: n=1 n = 2 P(X=X) x Figur 7.43: P (X = x) for to terninger, n = 2. 330

iii) n = 8: 8 terninger. Dersom vi kaster n = 8 terninger så kan vi regne ut sannsynlighetsfordelingen for gj.snittet x på samme måte som ovenfor. Resultatet blir: n n=1 = 28 P(X=X) x Figur 7.44: P (X = x) for åtte terninger, n = 8. iv) n = 16: 16 terninger. Dersom vi kaster n = 16 terninger så blir sannsynlighetsfordelingen for gj.snittet x: n=1 n = 2 n = 16 P(X=X) x Figur 7.45: P (X = x) for 16 terninger, n = 16. 331

P(X=X) n=1 P(X=X) n = 2 x x P(X=X) n = 8 P(X=X) n = 16 x x Figur 7.46: P (X = x) for n = 1, 2, 8, 16 terningkast. 332

Med forutseningene terningene er helt like 42 uavhengige terninger 43 så ser vi at Lokaliseringsmål: Forventningen til gjennomsnittet av antall øyne E[ X ] er den samme som forventningen til antall øyne når man kun har èn terning E[X i ]: E[ X ] = E[X i ] = 3.5 (samme) (7.258) Spredningsmål: P (X = x) blir smalere og smalere, dvs. variansen til gjennomsnittet av terningkast V ar[ X ] er mindre enn variansen til et enkeltstående terningkast V ar[x i ]: V ar[ X ] < V ar[x i ] (mindre) (7.259) 42 Hovedpoenget her er altså at alle terningene har samme sannsynlighetsfordeling. Altså at terningene er helt like. Hovedpoenget er ikke i denne sammenheng at sannsynligheten for et gitt utfall for en gitt terning også er det samme, P (X = 1) = P (X = 2) =...P (X = 6) = 1/6. 43 Altså at utfallet til hver enkelt terning er uavhengige av hverandre. 333

Setning: ( CLT 44, sentralgrensesetningen ) ( versjon 1 ) La X 1, X 2, X 3,... X n være stokastiske variabler. Anta: alle X i er uavhengige diskret ELLER kont. alle X i har samme sannsynlighetsfordeling P (X = x i ), dvs. E[X i ] = µ og V ar[x i ] = σ 2 for alle i = 1, 2, 3,..., n. Da gjelder at gjennomsnittet X: ( n = antall stok. var. ) X = X 1 + X 2 + X 3 +... + X n n (7.260) er normalfordelt i grensen når antall forsøk n blir stor: X n = stor [ N µ, σ ] n (7.261) altså P (X = x) er normalfordelt med forventning og varians hhv. E[ X ] = µ og V ar[ X ] = σ2 n (7.262) 44 På engelsk brukes ofte forkortelsen CLT, dvs. central limit theorem. 334

Veldig forenkelt og kort: Dersom alle stokastiske variabler X i har samme vilkårlige fordeling P : N X = P X 1 + P X 2 + P X 3 +... + n P X n (7.263) 335

Setning: ( CLT 45, sentralgrensesetningen ) ( versjon 2 ) La X 1, X 2, X 3,... X n være stokastiske variabler. Anta: alle X i er uavhengige diskret ELLER kont. alle X i har samme sannsynlighetsfordeling P (X = x i ), dvs. E[X i ] = µ og V ar[x i ] = σ 2 for alle i = 1, 2, 3,..., n. Da gjelder at summen Y n : ( n = antall stok. var. ) Y = X 1 + X 2 + X 3 +... + X n (7.264) er normalfordelt i grensen når antall forsøk n blir stor: Y n = stor [ N nµ, ] nσ (7.265) altså P (Y = y) er normalfordelt med forventning og varians hhv. E[ Y ] = nµ og V ar[ Y ] = n σ 2 (7.266) 45 På engelsk brukes ofte forkortelsen CLT, dvs. central limit theorem. 336

Veldig forenkelt og kort: Dersom alle stokastiske variabler X i har samme vilkårlige fordeling P : N Y = P X 1 + P X 2 + P X 3 +... + P X n (7.267) 337

Visualisering av sentralgrenseteoremet: ( n = antall stok. var. ) Figur 7.47: Sentralgrenseteoremet. 338

Vi skal nå ikke bevise CLT, men vi skal vise hvorfor lign.(7.262) stemmer under de forutsetningene som CLT har. 1) Forventing: E[ X ] = [ ] X1 + X 2 + X 3 +... + X n E n (7.268) = [ 1 ( ) ] E X 1 + X 2 + X 3 +... + X n n (7.269) = 1 [ ] n E X 1 + X 2 + X 3 +... + X n (7.270) = 1 n ( ) E[X 1 ] + E[X 2 ] + E[X 3 ] +... + E[X n ] (7.271) Men i CLT antar vi at alle stokastiske variablene har samme forventingsverdi, dvs. E[X 1 ] = E[X 2 ] =... = E[X n ] = µ. Dermed: E[ X ] = 1 n ( n stk. µ + µ + µ +... + µ ) (7.272) = 1 n n µ = µ (7.273) og vi har vist den første sammenhengen i lign.(7.262). 339

2) Varians: V ar[ X ] = [ ] X1 + X 2 + X 3 +... + X n V ar n (7.274) = [ 1 ( ) ] V ar X 1 + X 2 + X 3 +... + X n n (7.275) = ( ) 2 1 ] V ar[ X 1 + X 2 + X 3 +... + X n n (7.276) uavh. = ( ) 2 ( ) 1 V ar[x 1 ] + V ar[x 2 ] + V ar[x 3 ] +... + V ar[x n ] n (7.277) hvor vi i siste overgang i lign.(7.277) har brukt antagelsen om at de stokastiske variablene er uavhengige. Men i CLT antar vi også at alle stokastiske variablene samme varians, dvs. V ar[x 1 ] = V ar[x 2 ] =... = V ar[x n ] = σ 2. Dermed: V ar[ X ] = ( ) 2 ( n stk. 1 ) σ 2 + σ 2 + σ 2 +... + σ 2 n (7.278) = 1 n 2 n σ 2 = σ2 n (7.279) og vi har vist den andre sammenhengen i lign.(7.266). 340

På godt norsk så betyr dette: Sannsynlighetsfordelingen til gjennomsnittet av stokastiske variabeler med samme sannsynlighetsfordeling }{{} diskret ELLER kont. vil, for } store {{ n}, bli normalfordelt. (7.280) n 30 Kommentar: CLT sier også at forventingen til gjennomsnittet av tenringkast E[ X ] og forventningen til et gitt terningkast E[X i ] er det samme E[ X ] = E[X i ] (samme) (7.281) men standardavviket til gjennomsnittet av terningkast V ar[ X ] er mindre enn standardavviket til gjennomsnittet av terningkast V ar[x i ] σ[ X ] = σ[x i] n (mindre) (7.282) Med andre ord: jo flere forsøk vi beregner gjennomsnittet av, jo mindre blir standardavviket, dvs. jo mindre blir spredningen. 341

Kommentar: Hvor stor n må være ( n = antall forsøk ) for at sentralgrensesetningen skal gjelde er avhengig av situasjonen. Men en tommelfingerregel er at vi bør ha n 30 (7.283) dvs. antall forsøk bør være ca. 30 eller mer. 342

7.8 Diskrete fordelinger normalfordeling Svært ofte ønsker vi å tilnærme diskrete fordelinger, som f.eks. binomisk fordeling (diskret) hypergeometrisk fordeling (diskret) Poissonfordeling (diskret) med en normalfordeling. Normalfordelingen er kontinuerlig. 46 P(X=x) Diskret ( punktsannsynlighet ) f X (x) f x (x) x Kontinuerlig ( tetthetsfunksjon ) x Kontinuerlig ( tetthetsfunksjon ) x Figur 7.48: Fra diskret til kontinuerlig sannsynlighetsfordeling. 46 Siden vi ønsker å tilnærme en diskret fordeling med en kontinuerlig normalfordeling så bør vi gjøre en heltallskorreksjon. Heltallkorreksjon er ikke pensum i MAT110. 343

diskret Eksempel: ( binominal fordeling kont. normalfordeling ) Anta at X er binomialfordelt: X Bin [ n = 6, p = 0.5 ] (7.284) a) Finn den eksakte verdien til P (X 2). b) Finn den tilnærmede verdien for P (X 2) ved å anta at tilnæremet normalfordelt. Må kompensere for at vi sløyfer dette rektangulære arealet P(X=X) n = 6 p = 0.5 x Figur 7.49: Binomisk fordeling (diskret) og normalfordelingen (kontinuerlig). 344

diskret a) Eksakt svar: ( binominal fordeling ) La oss se på et eksempel med en binomisk fordeling (diskret) som vist i figur (7.49). I analogi med lign.(7.129) så er kumulative 47 sannsynligheten P (X 2) = summen av arealene til de 3 søylene markert med rødt i figur (7.49) = P (X = 0) + P (X = 1) + P (X = 2) (7.285) = ( ) n p 0 (1 p) n 0 + 0 ( ) n p 1 (1 p) n 1 + 1 ( ) n p 2 (1 p) n 2 (7.286) 2 = 0.0156250 + 0.093750 + 0.234375 = 0.34375 (eksakt) (7.287) 47 Den diskrete kumulative sannsynlighetsfordeling er definert i lign.(5.11). 345

kont. b) Tilnæremet svar: ( normalfordeling ) Et tilnærmet svar for P (X 2) er arealet under den glatte kontinuerlige kurven, dvs. arealet under normalfordeling. Fra lign.(7.136) vet vi da at P (X 2) tilnærmet arealene under den glatte kurven i figur (7.49) (7.288) = n p ( ) x E[X] = G σ[x] }{{} = n p (1 p) (7.289) hvor E[X] lign.(7.43) = n p = 6 0.5 = 3 (7.290) σ[x] lign.(7.50) = n p (1 p) = 6 0.5 (1 0.5) 1.22 (7.291) for en normalfordeling. Vi gjør åpenbart en feil her siden vi sløyfer halvparten av det største rektangelet, se figur (7.49). Dette kan vi korrigere for ved å legge til 0.5 slik at vi inkluderer høyre halvdel av det største rektanglet: 48 P (X 2) bedre enn lign.(7.288) NB! ( ) 2 + 0.5 3 G 1.22 (7.292) = G( 0.4082) lign.(7.138) = 1 G(0.4082) }{{} = tabelloppslag (7.293) = 1 0.6844 = 0.3409 (tilnærmet) (7.294) 48 Å legge til 0.5 på denne måten kalles heltallskorreksjon. Noen lærebøker kaller det også kontinuitetskorreksjon. Selv om vi nevner heltallkorreksjon her så er det ikke pensum i MAT110. 346

Kommentar: Med tallene som i dette eksemplet så er n p (1 p) = 6 0.5 (1 0.5) = 1.5 (7.295) Dette gir en brukbar tilnærmelse: P (X 2) = 0.34375 (eksakt) (7.296) P (X 2) 0.3409 (tilnærmet) (7.297) For at vi skal være sikker på at vi får en OK tilnærmelse generelt så viser det seg at betingelsen i lign.(7.295) må være en del sterkere enn lign.(7.295), nemlig: n p (1 p) 5 (7.298) Dette resultatet er så viktig at vi formulerer det i en egen setning. 347

Setning: ( Bin[n, p] N[µ, σ] ) For en diskret binomisk fordeling, X Bin[n, p], hvor n p (1 p) 5 (7.299) så er sannsynligheten X har verdien x være kont. normalfordelt, dvs. X N [ E[X], σ[x] ], slik at: P (X x) ( ) x E[X] G σ[x] P (X x) ( ) x E[X] 1 G σ[x] (7.300) (7.301) hvor forventning og standardavvik er E[X] lign.(7.43) = n p (7.302) σ[x] lign.(7.50) = n p (1 p) (7.303) En tilsvarende setning gjelder for en diskret hypergeometrisk fordeling. 348

Setning: ( Hyp[N, M, n] N[µ, σ] ) For en diskret hypergeometrisk fordeling, X Hyp[N, M, n], hvor N 20 n (7.304) n M N ( 1 M N ) 5 (7.305) så vil X være tilnærmet en kont. normalfordeling, dvs. X N [ E[X], σ[x] ], slik at: P (X x) ( ) x E[X] G σ[x] P (X x) ( ) x E[X] 1 G σ[x] (7.306) (7.307) hvor forventning og standardavvik er E[X] σ[x] lign.(7.73) = n M N lign.(7.74) = N n N 1 n M ( 1 M N N ) (7.308) (7.309) En tilsvarende setning gjelder for en diskret Poissonfordeling. 349

Setning: ( Poi[λ] N[µ, σ] ) For en diskret Poissonfordeling, X Poi[λ], hvor λ 5 (7.310) så vil X være tilnærmet en kont. normalfordeling, dvs. X N [ E[X], σ[x] ], slik at: P (X x) ( ) x E[X] G σ[x] P (X x) ( ) x E[X] 1 G σ[x] (7.311) (7.312) hvor forventning og standardavvik er E[X] lign.(7.103) = λ (7.313) σ[x] lign.(7.104) = λ (7.314) 350

Det finnes også en mer generell setning enn de 3 siste setningene. Denne generelle setningen sier noe om sammenhengen mellom diskrete sannsynligheter og normalfordelingen (som er kontinuerlig). Denne generelle setningen er en svært viktig setning. Den brukes blant annet mye i faget SCM200 Lager- og produksjonsplanlegging ved Høgskolen i Molde. Denne generelle setningen er presentert på neste side: 351

Setning: ( diskret N[µ, σ] ) Dersom X er diskret sannsynlighetsfordeling som er tilnærmet kont. normalfordelt, dvs. og hvor X kun kan ha hele tall, dvs. X tilnærmet N[µ, σ] (7.315) da gjelder X = diskret stokastisk variabel som kun har hele tall (7.316) P (X x) ( ) x E[X] G σ[x] P (X x) ( ) x E[X] 1 G σ[x] (7.317) (7.318) hvor E[X] σ[x] lign.(7.103) = forventning til den diskrete variabelen (7.319) lign.(7.104) = variansen til den diskrete variabelen (7.320) 352

7.9 Sammenheng: Bin, Hyp, Poi og N I kapittel (7.3) fant vi sammenhengen mellom Hyp[N, M, n] og Bin[n, p], se lign.(7.92). I kapittel (7.4) fant vi sammenhengen mellom Bin[n, p] og Poi[λ], se lign.(7.102). Dessuten er alle fordelingene Bin[n, p], Hyp[N, M, n] og Poi[λ] relatert til N[µ, σ] i visse grenser. Binomisk fordeling: 2 param. Bin[n, p] 1 param. Poi[λ] (se side 282) (7.321) Bin[n, p] N[µ, σ] (se side 348) (7.322) Hypergeometrisk fordeling: 3 param. Hyp[N, M, n] 2 param. Bin[n, p] (se side 276) (7.323) Hyp[N, M, n] N[µ, σ] (se side 349) (7.324) Poisson: Poi[λ] N[µ, σ] (se side 350) (7.325) 353

La oss tegne en figur av oppsummeringen på forrige side: Bin[ n, p ] Poi[ λ ] N[ μ, σ ] ( kontinuerlig ) Hyp[ N, M, n ] Bin[ n, p ] N[ μ, σ ] ( kontinuerlig ) Poi[ λ ] N[ μ, σ ] ( kontinuerlig ) Figur 7.50: Sammenheng: Bin, Hyp, Poi og N. 354

7.10 Sum av uavhengige stokastiske variabler I dette avsnittet skal vi se på fordelingen til lineærkombinasjoner og summer av stokastiske variabler for de fire sannsynlighetsfordelingene vi har lært om i dette kurst: Bin, Hyp, Poi, N (7.326) Vi presenterer setningene uten bevis. 355

Setning: ( binomisk fordeling ) Anta at vi har uavhengige og binomisk fordelte stokastiske variabler X 1 Bin[ n 1, p ], X 2 Bin[ n 2, p ] og X 3 Bin[ n 3, p ]. Da er også summen Y = X 1 + X 2 + X 3 (7.327) binomisk fordelt: Y Bin [ n Y, p ] (7.328) hvor n Y = n 1 + n 2 + n 3 (7.329) Du kan lese mer om dette i f.eks. wikipedia. 356

Setning: ( hypergeometrisk ) Det er ingen enkel eller generell sannsynlighetsfordeling for summen av uavhengige hypergeometriske stokastiske variabler. 357

Setning: ( Poisson fordeling ) Anta at vi har uavhengige og Poisson fordelte stokastiske variabler X 1 Poi[ λ 1 ], X 2 Poi[ λ 2 ] og X 3 Poi[ λ 3 ] Da er også summen Y = X 1 + X 2 + X 3 (7.330) Poisson fordelt: Y Poi [ λ Y ] (7.331) hvor λ Y = λ 1 + λ 2 + λ 3 (7.332) Du kan lese mer om dette i f.eks. wikipedia. 358

Setning: ( normalfordeling ) Anta at vi har uavhengige og normalfordelte stokastiske variabler X 1 N[ µ 1, σ 2 1 ], X 2 N[ µ 2, σ 2 2 ] og X 3 N[ µ 3, σ 2 3 ] Da er også lineærkombinajonen Y = ax 1 + bx 2 + cx 3 (7.333) normalfordelt: Y N [ µ Y, σ 2 Y ] (7.334) hvor µ Y = aµ 1 + bµ 2 + cµ 3 (7.335) σ 2 Y = a 2 σ 2 1 + b 2 σ 2 2 + c 2 σ 2 3 (7.336) Du kan lese mer om dette i f.eks. wikipedia. 359

For oversikten sin del så formulerer vi her sentralgrenseteoremet fra side 326 i samme stil, selv om vi har presentert CLT to ganger tidligere. Vi formulerer altå CLT på en alternativ og likeverdig måte sammenlignet med lign.(7.261) og (7.265). Setning: ( CLT ) Anta at vi har n antall uavhengige og stokastiske variabler. Anta videre at disse variablene har samme forventning og samme varians, dvs. E[X i ] = µ og V ar[x i ] = σ 2, i = 1, 2, 3,..., n (7.337) Da vil også summen Y = X 1 + X 2 + X 3 +... + X n (7.338) i grensen når n, være normalfordelt: Y N [ µ Y, σ 2 Y ] (7.339) hvor E[Y ] = n µ (7.340) V ar[y ] = n σ 2 (7.341) 360

Eksempel: ( petroleumslogistikk ) Anta at du jobber som logistikk-koordinator ved olje- og gass firmaet British Petroleum (BP). En del av jobben din er å få oversikt over nestenulykker og andre uønskede hendelser som skjer på plattformer som BP opererer i. Du ønsker å se nærmere på antall hendelser ved hjelp av statistikk. Siden hendelser skjer relativt sjelden og siden det er hensiktsmessig å se på antall hendelser per tidsenhet så foreslår du å bruke loven om sjeldne begivenheter, dvs. Poissonfordelingen. Du definerer den stokastiske variabelen: X = antall hendelser per uke som vi altså antar er Poisson fordelt: X Poi[λ] (7.342) Basert på erfaring vet man at det er ca. 0.6 hendelser per uke på BP-plattformen Valhall i Nordsjøen, dvs.: λ = 0.6 (7.343) Figur 7.51: BP-plattformen Valhall i Nordsjøen. 361

a) Hva er sannsynligheten for at det skjer 1 hendelse i løpet av en uke, dvs. P (X = 1)? 49 b) Hva er sannsynligheten for at det skjer mer enn 1 hendelse i løpet av en uke, dvs. P (X > 1)? La oss nå istedet se på antall hendelser per måned, altså 4 uker. I den sammenheng defineres den stokastiske variabelen Y : Y = X 1 + X 2 + X 3 + X 4 (7.344) dvs. Y = antall hendelser per måned. c) Hva er forventet antall hendelser per måned, dvs. E[Y ]? d) Man kan vise at summen av Poisson fordelinger også er Poisson fordelt. (Du skal ikke vise dette. Bare ta dette for gitt.) Det betyr at siden X 1, X 2, X 3 og X 4 er Poisson fordelt, så er også summen av dem, Y = X 1 + X 2 + X 3 + X 4, Poisson fordelt med forventning E[Y ]: 50 Y Poi [ E[Y ] ] (7.345) Hva er sannsynligheten for at det skjer mer enn 1 hendelse i løpet av en måned, P (Y > 1)? 49 Bruk 4 desimalers nøyaktighet. 50 Dette gjelder kun for Poisson fordelinger. Det gjelder ikke generelt. Det er ikke slik at f.eks. summen av hypergeometriske fordelinger er en ny hypergeometrisk fordeling. 362

Løsning: a) Siden X Poi[X] og 1 hendelse per uke: P (X = 1) = λ 1 1! e λ (7.346) λ=0.6 = 0.6 1 1! e 0.6 kalkis = 0.3293 (7.347) Sannsynligheten for at det skjer 1 hendelse per uke er 32.93 %. b) Siden X Poi[X] og mer enn 1 hendelse per uke: P (X > 1) = 1 P (X 1) (7.348) = 1 ( ) P (X = 0) + P (X = 1) (7.349) = 1 λ0 0! e λ λ1 1! e λ (7.350) λ=0.6 = 1 0.60 e 0.6 0.61 e 0.6 (7.351) 0! 1! kalkis = 1 0.5488 0.3293 (7.352) = 0.1219 (7.353) Sannsynligheten for at det skjer mer enn 1 hendelse per uke er 12.19 %. 363

c) Forventet antall hendelser per måned: E[Y ] = E [ X 1 + X 2 + X 3 + X 4 ] alltid = E[X 1 ] + E[X 2 ] + E[X 3 ] + E[X 3 ] = (7.354) 4 stk. λ + λ + λ + λ = 4 λ(7.355) = 4 0.6 = 2.4 (7.356) NB: Overgangen i lign.(7.354) til (7.355) gjelder alltid. Uansett om de stokastiske variablene X i er uavhengige eller ikke. d) En sum av Poisson fordelinger X 1 + X 2 + X 3 + X 4 er også Poisson fordelt, dvs. Y er Poisson fordelt. Den stokastiske variabelen Y er da Poisson fordelt med forventning λ Y = E[Y ] = 2.4. Sannsynligheten for at det skjer mer enn 1 hendelse per måned er da: P (Y > 1) = 1 P (Y 1) (7.357) = 1 ( ) P (Y = 0) + P (Y = 1) (7.358) = 1 λ0 Y 0! e λ Y λ1 Y 1! e λ Y (7.359) λ Y =2.4 = 1 2.40 e 2.4 2.41 e 2.4 (7.360) 0! 1! kalkis = 1 0.091 0.2177 (7.361) = 0.6916 (7.362) 364

Kapittel 11 Regresjonsanalyse Figur 11.1: Regresjon. 365

11.1 Introduksjon Regresjonsanalyse: Teori og metoder for å analysere og utnytte samvariasjon mellom variable. Formål: konstruere modeller som kan brukes til å anslå verdien ( prediksjon/forutsi ) av en variabel Y ved hjelp av informasjon om en annen variabel X. teminologi: variabel X: har info om dette/kjenner denne uavhengig variabel eller forklaringsvariabel variabel Y: avhengig variabel eller responsvariabel }{{} ønsker å anslå denne Man skiller ofte mellom lineær regresjon og ikke-lineær regresjon. I dette kurset skal vi kun se på: lineær regresjon samspill mellom bare to variabler y x Figur 11.2: Lineær regresjon. 366

11.2 Lineære sammenhenger Eksempel: ( lineær sammenheng ) La oss se på et eksempel fra øving 2. Vi så da nærmere på to størrelser x og y. Disse størrelsene kan være hva som helst, f.eks. pris på aksje x og pris på aksje y. Anta at disse størrelsene varierer med tiden. Anta videre at man måler x og y over en periode på 20 dager. For dag 1 er verdiene x 1 og y 1. For dag 2 har verdiene endret seg til x 2 og y 2 osv. Helt frem til dag 20 hvor størrelsene har verdiene x 20 og y 20. Vi har altså samhørende observasjoner av par (x i, y i ): (x 1, y 1 ), (x 2, y 2 ),..., (x 19, y 19 ), (x 20, y 20 ) (11.1) La oss se på 6 forskjellige datasett som vist i figur 11.3: y R xy = 0.9 R xy = 0.5 R xy = - 0.5 x y R xy = - 0.9 R xy = 0 R xy = 0 x Figur 11.3: Sammenheng mellom x og y samt tilhørende korrelasjonskoeffisienten R xy. 367