Statistikk. Tommy Odland. 22. november Sammendrag

Like dokumenter
Kræsjkurs i statistikk

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

Løsningsforslag Eksamen S2, høsten 2016 Laget av Tommy Odland Dato: 27. januar 2017

Oppfriskning av blokk 1 i TMA4240

Forelening 1, kapittel 4 Stokastiske variable

Statistikk 1 kapittel 5

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Statistikk 1 kapittel 5

Løsningsforslag Eksamen S2, høsten 2017 Laget av Tommy O. Sist oppdatert: 26. november 2017

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

Statistikk 1 kapittel 5

Løsningsforslag Eksamen S2, våren 2017 Laget av Tommy O. Sist oppdatert: 25. mai 2017

Løsningsforslag Eksamen S2, våren 2014 Laget av Tommy O. Sist oppdatert: 1. september 2018 Antall sider: 11

TMA4245 Statistikk Eksamen desember 2016

Statistikk 1 kapittel 5

TMA4240 Statistikk Høst 2008

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Sannsynlighetsregning og kombinatorikk

Terningkast. Utfallsrommet S for et terningskast med en vanlig spillterning med 6 sider er veldefinert 1, 2, 3, 4, 5, 6

Løsningsforslag Eksamen S2, høsten 2015 Laget av Tommy O. Sist oppdatert: 25. mai 2017

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

Bernoulli forsøksrekke og binomisk fordeling

HØGSKOLEN I STAVANGER

Løsningsforslag Eksamen S2, våren 2016 Laget av Tommy Odland Dato: 29. januar 2017

Tema 1: Hendelser, sannsynlighet, kombinatorikk Kapittel ST1101 (Gunnar Taraldsen) :19

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

ÅMA110 Sannsynlighetsregning med statistikk, våren

µ = E(X) = Ʃ P(X = x) x

FORMELSAMLING TIL STK1100 OG STK1110

To-dimensjonale kontinuerlige fordelinger

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

Regneregler for forventning og varians

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Formelsamling i medisinsk statistikk

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

UNIVERSITETET I OSLO

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

DEL 1 GRUNNLEGGENDE STATISTIKK

Betinget sannsynlighet

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2009

Notater til forelesning i Sannsynlighetsregning SK 101 Matematikk i grunnskolen I

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Kap. 7 - Sannsynlighetsfordelinger

Kapittel 2: Hendelser

Litt om forventet nytte og risikoaversjon. Eksempler på økonomisk anvendelse av forventning og varians.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Høst 2014

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

SANNSYNLIGHETSREGNING

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

TMA4240 Statistikk H2015

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

statistikk, våren 2011

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

Diskrete sannsynlighetsfordelinger.

Casio. Et oppdatert Casio Manual som tar av seg litt av faget MA-155. En basis guide for bruk av Casio. Denne manualen er skrevet av «EFN»

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Sannsynlighetsregning

dg = ( g P0 u)ds = ( ) = 0

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk H2015

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

UNIVERSITETET I OSLO Matematisk Institutt

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

TMA4240 Statistikk H2010

3.1 Stokastisk variabel (repetisjon)

OPPGAVEHEFTE I STK1000 TIL KAPITTEL 5 OG 6. a b

Gammafordelingen og χ 2 -fordelingen

Statistikk og dataanalyse

MAT0100V Sannsynlighetsregning og kombinatorikk

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

x λe λt dt = 1 e λx for x > 0 uavh = P (X 1 v)p (X 2 v) = F X (v) 2 = (1 e λv ) 2 = 1 2e λv + e 2λv = 2 1 λ 1 2λ = 3

STK1100 våren Forventningsverdi. Forventning, varians og standardavvik

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

ECON240 Vår 2018 Oppgaveseminar 1 (uke 6)

Beskrivende statistikk.

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Poissonprosesser og levetidsfordelinger

HØGSKOLEN I SØR-TRØNDELAG Avdeling for lærer- og tolkeutdanning

Kap. 6, Kontinuerlege Sannsynsfordelingar

Kap. 6, Kontinuerlege Sannsynsfordelingar

= 5, forventet inntekt er 26

Løsningsforslag, eksamen statistikk, juni 2015

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

STK Oppsummering

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Sannsynlighet og statistikk S2 Løsninger

Emnenavn: Grunnleggende matematikk og statistikk

Transkript:

Statistikk Tommy Odland 22. november 2016 Sammendrag Formålet med dette dokumentet er å gi et overblikk over grunnleggende statistikk, bygge litt intuisjon rundt emnene og gi noen problemer som kanskje er litt mer utfordrende enn plugg inn nye tall. Dessverre ble jeg ikke helt ferdig, og heftet inneholder ikke alt jeg ønsker å si om statistikk. Det kan også hende at det er småfeil. Dersom du finner feil jeg jeg veldig pris på tilbakemelding på tommy.odland@gmail.com Innhold 1 Mengder 1 2 Kombinatorikk 2 3 Sannsynlighet 4 4 Diskret sannsynlighetsfunksjoner 6 5 Kontinuerlige sannsynlighetsfunksjoner 13 6 Regresjon 14 7 Løsninger på oppgaver 15

1 Mengder 1 Studietips Her er noen gode råd til deg som prøver å løse matematiske problemer og oppgaver. Det er lettere sagt enn gjort å følge disse rådene, og av og til glemmer jeg selv å følge dem men jeg tror fremdeles at det kan være lurt å prøve så godt man kan. 1. Skriv ned det du vet. 2. Skriv ned du prøver å finne ut av. 3. Lag en tegning dersom du kan. 4. Prøv å løs et liknende, men enklere problem. 5. Sett prøve på svaret ditt. 6. Bedøm om svaret virker realistisk. 7. Regn svaret på 2 måter dersom du vet om 2 teknikker. 1 Mengder La Ω (gresk stor omega) være settet av alle personer i en klasse, slik at Ω = {Ole,Ahmed,Kari,...}. La G Ω være guttene i klassen og F Ω være de som spiller fotball i klassen. Unionen G F er alle personene i klassen som enten er gutter, eller spiller fotball. Snittet G F er alle personer i klassen som er gutter og spiller fotball. Du bør ha god kontroll på union og snitt, samt komplementære sett. I sannsynlighetsregning er det ofte nyttig å tegne venn-diagram. Figur 1: Et venn-diagram. Oppgave 1. Viser figur 1 et snitt eller en union? Oppgave 2. Fyll ut tabellen nedenfor, tenk på snittet som og og unionen som eller. 1

2 Kombinatorikk 2 A B A B A B 0 0 0 1 1 0 1 1 2 Kombinatorikk Dersom h er en hendelse i et utfallsrom H, så er P (h) sannsynligheten for at h inntreffer. Den uniforme sannsynligheten er gitt ved P (h) = antall gunstige utfall antall mulige utfall (2.1) Formelen ovenfor sier at det er nyttig å kunne telle gunstige og mulige utfall. Dette er grunnen til at det er nødvendig å ha kjennskap til kombinatorikk for å kunne løse problemer relatert til sannsynlighet. Oppgave 3. En person skal kjøpe brød, smør og syltetøy. En butikk har 8 typer brød, 4 typer smør og 20 typer syltetøy. Hvor mange mulige kombinasjoner av brød, smør og syltetøy kan han kjøpe? 2.1 Permutasjoner La oss se på en samling objekter med 2 objekter, som vi kaller S 2 = {A,B}. Elementene i S 2 kan ordnes (permuteres) på 2 forskjellige måter: P 1 = AB og P 2 = BA. Elementene i S 3 = {A,B,C} kan ordnes på 6 måter det nye elementet C kan legges i 3 posisjoner i P 1 : A B, og 3 posisjoner i P 2 : B A. Generelt kan S n permuteres på n S n 1 måter det er n firkanter mellom alle S n 1 permutasjoner. Eksempel 1. Det er stor forskjell på å enumerere (generere) og å telle antall permutasjoner. Å generere alle permutasjoner av settet {1, 2,..., 11, 12} tar 70 sekunder på min PC! Å regne ut 50000! tar 1.011 sekunder. 50000! er et veldig stort tall, med omtrent 213237 desimaler. Oppgave 4. Vis at S n kan permuteres på n! = n (n 1)... 2 1 måter ved å bruke induksjon. Oppgave 5. Et klasserom har n seter, og det er k elever som skal sette seg. På hvor mange måter kan elevene sette seg dersom n = 20 og k = 3? 2

2 Kombinatorikk 3 Definisjon 1 (Permutasjon). Dersom rekkefølgen er betydningsfull, kan vi velge ut k elementer fra en samling med n elementer på npr måter dersom vi ikke har tilbakelegging, der npr = n (n 1)... (n k + 1) (2.2) } {{ } k faktorer Oppgave 6. Et klasserom har n seter, og det er k elever som skal sette seg. På hvor mange måter kan elevene sette seg? Oppgave 7. En annen definisjon av npr er npr = n! (n r)! (2.3) Vis at definisjonen overfor er lik den gitt i likning 2.2. Dersom du synes dette er vanskelig, anbefaler jeg at du prøver å sette inn noen tall for n og k. 2.2 Kombinasjoner Kombinasjoner er som permutasjoner, men nå bryr vi oss ikke om rekkefølgen. Det er nok enklest å se på et eksempel med en gang. Eksempel 2. La S = (A,B,C,D). Permutasjoner Antall måter å velge ut 2 elementer på når rekkefølgen har noe å si: AB,AC,AD,BA,BC,BD,CA,CB,CD,DA,DB,DC. Kombinasjoner Antall måter å velge ut 2 elementer på når rekkefølgen ikke har noe å si: AB,AC,AD,BC,BD,CD. Antall permutasjoner er 4P2 = 12 og antall kombinasjoner er 4C2 = ( 4 2) = 6. Eksempelet ovenfor motiverer følgende definisjon: Definisjon 2 (Kombinasjon). Dersom rekkefølgen ikke er betydningsfull, kan vi velge ut k elementer fra en samling med n elementer på ncr måter, der ncr = npr r! = n! (n r)!r! (2.4) I nevneren finner vi r! fordi r elementer kan permuteres på r! måter, og kombinasjonen ncr tar ikke hensyn til permutasjonene i de k valgte elementene. Oppgave 8. Håvard ønsker å ta sjansen på å invitere 2 jenter til juleballet. Det er 14 jenter i klassen. På hvor mange måter kan han velge ut de 2 jentene? 3

3 Sannsynlighet 4 Oppgave 9. Kombinasjoner har følgende symmetri ( ) ( ) n n = r n r Vis at dette stemmer ut i fra definisjonen. Oppgave 10. Det er nyttig å ha kjennskap til noen vanlige kombinasjoner. Regn ut ( n ( 0), n ( 1) og n 2). Oppgave 11. Bruk induksjon til å bevise at 1 + 2 +... + n = ( n+1 2 Når du løser kombinatorikkoppgaver er det lurt å redusere oppgaver til å trekke kuler fra en urne. Det er viktig å forstå oppgaven skikkelig. Du bør spørre deg selv om (1) rekkefølgen er betydningsfull og om (2) tilbakelegging er tillatt. Tabellen nedenfor illustrerer alle de overnevnte tilfellene: ). Tilbakelegging Rekkefølge betydningsfull N Y Y ( n+r 1) r n ( r N n r) npr Tabell 1: Tabell for kombinatorikk. Oppgave 12. Se på settet S 3 = {A,B,C}. Du skal velge 2 elementer. Dersom du skal velge elementene slik at rekkefølgen ikke har noe å si, og du har tilbakelegging, kan det gjøres på ( n+r 1) r måter i følge tabellen ovenfor. Vis at dette stemmer for S 3 ved å eksplisitt finne alle parene med 2 elementer. 3 Sannsynlighet Intuitivt er sannsynligheten for A, kalt P (A), sjansen for at A skjer. Det er to måter å komme frem til en sannsynlighet på i grunnleggende statistikk Definisjon 3 (Uniform sannsynlighet). Dersom vi kan bruke kombinatorikk og har en modell, er P (A) gitt ved den uniforme sannsynligheten P (A) = antall gunstige utfall antall mulige utfall (3.1) 4

3 Sannsynlighet 5 Men det er ikke alltid vi kan telle gunstige og mulige utfall. Dersom vi kan utføre eksperimenter kan vi bruke en formel basert på relativ frekvens P (A n ) = lim n An der A n er antall ganger A inntreffer når vi utfører n eksperimenter. n (3.2) Eksempel 3. Vi kaster mynt og teller kron på PCen. Sannsynligheten P (kron) konvergerer mot 1/2. Gjør gjerne dette eksperimentet selv i excel. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 200 400 600 800 1000 Figur 2: Konvergens ved myntkast. Oppgave 13. La X 1 og X 2 være antall øyne på 2 terninger etter å ha kastet begge. La Y = X 1 +X 2 være summen av øynene. Finn P (Y = 4), P (Y 10) og P (max(x 1,X 2 ) 5). 3.1 Bayes teorem Sannsynligheten for A og B, A B, er gitt ved P (A B) = P (A B)P (B) = P (B A)P (A). Ved å skrive om på uttrykket får vi Bayes teorem. P (A B) = P (B A)P (A) P (B) (3.3) Bayes teorem lar oss snu avhengigheten mellom A og B, noe som kan gi dyp innsikt. En robust og enkel måte å klassifisere tekst på (e.g. er en epost spam eller ikke?) er via maskinlæringsalgoritmen naive bayes classifier, som bruker Bayes teorem flittig. Oppgave 14. Om lag 1 av 20 unge personer har klamydia 1. Vi trekker tilfeldige unge mennesker og utfører tester. La K være hendelsen at personen har klamydia, og videre lar vi T være hendelsen at testen er positiv. Du får vite at sannsynligheten for en falsk positiv P (T K) = 0,02 og at sannsynligheten for P (T K) = 0.99. Hva er sannsynligheten for en positiv test P (T )? Hva er sannsynligheten for klamydia gitt en positiv test, P (K T )? 1 Dette er sant. Kilden er folkehelseinstituttet 5

4 Diskret sannsynlighetsfunksjoner 6 3.2 Sannsynlighetsfunksjoner La oss studere sannsynlighetfunksjoner litt mer grundig. Noen problemer oppstår ofte, og da er det nyttig å ha generelle modeller klare som gir oss innsikt i problemet. Noen slike sannsynlighetsmodeller er den binomiske modellen, den hypergeometriske, og den normale. Vi går bort fra enkle funksjoner P (x) der hvert argument x X er eksplisitt gitt en sannsynlighet, og ser på generelle sannsynlighetsfunksjoner der P (X = x) er gitt av den funksjon f (x). Denne funksjonen kan være diskret eller kontinuerlig. Et utfallsrom er et sett X med alle mulige utfall x X for et eksperiment. Sannsynlighetsfunksjonen (eller sannsynlighetstetthetsfunksjon) P tar inn verdier x X og returnerer sannsynligheten for x. Eksempel 4. La oss kalle utfallsrommet for H. Dersom du kaster en terning er H = {,,,,, }. Vi ser at P ( ) = 1/6, P ( ) = 1/6, og så videre. Definisjon 4 (Krav til sannsynlighetsfunksjoner). Vi må stille 2 krav til P : 1. For alle h H må P (h) være et reellt tall mellom 0 og 1. Sannsynligheten er altså et tall mellom 0 (noe som aldri skjer) og 1 (noe som alltid skjer). 2. Summen av alle sannsynlighetene må være 1, i.e. noe må skje. Oppgave 15. Forsøk å formuler kravene ovenfor med mer matematisk skrivemåte. Eksempel 5. Vi fortsetter med eksempelet med terningkast, der H = {,,,,, }. Det er sant at P (h) ligger mellom 0 og 1 for alle utfall, så første krav et oppfylt. Summen av alle sannsynlighetene er 1 6 +... + 1 6 = 6 1 6 = 1, som oppfyller det andre kravet. 4 Diskret sannsynlighetsfunksjoner Figur 3: En diskret sannsynlighetsfunksjon. En sannsynlighetsfunksjon er diskret dersom utfallsrommet er diskret (tellbart). Ofte er utfallsrommet H lik N, en delmengde av N eller kan assosieres med en 6

4 Diskret sannsynlighetsfunksjoner 7 del av N 2. Terningkast har H = {,,,,, } = {1,2,3,4,5,6}. Det er klart at dette er en delmengde av N. Eksempel 6. Vi ser på hva som må til for at følgende funksjon skal være en sannsynlighetstetthetsfunksjon. x f (x) 1 k 1 2 2 k 1 4 3 k 1 8 4 k 1 16 Der k er en konstant. Første krav er oppfylt så lenge y = f (x) ligger mellom 0 og 1. Dette begrenser k til å være 0 k 2. Andre krav er at 4 x=1 f (x) = 1, fra dette får vi 4 x=1 k 2 1 1 x = 1, slik at k = k 4 1 = 16/15. x=1 2 x Oppgave 16. Du får oppgitt at n x=1 2 x = 1 2 n. La f (x) = k2 x være en funksjon som med definisjonsmengde 3 N n = {1,2,...,n}. Bestem k slik at f (x) blir en sannsynlighetsfunksjon. 4.1 Momenter Vi lar p(x) være sannsynlighetsfordelingen til en stokastisk variabel X. En nyttig måte å undersøke p(x) på er å se på momentene. I dette dokumentet ser vi på det første momentet (forventningsverdien) og det andre, sentrerte momentet (variansen). Variansen er sentrert fordi vi regner varians i forhold til forventningsverdien. 4.1.1 Forventningsverdi Det første momentet i statistikk er forventningsverdien. I statistikk sier forventningsverdien noe om hvilken verdi man gjennomsnittlig kan forvente dersom man trekker mange verdier x fra X. Forventningsverdien er det samme som tyngdepunktet til en samling punktmasser i mekanikk. Definisjon 5. Forventningsverdi Dersom X er en stokastisk variabel med diskret sannsynlighetsfunksjon P (x) så er forventningsverdien E(X) = P (x i )x i (4.1) x i X 2 Husk at N = {0,1,2,3,4,5,...} 3 Definisjonsmengden til f er verdiene som går inn i f. 7

4 Diskret sannsynlighetsfunksjoner 8 Figur 4: Mode, median og mean(forventningsverdi). Merk at figuren viser en kontinuerlig sannsynlighetsfunksjon. Oppgave 17. Hva er forventningsverdien til et terningkast? Eksempel 7. La X være antall fugler på et fuglebrett. Vi gjør følgende observasjoner av X: 5,3,3,1,3. Forventningsverdien kan regnes ut på 2 måter. Ved gjennomsnittet Forventningsverdien er gjennomsnittet av datasettet. Det er n = 5 observasjoner, og gjennomsnittet blir E(X) = (5+3+3+1+3)/5 = 15/5 = 3. Ved definisjonen av forventningsverdi Vi konstruerer en funksjon som tar inn et utfall og gir en sannsynlighet slik 1/5 dersom x = 5 p(x) = 3/5 dersom x = 3 1/5 dersom x = 1 Forventningsverdien er E(X) = i x ip(x i ) = 5 1 5 + 3 3 5 + 1 1 5 = 15/5 = 3. Oppgave 18. Tegn punktene 5,3,3,1,3 på en koordinatakse. Punktet x = 5 har tyngde 1, x = 3 har tyngde 3 og x = 1 har tyngde 1. p(x) blir en funksjon som gir tyngden på et punkt. Tyngdepunktet x blir x = x i X p(x i)x i / x i X p(x i). Vis at tyngdepunktet er 3. 8

4 Diskret sannsynlighetsfunksjoner 9 Oppgave 19. En jukseterning har følgende sannsynlighetsfunksjon 1/16 dersom x = 1/16 dersom x = 2/16 dersom x = p(x) = 3/16 dersom x = 4/16 dersom x = 5/16 dersom x = Hva er det mest sannsynlig å trille? Hva er forventningsverdien? Oppgave 20. Skisser en diskret funksjon p(x) med definisjonsmengde D f = {0,1,...,10} som har forventningsverdi lik 5 og mest sannsynlig verdi lik 10. Med andre ord vil vi ha E(X) = 5 og argmax x p (x) = 10. Oppgave 21. Denne oppgaven er kanskje litt utfordrende, men prøv å bruk definisjonen av E(X) og kunnskapen din om summetegnet til å vise følgende egenskaper 1. Homogenitet: E(αX) = α E(x), der α er et tall. 2. Additivitet: E(X + Y ) = E(X) + E(Y ) 3. Vis også at E(α) = α, der α er en konstant. E(x) er en lineær operator. Homogenitet + additivitet = linearitet. 4.1.2 Varians Det andre momentet er variansen. I statistikk måler variansen spredning. Dersom Var(X) er stor er p(x) en bred graf. Definisjon 6 (Varians). Dersom X er en stokastisk variabel med diskret sannsynlighetsfunksjon p(x) så er variansen Var(X) = E ( (X E(X)) 2) = E((X µ) 2 ) = p(x i )(x i µ) 2 (4.2) Teorem 1. Dersom vi vet E(X 2 ) og E(X) 2 så kan finne Var(X) med følgende formel i Var(X) = E(X 2 ) E(X) 2 (4.3) 9

4 Diskret sannsynlighetsfunksjoner 10 Bevis. Var(X) = E((X µ) 2 ) = P (x i )(x i µ) 2 = E(X 2 ) µ 2 = E(X 2 ) E(X) 2 Og det var dette som skulle bevises. i = P (x i )xi 2 2 P (x i )xµ + P (x i )µ 2 i = P (x i )xi 2 2µ P (x i )x + µ 2 i i i = P (x i )xi 2 2µµ + µ2 1 i i i P (x i ) Figur 5: Visualisering av forventningsverdi og varians, funksjonen har verdi i et punkt x lik tyngden i punktet. Forventningsverdien er lik balansepunktet. Variansen er summen av distansene i andre. Oppgave 22. Bruk likning 4.2 til å vise følgende egenskaper 1. Var(α) = 0 10

4 Diskret sannsynlighetsfunksjoner 11 2. Var(X + β) = Var(X) 3. Var(αX) = α 2 Var(X) Oppgave 23. Finn variansen til et terningkast ved å (1) bruke definisjonen av varians og (2) ved å bruke formel 4.3. Sjekk at du får samme svar. I mekanikk er den kinetiske energien mv 2 /2, på rotasjonsform er den I ω 2 /2, der I er rotasjonstreghet og ω er vinkelfarten. Rotasjonstregheten til en samling punktmasser er I = i m ir 2 i. I formelen er m i massen i punkt i og r i er avstanden fra tyngdepunktet til m i. Variansen til en sannsynlighetsfunksjon er rotasjonstregheten rundt forventningsverdien (tyngdepunktet). Det er naturlig å rotere rundt tyngdepunktet dersom du f.eks. kaster statistikkboka mot veggen i frustrasjon vil den rotere rundt tyngdepunktet sitt på veien mot veggen. Figur 6: Kontinuerlige tyngdepunkter. Der p(x) er stor har stangen høyere massetetthet. Massetettheten påvirker rotasjonstregheten. Mekanikk Statistikk Massen i et punkt, m i, er alltid positiv. p(x i ) er alltid positiv. Tyngdepunktet er x = i m ix i / i m i E(X) = x i X P (x i)x i Rotasjonstreghet er I = i m iri 2 Var(X) = i P (x i)(x i µ) 2 Formelene ovenfor er helt analoge, forskjellene er bare sentreringen som man får ved å trekke fra µ og normaliseringen man får ved å dele på i m i. Oppgave 24. Rotasjonsenergien I ω 2 /2 er minimert når statistikkboka roterer rundt tyngdepunktet. Vis at variasjonen Var(X) = x i X p(x i)(x i µ ) er minimert dersom µ er forventningsverdien. (Hint: Deriver Var(X) med hensyn på µ og sett lik 0.) 11

4 Diskret sannsynlighetsfunksjoner 12 4.2 Binomisk fordeling Vi sier at X Binom(n,p) dersom kravene for binomisk fordeling er oppfylt. Kort og godt så er kravene at X må være avhengig av deleksperimenter med sannsynlighet p for suksess, der hvert deleksperiment er uavhengig av de forrige og hvert deleksperiment kun har 2 mulige utfall. Definisjon 7 (Binomisk modell). Dersom X Binom(n,p) så er ( ) n P (X = x) = p x (1 p) n x (4.4) x Oppgave 25. I et tidligere eksempel fikk du vite at 1 av 20 unge personer har klamydia. Hva er sannsynligheten for at du går i klasse med mer enn 2 personer med klamydia? Oppgave 26. Binomialteoremet sier at (a + b) n = n x=0 ( n x) a n x b x. Bruk dette til å vise at dersom X Binom(n,p) så er x i p(x i ) = 1. 4.3 Hypergeometrisk fordeling Hypergeometrisk fordeling er i noen tilfeller nesten lik binomial. Den store hovedforskjellen er at nå påvirker forrige eksperiment det neste. Å trekke enda et godt kort fra kortstokken er mindre sannsynlig enn det første gode kortet (hypergeometrisk), mens å trille påvirker ikke neste terning(binomisk). Definisjon 8 (Hypergeometrisk modell). I en populasjon med N individer har M en spesiell egenskap. Dersom du trekker n individer, og lar X være antallet av disse n med den spesielle egenskapen er P (X = x) gitt ved P (X = x) = ( )( ) M N M x n x ( ) (4.5) N n Eksempel 8. I en klasse på 60 ingeniører har 15 personer karakteren A i matematikk. Vi trekker n = 5 personer fra klassen, og lar X være antall av de 5 med karakteren A. For å regne ut P (X = 3) nøyaktig gjør vi slik: ( )( ) 45 15 P (X = m) = 2 3 ( ) 0.082 60 5 12

5 Kontinuerlige sannsynlighetsfunksjoner 13 Oppgave 27. I en klasse på 60 ingeniører har 30 personer karakteren B i matematikk. Vi trekker n = 3 personer fra klassen, og lar X være antall av de 3 med karakteren B. Regn ut P (X = 2) (1) nøyaktig ved å bruke hypergeometrisk sannsynlighetsmodell og (2) approksimer svaret med binomisk sannsynlighetsmodell. 5 Kontinuerlige sannsynlighetsfunksjoner M,N n Binom(x;n,p) p = M N Hyper(x;N,M,n) n λt = np µ = np σ 2 = np(1 p) µ = np σ 2 = np(1 p) N n N 1 Poisson(x; λt) µ = λt σ 2 = λt Norm ( x;µ,σ 2) Figur 7: Følg pilene for å se hvordan sannsynlighetsmodeller kan approksimeres. Både binomisk, poisson og hypergeometrisk konvergerer mot normalfordelingen i visse tilfeller. Vi går nå fra diskret sannsynlighetsfunksjoner til kontinuerlige, og flere ting skjer 1. Utfallsrommet H blir kontinuerlig. 2. Kravet om at i p(x i) = 1 erstattes med p(x) dx = 1. 3. Sannsynligheten for et visst punkt blir alltid lik null. Det gir kun mening å snakke om sannsynligheter i intervaller. 4. Vi kan benytte oss av integrasjon og derivasjon. I det diskret tilfellet er sannsynligheten for at a x b lik summen av alle p(x i ) i området a x i b. I det kontinuerlige tilfellet er sannsynligheten for at a x b lik b p(x) dx. a 13

6 Regresjon 14 Eksempel 9. Anta at p(x) er en sannsynlighetsfunksjon med antiderivert F(x). Sannsynligheten for at x er mellom x og x + h blir x+h p(x) dx = F(x + h) F(x) (5.1) x Definisjon 9 (Kumulativ sannsynlighetsfunksjon). Dersom p(x) er sannsynlighetstettheten til en stokastisk variabel X, så kalles F(x) = x p(τ) dτ4 for den kumulative sannsynlighetstetthetsfunksjonen til X. På engelsk er p(x) en PDF (probability density function) og F(x) den tilhørende CDF (cumulative distribution function). Oppgave 28. Vi lar p(x) = kx 2 ha definisjonsmengde D p = [0,a]. Finn konstanten k som gjør p(x) til en sannsynlighetsfunksjon. 5.1 Momenter av kontinuerlige funksjoner Momentene er de samme som i det diskret tilfellet, men summetegnet blir byttet ut med integralet. Tabellen nedenfor gir deg en idé Moment Diskret Kontinuerlig 1. E(X) = i p(x i)x i E(X) = p(x)x dx 2. Var(X) = i p(x i)(x i µ) 2? Oppgave 29. Fyll ut tabellen ovenfor. Oppgave 30. Vi lar p(x) = kx 2 ha definisjonsmengde D p = [0,a]. I en tidligere oppgave fant du k som gjør p(x) til en sannsynlighetsfunksjon. La X ha denne sannsynlighetsfunksjonen p(x). Finn E(X) og Var(X). (Hint: Du kan bruke likning 4.3 til å finne Var(X).) Oppgave 31. La X ha sannsynlighetsfunksjon p(x) = λe λx med D f = [0,. Finn E(X) og Var(X). 6 Regresjon Vi ønsker å finne en linje y = ax + b som passer godt til et datasett. Problemet er minimering, og det naturlige valget av feil er E = x i (modell i faktisk i ) 2. Den kvadratiske feilen har flere gode egenskaper. Den er deriverbar (vi kan minimere ved hjelp av derivasjon), feil på begge sider teller like mye og den har et unikt minimumspunkt. 4 τ er en dummy-variable. Dette er kun for ryddighet. 14

7 Løsninger på oppgaver 15 Vi ønsker å løse x i y i 1 1 2 3 3 2 1 1 ( ) 1 a Ax = y 2 1 = 3 b 3 1 2 (6.1) Ved å minimere E = e T e = (Ax y) T (Ax y). Løsningen er gitt ved normallikningene x = ( A T A ) 1 A T y, men systemet løses verken ved å forme A T A eksplisitt eller ved å regne ut inversmatriser. En god måte å løse problemet på er via QR-faktorisering. I matlab skriver du x = A \ y, da regner matlab uten en QRfaktorisering ved hjelp av Householder triangularisering. De optimale verdiene er a = 1/2 og b = 1. Oppgave 32. Minimer f (x) = (ax y) 2. Vis at løsningen er x = (aa) 1 ay. Figur 8: Desto mer av variansen som skyldes modellen f, desto bedre er modellen. En god modell har r 2 1. 7 Løsninger på oppgaver 1. Figur 1 viser en union. 2. 15

7 Løsninger på oppgaver 16 A B A B A B 0 0 0 0 0 1 1 0 1 0 1 0 1 1 1 1 3. 8 typer brød 4 typer smør 20 typer syltetøy = 8 4 20 En butikk har 8 typer brød, 4 typer smør og 20 typer syltetøy. Hvor mange mulige kombinasjoner av brød, smør og syltetøy kan han kjøpe? 4. La P (n) være antall måter et sett med n unike elementer kan permuteres på. Vi har observert at et sett med 2 elementer kan permuteres på 2 måter, slik at P (2) = 2. Siden neste element kan gå mellom hvert av de forrige elementene (n mellomrom) for hver forrige permutasjon, blir P (n) = np (n 1). Da blir P (3) = 3 P (2) = 3 2, P (4) = 4P (3) = 4 3 2, og P (n) = np (n 1) = n (n 1)... 2. 5. Første person kan velge mellom 20 seter, andre kan velge mellom 19, og tredje mellom 18. 20P3 = 20 19 18 6. Se definisjonen av npr 7. Vi skal vise at 2 ting er like, begynner med n! npr = (n r)! n (n 1)... (n r + 1) (n r)... = (n r)... = n (n 1)... (n r + 1) = npr 8. Håvard kan velge ut 2 jenter på ( 14) 2 måter. 9. Definisjonen er at ( ) n n! = a a!(n a)! Vi må vise at uttrykket ovenfor er likt når a = n og a = n r. Vi har at ( ) n n! = r r!(n r)! og at ( ) n n! = n r (n r)!(n (n r))! = n! r!(n r)! 16

7 Løsninger på oppgaver 17 og vi ser at dette er det samme. 10. 1, n og n(n 1)/2. 11. Første skritt er å sjekke om det stemmer for et lite tall. Vi velger k = 1 og ser at 1 = ( 2 2). Andre skritt er å utføre induksjonsbeviset, vi har ( ) k + 1 1 + 2 +... + k = 2 og at Da får vi ( ) k + 2 1 + 2 +... + k + (k + 1) = 2 ( ) k + 2 1 + 2 +... + k + (k + 1) = 2 ( ) ( ) k + 1 k + 2 + (k + 1) = 2 2 Vi må vise at k + 1 = ( k+2) ( 2 k+1 ) 2. Dette er litt algebra, og du kan få gjøre det selv. 12. Vi setter opp en liten tabell A B C A (A, A) (A, B) (A, C) B (B, A) (B, B) (B, C) C (C, A) (C, B) (C, C) Det er 6 muligheter: (A,A), (A,B), (A,C), (B,B), (B,C) og (C,C). Dette stemmer med formelen, fordi ( n+r 1) ( r = 3+2 1 ) 2 = 6. Se gjerne http://www.mathsisfun. com/combinatorics/combinations-permutations.html for en forklaring av formelen. 13. Her er det veldig lurt å lage en tabell med X 1 og X 2 som akser. Antall utfall er alltid 6 6 = 36. Sannsynligheten P (Y = 4) = 3/36 = 1/12. Sannsynligheten P (Y 4) = (3 + 2 + 1)/36 = 1/6. Sannsynligheten P (max(x 1,X 2 ) 5) = 20/36 = 5/9. 14. Det kan være veldig lurt å begynne med å tegne et sannsynlighetstre, omtrent som nedenfor. 17

7 Løsninger på oppgaver 18 P (K) = 0,05 K T K T K P (T K) = 0,99 P (T K) = 0,01 K P (K) = 0,95 T K T K P (T K) = 0,02 P (T K) = 0,98 For å finne P (T ) må vi legge sammen sannsynlighetene som fører til en positiv test. Vi får at P (T ) = P (K)P (T K) + P (K)P (T K) (7.1) = 0,05 0,99 + 0,95 0,02 = P (T K) + P (K)P (T K) = 0,0685 Der likning 7.1 ovenfor kalles for den totale sannsynligheten for T. For å finne P (K T ) brukes vi Bayes: P (K T ) = P (T K)P (K) P (T ) = 0,99 0,05 0, 0685 0,723 15. (1) Alle tall i verdimengden må ligge mellom 0 og 1: la verdimengden være V P = {y P (h) = y h H}, da er det første kravet at 0 y 1 y V P. (2) Summen må være 1: h i H P (h i) = 1. 16. Kravet er at summen av sannsynlighetene er lik 1: n f (x) = 1 x=1 n k2 x = 1 x=1 k n 2 x = 1 x=1 18

7 Løsninger på oppgaver 19 Vi bruker nå at n x=1 2 x = 1 2 n : n k2 x = 1 x=1 k (1 2 n ) = 1 k = 1/ (1 2 n ) Sjekk at dette stemmer med et enkelt tall, f.eks k = 2, dersom du er i tvil. 17. Forventningsverdien til et terningkast er 1 E(X) = P (x i )x i = 6 x i = 1 x 6 i = 1 6 x i X x i X x i X 6 i = 3,5 i=1 18. Konstruer en funksjon p(x) slik at p : 3 3 5, p : 1 5 1 og p : 5 1 5. x x = i X p(x i)x i x i X p(x i) 5p(5) + 3p(3) + 1p(1) = p(5) + p(3) + p(1) = 5 1 5 + 3 3 5 + 1 1 5 1 5 + 3 5 + 1 5 = 5 1 5 + 3 3 5 + 1 1 5 1 = 3 19. Det er mest sannsynlig å trille, fordi er argumentet som maksimerer sannsynlighetsfunksjonen p(x). Med andre ord, argmax x p(x) =. Forventningsverdien blir E(X) = P (x i )x i 20. Her er en skisse: x i X = 1 (1(1) + 1(2) + 2(3) + 3(4) + 4(5) + 5(6)) 16 = 4,4375 Vi ser at definisjonsmengden er D f = {0,1,...,10}. Forventningsverdien (tyngdepunktet) er 5 og den mest sannsynlige verdien (argmax x p (x)) er 10. 19

7 Løsninger på oppgaver 20 0.20 0.15 0.10 0.05 0.00 0 2 4 6 8 10 21. Bevis for at E(αX) = α E(x) E(αX) = P (x i )x i α = α P (x i )x i = α E(X) x i X x i X Bevis for at E(X + Y ) = E(X) + E(Y ): E(X + Y ) = P (x i,y i )(x i + y i ) y i Y x i X = P (x i,y i )x i + P (x i,y i )y i y i Y x i X y i Y x i X = P (x i,y i )x i + P (x i,y i )y i x i X y i Y y i Y x i X = x i P (x i,y i ) + y i P (x i,y i ) x i X y i Y = x i P (x i ) + y i P (y i ) x i X y i Y = E(X) + E(Y ) y i Y x i X (utvider summen) (endrer rekkefølge) (trekke ut konstanter) (summerer over en variabel) Bevis for at E(α) = α E(α) = P (α)α = 1 α = α alle α 22. Her må vi bruke Var(X) = E ( (X E(X)) 2) flittig. Bevis for at Var(α) = 0: Var(α) = E ( (α E(α)) 2) = E ( (α α) 2) = E(0) = 0 20

7 Løsninger på oppgaver 21 Bevis for at Var(X + β) = Var(X): Var(X + β) = E ( (X + β E(X + β)) 2) = Bevis for at Var(αX) = α 2 Var(X): E ( (X + β (E(X) β)) 2) = E ( (X E(X)) 2) = Var(X) Var(αX) = E ( (αx E(αX)) 2) = E ( α 2 (X E(X)) 2) = α 2 E ( (X E(X)) 2) = α 2 Var(X) 23. Fra før av vet vi at E(X) = µ = 3,5. Uten å bruke formelen Var(X) = E(X 2 ) E(X) 2 har vi for et terningkast at at 6 Var(X) = p(i)(i µ) 2 = 1 [ (1 3,5) 2 +... + (6 3,5) 2] 2,9167 6 i=1 Utregningen blir lettere dersom vi bruker Var(X) = E(X 2 ) E(X) 2. Vi vet at E(X) 2 = 3,5 2, og vi har at 6 E(X 2 ) = p(i)i 2 = 1 [ (1) 2 +... + (6) 2] 15,1667 6 i=1 slik at vi får Var(X) = E(X 2 ) E(X) 2 15,1667 3,5 2 2,9167. Dersom utfallsrommet har n hendelser trenger man å gjøre 2n regneoperasjoner for å finne µ. Den første metoden krever 4n regneoperasjoner (trekke fra µ, opphøye i andre, gange med p(x i ) og summere over). Den andre metoden krever 3n regneoperasjoner (opphøye i andre, gange med p(x i ) og summere over) for å finne E(X 2 ). Den andre metoden krever altså mindre regneoperasjoner fordelen er ofte også at det er mindre sjanse for å gjøre regnefeil fordi man slipper å trykke mange desimaler inn på kalkulatoren. 24. Vi deriverer Var(X) = x i X p(x i)(x i µ ) 2 med hensyn på µ : Var(X) µ = p(x i )2(x i µ )( 1) = 0 x i X Konstantene 2 og ( 1) er irrelevante og går ut, vi snur og løser for µ : p(x i )(x i µ ) = 0 x i X p(x i )x i = p(x i )µ x i X x i X µ = p(x i )x i x i X 21

7 Løsninger på oppgaver 22 Dette er definisjonen av µ = E(X). Å sentrere variansen rundt forventningsverdien minimerer variansen. 25. La X være antall personer med klamydia. Vi har at p = 1/1. Da er P (X > 2) = 1 P (X 2). For å finne svaret må du regne ut P (X > 2) = 1 P (X 2) = 1 [P (X = 0) + P (X = 1) + P (X = 2)] [( ) ( ) ( ] n = 1 p 0 (1 p) n n + p 1 (1 p) n 1 n + )p 2 (1 p) n 2 0 1 2 Det er lurt å bruke en tabell dersom du har det, så slipper du å trykke så mange tall inn på kalkulatoren. geogebra har også en sannsynlighetskalkulator som kan brukes. Svaret kommer an på hvor mange som går i klassen din. Dersom n = 20 er P (X > 2) 0,0755, dersom n = 40 er P (X > 2) 0,3233 og dersom n = 60 er P (X > 2) 0,5826. 26. Velg b = p og a = (1 p), da ser vi at (a + b) n = ((1 p) + p) n = n x=0 ( ) n (1 p) n x p x = (1) n = 1 x 27. Den nøyaktige løsninger via hypergeometrisk fordeling er ( )( ) 30 30 P (X = 2) = 2 1 ( ) 0,3814 60 3 For å approksimere med binomisk velger vi p = M/N = 30/60 = 0,5. Vi skal velge ut 3 studenter, og sannsynligheten for at akuratt 2 av disse har karakteren B blir da (ifølge binomisk) ( ) (1 ) 3 2 ( P (X = 2) = 1 1 1 = 0,375 2 2 2) Svarene stemmer godt overens. 28. Vi må ha at a 0 p(x) dx = 1. Dette krever k = 3/a3. 29. Var(X) = p(x)(x µ) 2 dx 30. Fra tidligere vet vi at k = 3/a 3. Vi får da at E(X) = a 0 22 kx 3 = k 1 4 a4 = 3 4 a

7 Løsninger på oppgaver 23 0.5 0.4 hyper binom Sannsynlighet 0.3 0.2 0.1 0.0 0 10 20 30 40 50 60 M Figur 9: Problemet når vi endrer M. Her er N = 60, x = 2 og n = 3. For å finne Var(X) bruker vi Var(X) = E(X 2 ) E(X) 2. Vi må regne ut E(X 2 ): E(X 2 ) = a Og vi får at Var(X) = 3 5 a2 ( 3 4 a ) 2 = 3a 2 80 0 kx 4 = k 1 5 a5 = 3 5 a2 31. For å finne E(X) må du regne ut 0 xλe λx dx. Du må bruke delvis integrasjon, uv = uv u v. Svaret blir 1/λ. For å finne Var(X) er det lurt å bruke at Var(X) = E(X 2 ) E(X) 2. Du må igjen bruke delvis integrasjon. Du skal få at Var(X) = 2 λ 2 1 λ 2 = 1 λ 2. Dette er eksponentialfordeligen. 32. Vi har f (x) = (ax y) 2. Da er f / x = 2(ax y). Sett lik 0 og løs for x, da får du x = 1 a y = (aa) 1 ay. For tall (skalarer) er 1 a det samme som (aa) 1 a, men dette er ikke tilfelle for matriser, fordi AB BA for matriser generelt. Referanser De fleste figurene er fra Wikipedia. Noen har jeg laget selv. Noe informasjon er fra Wikipedia, resten er fra følgende bøker. Løvås, Gunnar G. Statistikk for Universiteter og Høgskoler. 3rd ed. Universitetsforlaget, 2013. Boken som brukes på HiB i statistikk. Den er er godt skrevet og veldig forklarende, men det er tydelig at den ikke er skrevet for personer med 23

7 Løsninger på oppgaver 24 mye kjennskap til matematikk (på godt og vondt). Jay L. Devore. Modern Mathematical Statistics with Applications. 2nd ed. Springer Texts in Statistics. Dordrecht: Springer, 2011. Boken som brukes på UiB i kurset stat110. Ikke så lettleselig som Løvås, men et rimelig godt oppslagsverk. 24