Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal



Like dokumenter
Formelsamling V MAT110 Statistikk 1. Per Kristian Rekdal

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

MAT110. Statistikk 1. Kompendium 2018, del 2. Per Kristian Rekdal

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

FORMELSAMLING TIL STK1100 OG STK1110

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Kapittel 2: Hendelser

Bernoulli forsøksrekke og binomisk fordeling

MAT110. Statistikk 1. Kompendium 2018, del 1. Per Kristian Rekdal

TMA4240 Statistikk Høst 2008

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Oppfriskning av blokk 1 i TMA4240

ÅMA110 Sannsynlighetsregning med statistikk, våren

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

statistikk, våren 2011

MAT110. Statistikk 1. Løsning til øvingsoppgaver Per Kristian Rekdal

MAT110. Statistikk 1. Løsning til øvingsoppgaver Per Kristian Rekdal

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

Formelsamling i medisinsk statistikk

LØSNING: Eksamen 22. mai 2018

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Kompendium V-2014 MAT110. Statistikk 1. Del 1 av 2. Per Kristian Rekdal

Betinget sannsynlighet

Eksamen i. MAT110 Statistikk 1

Statistikk 1 kapittel 5

Kompendium V-2016 MAT110. Statistikk 1. Del 2 av 2. Per Kristian Rekdal

TMA4240 Statistikk H2010

3.1 Stokastisk variabel (repetisjon)

Oppgavesett nr. 5. MAT110 Statistikk 1, Et transportfirma har et varemottak for lastebiler med spesialgods, se figur 1.

3.4: Simultanfordelinger (siste rest) 4.1,4.2,4.3: Multivariat del (ferdig med kapittel 3 og 4 etter denne forelesningen)

Statistikk 1 kapittel 5

DEL 1 GRUNNLEGGENDE STATISTIKK

Hogskoleni Østfold EKSAMEN. Eksamenstid: kl til k

FORMELSAMLING TIL STK1100 OG STK1110

Kompendium V-2014 MAT110. Statistikk 1. Del 2 av 2. Per Kristian Rekdal

Eksamen i. MAT110 Statistikk 1

Kapittel 4: Matematisk forventning

UNIVERSITETET I OSLO

Høgskoleni østfold EKSAMEN

Høgskoleni Øs fold EKSAMEN. Om noe er uklart eller mangelfullt i oppgaven inngår det som en del av oppgaven å ta de nødvendige forutsetninger.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

Statistikk 1 kapittel 5

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

Motivasjon for kurset. ÅMA110 Sannsynlighetsregning med statistikk, våren Oppsummering. ÅMA110 Sannsynlighetsregning med statistikk våren 2008

Regler i statistikk STAT 100

STK Oppsummering

Foreleses onsdag 8. september 2010

Statistikk 1 kapittel 5

HØGSKOLEN I STAVANGER

FORMELSAMLING STATISTIKK, HiG

Løsningsforslag, eksamen statistikk, juni 2015

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

Forelesning 13. mars, 2017

Sannsynlighetsregning og Statistikk.

Kapittel 5: Tilfeldige variable, forventning og varians.

Statistikk 1 kapittel 4

Stokastisk variabel. Eksempel augefarge

Fasit for tilleggsoppgaver

MAT110 Statistikk 1 Løsningsforslag til eksamensoppgaver

Tema 1: Hendelser, sannsynlighet, kombinatorikk Kapittel ST1101 (Gunnar Taraldsen) :19

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

UNIVERSITETET I OSLO Matematisk Institutt

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

TMA4245 Statistikk Vår 2007

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

Sannsynlighetsregning og kombinatorikk

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

Forventning og varians.

UNIVERSITETET I OSLO

Forelesning 7. mars, 2017

Forelening 1, kapittel 4 Stokastiske variable

Kontinuerlige sannsynlighetsfordelinger.

TMA4240 Statistikk H2015

Høgskoleni østfold EKSAMEN. SFB10711 Metodekurs 1: Grunnleggende matematikk og statistikk Skriftlig eksamen, vår, statistikk

To-dimensjonale kontinuerlige fordelinger

Eksempel: kast med to terninger

Emnenavn: Eksamenstid: Faglærer: Hans Kristian Bekkevard

Statistikk og dataanalyse

Forventning og varians.

Oppgavesett nr. 1. MAT110 Statistikk 1, Etterspørsel y=y i Figur 1: Sammenheng mellom pris x og etterspørsel y.

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger

Kap. 6, Kontinuerlege Sannsynsfordelingar

Kapittel 4.3: Tilfeldige/stokastiske variable

Kap. 6, Kontinuerlege Sannsynsfordelingar

HØGSKOLEN I STAVANGER

Kapittel 3: Studieopplegg

LØSNING: Oppgavesett nr. 1

MULTIPLE CHOICE ST0103 BRUKERKURS I STATISTIKK September 2016

UNIVERSITETET I OSLO

Oppgavesettet består av 11 sider inklusiv denne forsiden, hvorav de 7 siste er formelsamling og tabeller.

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Transkript:

Formelsamling V-2014 MAT110 Statistikk 1 Per Kristian Rekdal

2

Forord Dette er formelsamlingen i emnet MAT110 Statistikk 1 ved høgskolen i Molde. Formlene i denne formelsamlingen er stort sett de formlene som er markert med rød skrift og ramme rundt i kompendiet. Studentene oppfordres til å bruke formelsamlingen aktivt når øvingsoppgaver skal løses. Hjelpemidler eksamen: Godkjent kalkulator og formelsamling. Kun originalversjonen av formelsamlingen utgitt av SiMolde Bok er lov å ha med på eksamen. (Dette fordi det skal være lett å se at dere har med den riktige og lovlige formelsamlingen på eksamen). Det er lov å skrive egne notater i formelsamlingen som dere kan ta med på eksamen. Men: Ikke skriv av hele eksempler og hele oppgaver. (Dersom dette blir praktisert i stor grad må vi revurdere denne ordningen i forhold til neste års studenter). En gratis PDF-versjon av formelsamlingen kan lastes ned fra www.himoldex.no. Per Kristian Rekdal Copyright c Høyskolen i Molde, mars 2014. 3

Innhold 1 Beskrivende statistikk 7 1.1 Populasjon og utvalg.................................. 7 1.2 Statistiske mål (èn variabel)............................. 8 1.2.1 Lokaliseringsmål................................ 8 1.2.2 Spredningsmål.................................. 10 1.3 Statistiske mål (to variabler)............................ 12 2 Sannsynlighetsregning 13 2.1 Utfallsrom........................................ 14 2.2 Sannsynligheter..................................... 14 2.3 Begivenhet........................................ 15 2.4 Mengdelære....................................... 16 2.5 Regning med sannsynligheter............................. 18 3 Kombinatorikk 21 3.1 Koblinger........................................ 22 3.2 4 situasjoner (endelig populasjon)........................... 23 3.3 Kombinatoriske sannsynligheter............................ 25 4 Betinget sannsynlighet 26 4.1 Multiplikasjonssetningen................................ 27 4.2 Bayes lov........................................ 27 4.3 Oppsplitting av Ω.................................... 28 4.4 Uavhengighet...................................... 30 5 Tilfeldige variabler, forventning og varians 33 5.1 Tilfeldige variabler................................... 34 5.2 Forventning og varians................................. 35 5.2.1 Forventning................................... 35 5.2.2 Varians..................................... 36 5.2.3 Noen regneregler................................ 37 5.3 Generelle forventninger................................. 38 4

6 Simultane sannsynlighetsfordelinger 39 6.1 Simultan- og marginalfordeling............................ 40 6.2 Generelle forventninger................................. 41 6.3 Kovarians........................................ 42 7 Sentrale sannsynlighetsfordelinger 45 7.1 Den binomiske fordelingen............................... 46 7.2 Den hypergeometriske fordelingen........................... 47 7.3 Poissonfordelingen................................... 49 7.4 Normalfordelingen (kontinuerlig).......................... 51 7.4.1 Standardavvik σ og %-vis areal........................ 53 7.5 Sentralgrensesetningen................................. 54 7.6 Diskrete fordelinger normalfordeling...................... 56 7.7 Sammenheng: Bin, Hyp, Poi og N.......................... 60 11 Regresjonsanalyse 63 11.1 Residual og SSE.................................... 64 11.2 Minste kvadraters regresjonslinje........................... 66 11.3 Forklaringsstyrke og SST............................... 67 5

6

Kapittel 1 Beskrivende statistikk 1.1 Populasjon og utvalg Definisjon: ( populasjon ) Populasjon = den totale mengden av objekter/data som vi ønsker å analysere Definisjon: ( utvalg ) Utvalg = en delmengde av populasjonen, dvs. en samling av data som er hentet fra en populasjon Definisjon: ( statistisk inferens ) Statistisk inferens = det å tolke/analysere utvalget for å finne ut mest mulig om hele populasjonen 7

1.2 Statistiske mål (èn variabel) 1.2.1 Lokaliseringsmål Definisjon: ( median ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: median = midtre observasjonen gjennomsnitt av to midterste observasjonene, n = odde, n = like (1.1) Definisjon: ( typetall ) 1 La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: typetall = den verdien som forekommer hyppigst (1.2) Definisjon: ( gjennomsnitt ) La x 1,x 2,x 3,...,x n være n antall observasjoner. Da er gjennomsnittet: x = 1 n n x i (1.3) i=1 1 Kalles også modus eller modalverdi. 8

Generelt er typetall, median og gjennomsnitt forskjellige, dvs. ikke sammenfallende, se figur(1.1b), (1.1c) og (1.1d). Unntaket er for en symmetrisk fordeling, se figur (1.1a). Figur 1.1: Illustrasjon av typetall ( mode ), median og gjennomsnitt ( mean ). 9

1.2.2 Spredningsmål Definisjon: ( modalprosent ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: modalprosent = %-vis andel av observasjonene som har verdi lik typetallet (1.4) Definisjon: ( variasjonsbredde ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: variasjonsbredde = differansen mellom største og minste verdi (1.5) Definisjon: ( kvartilavvik ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: k 1 = nedre kvartil, dvs. 25% av observasjonene har verdi k 1 (1.6) 50% av observasjonene har verdi k 2 k 2 = medianen, dvs. (1.7) 50% av observasjonene har verdi k 2 k 3 = øvre kvartil, dvs. 75% av observasjonene har verdi k 3 (1.8) Da er: kvartilavvik = k 3 k 1 (1.9) 10

Definisjon: ( empirisk varians ) 2 La x 1,x 2,x 3,...,x n være observasjoner, og la x være gjennomsnittet. Da er den empiriske variansen: S 2 x = 1 n 1 n (x i x) 2 (1.10) i=1 Definisjon: ( empirisk standardavvik ) 3 Det empiriske standardavviket er: S x = S 2 x (1.11) 2 Kalles også utvalgsvariansen. 3 Kalles også utvalgstandardavviket. 11

1.3 Statistiske mål (to variabler) Definisjon: ( empirisk kovarians ) 4 La x 1,x 2,x 3,...,x n og y 1,y 2,y 3,...,y n være observasjoner, og la x samt y være de respektive gjennomsnitt. Den empiriske kovariansen er da: S xy = 1 n 1 n (x i x)(y i y) (1.12) i=1 Definisjon: ( korrelasjonskoeffisient ) La x 1,x 2,x 3,...,x n og y 1,y 2,y 3,...,y n være observasjoner. Korrelasjonskoeffisienten er da: R xy = S xy S x S y (1.13) 4 Kalles også utvalgskovariansen. 12

Kapittel 2 Sannsynlighetsregning Figur 2.1: Sannsynlighetsregning. 13

2.1 Utfallsrom Definisjon: ( utfallsrom ) Resultatet av et stokastisk forsøk kan ikke forutsies entydig, men det kan angis en mengde mulige enkeltutfall. Denne mengden av mulige enkeltutfall kalles utfallsrom: Ω = { mengden av alle mulige enkeltutfall } (2.1) 2.2 Sannsynligheter Egenskaper ved sannsynligheten: ( diskret utfallsrom ) 0 p i 1, for alle i = 1,2,3,...,n (2.2) n i=1 p i = 1 (2.3) hvor n i=1 p i = p 1 +p 2 +p 3 +...+p n. 14

2.3 Begivenhet Definisjon: ( begivenhet ) begivenhet = delmengde av utfallsrommet (2.4) Egenskaper for en begivenhet: ( diskret utfallsrom ) P(A) = u A p(u) (2.5) I tillegg kan vi nå skrive lign.(2.2) og (2.3) på en alternativ måte: 0 P(A) 1, for alle A (2.6) P(Ω) = e Ω p(e) = 1 (2.7) 15

2.4 Mengdelære Ω Utfallsrommet er hele det blå området. Figur 2.2: Utfallsrommet Ω. A A visualiseres ved det blå området. Figur 2.3: Begivenheten A. Ā A A benevnes ikke A. Figur 2.4: Komplementet til A er A (eller A c ). 16

A B A og {}}{ B. A og B inntreffer. Tilsvarer OVERLAPP av mengder. Figur 2.5: Snittet mellom A og B. A B A eller {}}{ B. A eller B (eller begge) inntreffer. Tilsvarer SUM av mengder. Figur 2.6: Unionen mellom A og B. A B A og {}}{ B =. A og B inntreffer aldri samtidig. ingen felles elementer Figur 2.7: A og B er disjunkte, dvs. unionen mellom A og B er tom, altså umulig. Huskeregler: = og, tilsvarer OVERLAPP av mengder = eller, tilsvarer SUM av mengder 17

2.5 Regning med sannsynligheter Definisjon: ( disjunkte begivenheter) To begivenheter A og B er disjunkte dersom A og {}}{ B =. Setningen: ( den spesielle addisjonssetningen ) Dersom begivenhetene A og B er disjunkte, dvs. A og {}}{ B =, så gjelder: P(A eller {}}{ B) = P(A)+P(B) (2.8) Setningen: ( den generelle addisjonssetningen ) For begivenhetene A og B gjelder: eller {}}{ P(A B) = P(A)+P(B) P(A og {}}{ B) } {{ } ekstra ledd (2.9) 18

Setningen: ( den generelle addisjonssetningen ) For begivenhetene A, B og C gjelder: P(A B C) } {{ } eller = P(A)+P(B)+P(C) P(A B) P(A C) P(B C) + P(A B C) } {{ } og (2.10) Setningen: ( komplementsetningen ) For begivenheten A og dens komplement A (eller A c ) gjelder: P(A) = 1 P(A) (2.11) Setningen: ( total sannsynlighet ) For begivenhetene A og B gjelder: P(A) = P(A B)+P(A B) (2.12) 19

Setninger: ( tvillingsetningene ) og eller {}}{ {}}{ P(A B) = 1 P(A B) (2.13) og eller {}}{ {}}{ P(A B) = 1 P(A B) (2.14) 20

Kapittel 3 Kombinatorikk Figur 3.1: Kombinatorikk. En lås med svært mange kombinasjonsmuligheter. 21

3.1 Koblinger Definisjon: ( koblinger ) Koblinger = forhold som gjør at et bestemt valg kan påvirke utfallet av andre valg vi skal gjøre. Grunnprinsipp i kombinatorikk: ( antagelse ) Ingen kobling mellom mellom valgmulighetene. Kombinasjoner: ( uten koblinger ) Dersom vi har m 1 = antall muligheter i valg nr. 1 m 2 = antall muligheter i valg nr. 2.. m N = antall muligheter i valg nr. N (3.1) da er antall mulige kombinasjoner = m 1 m 2 m 3...m N (3.2) 22

3.2 4 situasjoner (endelig populasjon) Urnemodellen: er det trekking med eller uten tilbakelegging? betyr det noe i hvilken rekkefølge kulene trekkes? trekning m/tilbakelegging u/tilbakelegging ordnet situasjon 1 situasjon 2 ikke-ordnet situasjon 4 (forekommer sjelden) situasjon 3 Figur 3.2: 4 situasjoner for urnemodellen. 23

La: N = totalt antall valgobjekter (3.3) s = antall objekter som velges (3.4) Situasjon 1: # ordnede komb. m/tilbakelegging = N N... N = N s (3.5) Situasjon 2: # ordnede komb. u/tilbakelegging = N (N 1)... (N s+1) = N! (N s)! (3.6) Situasjon 3: # ikke-ordnede komb. u/tilbakelegging = N! (N s)! s! ( ) N s } {{ } binomialkoeff. (3.7) Situasjon 4: Ingen formel. 24

3.3 Kombinatoriske sannsynligheter La oss se på en tellesituasjon som kan beskrives med urnemodellen. I slike situasjoner er det en sammenheng mellom sannsynlighet og antall kombinasjoner: P(A) = antall gunstige kombinasjoner for A antall mulige kombinasjoner totalt (3.8) 25

Kapittel 4 Betinget sannsynlighet Figur 4.1: Gitt at vi vet hvilke kuler som er i bøtten... 26

4.1 Multiplikasjonssetningen Setning: ( multiplikasjonssetningen, generelle ) 1 P(A og {}}{ B) = P(A B) P(B) (4.2) Tilsvarende gjelder: = P(A B) { }} { P(B A) = P(B A) P(A) (4.3) 4.2 Bayes lov Setning: ( Bayes lov ) P(A B) = P(B A) P(A) P(B) (4.4) eller alternativt: P(B A) = P(A B) P(B) P(A) (4.5) 1 For en betinget sannsynlighet står det vi vet til høyre for : P(B A) = P(B når } vi {{ veta } ) (4.1) vet 27

4.3 Oppsplitting av Ω Setningen: ( oppsplitting av Ω i 2 ) {}}{ Anta at utfallsrommet Ω splittes i to delrom Ω = B 1 B 2, der B 1 B 2 =, dvs. delrommene B 1 og B 2 har ingen felles elementer: de er disjunkte. Enhver mengde A kan da skrives: eller med tilhørende sannsynlighet A = (A B 1 ) eller {}}{ (A B 2 ) (oppsplitting) (4.6) P(A) = P(A B 1 ) + P(A B 2 ) (4.7) Alternativt 2 kan lign.(4.7) skrives: P(A) = P(A B 1 ) P(B 1 ) + P(A B 2 ) P(B 2 ) (4.8) Figur 4.2: Oppsplitting av sannsynlighetsrom Ω, jfr. lign.(4.6). 2 Via multiplikasjonssetningen i lign.(4.2): P(A og {}}{ B) = P(A B) P(B). 28

Setningen: ( oppsplitting av Ω ) eller {}}{ {}}{ {}}{ {}}{ Anta at utfallsrommet Ω splittes i delrom Ω = B 1 B 2 B 3... B N, der alle B i B j =, dvs. ingen delromb 1, B 2,..., B N har noen felles elementer: disjunkte Enhver mengde A kan da skrives: eller eller eller eller {}}{ A = (A B 1 ) (A B 2 ) med tilhørende sannsynlighet eller {}}{... eller {}}{ (A B N ) (oppsplitting) (4.9) P(A) = P(A B 1 ) + P(A B 2 ) +... + P(A B N ) (4.10) Alternativt kan lign.(4.10) skrives: P(A) = P(A B 1 ) P(B 1 ) + P(A B 2 ) P(B 2 ) +... + P(A B N ) P(B N ) (4.11) Figur 4.3: Oppsplitting av sannsynlighetsrom Ω, jfr. lign.(4.9). 29

4.4 Uavhengighet Definisjon: ( uavhengighet ) To begivenheter A og B er uavhengige dersom P(A B) = P(A) (4.12) Setning: ( multiplikasjonssetningen, spesielle ) Dersom begivenhetene A og B er uavhengige, så gjelder: P(A og {}}{ B) uavh. = P(A) P(B) (4.13) 30

Sannsynlighetsregning ( kap. 2 og 4 ) Add. setn. Mult. setn. Disjunkt Uavh. Tvilling Komp. setn.: Total sanns.: Bayes lov: Oppspl. av Ω:

Kombinotarikk ( kap. 3 ) Situasjon 1: Situasjon 2: Situasjon 3: Situasjon 4: Ingen formel i vårt kurs

Kapittel 5 Tilfeldige variabler, forventning og varians Figur 5.1: Forventning og varians. 33

5.1 Tilfeldige variabler Definisjon: ( tilfeldig/stokastisk variabel ) En stokastisk variabel er en strrelse X som kan anta ulike verdier x med ulike sannsynligheter. Definisjon: ( sannsynlighetsfordeling, diskret ) En sannsynlighetsfordeling til en diskret variabel er en funksjon definert ved: P(x) }{{} = P(X = x) } {{ } liten x for verdier stor X for selve variabelen (5.1) Definisjon: ( kumulativ sannsynlighetsfordeling, diskret ) Den kumulative sannsynlighetsfordeling F til en diskret variabel X er definert ved: F(x) = P(X x) (5.2) 34

5.2 Forventning og varians 5.2.1 Forventning Definisjon: ( forventningsverdi, diskret ) For en diskret tilfeldig variabel X med de mulige verdiene x 1, x 2,..., x m er forventningsverdien: E[X] = m i=1 x i P(X = x i ) (5.3) Definisjon: ( forventningsverdi, kontinuerlig ) For en kontinuerlig tilfeldig variabel X er forventningsverdien: E[X] = x f(x)dx (5.4) hvor f(x) = sannsynlighetstettheten av x. 35

5.2.2 Varians Definisjon: ( varians, diskret ) For en diskret tilfeldig variabel X er variansen: Var[X] = E[(X E[X]) 2 ] (5.5) Variansen er altså forventningsverdien av (X E[X]) 2. Lign.(5.5) kan derfor skrives: Var[X] = m (x i E[X]) 2 P(X = x i ) (5.6) i=1 Setning: ( varianssetningen ) La X være en stokastisk variabel. For variansen gjelder da: Var[X] = E[X 2 ] E[X] 2 (5.7) Via lign.(5.3) kan varianssetningen skrives: Var[X] = m i=1 x 2 i P(X = x i) ( m i=1 x i P(X = x i )) 2 (5.8) 36

5.2.3 Noen regneregler La a og b være konstanter. La videre X og Y være to stokastiske variabler. Da gjelder: Regneregler for forventning: E[a] = a (5.9) E[a+X] = a+e[x] (5.10) E[a X] = a E[X] (5.11) E[aX +by] = ae[x]+be[y] (5.12) Regneregler for varians: V ar[a] = 0 (5.13) Var[a+X] = Var[X] (5.14) Var[a X] = a 2 Var[X] (5.15) Var[X] = Var[ X] (5.16) Dessuten er alltid Var[X] 0, dvs. en varians kan aldri være negativ. 37

5.3 Generelle forventninger Definisjon: ( generell forventningsverdi, diskret ) For en diskret tilfeldig variabel X og en vanlig funksjon h(x) så er: E[h(X)] = m i=1 h(x i ) P(X = x i ) (5.17) 38

Kapittel 6 Simultane sannsynlighetsfordelinger Figur 6.1: Simultane sannsynlighetsfordelinger. 39

6.1 Simultan- og marginalfordeling Definisjon: ( simultanfordeling ) La X og Y være to stokastiske variabler. Med simultanfordeling menes: p(x,y) = P(X = x og Y = y) (6.1) Definisjon: ( marginalfordeling ) La X og Y være to stokastiske variabler. Med marginalfordeling menes: P(X = x) = y p(x, y) (6.2) P(Y = y) = x p(x, y) (6.3) Definisjon: ( uavhengighet ) La X og Y være to stokastiske variabler. Disse er uavhengige dersom: P(X = x og Y = y) } {{ } = p(x,y) = P(X = x) P(Y = y) (6.4) for alle X = x og Y = y. 40

6.2 Generelle forventninger Definisjon: ( generell forventingsverdi, diskret ) For diskrete stokastiske variabel X, Y og funksjonen h(x, Y) så gjelder: E[h(X,Y)] = m n i=1 j=1 h(x i,y j ) p(x i,y j ) (6.5) Spesialtilfelle av definisjonen i lign.(6.5): La oss se på et spesialtilfelle av lign.(6.5), nemlig det spesialtilfellet når: Da er: h(x,y) = X Y (6.6) E[X Y] = m n i=1 j=1 x i y j p(x i,y j ) (6.7) Setning: La X og Y være to uavhengige stokastiske variabler Da gjelder: E[X Y] = E[X] E[Y] (6.8) 41

6.3 Kovarians Definisjon: ( kovarians ) La X og Y være to stokastiske variabler. Med samvariasjon/korrelasjon { }} { kovariansen mellom disse mener vi: Cov[X,Y] = E[(X E[X])(Y E[Y])] (6.9) Setning: ( kovarians ) La X og Y være to stokastiske variabler. For samvariasjon/korrelasjon { }} { kovariansen gjelder da: Cov[X,Y]= E[X Y] E[X] E[Y] (6.10) Setning, (spesialtilfelle): ( kovarians ) La X og Y være to stokastiske variabler. Dersom X og Y er uavhengige, dvs.: E[X Y] uavh. = E[X] E[Y] (6.11) så er Cov[X,Y] = 0 (6.12) 42

Definisjon: ( korrelasjonskoeffisienten ) La X og Y være to stokastiske variabler. Med korrelasjonskoeffisienten ρ[x,y] mener vi da: ρ[x,y] = Cov[X,Y] Var[X] Var[Y] (6.13) 43

Setning: ( kovarians II ) La X og Y være to stokastiske variabler. Generelt gjelder da følgende sammenhengen mellom variansen og kovariansen: 1 Var[aX +by] = a 2 Var[X] + b 2 Var[Y] + 2ab Cov[X,Y] (6.15) hvor a og b er konstanter. Setning, (spesialtilfelle): ( kovarians II ) La X og Y være to stokastiske variabler. Dersom X og Y er ukorrelerte, så er: Da gjelder: Cov[X,Y] = 0 (6.16) Var[aX +by] = a 2 Var[X] + b 2 Var[Y] (6.17) 1 Siden σ[x] 2 Var[X] og siden Cov[X,Y] = ρ[x,y] σ[x] σ[y], se lign.(6.13), så kan variansen Var[X +Y] skrives på en alternativ måte: σ[ax +by] 2 = a 2 σ[x] 2 + b 2 σ[y] 2 + 2ab ρ[x,y] σ[x] σ[y] (6.14) 44

Kapittel 7 Sentrale sannsynlighetsfordelinger Figur 7.1: Illustrasjon av sentralgrensesetningen ( CLT ). 45

7.1 Den binomiske fordelingen Binomisk forsøksserie: 1. Hvert forsøk skal ha 2 mulige utfall, s (suksess) eller f (fiasko). 2. Det skal være samme sannsynlighet p for suksess i alle n forsøkene. 3. Alle forsøk er uavhengige. 4. Vi gjennomfører et bestemt antall forsøk, n. En forsøksserie som oppfyller disse kravene kalles en binomisk forsøksserie. Definisjon: ( binomisk fordeling, X Bin[n, p] ) Punktsannsynlighetene for en binomisk fordeling er: P(X = x) def. = ( ) n p x (1 p) n x (7.1) x Setning: ( forventing og varians av X Bin[n,p] ) La X være en binomisk variabel, dvs. X Bin[n,p]. Da er forventningen: og variansen: E[X] = n p (7.2) Var[X] = n p(1 p) (7.3) 46

7.2 Den hypergeometriske fordelingen Definisjon: ( hypergeometrisk fordeling, X Hyp[N, M, n] ) Punktsannsynlighetene for en hypergeometrisk fordeling er: P(X = x) def. = ( ) ( ) M N M x n x ( ) (7.4) N n hvor X = stokastisk variabel = antall spesielle elementer i det tilfeldige utvalget på (7.5) n trukne elementer N = antall elementer i grunnmengden (7.6) M = antall spesielle elementer (7.7) N M = antall vanlige elementer (7.8) n = antall trukne elementer (7.9) Merk: En hypergeometrisk forsøksserie tilsvarer en situasjon med trekning uten tilbakelegging. 47

Setning: ( forventing og varians av X Hyp[N,M,n] ) La X være en hypergeometrisk variabel, dvs. X Hyp[N, M, n]. Forventningsverdien er da: E[X] = n M N (7.10) og variansen: Var[X] = N n N 1 n M ( N 1 M ) N (7.11) Setning: ( Hyp[N,M,n] Bin[n,p] ) Dersom grunnmengden N i en hypergeometrisk forsøkserie er mye større enn utvalget n, typisk: så er: N 20 n (7.12) X Hyp[N,M,n] N 20 n X Bin[n,p] (7.13) 48

7.3 Poissonfordelingen Definisjon: ( Poissonfordeling, X Poi[λ] ) 1 Punktsannsynlighetene for en Poissonfordeling er: hvor P(X = x) def. = λx x! e λ (7.14) λ = gjennsomsnittlig antall begivenheter innenfor en gitt tid eller gitt rom Setning: ( forventing og varians av X Poi[λ] ) La X være en Poissionfordelt variabel, dvs. X Poi[λ]. Forventningenverdien er da: og variansen er: E[X] = λ (7.15) Var[X] = λ (7.16) 1 Kalles ofte loven om sjeldne begivenheter. 49

Setning: ( Bin[n, p] Poi[λ] ) I en binomisk sannsynlighetsfordeling, dersom sannsynligheten for suksess p er svært liten og antall forsøk n er svært stor, typisk så er n 50 og p 0.05 (7.17) X Bin[n,p] n50 og p0.05 X Poi[λ] (7.18) 50

7.4 Normalfordelingen (kontinuerlig) Definisjon: ( generelle normalfordeling X N[µ, σ] ) La X være en kontinuerlig stokastisk variabel. Den generelle normalfordelingen for X er: f X (x) = 1 2πσ 2 e (x µ)2 2σ 2 (7.19) hvor µ = E[X] = forventingen av X (7.20) σ 2 = Var[X] = variansen av X (7.21) Definisjon: ( standardisert normalfordeling, X N[µ = 0, σ = 1] ) La X være en kontinuerlig stokastisk variabel. Dersom E[X] = µ = 0, Var[X] = σ 2 = 1 (7.22) så vil den generelle normalfordelingen i lign.(7.19) redusere seg til: f X (x) = 1 2π e x2 2 (7.23) Dette kalles den standardiserte normalfordelingen. 51

P(Z z 52

7.4.1 Standardavvik σ og %-vis areal For en normalfordeling med et gitt standardavvik σ, så dekker intervallet µ σ X µ+σ hele 68.2 % av arealet (7.24) under sannsynlighetfordelingen f X (x). Tilsvarende dekker intervallet µ 2σ X µ+2σ hele 95.4 % av arealet (7.25) under sannsynlighetfordelingen f X (x). Dette er illustrert i denne figuren: Figur 7.2: Standardavvik σ og %-vis areal for en normalfordeling. 53

7.5 Sentralgrensesetningen Setning: ( CLT 2, sentralgrensesetningen ) La X 1, X 2, X 3,... X n være uavhengige stokastiske variabler med samme P(X = x i ), dvs. diskret ELLER kont. { }} { sannsynlighetsfordeling X i samme sannsynlighetsfordeling for alle i = 1,2,3,...,n (7.26) hvor n er antall forsøk, dvs. E[X i ] = µ og Var[X i ] = σ 2, i = 1,2,3,...,n (7.27) er den samme for alle forsøk / gitt stokastisk variabel i. Da gjelder at gjennomsnittet X: X = X 1 +X 2 +X 3 +... +X n n er normalfordelt i grensen når antall forsøk n BLIR STOR: X n=stor [ ] σ N µ, n (7.29) (7.28) altså P(X = x) er normalfordelt med forventning og varians hhv. E[X] = µ og Var[X] = σ2 n (7.30) 2 På engelsk brukes ofte forkortelsen CLT, dvs. central limit theorem. 54

Det er en alternativ måte å formulere sentralgrensesetningen på: Setning: ( sentralgrensesetningen og G(z) ) diskret ELLER kont. { }} { LaX 1,X 2,X 3,...X n værenstk.uavhengigestokastiskevariablermedsammesannsynlighetsfordeling med µ som forventingsverdi og σ 2 som varians, dvs. E[X i ] = µ og Var[X i ] = σ 2, i = 1,2,3,...,n (7.31) Gjennomsnittet X av disse n stk. stokastiske variablene X = X 1 +X 2 +X 3 +... +X n n (7.32) er da normalfordelt for store n, dvs. ( ) P(X x) n=stor x µ G σ n (7.33) Kommentar: Hvor stor n må være ( n = antall forsøk ) for at sentralgrensesetningen skal gjelde er avhengig av situasjonen. Men en tommelfingerregel er at vi bør ha: n 30 (7.34) dvs. antall forsøk bør være ca. 30 eller mer. 55

7.6 Diskrete fordelinger normalfordeling Setning: ( Bin[n,p] N[µ,σ] ) For en diskret { }} { binomisk fordeling, X Bin[n, p], hvor n p(1 p) 5 (7.35) så er sannsynligheten X har verdien x være kont. { }} { normalfordelt: ( ) x+0.5 E[X] P(X x) G σ[x] ( ) x 0.5 E[X] P(X x) 1 G σ[x] (7.36) (7.37) hvor forventning og standardavvik er E[X] lign.(7.2) = n p (7.38) σ[x] lign.(7.3) = n p(1 p) (7.39) 56

Setning: ( Hyp[N,M,n] N[µ,σ] ) For en diskret { }} { hypergeometrisk fordeling, X Hyp[N, M, n], hvor N 20 n (7.40) n M N (1 M N ) 5 (7.41) så vil X være tilnærmet en kont. { }} { normalfordeling: ( ) x+0.5 E[X] P(X x) G σ[x] ( ) x 0.5 E[X] P(X x) 1 G σ[x] (7.42) (7.43) hvor forventning og standardavvik er E[X] σ[x] lign.(7.10) = n M N lign.(7.11) = (7.44) n M N (1 M N ) (7.45) 57

Setning: ( Poi[λ] N[µ,σ] ) For en diskret { }} { Poissonfordeling, X Poi[λ], hvor λ 5 (7.46) så vil X være tilnærmet en kont. { }} { normalfordeling: ( ) x+0.5 E[X] P(X x) G σ[x] ( ) x 0.5 E[X] P(X x) 1 G σ[x] (7.47) (7.48) hvor forventning og standardavvik er E[X] lign.(7.15) = λ (7.49) σ[x] lign.(7.16) = λ (7.50) 58

Setning: ( diskret N[µ,σ] ) Dersom X er diskret sannsynlighetsfordeling som er tilnærmet kont. { }} { normalfordelt, dvs. og hvor X kun kan ha hele tall, dvs. X tilnærmet N[µ, σ] (7.51) da gjelder X = diskret stokastisk variabel som kun har hele tall (7.52) ( ) x+0.5 E[X] P(X x) G σ[x] ( ) x 0.5 E[X] P(X x) 1 G σ[x] (7.53) (7.54) hvor E[X] σ[x] lign.(7.15) = forventning til den diskrete variabelen (7.55) lign.(7.16) = variansen til den diskrete variabelen (7.56) 59

7.7 Sammenheng: Bin, Hyp, Poi og N Her er en oversikt over sammenhengene mellom de fire sannsynlighetsfordelingene som inngår i MAT110 Statistikk 1 : Figur 7.3: Oversikt. De blå pilene representerer setningene i lign.(7.13) og lign.(7.18). 60

Bin[ n, p ] Hyp[ N, M, n ] Poi[ λ ] N[ μ, σ ] 2 param. 3 param. 1 param. 2 param. diskret diskret diskret kontinuerlig

Bin[ n, p ] Hyp[ N, M, n ] Poi[ λ ] N[ μ, σ ] 1) 2 mulig utfall 2) samme p for suksess 3) uavhengige 1) x antall suksesser / spesielle 2) N antall i grunnmengden 3) M antall spesielle 1) x antall begivenheter innenfor en gitt tid 2) λ = rate 1) Tetthetsfunksjon f X (x) 2) Gausskurve 4) n antall forsøk 4) n antall trukne elementer - kjenner ikke fordelingen i urnen - m / tilbakelegging - teller opp antall suksesser - kjenner fordelingen i urnen - u / tilbakelegging - teller opp antall suksesser - rate ( konstant ) - antall begivenheter innenfor en gitt tid eller gitt rom - telleforsøk - loven om skjeldne begivenh. - under bestemte betingelser vil mange diskrete og kontinuerige fordelinger med god tilnæring være normalfordelt (f.eks. CLT )

Kapittel 11 Regresjonsanalyse Figur 11.1: Regresjon. 63

11.1 Residual og SSE Definisjon: ( residual ) 1 La (x 1,y 2 ),(x 2,y 2 ),...,(x n,y n ) være observasjonspar/datasett. La videre linjen ŷ = a + bx, hvor a og b er parametre, være en foreslått lineær modell for observasjonsparene. For observasjonsverdien x i, hvor i = 1,2,...,n, er da den tilhørende predikerte/estimerte verdien ŷ i gitt ved: ŷ i = a+bx i (11.1) Residual e i er da definert ved: e i = y i ŷ i (11.2) hvor y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.3) 1 SSE står for sum square error. 64

Definisjon: ( SSE ) 2 La (x 1,y 2 ),(x 2,y 2 ),...,(x n,y n ) være observasjonspar/datasett. Størrelsen SSE, sum squared error, er da definert ved: 3 SSE = n (y i ŷ i ) 2 (11.5) i=1 hvor ŷ i er prediksjonene/estimatene som linjen 4 ŷ i = a + bx i } {{ } prediksjoner (11.6) gir for tilhørende observasjonsverdiene x i, og y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.7) 2 SSE står for sum square error. 3 Siden e i lign.(11.2) = y i ŷ i så kan SSE alternativt skrives: 4 a og b er parametre. SSE = n e 2 i (11.4) i=1 65

11.2 Minste kvadraters regresjonslinje Å finne den linjen ŷ i = a+bx i som passer best med datasettet menes å finne den a og b som gir minst SSE, dvs. minst sum squared error i forhold til datasettet. y Vilkårlig a og b: y og som passer best: y = a + bx e 5 y = + x e 5 e 1 e 2 e 3 e 4 e 3 e 4 e 1 e 2 x x Figur 11.2: Linje som ikke passer best, og linje som passer best. Setning: ( minste kvadraters lineære regresjonslinje ) La (x 1,y 2 ),(x 2,y 2 ),...,(x n,y n ) være observasjonspar/datasett. Minste kvadraters lineære regresjonslinje er da gitt ved: hvor ŷ = ˆα + ˆβx, (11.8) og ˆβ = S xy Sx 2 (11.9) ˆα = y ˆβx (11.10) S 2 x lign.(1.10) = 1 n 1 n i=1 (x i x) 2, S xy lign.(1.12) = 1 n 1 n (x i x)(y i y) (11.11) i=1 samt x = 1 n n i=1 x i og y = 1 n n i=1 y i. 66

11.3 Forklaringsstyrke og SST Definisjon: ( SST ) 5 La (x 1,y 2 ),(x 2,y 2 ),...,(x n,y n ) være observasjonspar/datasett. Størrelsen SST, sum squared total, er da definert ved: SST = n (y i y) 2 (11.12) i=1 hvor y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.13) og y er det empiriske gjennomsnittet, dvs. y lign.(1.3) = 1 n n y i (11.14) i=1 y y i y i = residual y i y i y i y i = total variasjon y x i x Figur 11.3: Residual og total variasjon. 5 SST står for sum square total. 67

Definisjon: ( forklaringskraften ) 6 La x 1,x 2,x 3,...,x n og y 1,y 2,y 3,...,y n være observasjoner. Forklaringskraften R 2 er da: R 2 = 1 SSE SST (11.15) hvor SSE = SST = n (y i ŷ i ) 2 (11.16) i=1 n (y i y) 2 (11.17) i=1 hvor y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.18) og ŷ i er prediksjonene/estimatene som linjen 7 ŷ i = ˆα + ˆβx i } {{ } prediksjoner (11.19) samt y er det empiriske gjennomsnittet, dvs. y = 1 n n y i (11.20) i=1 6 Kalls også forklaringsgrad. 7 Se lign.(11.8). Parametrene/koeffisientene ˆα og ˆβ er parametre gitt ved lign.(11.10) og (11.9). 68