Formelsamling V MAT110 Statistikk 1. Per Kristian Rekdal

Like dokumenter
Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

MAT110. Statistikk 1. Kompendium 2018, del 2. Per Kristian Rekdal

Kompendium V-2016 MAT110. Statistikk 1. Del 2 av 2. Per Kristian Rekdal

FORMELSAMLING TIL STK1100 OG STK1110

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

MAT110. Statistikk 1. Kompendium 2018, del 1. Per Kristian Rekdal

LØSNING: Eksamen 22. mai 2018

Oppgavesett nr. 5. MAT110 Statistikk 1, Et transportfirma har et varemottak for lastebiler med spesialgods, se figur 1.

MAT110 Statistikk 1 Løsningsforslag til eksamensoppgaver

Kompendium V-2014 MAT110. Statistikk 1. Del 2 av 2. Per Kristian Rekdal

FORMELSAMLING TIL STK1100 OG STK1110

Eksamen i. MAT110 Statistikk 1

MAT110. Statistikk 1. Løsning til øvingsoppgaver Per Kristian Rekdal

Oppfriskning av blokk 1 i TMA4240

MAT110. Statistikk 1. Løsning til øvingsoppgaver Per Kristian Rekdal

ÅMA110 Sannsynlighetsregning med statistikk, våren

TMA4240 Statistikk Høst 2008

Kapittel 4: Matematisk forventning

Kapittel 2: Hendelser

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

DEL 1 GRUNNLEGGENDE STATISTIKK

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Formelsamling i medisinsk statistikk

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

HØGSKOLEN I STAVANGER

Eksamen i. MAT110 Statistikk 1

To-dimensjonale kontinuerlige fordelinger

Bernoulli forsøksrekke og binomisk fordeling

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

Betinget sannsynlighet

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

3.1 Stokastisk variabel (repetisjon)

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

LØSNING: Oppgavesett nr. 1

statistikk, våren 2011

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

3.4: Simultanfordelinger (siste rest) 4.1,4.2,4.3: Multivariat del (ferdig med kapittel 3 og 4 etter denne forelesningen)

Løsningsforslag, eksamen statistikk, juni 2015

STK Oppsummering

UNIVERSITETET I OSLO

TMA4245 Statistikk Eksamen desember 2016

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

Statistikk og dataanalyse

Eksamensoppgave i TMA4240 Statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

Stokastisk variabel. Eksempel augefarge

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

Oppgavesett nr. 6. MAT110 Statistikk 1, 2018

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

La U og V være uavhengige standard normalfordelte variable og definer

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Kompendium V-2014 MAT110. Statistikk 1. Del 1 av 2. Per Kristian Rekdal

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

FORMELSAMLING STATISTIKK, HiG

Sannsynlighetsregning og kombinatorikk

Oppgave 1 Vi lar X være antall tankskip som ankommer havnen i løpet av en dag. Vi har fått oppgitt at X poisson(λ) med

UNIVERSITETET I OSLO Matematisk Institutt

Forelening 1, kapittel 4 Stokastiske variable

TMA4240 Statistikk H2015

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Tema 1: Hendelser, sannsynlighet, kombinatorikk Kapittel ST1101 (Gunnar Taraldsen) :19

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Hogskoleni Østfold EKSAMEN. Eksamenstid: kl til k

TMA4240 Statistikk H2015

FORMELSAMLING STATISTIKK, HiG

Forventning og varians.

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

Kap. 6, Kontinuerlege Sannsynsfordelingar

Høgskoleni Øs fold EKSAMEN. Om noe er uklart eller mangelfullt i oppgaven inngår det som en del av oppgaven å ta de nødvendige forutsetninger.

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

MAT110 Statistikk 1. Eksamensoppgaver Per Kristian Rekdal

Kap. 6, Kontinuerlege Sannsynsfordelingar

µ = E(X) = Ʃ P(X = x) x

Statistikk 1 kapittel 5

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Om eksamen. Never, never, never give up!

TMA4240 Statistikk Høst 2016

Fasit for tilleggsoppgaver

Om eksamen. Never, never, never give up!

Forventning og varians.

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

FORMELSAMLING STATISTIKK, HiG Versjon per 10. januar 2002, ved Hornæs

Kap. 6, Kontinuerlege Sannsynsfordelingar

TMA4240 Statistikk 2014

Kapittel 3: Studieopplegg

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Transkript:

Formelsamling V-2016 MAT110 Statistikk 1 Per Kristian Rekdal

Figur 1: Statistikk. 3

Innhold 1 Beskrivende statistikk 9 1.1 Populasjon og utvalg.................................. 9 1.2 Statistiske mål (èn variabel)............................. 11 1.2.1 Lokaliseringsmål................................ 11 1.2.2 Spredningsmål.................................. 12 1.3 Statistiske mål (to variabler)............................ 14 2 Sannsynlighetsregning 15 2.1 Utfallsrom........................................ 16 2.2 Sannsynligheter..................................... 16 2.3 Begivenhet........................................ 18 2.4 Mengdelære....................................... 19 2.5 Regning med sannsynligheter............................. 20 2.5.1 Addisjonssetningen............................... 20 2.5.2 Komplementsetningen............................. 23 2.5.3 Total sannsynlighet............................... 23 2.5.4 Tvillingsetningene................................ 24 3 Kombinatorikk 25 3.1 Koblinger........................................ 26 3.2 4 situasjoner (endelig populasjon)........................... 27 4 Betinget sannsynlighet 29 4.1 Betinget sannsynlighet................................. 30 4.1.1 Multiplikasjonssetningen............................ 30 4.1.2 Bayes lov.................................... 31 4.2 Oppsplitting av Ω.................................... 32 4.3 Uavhengighet...................................... 34 5 Tilfeldige variabler, forventning og varians 35 5.1 Tilfeldige variabler................................... 36 5.2 Forventning og varians................................. 37 5.2.1 Forventning................................... 37 5.2.2 Varians..................................... 38 5.2.3 Noen regneregler................................ 39 5.3 Generelle forventninger................................. 40 5

6 Simultane sannsynlighetsfordelinger 41 6.1 Simultan- og marginalfordeling............................ 42 6.2 Generelle forventninger................................. 43 6.3 Kovarians........................................ 45 7 Sentrale sannsynlighetsfordelinger 49 7.1 Den binomiske fordelingen............................... 50 7.1.1 Forventingsverdi................................ 51 7.1.2 Varians..................................... 51 7.2 Den hypergeometriske fordelingen........................... 52 7.2.1 Forventning og varians............................. 54 7.3 Sammenheng mellom Hyp[N, M, n] og Bin[n, p]................... 55 7.4 Poissonfordelingen................................... 56 7.4.1 Forventning og varians............................. 58 7.5 Normalfordelingen (kontinuerlig).......................... 59 7.5.1 Standardisering................................. 61 7.5.2 Sammenhengen mellom P (Z z) og G(z).................. 62 7.5.3 Standardavvik σ og %-vis areal........................ 65 7.6 Sentralgrensesetningen................................. 68 7.7 Diskrete fordelinger normalfordeling...................... 71 7.8 Sammenheng: Bin, Hyp, Poi og N.......................... 75 7.9 Sum av uavhengige stokastiske variabler....................... 76 11 Regresjonsanalyse 81 11.1 Introduksjon....................................... 82 11.2 Residual og SSE.................................... 83 11.3 Minste kvadraters regresjonslinje........................... 85 11.4 Forklaringsstyrke og SST............................... 86 6

Forord Dette er formelsamlingen i emnet MAT110 Statistikk 1 ved høgskolen i Molde. Formlene i denne formelsamlingen er stort sett de formlene som er markert med rød skrift og ramme rundt i kompendiet. Studentene oppfordres til å bruke formelsamlingen aktivt når øvingsoppgaver skal løses. Hjelpemidler eksamen: Godkjent kalkulator og formelsamling. Kun originalversjonen av formelsamlingen utgitt av SiMolde Bok er lov å ha med på eksamen. (Dette fordi det skal være lett å se at dere har med den riktige og lovlige formelsamlingen på eksamen). Det er lov å skrive egne notater i formelsamlingen som dere kan ta med på eksamen. Men: Ikke skriv av hele eksempler og hele oppgaver. (Dersom dette blir praktisert i stor grad må vi revurdere denne ordningen i forhold til neste års studenter). En gratis PDF-versjon av formelsamlingen kan lastes ned fra www.himoldex.no. Per Kristian Rekdal Copyright c Høyskolen i Molde, mars 2016. 7

8

Kapittel 1 Beskrivende statistikk 1.1 Populasjon og utvalg Definisjon: ( populasjon ) Populasjon = den totale mengden av objekter/data som vi ønsker å analysere Definisjon: ( utvalg ) Utvalg = en delmengde av populasjonen, dvs. en samling av data som er hentet fra en populasjon Definisjon: ( statistisk inferens ) Statistisk inferens = det å tolke/analysere utvalget for å finne ut mest mulig om hele populasjonen 9

Populasjon Trekning av utvalg Utvalg Statistisk inferens Beskrivende statistikk Utvalgsresultater Figur 1.1: Prosessen ved statistisk inferens, generelt. Prosessen for statistisk inferens er illustrert generelt i figur (1.1). 10

1.2 Statistiske mål (èn variabel) 1.2.1 Lokaliseringsmål Definisjon: ( median ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: median = midtre observasjonen, n = odde gjennomsnitt av to midterste observasjonene, n = like (1.1) Definisjon: ( typetall ) 1 La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: typetall = den verdien som forekommer hyppigst (1.2) Definisjon: ( gjennomsnitt ) La x 1, x 2, x 3,..., x n være n antall observasjoner. Da er gjennomsnittet: 2 x = 1 n n x i (1.3) i=1 1 Kalles også modus eller modalverdi. 2 Σ = den greske bokstaven sigma. F.eks. Σ 3 i=1 x i = x 1 + x 2 + x 3. 11

1.2.2 Spredningsmål Definisjon: ( modalprosent ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: modalprosent = %-vis andel av observasjonene som har verdi lik typetallet (1.4) Definisjon: ( variasjonsbredde ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: variasjonsbredde = differansen mellom største og minste verdi (1.5) Definisjon: ( kvartilavvik ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: k 1 = nedre kvartil, dvs. 25% av observasjonene har verdi k 1 (1.6) 50% av observasjonene har verdi k 2 k 2 = medianen, dvs. (1.7) 50% av observasjonene har verdi k 2 k 3 = øvre kvartil, dvs. 75% av observasjonene har verdi k 3 (1.8) Da er kvartilavvik = k 3 k 1 (1.9) 12

Definisjon: ( empirisk varians ) 3 La x 1, x 2, x 3,..., x n være observasjoner, og la x være gjennomsnittet. Da er den empiriske variansen: 4 S 2 x = 1 n 1 n (x i x) 2 (1.10) i=1 Definisjon: ( empirisk standardavvik ) 5 Det empiriske standardavviket er: S x = S 2 x (1.11) 3 Kalles også utvalgsvariansen. 4 Ulike estimater av variansen: I lign.(1.10) deler man på n 1, og ikke n. Om vi bruker det ene eller det andre er avhengig om x er gjennomsnittet for hele populajonen, eller bare et utvalg. I dette kurset skal vi imidlertid holde oss til definisjonen i lign.(1.10). 5 Kalles også utvalgstandardavviket. 13

1.3 Statistiske mål (to variabler) Definisjon: ( empirisk kovarians ) 6 La x 1, x 2, x 3,..., x n og y 1, y 2, y 3,..., y n være observasjoner, og la x samt y være de respektive gjennomsnitt. Den empiriske kovariansen er da: 7 S xy = 1 n 1 n (x i x)(y i y) (1.12) i=1 Definisjon: ( korrelasjonskoeffisient ) La x 1, x 2, x 3,..., x n og y 1, y 2, y 3,..., y n være observasjoner. Korrelasjonskoeffisienten er da: R xy = S xy S x S y (1.13) 6 Kalles også utvalgskovariansen. 7 Ulike estimater av kovariansen: (samme kommentar som på side 13) I lign.(1.12) deler man på n 1, og ikke n. Om vi bruker det ene eller det andre er avhengig om x og y er gjennomsnitt for hele sine respektive populajoner, eller bare et utvalg. I dette kurset skal vi imidlertid holde oss til definisjonen i lign.(1.12). 14

Kapittel 2 Sannsynlighetsregning Figur 2.1: Sannsynlighetsregning. 15

2.1 Utfallsrom Definisjon: ( utfallsrom ) Resultatet av et stokastisk forsøk 1 kan ikke forutsies entydig, men det kan angis en mengde mulige enkeltutfall. Denne mengden av mulige enkeltutfall kalles utfallsrom: 2 Ω = { mengden av alle mulige enkeltutfall } (2.1) 2.2 Sannsynligheter Definisjon: ( relativfrekvens ) La n være totalt antall forsøk. Og la n A være antall ganger, av de totalt n forsøkene, hvor et bestemt utfall A inntreffer. Den reletive frekevens for utfallet A er da: f r (n A ) = n A n (2.2) hvor altså n = totalt antall forsøk (2.3) n A = antall ganger hvor utfallet A inntreffer (2.4) 1 Dvs. forsøk med uforutsigbart utfall. 2 Den greske bokstaven Ω kalles omega. 16

Definisjon: ( sannsynlighet ) La n være totalt antall forsøk. Og la n A være antall ganger, av de totalt n forsøkene, hvor et bestemt utfall A inntreffer. Sannsynligheten for for at utfallet A inntreffer er da: p(a) = lim f r (n A ) (2.5) n hvor f r (n) er relativ frekvens. Egenskaper ved sannsynligheten: ( diskret utfallsrom ) Med kortnotasjonen p i p(u i ) så gjelder: 0 p i 1, for alle i = 1, 2, 3,..., n (2.6) n i=1 p i = 1 (2.7) hvor n i=1 p i = p 1 + p 2 + p 3 +... + p n. 17

2.3 Begivenhet Definisjon: ( begivenhet ) begivenhet = delmengde av utfallsrommet (2.8) A Ω Figur 2.2: Et venn-diagram for en begivenhet. Ω er utfallsrommet og A er en begivenhet. Egenskaper for en begivenhet: ( diskret utfallsrom ) P (A) = u A p(u) (2.9) I tillegg kan vi nå skrive lign.(2.6) og (2.7) på en alternativ måte: 0 P (A) 1, for alle A (2.10) P (Ω) = e Ω p(e) = 1 (2.11) 18

2.4 Mengdelære For et eksperiment, la A og B være to begivenheter i utfallsrommet Ω. Ω A Ω A A Utfallsrommet Ω er hele det blå området. Begivenheten A visualiseres ved det blå området. A benevnes ikke A Figur 2.3: Utfallsrommet Ω, begivenheten A og komplementet A. Ω A B Ω A Ω A B A ᴜ B B Snitt: A B betyr A og B. Tilsvarer OVERLAPP av mengder. Union: A ᴜ B betyr A eller B. Tilsvarer SUM av mengder. Figur 2.4: Snitt, union og disjunkt. Disjunkt: A B = Ø. A og B inntreffer ALDRI samtidig. Ingen felles elementer. 19

2.5 Regning med sannsynligheter Definisjon: ( disjunkte begivenheter) To begivenheter A og B er disjunkte dersom A og {}}{ B =. A B Ω Disjunkt: A B = Ø. A og B inntreffer ALDRI samtidig. Ingen felles elementer. Figur 2.5: A og B er disjunkt. 2.5.1 Addisjonssetningen Setningen: ( den spesielle addisjonssetningen ) Dersom begivenhetene A og B er disjunkte, dvs. A og {}}{ B =, så gjelder: P (A eller {}}{ B) = P (A) + P (B) (2.12) 20

Setningen: ( den generelle addisjonssetningen ) For begivenhetene A og B gjelder: eller {}}{ P (A B) = P (A) + P (B) P (A og {}}{ B) } {{ } ekstra ledd (2.13) A B Figur 2.6: Overlappen mellom A og B er A B. 21

Setningen: ( den generelle addisjonssetningen ) For begivenhetene A, B og C gjelder: P (A B C) }{{} eller = P (A) + P (B) + P (C) P (A B) P (A C) P (B C) + P (A B C) } {{ } og (2.14) som kan illustrereres via venn-diagrammet i figur (2.7). A B C Figur 2.7: Begivenhetene mellom A, B og C. 22

2.5.2 Komplementsetningen Setningen: ( komplementsetningen ) For begivenheten A og dens komplement A (eller A c ) gjelder: P (A) = 1 P (A) (2.15) A A A benevnes ikke A. Figur 2.8: Komplementet til A er A (eller A c ). 2.5.3 Total sannsynlighet Setningen: ( total sannsynlighet ) For begivenhetene A og B gjelder: P (A) = P (A B) + P (A B) (2.16) A B A B A B Figur 2.9: Oppsplitting av begivenhenten A = (A B) (A B). 23

2.5.4 Tvillingsetningene Setninger: ( tvillingsetningene ) og eller {}}{{}}{ P (A B) = 1 P (A B) (2.17) og eller {}}{{}}{ P (A B) = 1 P (A B) (2.18) 24

Kapittel 3 Kombinatorikk Figur 3.1: Kombinatorikk. En lås med svært mange kombinasjonsmuligheter. 25

3.1 Koblinger Definisjon: ( koblinger ) Koblinger = forhold som gjør at et bestemt valg kan påvirke utfallet av andre valg vi skal gjøre. Grunnprinsipp i kombinatorikk: ( antagelse ) Ingen kobling mellom mellom valgmulighetene. (Med koblinger blir det fort vanskelig). Kombinasjoner: ( uten koblinger ) Dersom vi har m 1 = antall muligheter i valg nr. 1 m 2 = antall muligheter i valg nr. 2.. m N = antall muligheter i valg nr. N (3.1) da er antall mulige kombinasjoner = m 1 m 2 m 3... m N (3.2) 26

3.2 4 situasjoner (endelig populasjon) Det er ofte vanskelig å telle opp antall elementer i utfallsrommet. Det kan derfor ofte lønne seg å bruke urnemodellen. Tenk deg at alle mulige utfall av et eksperiment er representert ved kuler som ligger i en urne. Så trekker vi kuler etter tur. Da må vi skille mellom: er det trekking med eller uten tilbakelegging? betyr det noe i hvilken rekkefølge kulene trekkes? trekning m/tilbakelegging u/tilbakelegging ordnet situasjon 1 situasjon 2 ikke-ordnet situasjon 4 (forekommer sjelden) situasjon 3 Figur 3.2: 4 situasjoner for urnemodellen. 27

Egenskaper til binomialkoeffisienten ( ) N : ( N over s ) s ( ) N = s }{{} binomialkoeff. N! (N s)! s! (3.3) hvor f.eks. s! = 1 2 3... (s 2) (s 1) s (3.4) 5! = 1 2 3 4 5 (3.5) Legg merke til at ( ) N 0 ( ) N 1 ( ) N N = = = N! (N 0)! 0! N! (N 1)! 1! N! (N N)! N! = 1 (3.6) = N (3.7) = 1 (3.8) siden 0! = 1. 28

Kapittel 4 Betinget sannsynlighet Figur 4.1: Gitt at vi vet hvilke kuler som er i bøtten, hva er sannsynligheten for å trekke en hvit kule? 29

4.1 Betinget sannsynlighet 4.1.1 Multiplikasjonssetningen Setning: ( multiplikasjonssetningen, generelle ) For begivenhetene A og B gjelder: P (A og {}}{ B) = P (A B) P (B) (4.1) hvor P (A B) = og -sannsynligheten for A og B (4.2) P (A B) = sannsynligheten for A gitt at B allerede har inntruffet ( A gitt B ) ( betinget sannsynlighet) P (B) = sannsynligheten for B 0 (4.3) (ubetinget sannsynlighet) For en betinget sannsynlighet står det vi vet til høyre for : P (B A) = P (B når } vi {{ veta} ) (4.4) vet 30

4.1.2 Bayes lov Setning: ( Bayes lov ) For begivenhetene A og B gjelder: P (A B) = P (B A) P (A) P (B) (4.5) eller alternativt: P (B A) = P (A B) P (B) P (A) (4.6) Figur 4.2: Bayes lov. Thomas Bayes. 31

4.2 Oppsplitting av Ω Setningen: ( oppsplitting av Ω i 2 ) {}}{ Anta at utfallsrommet Ω splittes i to delrom Ω = B 1 B 2, der B 1 B 2 =, dvs. delrommene B 1 og B 2 har ingen felles elementer: de er disjunkte. Enhver mengde A kan da skrives: eller med tilhørende sannsynlighet A = (A B 1 ) eller {}}{ (A B 2 ) (oppsplitting) (4.7) P (A) = P (A B 1 ) + P (A B 2 ) (4.8) Alternativt 1 kan lign.(4.8) skrives: P (A) = P (A B 1 ) P (B 1 ) + P (A B 2 ) P (B 2 ) (4.9) Ω: B 1 A B 2 Figur 4.3: Oppsplitting av sannsynlighetsrom Ω, jfr. lign.(4.7). 1 Via multiplikasjonssetningen i lign.(4.1): P (A og {}}{ B) = P (A B) P (B). 32

Setningen: ( oppsplitting av Ω ) eller eller eller eller {}}{{}}{{}}{{}}{ Anta at utfallsrommet Ω splittes i delrom Ω = B 1 B 2 B 3... B N, der alle B i B j =, dvs. ingen delrom B 1, B 2,..., B N har noen felles elementer: disjunkte 2. Enhver mengde A kan da skrives: eller {}}{ A = (A B 1 ) (A B 2 ) med tilhørende sannsynlighet eller {}}{... eller {}}{ (A B N ) (oppsplitting) (4.10) P (A) = P (A B 1 ) + P (A B 2 ) +... + P (A B N ) (4.11) Alternativt 3 kan lign.(4.11) skrives: P (A) = P (A B 1 ) P (B 1 ) + P (A B 2 ) P (B 2 ) +... + P (A B N ) P (B N ) (4.12) B 1 B 2 B 3..... B N Ω: A Figur 4.4: Oppsplitting av sannsynlighetsrom Ω, jfr. lign.(4.10). 2 Bitene i et puslespill overlapper akkurat ikke. Bitene i puslespillet er disjunkte. og {}}{ 3 Via multiplikasjonssetningen i lign.(4.1): P (A B) = P (A B) P (B). 33

4.3 Uavhengighet Definisjon: ( uavhengighet ) To begivenheter A og B er uavhengige dersom P (A B) = P (A) (4.13) Setning: ( multiplikasjonssetningen, spesielle ) Dersom begivenhetene A og B er uavhengige, så gjelder: P (A og {}}{ B) uavh. = P (A) P (B) (4.14) 34

Kapittel 5 Tilfeldige variabler, forventning og varians Figur 5.1: Forventning (svart linje) og varians. 35

5.1 Tilfeldige variabler Definisjon: ( tilfeldig/stokastisk variabel ) En stokastisk variabel er en størrelse X som kan anta ulike verdier x med ulike sannsynligheter. 1 Definisjon: ( sannsynlighetsfordeling, diskret ) En sannsynlighetsfordeling til en diskret variabel er en funksjon definert ved P (x) }{{} = P (X = x) }{{} liten x for verdier stor X for selve variabelen (5.1) Definisjon: ( kumulativ sannsynlighetsfordeling, diskret ) Den kumulative sannsynlighetsfordeling F til en diskret variabel X er definert ved F (x) = P (X x) (5.2) 1 En mer teknisk (matematisk) versjon av definisjonen av en stokastisk variabel er: Med en tilfeldig variabel mener vi en funksjon X som til ethvert mulig utfall definerer et bestemt reelt tall. 36

5.2 Forventning og varians 5.2.1 Forventning Definisjon: ( forventningsverdi, diskret ) 2 For en diskret tilfeldig variabel X med de mulige verdiene x 1, x 2,..., x m er forventningsverdien: E[X] = m i=1 x i P (X = x i ) (5.3) Definisjon: ( forventningsverdi, kontinuerlig ) For en kontinuerlig tilfeldig variabel X er forventningsverdien: E[X] = x f(x) dx (5.4) hvor f(x) = sannsynlighetstettheten av x. 2 Jamfør den analoge størrelsen for (empirisk) gjennomsnitt definert i lign.(1.3): x = 1 n n i=1 x i. 37

5.2.2 Varians Definisjon: ( varians, diskret ) For en diskret tilfeldig variabel X er variansen V ar[x] = E[ (X E[X]) 2 ] (5.5) Setning: ( varians ) La X være en stokastisk variabel. For variansen gjelder da: V ar[x] = E[X 2 ] E[X] 2 (5.6) Definisjon: ( standardavvik, diskret ) 3 For en diskret tilfeldig variabel X er standardavviket σ[x] V ar[x] (5.7) 3 Jamfør den analoge størrelsen for (empirisk) standardavvik definert i lign.(1.11): S x = S 2 x. 38

5.2.3 Noen regneregler La a og b være konstanter. La videre X og Y være to stokastiske variabler. Da gjelder: Regneregler for forventning: E[a] = a (5.8) E[a + X] = a + E[X] (5.9) E[a X] = a E[X] (5.10) E[aX + by ] = ae[x] + be[y ] (5.11) Regneregler for varians: V ar[a] = 0 (5.12) V ar[a + X] = V ar[x] (5.13) V ar[a X] = a 2 V ar[x] (5.14) V ar[x] = V ar[ X] (5.15) Dessuten er alltid V ar[x] 0, dvs. en varians kan aldri være negativ. 39

5.3 Generelle forventninger Definisjon: ( generell forventningsverdi, diskret ) For en diskret tilfeldig variabel X og en vanlig funksjon h(x) så er E[h(X)] = m i=1 h(x i ) P (X = x i ) (5.16) 40

Kapittel 6 Simultane sannsynlighetsfordelinger Figur 6.1: Simultane sannsynlighetsfordelinger. 41

6.1 Simultan- og marginalfordeling Definisjon: ( simultanfordeling ) La X og Y være to stokastiske variabler. Med simultanfordeling menes: p(x, y) = P (X = x og Y = y) (6.1) Definisjon: ( marginalfordeling ) La X og Y være to stokastiske variabler. Med marginalfordeling menes: P (X = x) = y p(x, y) (6.2) P (Y = y) = x p(x, y) (6.3) Definisjon: ( uavhengighet ) 1 La X og Y være to stokastiske variabler. Disse er uavhengige dersom: P (X = x og Y = y) }{{} = p(x,y) = P (X = x) P (Y = y) (6.4) for alle X = x og Y = y. 1 Jamfør den analoge setn. for uavhengighet mellom begivenheter A og B i lign.(4.14): P (A B) = P (A) P (B). 42

6.2 Generelle forventninger Definisjon: ( generell forventingsverdi, diskret ) For diskrete stokastiske variabel X, Y og funksjonen h(x, Y ) så gjelder E[h(X, Y )] = m n i=1 j=1 h(x i, y j ) p(x i, y j ) (6.5) Spesialtilfelle: La oss se på et spesialtilfelle av lign.(6.5), nemlig det spesialtilfellet når: h(x, Y ) = X Y (6.6) Da er: E[X Y ] = m n i=1 j=1 x i y j p(x i, y j ) (6.7) 43

Setning: ( uavhengighet ) La X og Y være to uavhengige stokastiske variabler 2. Da gjelder: E[X Y ] = E[X] E[Y ] (6.9) 2 Ut fra definisjonen av uavhengighet mellom to stokastiske variabler ( se lign.(6.4) ) så vet vi X og Y er uavhengige dersom: P (X = x og Y = y) }{{} = p(x,y) lign.(6.4) = P (X = x) P (Y = y) (6.8) for alle X = x og Y = y. 44

6.3 Kovarians Definisjon: ( kovarians ) 3 La X og Y være to stokastiske variabler. Med samvariasjon/korrelasjon {}}{ kovariansen mellom disse mener vi: samvariasjon/korrelasjon {}}{ Cov[X, Y ] = E[ (X E[X])(Y E[Y ]) ] (6.10) Setning: ( kovarians ) La X og Y være to stokastiske variabler. For samvariasjon/korrelasjon {}}{ kovariansen gjelder da: samvariasjon/korrelasjon {}}{ Cov[X, Y ] = E[X Y ] E[X] E[Y ] (6.11) Setning (spesialtilfelle, kovarians ) La X og Y være to stokastiske variabler. Dersom X og Y er uavhengige, dvs.: E[X Y ] uavh. = E[X] E[Y ] (6.12) så er Cov[X, Y ] = 0 }{{} X og Y ukorrelerte (6.13) 3 Jamfør den analoge definisjonen av empirisk kovarians i lign.(1.12): S xy = 1 n 1 n i=1 (x i x)(y i ȳ). 45

Definisjon: ( korrelasjonskoeffisienten ) 4 La X og Y være to stokastiske variabler. Med korrelasjonskoeffisienten ρ[x, Y ] mener vi da: 5 ρ[x, Y ] = samvariasjon/korrelasjon {}}{ Cov[X, Y ] V ar[x] } {{ } spredning V ar[y ] }{{} spredning (6.15) 4 Jamfør den analoge definisjonen av korrelasjonskoeffisienten R xy i lign.(1.13): R xy = Sxy S x S y. 5 Siden σ[x] V ar[x], se lign.(5.7), så kan korrelasjonskoeffisienten ρ[x, Y ] skrives på en alternativ måte: ρ[x, Y ] = samvariasjon/korrelasjon {}}{ Cov[X, Y ] σ[x] }{{} spredning σ[y ] }{{} spredning (6.14) 46

Setning: ( kovarians II ) La X og Y være to stokastiske variabler. Generelt gjelder da følgende sammenhengen mellom variansen og kovariansen: samvariasjon variasjon/(spredning) {}}{{}}{ V ar[ax + by ] = a 2 V ar[x] + b 2 V ar[y ] + 2ab Cov[X, Y ] (6.16) hvor a og b er konstanter. Setning (spesialtilfelle, kovarians II ) La X og Y være to stokastiske variabler. Dersom X og Y er ukorrelerte, så er: Da gjelder: Cov[X, Y ] = 0 (6.17) V ar[ax + by ] = a 2 V ar[x] + b 2 V ar[y ] (6.18) 47

48

Kapittel 7 Sentrale sannsynlighetsfordelinger Figur 7.1: Sentralgrensesetningen ( CLT ). 49

7.1 Den binomiske fordelingen 2 param. diskret {}}{{}}{ Definisjon: ( binomisk fordeling, X Bin[n, p] ) Punktsannsynlighetene for en binomisk fordeling er P (X = x) def. = ( ) n p x (1 p) n x (7.1) x hvor X = stokastisk variabel (7.2) = antall suksesser i en binomisk forsøksserie på totalt n forsøk p = sannsynlighet for suksess (7.3) n = totalt antall forsøk (7.4) ( ) n x }{{} binomialkoeff. = n! (n x)! x! ( n over x ) (7.5) P(X=x) x Figur 7.2: Binomiske sannsynlighetsfordelinger P (X = x). 50

7.1.1 Forventingsverdi Setning: ( forventing av X 2 param. {}}{ Bin[n, p] ) La X være en binomisk variabel, dvs. X Bin[n, p]. Da gjelder: E[X] = n p (7.6) 7.1.2 Varians Setning: ( varians av X 2 param. {}}{ Bin[n, p] La X være en binomisk variabel, dvs. X Bin[n, p]. Da gjelder: V ar[x] = n p (1 p) (7.7) 51

7.2 Den hypergeometriske fordelingen Definisjon: ( diskret 3 param. {}}{{}}{ hypergeometrisk fordeling, X Hyp[N, M, n] Punktsannsynlighetene for en hypergeometrisk fordeling er P (X = x) def. = ( ) ( ) M N M x n x ( ) (7.8) N n hvor X = stokastisk variabel = antall spesielle elementer i det tilfeldige utvalget på (7.9) n trukne elementer N = antall elementer i grunnmengden (7.10) M = antall spesielle elementer (7.11) N M = antall vanlige elementer (7.12) n = antall trukne elementer (7.13) ( ) N n }{{} binomialkoeff. = N! (N n)! n! ( N over n ) (7.14) 52

P(X=x) x Figur 7.3: Hypergeometriske sannsynlighetsfordelinger P (X = x). 53

7.2.1 Forventning og varians Setning: ( forventing av X 3 param. {}}{ Hyp[N, M, n] La X være en hypergeometrisk variabel, dvs. X Hyp[N, M, n]. Da gjelder: E[X] = n M N (7.15) Setning: ( varians av X 3 param. {}}{ Hyp[N, M, n] ) La X være en hypergeometrisk variabel, dvs. X Hyp[N, M, n]. Da gjelder: V ar[x] = N n N 1 n M ( N 1 M ) N (7.16) 54

7.3 Sammenheng mellom Hyp[N, M, n] og Bin[n, p] Setning: ( 3 param. {}}{ Hyp[N, M, n] 2 param. {}}{ Bin[n, p] ) Dersom grunnmengden N i en hypergeometrisk forsøkserie er mye større enn utvalget n, typisk så er N 20 n (7.17) X Hyp[N, M, n] N 20 n X Bin[n, p] (7.18) 55

7.4 Poissonfordelingen Definisjon: ( diskret 1 param. {}}{{}}{ Poissonfordeling, X Poi[λ] ) 1 Punktsannsynlighetene for en Poissonfordeling er P (X = x) def. = λx x! e λ (7.19) hvor X = stokastisk variabel = antall begivenheter som inntreffer innenfor en gitt tid eller gitt rom (7.20) λ = gjennsomsnittlig antall begivenheter innenfor en gitt tid eller gitt rom (7.21) P(X=x) x Figur 7.4: Poissonfordelinger P (X = x). 1 Kalles ofte loven om sjeldne begivenheter. 56

2 param. {}}{ Setning: ( Bin[n, p] 1 param. {}}{ Poi[λ] ) I en binomisk sannsynlighetsfordeling, dersom sannsynligheten for suksess p er svært liten og antall forsøk n er svært stor, typisk så er n 50 og p 0.05 (7.22) X Bin[n, p] n 50 og p 0.05 X Poi[λ] (7.23) 57

7.4.1 Forventning og varians Setning: ( forventing av X Poi[λ] 2 ) La X være en Poissionfordelt variabel, dvs. X Poi[λ]. Da gjelder: E[X] = λ (7.24) Setning: ( varians av X Poi[λ] ) La X være en Poissonfordelt variabel, dvs. X Poi[λ]. Da gjelder: V ar[x] = λ (7.25) 2 Skrivemåten X Poi[λ] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x) som er Poissonfordelt. 58

7.5 Normalfordelingen (kontinuerlig) Definisjon: ( generelle kont. {}}{ normalfordeling ) La X være en kontinuerlig stokastisk variabel. Den generelle normalfordelingen for X er f X (x) = 1 2π σ 2 e (x µ)2 2 σ 2 (7.26) hvor µ = E[X] = forventingen av X ( lokalisering av toppunkt ) (7.27) σ 2 = V ar[x] = variansen av X (7.28) σ = σ 2 = standardavviket av X ( halvbredden av kurven ) (7.29) f X (x) x Figur 7.5: Tetthetsfunksjoner f X (x) til ulike normalfordelinger. 59

Definisjon: ( standardisert kont. {}}{ normalfordeling, X N[µ = 0, σ = 1] ) La X være en kontinuerlig stokastisk variabel. Dersom E[X] = µ = 0, V ar[x] = σ 2 = 1 (7.30) så vil den generelle normalfordelingen i lign.(7.26) redusere seg til f X (x) = 1 2π e x2 2 (7.31) Dette kalles den standardiserte normalfordelingen. 60

7.5.1 Standardisering Omskalering: ( variabelskifte ) Z = X µ σ (7.32) Matematisk betyr det faktum at µ = 0 og σ = 1 i den nye omskalerte variabelen, følgende: E[Z] = 0, V ar[z] = 1 (7.33) 61

7.5.2 Sammenhengen mellom P (Z z) og G(z) arealet til venstre for z = sannsynligheten for at den stokastiske variabelen Z har verdier mindre eller lik z = P (Z z) (7.34) Arealet til venstre for z er det samme som integralet under grafen f Z (z): P (Z z) = stopp start = = G(z) {}}{ z f Z (s) ds def. = G(z) (7.35) Gaussintegralet G(z) behøver ikke regnes ut av oss. Det er tabelloppslag. f Z (z) areal = G(z) σ = 1 μ = 0-1 z 1 z Figur 7.6: Arealet som vist representerer sannsynligheten P (Z z). 62

P(Z z) = G(z) z 63

Setning: ( egenskap til G(z) ) Fra figur (7.7) innser vi at G(z) + G( z) = arealet under hele kurven = 1 (7.36) Altså vi kan skrive: eller ekvivalent G( z) = 1 G(z) (7.37) P (Z z) = 1 P (Z z) (7.38) f Z (z) f Z (z) areal = G(z) areal = G(-z) z z - z z Figur 7.7: Arealene representerer Gaussintegralene G(z) og G( z). 64

7.5.3 Standardavvik σ og %-vis areal Som vi har lært tidligere så er varians og standardavvik et mål på spredning. For en normalfordeling med et gitt standardavvik σ, så dekker intervallet µ σ X µ + σ hele 68.2 % av arealet (7.39) under sannsynlighetfordelingen f X (x). Tilsvarende dekker intervallet µ 2σ X µ + 2σ hele 95.4 % av arealet (7.40) under sannsynlighetfordelingen f X (x). Dette er illustrert i denne figuren: f X (x) z x Figur 7.8: Standardavvik σ og %-vis areal for en normalfordeling. 65

Bin[ n, p ] Hyp[ N, M, n ] Poi[ λ ] N[ μ, σ ] 2 param. 3 param. 1 param. 2 param. diskret diskret diskret kontinuerlig

Bin[ n, p ] Hyp[ N, M, n ] Poi[ λ ] N[ μ, σ ] 1) 2 mulig utfall 2) samme p for suksess 3) uavhengige 1) x antall suksesser / spesielle 2) N antall i grunnmengden 3) M antall spesielle 1) x antall begivenheter innenfor en gitt tid 2) λ = rate 1) Tetthetsfunksjon f X (x) 2) Gausskurve 4) n antall forsøk 4) n antall trukne elementer - kjenner ikke fordelingen i urnen - m / tilbakelegging - teller opp antall suksesser - kjenner fordelingen i urnen - u / tilbakelegging - teller opp antall suksesser - rate ( konstant ) - antall begivenheter innenfor en gitt tid eller gitt rom - telleforsøk - loven om skjeldne begivenh. - under bestemte betingelser vil mange diskrete og kontinuerige fordelinger med god tilnæring være normalfordelt (f.eks. CLT )

7.6 Sentralgrensesetningen Setning: ( CLT 3, sentralgrensesetningen ) La X 1, X 2, X 3,... X n være uavhengige stokastiske variabler med samme P (X = x i ), dvs. diskret ELLER kont. {}}{ sannsynlighetsfordeling X i samme sannsynlighetsfordeling for alle i = 1, 2, 3,..., n (7.41) hvor n er antall forsøk, dvs. E[X i ] = µ og V ar[x i ] = σ 2, i = 1, 2, 3,..., n (7.42) er den samme for alle forsøk / gitt stokastisk variabel i. Da gjelder at gjennomsnittet X: X = X 1 + X 2 + X 3 +... + X n n er normalfordelt i grensen når antall forsøk n blir stor: X n = stor [ ] σ N µ, n (7.44) (7.43) altså P (X = x) er normalfordelt med forventning og varians hhv. E[ X ] = µ og V ar[ X ] = σ2 n (7.45) 3 På engelsk brukes ofte forkortelsen CLT, dvs. central limit theorem. 68

Det er en alternativ måte å formulere sentralgrensesetningen på: Setning: ( sentralgrensesetningen og G(z) ) diskret ELLER kont. {}}{ La X 1, X 2, X 3,... X n være n stk. uavhengige stokastiske variabler med samme sannsynlighetsfordeling med µ som forventingsverdi og σ 2 som varians, dvs. E[X i ] = µ og V ar[x i ] = σ 2, i = 1, 2, 3,..., n (7.46) Gjennomsnittet X av disse n stk. stokastiske variablene X = 1 ( ) X 1 + X 2 + X 3 +... + X n n (7.47) er da normalfordelt for store n, dvs. P (X x) n = stor ( ) x µ G σ n (7.48) hvor G(z) = gitt ved lign.(??) (7.49) σ = er standardavviket for en gitt stokastisk variabel X i (7.50) 69

Kommentar: Hvor stor n må være ( n = antall forsøk ) for at sentralgrensesetningen skal gjelde er avhengig av situasjonen. Men en tommelfingerregel er at vi bør ha n 30 (7.51) dvs. antall forsøk bør være ca. 30 eller mer. 70

7.7 Diskrete fordelinger normalfordeling Setning: ( Bin[n, p] N[µ, σ] ) For en diskret {}}{ binomisk fordeling, X Bin[n, p], hvor n p (1 p) 5 (7.52) så er sannsynligheten X har verdien x være kont. {}}{ normalfordelt, dvs. X N [ E[X], σ[x] ], slik at: P (X x) ( ) x + 0.5 E[X] G σ[x] P (X x) ( ) x 0.5 E[X] 1 G σ[x] (7.53) (7.54) hvor forventning og standardavvik er E[X] lign.(7.6) = n p (7.55) σ[x] lign.(7.7) = n p (1 p) (7.56) 71

Setning: ( Hyp[N, M, n] N[µ, σ] ) For en diskret {}}{ hypergeometrisk fordeling, X Hyp[N, M, n], hvor N 20 n (7.57) n M N ( 1 M N ) 5 (7.58) så vil X være tilnærmet en kont. {}}{ normalfordeling, dvs. X N [ E[X], σ[x] ], slik at: P (X x) ( ) x + 0.5 E[X] G σ[x] P (X x) ( ) x 0.5 E[X] 1 G σ[x] (7.59) (7.60) hvor forventning og standardavvik er E[X] σ[x] lign.(7.15) = n M N lign.(7.16) = N n N 1 n M ( 1 M N N ) (7.61) (7.62) 72

Setning: ( Poi[λ] N[µ, σ] ) For en diskret {}}{ Poissonfordeling, X Poi[λ], hvor λ 5 (7.63) så vil X være tilnærmet en kont. {}}{ normalfordeling, dvs. X N [ E[X], σ[x] ], slik at: P (X x) ( ) x + 0.5 E[X] G σ[x] P (X x) ( ) x 0.5 E[X] 1 G σ[x] (7.64) (7.65) hvor forventning og standardavvik er E[X] lign.(7.24) = λ (7.66) σ[x] lign.(7.25) = λ (7.67) 73

Setning: ( diskret N[µ, σ] ) Dersom X er diskret sannsynlighetsfordeling som er tilnærmet kont. {}}{ normalfordelt, dvs. og hvor X kun kan ha hele tall, dvs. X tilnærmet N[µ, σ] (7.68) da gjelder X = diskret stokastisk variabel som kun har hele tall (7.69) P (X x) ( ) x + 0.5 E[X] G σ[x] P (X x) ( ) x 0.5 E[X] 1 G σ[x] (7.70) (7.71) hvor E[X] σ[x] lign.(7.24) = forventning til den diskrete variabelen (7.72) lign.(7.25) = variansen til den diskrete variabelen (7.73) 74

7.8 Sammenheng: Bin, Hyp, Poi og N I kapittel (7.3) fant vi sammenhengen mellom Hyp[N, M, n] og Bin[n, p], se lign.(7.18). I kapittel (7.4) fant vi sammenhengen mellom Bin[n, p] og Poi[λ], se lign.(7.23). Dessuten er alle fordelingene Bin[n, p], Hyp[N, M, n] og Poi[λ] relatert til N[µ, σ] i visse grenser. Bin[ n, p ] Poi[ λ ] N[ μ, σ ] ( kontinuerlig ) Hyp[ N, M, n ] Bin[ n, p ] N[ μ, σ ] ( kontinuerlig ) Poi[ λ ] N[ μ, σ ] ( kontinuerlig ) Figur 7.9: Fordelingene Bin[n, p], Hyp[N, M, n], Poi[λ] og N[µ, σ]. De blå pilene representerer setningene i lign.(7.18) og lign.(7.23). 75

7.9 Sum av uavhengige stokastiske variabler Setning: ( binomisk fordeling ) Anta at vi har uavhengige og binomisk fordelte stokastiske variabler X 1 Bin[ n 1, p ], X 2 Bin[ n 2, p ] og X 3 Bin[ n 3, p ]. Da er også summen Y = X 1 + X 2 + X 3 (7.74) binomisk fordelt: Y Bin [ n Y, p ] (7.75) hvor n Y = n 1 + n 2 + n 3 (7.76) 76

Setning: ( hypergeometrisk ) Det er ingen enkel eller generell sannsynlighetsfordeling for summen av uavhengige hypergeometriske stokastiske variabler. 77

Setning: ( Poisson fordeling ) Anta at vi har uavhengige og Poisson fordelte stokastiske variabler X 1 Poi[ λ 1 ], X 2 Poi[ λ 2 ] og X 3 Poi[ λ 3 ] Da er også summen Y = X 1 + X 2 + X 3 (7.77) Poisson fordelt: Y Poi [ λ Y ] (7.78) hvor λ Y = λ 1 + λ 2 + λ 3 (7.79) 78

Setning: ( normalfordeling ) Anta at vi har uavhengige og normalfordelte stokastiske variabler X 1 N[ µ 1, σ 2 1 ], X 2 N[ µ 2, σ 2 2 ] og X 3 N[ µ 3, σ 2 3 ] Da er også lineærkombinajonen Y = ax 1 + bx 2 + cx 3 (7.80) normalfordelt: Y N [ µ Y, σ 2 Y ] (7.81) hvor µ Y = aµ 1 + bµ 2 + cµ 3 (7.82) σ 2 Y = a 2 σ 2 1 + b 2 σ 2 2 + c 2 σ 2 3 (7.83) 79

For oversikten sin del så formulerer vi her sentralgrenseteoremet fra side 68 i samme stil, altså vi formulerer CLT på en alternativ og likeverdig måte sammenlignet med lign.(7.44). Setning: ( CLT ) Anta at vi har n antall uavhengige og stokastiske variabler. Anta videre at disse variablene har samme forventning og samme varians, dvs. E[X i ] = µ og V ar[x i ] = σ 2, i = 1, 2, 3,..., n (7.84) Da vil også summen Y = X 1 + X 2 + X 3 +... + X n (7.85) i grensen når n, være normalfordelt: Y N [ µ Y, σ 2 Y ] (7.86) hvor E[Y ] = µ (7.87) V ar[y ] = n σ 2 (7.88) 80

Kapittel 11 Regresjonsanalyse Figur 11.1: Regresjon. 81

11.1 Introduksjon Regresjonsanalyse: Teori og metoder for å analysere og utnytte samvariasjon mellom variable. Formål: konstruere modeller som kan brukes til å anslå verdien ( prediksjon/forutsi ) av en variabel Y ved hjelp av informasjon om en annen variabel X. teminologi: variabel X: har info om dette/kjenner denne {}}{ uavhengig variabel eller forklaringsvariabel variabel Y: avhengig variabel eller responsvariabel }{{} ønsker å anslå denne Man skiller ofte mellom lineær regresjon og ikke-lineær regresjon. I dette kurset skal vi kun se på: lineær regresjon samspill mellom bare to variabler y x Figur 11.2: Lineær regresjon. 82

11.2 Residual og SSE 1) Observasjoner: De røde punktene i figur (11.3) viser de fem observasjonspunktene (x 1, y 1 ), (x 2, y 2 ),..., (x 5, y 5 ). 2) Rett linje: Den røde linjen i figur (11.3) viser linjen ŷ = a + bx, hvor a og b er parametre. For observasjonsverdien x i, hvor i = 1, 2,..., 5, er det en tilhørende verdi ŷ i på den rette linjen: 1 ŷ i = a + bx i (11.1) Forskjellen mellom de observerte verdiene y i og de tilsvarende verdiene til den rette linjen er de loddrette avstandene (blå linjer) som vist i figur (11.3). Denne forskjellen/avviket mellom observert verdi og prediksjonen som rette linjen foreslår for datapunktet er: e i = y i ŷ }{{} i residual (11.2) og kalles residual eller estimat for eksperimentfeilen. Residualen e i måler dermed feilen vi gjør ved å bruke verdien på den rette linjen istedet for de observerte verdiene. Residualen e i kan være positiv, negativ eller 0. 2 y y = a + bx (Dette er ikke den linjen som passer best ). e 5 e 1 e 2 e 3 e 4 x Figur 11.3: Residual. 1 Den røde linjen i figur (11.3) er ikke den som passer best. Å finne denne den linjen som passer best er tema i neste avsnitt. 2 Ingen residual i figur (11.3) er null. Alle er negative. 83

Definisjon: ( SSE ) 3 La (x 1, y 2 ), (x 2, y 2 ),..., (x n, y n ) være observasjonspar/datasett. Størrelsen SSE, sum squared error, er da definert ved: 4 SSE = n (y i ŷ i ) 2 (11.4) i=1 hvor ŷ i er prediksjonene som linjen 5 ŷ i = a + bx }{{} i prediksjoner (11.5) gir for tilhørende observasjonsverdiene x i, og y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.6) 3 SSE står for sum square error. 4 Siden e i lign.(11.2) = y i ŷ i så kan SSE alternativt skrives: 5 a og b er parametre. SSE = n e 2 i (11.3) i=1 84

11.3 Minste kvadraters regresjonslinje Setning: ( minste kvadraters lineære regresjonslinje ) La (x 1, y 2 ), (x 2, y 2 ),..., (x n, y n ) være observasjonspar/datasett. Minste kvadraters lineære regresjonslinje 6 er da gitt ved: hvor ŷ = ˆα + ˆβ x, (11.7) og ˆβ = S xy (11.8) Sx 2 ˆα = y ˆβ x (11.9) S 2 x S xy lign.(1.10) = lign.(1.12) = 1 n 1 1 n 1 n (x i x) 2 (11.10a) i=1 n (x i x)(y i y) (11.10b) i=1 samt x = 1 n n i=1 x i og y = 1 n n i=1 y i. y Vilkårlig a og b: y α og β som passer best: y = a + bx y = α + βx e 5 e 5 e 1 e 2 e 3 e 4 e 3 e 4 x e 1 e 2 x Figur 11.4: Linje som ikke passer best, og linje som passer best. 6 Den linjen som passer best, dvs. minst SSE, har altså fått navnet regresjonslinje. 85

11.4 Forklaringsstyrke og SST Definisjon: ( SST ) 7 La (x 1, y 2 ), (x 2, y 2 ),..., (x n, y n ) være observasjonspar/datasett. Størrelsen SST, sum squared total, er da definert ved: SST = n (y i y) 2 (11.11) i=1 hvor y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.12) og y er det empiriske gjennomsnittet, dvs. y lign.(1.3) = 1 n n y i (11.13) i=1 y y i y i = residual y i y i y i y i = total variasjon y x i x Figur 11.5: Residual og total variasjon. 7 SST står for sum square total. 86

Definisjon: ( forklaringsstyrke ) 8 La x 1, x 2, x 3,..., x n og y 1, y 2, y 3,..., y n være observasjoner. Forklaringsstyrken R 2 er da: R 2 = 1 SSE SST (11.14) hvor SSE = SST = n (y i ŷ i ) 2 (11.15) i=1 n (y i y) 2 (11.16) i=1 hvor y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.17) og ŷ i er prediksjonene som linjen 9 ŷ i = ˆα + ˆβx }{{} i prediksjoner (11.18) samt y er det empiriske gjennomsnittet, dvs. y = 1 n n y i (11.19) i=1 8 Kalls også forklaringsgrad. 9 Se lign.(11.7). Parametrene/koeffisientene ˆα og ˆβ er parametre gitt ved lign.(11.9) og (11.8). 87