Formelsamling V-2016 MAT110 Statistikk 1 Per Kristian Rekdal
Figur 1: Statistikk. 3
Innhold 1 Beskrivende statistikk 9 1.1 Populasjon og utvalg.................................. 9 1.2 Statistiske mål (èn variabel)............................. 11 1.2.1 Lokaliseringsmål................................ 11 1.2.2 Spredningsmål.................................. 12 1.3 Statistiske mål (to variabler)............................ 14 2 Sannsynlighetsregning 15 2.1 Utfallsrom........................................ 16 2.2 Sannsynligheter..................................... 16 2.3 Begivenhet........................................ 18 2.4 Mengdelære....................................... 19 2.5 Regning med sannsynligheter............................. 20 2.5.1 Addisjonssetningen............................... 20 2.5.2 Komplementsetningen............................. 23 2.5.3 Total sannsynlighet............................... 23 2.5.4 Tvillingsetningene................................ 24 3 Kombinatorikk 25 3.1 Koblinger........................................ 26 3.2 4 situasjoner (endelig populasjon)........................... 27 4 Betinget sannsynlighet 29 4.1 Betinget sannsynlighet................................. 30 4.1.1 Multiplikasjonssetningen............................ 30 4.1.2 Bayes lov.................................... 31 4.2 Oppsplitting av Ω.................................... 32 4.3 Uavhengighet...................................... 34 5 Tilfeldige variabler, forventning og varians 35 5.1 Tilfeldige variabler................................... 36 5.2 Forventning og varians................................. 37 5.2.1 Forventning................................... 37 5.2.2 Varians..................................... 38 5.2.3 Noen regneregler................................ 39 5.3 Generelle forventninger................................. 40 5
6 Simultane sannsynlighetsfordelinger 41 6.1 Simultan- og marginalfordeling............................ 42 6.2 Generelle forventninger................................. 43 6.3 Kovarians........................................ 45 7 Sentrale sannsynlighetsfordelinger 49 7.1 Den binomiske fordelingen............................... 50 7.1.1 Forventingsverdi................................ 51 7.1.2 Varians..................................... 51 7.2 Den hypergeometriske fordelingen........................... 52 7.2.1 Forventning og varians............................. 54 7.3 Sammenheng mellom Hyp[N, M, n] og Bin[n, p]................... 55 7.4 Poissonfordelingen................................... 56 7.4.1 Forventning og varians............................. 58 7.5 Normalfordelingen (kontinuerlig).......................... 59 7.5.1 Standardisering................................. 61 7.5.2 Sammenhengen mellom P (Z z) og G(z).................. 62 7.5.3 Standardavvik σ og %-vis areal........................ 65 7.6 Sentralgrensesetningen................................. 68 7.7 Diskrete fordelinger normalfordeling...................... 71 7.8 Sammenheng: Bin, Hyp, Poi og N.......................... 75 7.9 Sum av uavhengige stokastiske variabler....................... 76 11 Regresjonsanalyse 81 11.1 Introduksjon....................................... 82 11.2 Residual og SSE.................................... 83 11.3 Minste kvadraters regresjonslinje........................... 85 11.4 Forklaringsstyrke og SST............................... 86 6
Forord Dette er formelsamlingen i emnet MAT110 Statistikk 1 ved høgskolen i Molde. Formlene i denne formelsamlingen er stort sett de formlene som er markert med rød skrift og ramme rundt i kompendiet. Studentene oppfordres til å bruke formelsamlingen aktivt når øvingsoppgaver skal løses. Hjelpemidler eksamen: Godkjent kalkulator og formelsamling. Kun originalversjonen av formelsamlingen utgitt av SiMolde Bok er lov å ha med på eksamen. (Dette fordi det skal være lett å se at dere har med den riktige og lovlige formelsamlingen på eksamen). Det er lov å skrive egne notater i formelsamlingen som dere kan ta med på eksamen. Men: Ikke skriv av hele eksempler og hele oppgaver. (Dersom dette blir praktisert i stor grad må vi revurdere denne ordningen i forhold til neste års studenter). En gratis PDF-versjon av formelsamlingen kan lastes ned fra www.himoldex.no. Per Kristian Rekdal Copyright c Høyskolen i Molde, mars 2016. 7
8
Kapittel 1 Beskrivende statistikk 1.1 Populasjon og utvalg Definisjon: ( populasjon ) Populasjon = den totale mengden av objekter/data som vi ønsker å analysere Definisjon: ( utvalg ) Utvalg = en delmengde av populasjonen, dvs. en samling av data som er hentet fra en populasjon Definisjon: ( statistisk inferens ) Statistisk inferens = det å tolke/analysere utvalget for å finne ut mest mulig om hele populasjonen 9
Populasjon Trekning av utvalg Utvalg Statistisk inferens Beskrivende statistikk Utvalgsresultater Figur 1.1: Prosessen ved statistisk inferens, generelt. Prosessen for statistisk inferens er illustrert generelt i figur (1.1). 10
1.2 Statistiske mål (èn variabel) 1.2.1 Lokaliseringsmål Definisjon: ( median ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: median = midtre observasjonen, n = odde gjennomsnitt av to midterste observasjonene, n = like (1.1) Definisjon: ( typetall ) 1 La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: typetall = den verdien som forekommer hyppigst (1.2) Definisjon: ( gjennomsnitt ) La x 1, x 2, x 3,..., x n være n antall observasjoner. Da er gjennomsnittet: 2 x = 1 n n x i (1.3) i=1 1 Kalles også modus eller modalverdi. 2 Σ = den greske bokstaven sigma. F.eks. Σ 3 i=1 x i = x 1 + x 2 + x 3. 11
1.2.2 Spredningsmål Definisjon: ( modalprosent ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: modalprosent = %-vis andel av observasjonene som har verdi lik typetallet (1.4) Definisjon: ( variasjonsbredde ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: variasjonsbredde = differansen mellom største og minste verdi (1.5) Definisjon: ( kvartilavvik ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: k 1 = nedre kvartil, dvs. 25% av observasjonene har verdi k 1 (1.6) 50% av observasjonene har verdi k 2 k 2 = medianen, dvs. (1.7) 50% av observasjonene har verdi k 2 k 3 = øvre kvartil, dvs. 75% av observasjonene har verdi k 3 (1.8) Da er kvartilavvik = k 3 k 1 (1.9) 12
Definisjon: ( empirisk varians ) 3 La x 1, x 2, x 3,..., x n være observasjoner, og la x være gjennomsnittet. Da er den empiriske variansen: 4 S 2 x = 1 n 1 n (x i x) 2 (1.10) i=1 Definisjon: ( empirisk standardavvik ) 5 Det empiriske standardavviket er: S x = S 2 x (1.11) 3 Kalles også utvalgsvariansen. 4 Ulike estimater av variansen: I lign.(1.10) deler man på n 1, og ikke n. Om vi bruker det ene eller det andre er avhengig om x er gjennomsnittet for hele populajonen, eller bare et utvalg. I dette kurset skal vi imidlertid holde oss til definisjonen i lign.(1.10). 5 Kalles også utvalgstandardavviket. 13
1.3 Statistiske mål (to variabler) Definisjon: ( empirisk kovarians ) 6 La x 1, x 2, x 3,..., x n og y 1, y 2, y 3,..., y n være observasjoner, og la x samt y være de respektive gjennomsnitt. Den empiriske kovariansen er da: 7 S xy = 1 n 1 n (x i x)(y i y) (1.12) i=1 Definisjon: ( korrelasjonskoeffisient ) La x 1, x 2, x 3,..., x n og y 1, y 2, y 3,..., y n være observasjoner. Korrelasjonskoeffisienten er da: R xy = S xy S x S y (1.13) 6 Kalles også utvalgskovariansen. 7 Ulike estimater av kovariansen: (samme kommentar som på side 13) I lign.(1.12) deler man på n 1, og ikke n. Om vi bruker det ene eller det andre er avhengig om x og y er gjennomsnitt for hele sine respektive populajoner, eller bare et utvalg. I dette kurset skal vi imidlertid holde oss til definisjonen i lign.(1.12). 14
Kapittel 2 Sannsynlighetsregning Figur 2.1: Sannsynlighetsregning. 15
2.1 Utfallsrom Definisjon: ( utfallsrom ) Resultatet av et stokastisk forsøk 1 kan ikke forutsies entydig, men det kan angis en mengde mulige enkeltutfall. Denne mengden av mulige enkeltutfall kalles utfallsrom: 2 Ω = { mengden av alle mulige enkeltutfall } (2.1) 2.2 Sannsynligheter Definisjon: ( relativfrekvens ) La n være totalt antall forsøk. Og la n A være antall ganger, av de totalt n forsøkene, hvor et bestemt utfall A inntreffer. Den reletive frekevens for utfallet A er da: f r (n A ) = n A n (2.2) hvor altså n = totalt antall forsøk (2.3) n A = antall ganger hvor utfallet A inntreffer (2.4) 1 Dvs. forsøk med uforutsigbart utfall. 2 Den greske bokstaven Ω kalles omega. 16
Definisjon: ( sannsynlighet ) La n være totalt antall forsøk. Og la n A være antall ganger, av de totalt n forsøkene, hvor et bestemt utfall A inntreffer. Sannsynligheten for for at utfallet A inntreffer er da: p(a) = lim f r (n A ) (2.5) n hvor f r (n) er relativ frekvens. Egenskaper ved sannsynligheten: ( diskret utfallsrom ) Med kortnotasjonen p i p(u i ) så gjelder: 0 p i 1, for alle i = 1, 2, 3,..., n (2.6) n i=1 p i = 1 (2.7) hvor n i=1 p i = p 1 + p 2 + p 3 +... + p n. 17
2.3 Begivenhet Definisjon: ( begivenhet ) begivenhet = delmengde av utfallsrommet (2.8) A Ω Figur 2.2: Et venn-diagram for en begivenhet. Ω er utfallsrommet og A er en begivenhet. Egenskaper for en begivenhet: ( diskret utfallsrom ) P (A) = u A p(u) (2.9) I tillegg kan vi nå skrive lign.(2.6) og (2.7) på en alternativ måte: 0 P (A) 1, for alle A (2.10) P (Ω) = e Ω p(e) = 1 (2.11) 18
2.4 Mengdelære For et eksperiment, la A og B være to begivenheter i utfallsrommet Ω. Ω A Ω A A Utfallsrommet Ω er hele det blå området. Begivenheten A visualiseres ved det blå området. A benevnes ikke A Figur 2.3: Utfallsrommet Ω, begivenheten A og komplementet A. Ω A B Ω A Ω A B A ᴜ B B Snitt: A B betyr A og B. Tilsvarer OVERLAPP av mengder. Union: A ᴜ B betyr A eller B. Tilsvarer SUM av mengder. Figur 2.4: Snitt, union og disjunkt. Disjunkt: A B = Ø. A og B inntreffer ALDRI samtidig. Ingen felles elementer. 19
2.5 Regning med sannsynligheter Definisjon: ( disjunkte begivenheter) To begivenheter A og B er disjunkte dersom A og {}}{ B =. A B Ω Disjunkt: A B = Ø. A og B inntreffer ALDRI samtidig. Ingen felles elementer. Figur 2.5: A og B er disjunkt. 2.5.1 Addisjonssetningen Setningen: ( den spesielle addisjonssetningen ) Dersom begivenhetene A og B er disjunkte, dvs. A og {}}{ B =, så gjelder: P (A eller {}}{ B) = P (A) + P (B) (2.12) 20
Setningen: ( den generelle addisjonssetningen ) For begivenhetene A og B gjelder: eller {}}{ P (A B) = P (A) + P (B) P (A og {}}{ B) } {{ } ekstra ledd (2.13) A B Figur 2.6: Overlappen mellom A og B er A B. 21
Setningen: ( den generelle addisjonssetningen ) For begivenhetene A, B og C gjelder: P (A B C) }{{} eller = P (A) + P (B) + P (C) P (A B) P (A C) P (B C) + P (A B C) } {{ } og (2.14) som kan illustrereres via venn-diagrammet i figur (2.7). A B C Figur 2.7: Begivenhetene mellom A, B og C. 22
2.5.2 Komplementsetningen Setningen: ( komplementsetningen ) For begivenheten A og dens komplement A (eller A c ) gjelder: P (A) = 1 P (A) (2.15) A A A benevnes ikke A. Figur 2.8: Komplementet til A er A (eller A c ). 2.5.3 Total sannsynlighet Setningen: ( total sannsynlighet ) For begivenhetene A og B gjelder: P (A) = P (A B) + P (A B) (2.16) A B A B A B Figur 2.9: Oppsplitting av begivenhenten A = (A B) (A B). 23
2.5.4 Tvillingsetningene Setninger: ( tvillingsetningene ) og eller {}}{{}}{ P (A B) = 1 P (A B) (2.17) og eller {}}{{}}{ P (A B) = 1 P (A B) (2.18) 24
Kapittel 3 Kombinatorikk Figur 3.1: Kombinatorikk. En lås med svært mange kombinasjonsmuligheter. 25
3.1 Koblinger Definisjon: ( koblinger ) Koblinger = forhold som gjør at et bestemt valg kan påvirke utfallet av andre valg vi skal gjøre. Grunnprinsipp i kombinatorikk: ( antagelse ) Ingen kobling mellom mellom valgmulighetene. (Med koblinger blir det fort vanskelig). Kombinasjoner: ( uten koblinger ) Dersom vi har m 1 = antall muligheter i valg nr. 1 m 2 = antall muligheter i valg nr. 2.. m N = antall muligheter i valg nr. N (3.1) da er antall mulige kombinasjoner = m 1 m 2 m 3... m N (3.2) 26
3.2 4 situasjoner (endelig populasjon) Det er ofte vanskelig å telle opp antall elementer i utfallsrommet. Det kan derfor ofte lønne seg å bruke urnemodellen. Tenk deg at alle mulige utfall av et eksperiment er representert ved kuler som ligger i en urne. Så trekker vi kuler etter tur. Da må vi skille mellom: er det trekking med eller uten tilbakelegging? betyr det noe i hvilken rekkefølge kulene trekkes? trekning m/tilbakelegging u/tilbakelegging ordnet situasjon 1 situasjon 2 ikke-ordnet situasjon 4 (forekommer sjelden) situasjon 3 Figur 3.2: 4 situasjoner for urnemodellen. 27
Egenskaper til binomialkoeffisienten ( ) N : ( N over s ) s ( ) N = s }{{} binomialkoeff. N! (N s)! s! (3.3) hvor f.eks. s! = 1 2 3... (s 2) (s 1) s (3.4) 5! = 1 2 3 4 5 (3.5) Legg merke til at ( ) N 0 ( ) N 1 ( ) N N = = = N! (N 0)! 0! N! (N 1)! 1! N! (N N)! N! = 1 (3.6) = N (3.7) = 1 (3.8) siden 0! = 1. 28
Kapittel 4 Betinget sannsynlighet Figur 4.1: Gitt at vi vet hvilke kuler som er i bøtten, hva er sannsynligheten for å trekke en hvit kule? 29
4.1 Betinget sannsynlighet 4.1.1 Multiplikasjonssetningen Setning: ( multiplikasjonssetningen, generelle ) For begivenhetene A og B gjelder: P (A og {}}{ B) = P (A B) P (B) (4.1) hvor P (A B) = og -sannsynligheten for A og B (4.2) P (A B) = sannsynligheten for A gitt at B allerede har inntruffet ( A gitt B ) ( betinget sannsynlighet) P (B) = sannsynligheten for B 0 (4.3) (ubetinget sannsynlighet) For en betinget sannsynlighet står det vi vet til høyre for : P (B A) = P (B når } vi {{ veta} ) (4.4) vet 30
4.1.2 Bayes lov Setning: ( Bayes lov ) For begivenhetene A og B gjelder: P (A B) = P (B A) P (A) P (B) (4.5) eller alternativt: P (B A) = P (A B) P (B) P (A) (4.6) Figur 4.2: Bayes lov. Thomas Bayes. 31
4.2 Oppsplitting av Ω Setningen: ( oppsplitting av Ω i 2 ) {}}{ Anta at utfallsrommet Ω splittes i to delrom Ω = B 1 B 2, der B 1 B 2 =, dvs. delrommene B 1 og B 2 har ingen felles elementer: de er disjunkte. Enhver mengde A kan da skrives: eller med tilhørende sannsynlighet A = (A B 1 ) eller {}}{ (A B 2 ) (oppsplitting) (4.7) P (A) = P (A B 1 ) + P (A B 2 ) (4.8) Alternativt 1 kan lign.(4.8) skrives: P (A) = P (A B 1 ) P (B 1 ) + P (A B 2 ) P (B 2 ) (4.9) Ω: B 1 A B 2 Figur 4.3: Oppsplitting av sannsynlighetsrom Ω, jfr. lign.(4.7). 1 Via multiplikasjonssetningen i lign.(4.1): P (A og {}}{ B) = P (A B) P (B). 32
Setningen: ( oppsplitting av Ω ) eller eller eller eller {}}{{}}{{}}{{}}{ Anta at utfallsrommet Ω splittes i delrom Ω = B 1 B 2 B 3... B N, der alle B i B j =, dvs. ingen delrom B 1, B 2,..., B N har noen felles elementer: disjunkte 2. Enhver mengde A kan da skrives: eller {}}{ A = (A B 1 ) (A B 2 ) med tilhørende sannsynlighet eller {}}{... eller {}}{ (A B N ) (oppsplitting) (4.10) P (A) = P (A B 1 ) + P (A B 2 ) +... + P (A B N ) (4.11) Alternativt 3 kan lign.(4.11) skrives: P (A) = P (A B 1 ) P (B 1 ) + P (A B 2 ) P (B 2 ) +... + P (A B N ) P (B N ) (4.12) B 1 B 2 B 3..... B N Ω: A Figur 4.4: Oppsplitting av sannsynlighetsrom Ω, jfr. lign.(4.10). 2 Bitene i et puslespill overlapper akkurat ikke. Bitene i puslespillet er disjunkte. og {}}{ 3 Via multiplikasjonssetningen i lign.(4.1): P (A B) = P (A B) P (B). 33
4.3 Uavhengighet Definisjon: ( uavhengighet ) To begivenheter A og B er uavhengige dersom P (A B) = P (A) (4.13) Setning: ( multiplikasjonssetningen, spesielle ) Dersom begivenhetene A og B er uavhengige, så gjelder: P (A og {}}{ B) uavh. = P (A) P (B) (4.14) 34
Kapittel 5 Tilfeldige variabler, forventning og varians Figur 5.1: Forventning (svart linje) og varians. 35
5.1 Tilfeldige variabler Definisjon: ( tilfeldig/stokastisk variabel ) En stokastisk variabel er en størrelse X som kan anta ulike verdier x med ulike sannsynligheter. 1 Definisjon: ( sannsynlighetsfordeling, diskret ) En sannsynlighetsfordeling til en diskret variabel er en funksjon definert ved P (x) }{{} = P (X = x) }{{} liten x for verdier stor X for selve variabelen (5.1) Definisjon: ( kumulativ sannsynlighetsfordeling, diskret ) Den kumulative sannsynlighetsfordeling F til en diskret variabel X er definert ved F (x) = P (X x) (5.2) 1 En mer teknisk (matematisk) versjon av definisjonen av en stokastisk variabel er: Med en tilfeldig variabel mener vi en funksjon X som til ethvert mulig utfall definerer et bestemt reelt tall. 36
5.2 Forventning og varians 5.2.1 Forventning Definisjon: ( forventningsverdi, diskret ) 2 For en diskret tilfeldig variabel X med de mulige verdiene x 1, x 2,..., x m er forventningsverdien: E[X] = m i=1 x i P (X = x i ) (5.3) Definisjon: ( forventningsverdi, kontinuerlig ) For en kontinuerlig tilfeldig variabel X er forventningsverdien: E[X] = x f(x) dx (5.4) hvor f(x) = sannsynlighetstettheten av x. 2 Jamfør den analoge størrelsen for (empirisk) gjennomsnitt definert i lign.(1.3): x = 1 n n i=1 x i. 37
5.2.2 Varians Definisjon: ( varians, diskret ) For en diskret tilfeldig variabel X er variansen V ar[x] = E[ (X E[X]) 2 ] (5.5) Setning: ( varians ) La X være en stokastisk variabel. For variansen gjelder da: V ar[x] = E[X 2 ] E[X] 2 (5.6) Definisjon: ( standardavvik, diskret ) 3 For en diskret tilfeldig variabel X er standardavviket σ[x] V ar[x] (5.7) 3 Jamfør den analoge størrelsen for (empirisk) standardavvik definert i lign.(1.11): S x = S 2 x. 38
5.2.3 Noen regneregler La a og b være konstanter. La videre X og Y være to stokastiske variabler. Da gjelder: Regneregler for forventning: E[a] = a (5.8) E[a + X] = a + E[X] (5.9) E[a X] = a E[X] (5.10) E[aX + by ] = ae[x] + be[y ] (5.11) Regneregler for varians: V ar[a] = 0 (5.12) V ar[a + X] = V ar[x] (5.13) V ar[a X] = a 2 V ar[x] (5.14) V ar[x] = V ar[ X] (5.15) Dessuten er alltid V ar[x] 0, dvs. en varians kan aldri være negativ. 39
5.3 Generelle forventninger Definisjon: ( generell forventningsverdi, diskret ) For en diskret tilfeldig variabel X og en vanlig funksjon h(x) så er E[h(X)] = m i=1 h(x i ) P (X = x i ) (5.16) 40
Kapittel 6 Simultane sannsynlighetsfordelinger Figur 6.1: Simultane sannsynlighetsfordelinger. 41
6.1 Simultan- og marginalfordeling Definisjon: ( simultanfordeling ) La X og Y være to stokastiske variabler. Med simultanfordeling menes: p(x, y) = P (X = x og Y = y) (6.1) Definisjon: ( marginalfordeling ) La X og Y være to stokastiske variabler. Med marginalfordeling menes: P (X = x) = y p(x, y) (6.2) P (Y = y) = x p(x, y) (6.3) Definisjon: ( uavhengighet ) 1 La X og Y være to stokastiske variabler. Disse er uavhengige dersom: P (X = x og Y = y) }{{} = p(x,y) = P (X = x) P (Y = y) (6.4) for alle X = x og Y = y. 1 Jamfør den analoge setn. for uavhengighet mellom begivenheter A og B i lign.(4.14): P (A B) = P (A) P (B). 42
6.2 Generelle forventninger Definisjon: ( generell forventingsverdi, diskret ) For diskrete stokastiske variabel X, Y og funksjonen h(x, Y ) så gjelder E[h(X, Y )] = m n i=1 j=1 h(x i, y j ) p(x i, y j ) (6.5) Spesialtilfelle: La oss se på et spesialtilfelle av lign.(6.5), nemlig det spesialtilfellet når: h(x, Y ) = X Y (6.6) Da er: E[X Y ] = m n i=1 j=1 x i y j p(x i, y j ) (6.7) 43
Setning: ( uavhengighet ) La X og Y være to uavhengige stokastiske variabler 2. Da gjelder: E[X Y ] = E[X] E[Y ] (6.9) 2 Ut fra definisjonen av uavhengighet mellom to stokastiske variabler ( se lign.(6.4) ) så vet vi X og Y er uavhengige dersom: P (X = x og Y = y) }{{} = p(x,y) lign.(6.4) = P (X = x) P (Y = y) (6.8) for alle X = x og Y = y. 44
6.3 Kovarians Definisjon: ( kovarians ) 3 La X og Y være to stokastiske variabler. Med samvariasjon/korrelasjon {}}{ kovariansen mellom disse mener vi: samvariasjon/korrelasjon {}}{ Cov[X, Y ] = E[ (X E[X])(Y E[Y ]) ] (6.10) Setning: ( kovarians ) La X og Y være to stokastiske variabler. For samvariasjon/korrelasjon {}}{ kovariansen gjelder da: samvariasjon/korrelasjon {}}{ Cov[X, Y ] = E[X Y ] E[X] E[Y ] (6.11) Setning (spesialtilfelle, kovarians ) La X og Y være to stokastiske variabler. Dersom X og Y er uavhengige, dvs.: E[X Y ] uavh. = E[X] E[Y ] (6.12) så er Cov[X, Y ] = 0 }{{} X og Y ukorrelerte (6.13) 3 Jamfør den analoge definisjonen av empirisk kovarians i lign.(1.12): S xy = 1 n 1 n i=1 (x i x)(y i ȳ). 45
Definisjon: ( korrelasjonskoeffisienten ) 4 La X og Y være to stokastiske variabler. Med korrelasjonskoeffisienten ρ[x, Y ] mener vi da: 5 ρ[x, Y ] = samvariasjon/korrelasjon {}}{ Cov[X, Y ] V ar[x] } {{ } spredning V ar[y ] }{{} spredning (6.15) 4 Jamfør den analoge definisjonen av korrelasjonskoeffisienten R xy i lign.(1.13): R xy = Sxy S x S y. 5 Siden σ[x] V ar[x], se lign.(5.7), så kan korrelasjonskoeffisienten ρ[x, Y ] skrives på en alternativ måte: ρ[x, Y ] = samvariasjon/korrelasjon {}}{ Cov[X, Y ] σ[x] }{{} spredning σ[y ] }{{} spredning (6.14) 46
Setning: ( kovarians II ) La X og Y være to stokastiske variabler. Generelt gjelder da følgende sammenhengen mellom variansen og kovariansen: samvariasjon variasjon/(spredning) {}}{{}}{ V ar[ax + by ] = a 2 V ar[x] + b 2 V ar[y ] + 2ab Cov[X, Y ] (6.16) hvor a og b er konstanter. Setning (spesialtilfelle, kovarians II ) La X og Y være to stokastiske variabler. Dersom X og Y er ukorrelerte, så er: Da gjelder: Cov[X, Y ] = 0 (6.17) V ar[ax + by ] = a 2 V ar[x] + b 2 V ar[y ] (6.18) 47
48
Kapittel 7 Sentrale sannsynlighetsfordelinger Figur 7.1: Sentralgrensesetningen ( CLT ). 49
7.1 Den binomiske fordelingen 2 param. diskret {}}{{}}{ Definisjon: ( binomisk fordeling, X Bin[n, p] ) Punktsannsynlighetene for en binomisk fordeling er P (X = x) def. = ( ) n p x (1 p) n x (7.1) x hvor X = stokastisk variabel (7.2) = antall suksesser i en binomisk forsøksserie på totalt n forsøk p = sannsynlighet for suksess (7.3) n = totalt antall forsøk (7.4) ( ) n x }{{} binomialkoeff. = n! (n x)! x! ( n over x ) (7.5) P(X=x) x Figur 7.2: Binomiske sannsynlighetsfordelinger P (X = x). 50
7.1.1 Forventingsverdi Setning: ( forventing av X 2 param. {}}{ Bin[n, p] ) La X være en binomisk variabel, dvs. X Bin[n, p]. Da gjelder: E[X] = n p (7.6) 7.1.2 Varians Setning: ( varians av X 2 param. {}}{ Bin[n, p] La X være en binomisk variabel, dvs. X Bin[n, p]. Da gjelder: V ar[x] = n p (1 p) (7.7) 51
7.2 Den hypergeometriske fordelingen Definisjon: ( diskret 3 param. {}}{{}}{ hypergeometrisk fordeling, X Hyp[N, M, n] Punktsannsynlighetene for en hypergeometrisk fordeling er P (X = x) def. = ( ) ( ) M N M x n x ( ) (7.8) N n hvor X = stokastisk variabel = antall spesielle elementer i det tilfeldige utvalget på (7.9) n trukne elementer N = antall elementer i grunnmengden (7.10) M = antall spesielle elementer (7.11) N M = antall vanlige elementer (7.12) n = antall trukne elementer (7.13) ( ) N n }{{} binomialkoeff. = N! (N n)! n! ( N over n ) (7.14) 52
P(X=x) x Figur 7.3: Hypergeometriske sannsynlighetsfordelinger P (X = x). 53
7.2.1 Forventning og varians Setning: ( forventing av X 3 param. {}}{ Hyp[N, M, n] La X være en hypergeometrisk variabel, dvs. X Hyp[N, M, n]. Da gjelder: E[X] = n M N (7.15) Setning: ( varians av X 3 param. {}}{ Hyp[N, M, n] ) La X være en hypergeometrisk variabel, dvs. X Hyp[N, M, n]. Da gjelder: V ar[x] = N n N 1 n M ( N 1 M ) N (7.16) 54
7.3 Sammenheng mellom Hyp[N, M, n] og Bin[n, p] Setning: ( 3 param. {}}{ Hyp[N, M, n] 2 param. {}}{ Bin[n, p] ) Dersom grunnmengden N i en hypergeometrisk forsøkserie er mye større enn utvalget n, typisk så er N 20 n (7.17) X Hyp[N, M, n] N 20 n X Bin[n, p] (7.18) 55
7.4 Poissonfordelingen Definisjon: ( diskret 1 param. {}}{{}}{ Poissonfordeling, X Poi[λ] ) 1 Punktsannsynlighetene for en Poissonfordeling er P (X = x) def. = λx x! e λ (7.19) hvor X = stokastisk variabel = antall begivenheter som inntreffer innenfor en gitt tid eller gitt rom (7.20) λ = gjennsomsnittlig antall begivenheter innenfor en gitt tid eller gitt rom (7.21) P(X=x) x Figur 7.4: Poissonfordelinger P (X = x). 1 Kalles ofte loven om sjeldne begivenheter. 56
2 param. {}}{ Setning: ( Bin[n, p] 1 param. {}}{ Poi[λ] ) I en binomisk sannsynlighetsfordeling, dersom sannsynligheten for suksess p er svært liten og antall forsøk n er svært stor, typisk så er n 50 og p 0.05 (7.22) X Bin[n, p] n 50 og p 0.05 X Poi[λ] (7.23) 57
7.4.1 Forventning og varians Setning: ( forventing av X Poi[λ] 2 ) La X være en Poissionfordelt variabel, dvs. X Poi[λ]. Da gjelder: E[X] = λ (7.24) Setning: ( varians av X Poi[λ] ) La X være en Poissonfordelt variabel, dvs. X Poi[λ]. Da gjelder: V ar[x] = λ (7.25) 2 Skrivemåten X Poi[λ] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x) som er Poissonfordelt. 58
7.5 Normalfordelingen (kontinuerlig) Definisjon: ( generelle kont. {}}{ normalfordeling ) La X være en kontinuerlig stokastisk variabel. Den generelle normalfordelingen for X er f X (x) = 1 2π σ 2 e (x µ)2 2 σ 2 (7.26) hvor µ = E[X] = forventingen av X ( lokalisering av toppunkt ) (7.27) σ 2 = V ar[x] = variansen av X (7.28) σ = σ 2 = standardavviket av X ( halvbredden av kurven ) (7.29) f X (x) x Figur 7.5: Tetthetsfunksjoner f X (x) til ulike normalfordelinger. 59
Definisjon: ( standardisert kont. {}}{ normalfordeling, X N[µ = 0, σ = 1] ) La X være en kontinuerlig stokastisk variabel. Dersom E[X] = µ = 0, V ar[x] = σ 2 = 1 (7.30) så vil den generelle normalfordelingen i lign.(7.26) redusere seg til f X (x) = 1 2π e x2 2 (7.31) Dette kalles den standardiserte normalfordelingen. 60
7.5.1 Standardisering Omskalering: ( variabelskifte ) Z = X µ σ (7.32) Matematisk betyr det faktum at µ = 0 og σ = 1 i den nye omskalerte variabelen, følgende: E[Z] = 0, V ar[z] = 1 (7.33) 61
7.5.2 Sammenhengen mellom P (Z z) og G(z) arealet til venstre for z = sannsynligheten for at den stokastiske variabelen Z har verdier mindre eller lik z = P (Z z) (7.34) Arealet til venstre for z er det samme som integralet under grafen f Z (z): P (Z z) = stopp start = = G(z) {}}{ z f Z (s) ds def. = G(z) (7.35) Gaussintegralet G(z) behøver ikke regnes ut av oss. Det er tabelloppslag. f Z (z) areal = G(z) σ = 1 μ = 0-1 z 1 z Figur 7.6: Arealet som vist representerer sannsynligheten P (Z z). 62
P(Z z) = G(z) z 63
Setning: ( egenskap til G(z) ) Fra figur (7.7) innser vi at G(z) + G( z) = arealet under hele kurven = 1 (7.36) Altså vi kan skrive: eller ekvivalent G( z) = 1 G(z) (7.37) P (Z z) = 1 P (Z z) (7.38) f Z (z) f Z (z) areal = G(z) areal = G(-z) z z - z z Figur 7.7: Arealene representerer Gaussintegralene G(z) og G( z). 64
7.5.3 Standardavvik σ og %-vis areal Som vi har lært tidligere så er varians og standardavvik et mål på spredning. For en normalfordeling med et gitt standardavvik σ, så dekker intervallet µ σ X µ + σ hele 68.2 % av arealet (7.39) under sannsynlighetfordelingen f X (x). Tilsvarende dekker intervallet µ 2σ X µ + 2σ hele 95.4 % av arealet (7.40) under sannsynlighetfordelingen f X (x). Dette er illustrert i denne figuren: f X (x) z x Figur 7.8: Standardavvik σ og %-vis areal for en normalfordeling. 65
Bin[ n, p ] Hyp[ N, M, n ] Poi[ λ ] N[ μ, σ ] 2 param. 3 param. 1 param. 2 param. diskret diskret diskret kontinuerlig
Bin[ n, p ] Hyp[ N, M, n ] Poi[ λ ] N[ μ, σ ] 1) 2 mulig utfall 2) samme p for suksess 3) uavhengige 1) x antall suksesser / spesielle 2) N antall i grunnmengden 3) M antall spesielle 1) x antall begivenheter innenfor en gitt tid 2) λ = rate 1) Tetthetsfunksjon f X (x) 2) Gausskurve 4) n antall forsøk 4) n antall trukne elementer - kjenner ikke fordelingen i urnen - m / tilbakelegging - teller opp antall suksesser - kjenner fordelingen i urnen - u / tilbakelegging - teller opp antall suksesser - rate ( konstant ) - antall begivenheter innenfor en gitt tid eller gitt rom - telleforsøk - loven om skjeldne begivenh. - under bestemte betingelser vil mange diskrete og kontinuerige fordelinger med god tilnæring være normalfordelt (f.eks. CLT )
7.6 Sentralgrensesetningen Setning: ( CLT 3, sentralgrensesetningen ) La X 1, X 2, X 3,... X n være uavhengige stokastiske variabler med samme P (X = x i ), dvs. diskret ELLER kont. {}}{ sannsynlighetsfordeling X i samme sannsynlighetsfordeling for alle i = 1, 2, 3,..., n (7.41) hvor n er antall forsøk, dvs. E[X i ] = µ og V ar[x i ] = σ 2, i = 1, 2, 3,..., n (7.42) er den samme for alle forsøk / gitt stokastisk variabel i. Da gjelder at gjennomsnittet X: X = X 1 + X 2 + X 3 +... + X n n er normalfordelt i grensen når antall forsøk n blir stor: X n = stor [ ] σ N µ, n (7.44) (7.43) altså P (X = x) er normalfordelt med forventning og varians hhv. E[ X ] = µ og V ar[ X ] = σ2 n (7.45) 3 På engelsk brukes ofte forkortelsen CLT, dvs. central limit theorem. 68
Det er en alternativ måte å formulere sentralgrensesetningen på: Setning: ( sentralgrensesetningen og G(z) ) diskret ELLER kont. {}}{ La X 1, X 2, X 3,... X n være n stk. uavhengige stokastiske variabler med samme sannsynlighetsfordeling med µ som forventingsverdi og σ 2 som varians, dvs. E[X i ] = µ og V ar[x i ] = σ 2, i = 1, 2, 3,..., n (7.46) Gjennomsnittet X av disse n stk. stokastiske variablene X = 1 ( ) X 1 + X 2 + X 3 +... + X n n (7.47) er da normalfordelt for store n, dvs. P (X x) n = stor ( ) x µ G σ n (7.48) hvor G(z) = gitt ved lign.(??) (7.49) σ = er standardavviket for en gitt stokastisk variabel X i (7.50) 69
Kommentar: Hvor stor n må være ( n = antall forsøk ) for at sentralgrensesetningen skal gjelde er avhengig av situasjonen. Men en tommelfingerregel er at vi bør ha n 30 (7.51) dvs. antall forsøk bør være ca. 30 eller mer. 70
7.7 Diskrete fordelinger normalfordeling Setning: ( Bin[n, p] N[µ, σ] ) For en diskret {}}{ binomisk fordeling, X Bin[n, p], hvor n p (1 p) 5 (7.52) så er sannsynligheten X har verdien x være kont. {}}{ normalfordelt, dvs. X N [ E[X], σ[x] ], slik at: P (X x) ( ) x + 0.5 E[X] G σ[x] P (X x) ( ) x 0.5 E[X] 1 G σ[x] (7.53) (7.54) hvor forventning og standardavvik er E[X] lign.(7.6) = n p (7.55) σ[x] lign.(7.7) = n p (1 p) (7.56) 71
Setning: ( Hyp[N, M, n] N[µ, σ] ) For en diskret {}}{ hypergeometrisk fordeling, X Hyp[N, M, n], hvor N 20 n (7.57) n M N ( 1 M N ) 5 (7.58) så vil X være tilnærmet en kont. {}}{ normalfordeling, dvs. X N [ E[X], σ[x] ], slik at: P (X x) ( ) x + 0.5 E[X] G σ[x] P (X x) ( ) x 0.5 E[X] 1 G σ[x] (7.59) (7.60) hvor forventning og standardavvik er E[X] σ[x] lign.(7.15) = n M N lign.(7.16) = N n N 1 n M ( 1 M N N ) (7.61) (7.62) 72
Setning: ( Poi[λ] N[µ, σ] ) For en diskret {}}{ Poissonfordeling, X Poi[λ], hvor λ 5 (7.63) så vil X være tilnærmet en kont. {}}{ normalfordeling, dvs. X N [ E[X], σ[x] ], slik at: P (X x) ( ) x + 0.5 E[X] G σ[x] P (X x) ( ) x 0.5 E[X] 1 G σ[x] (7.64) (7.65) hvor forventning og standardavvik er E[X] lign.(7.24) = λ (7.66) σ[x] lign.(7.25) = λ (7.67) 73
Setning: ( diskret N[µ, σ] ) Dersom X er diskret sannsynlighetsfordeling som er tilnærmet kont. {}}{ normalfordelt, dvs. og hvor X kun kan ha hele tall, dvs. X tilnærmet N[µ, σ] (7.68) da gjelder X = diskret stokastisk variabel som kun har hele tall (7.69) P (X x) ( ) x + 0.5 E[X] G σ[x] P (X x) ( ) x 0.5 E[X] 1 G σ[x] (7.70) (7.71) hvor E[X] σ[x] lign.(7.24) = forventning til den diskrete variabelen (7.72) lign.(7.25) = variansen til den diskrete variabelen (7.73) 74
7.8 Sammenheng: Bin, Hyp, Poi og N I kapittel (7.3) fant vi sammenhengen mellom Hyp[N, M, n] og Bin[n, p], se lign.(7.18). I kapittel (7.4) fant vi sammenhengen mellom Bin[n, p] og Poi[λ], se lign.(7.23). Dessuten er alle fordelingene Bin[n, p], Hyp[N, M, n] og Poi[λ] relatert til N[µ, σ] i visse grenser. Bin[ n, p ] Poi[ λ ] N[ μ, σ ] ( kontinuerlig ) Hyp[ N, M, n ] Bin[ n, p ] N[ μ, σ ] ( kontinuerlig ) Poi[ λ ] N[ μ, σ ] ( kontinuerlig ) Figur 7.9: Fordelingene Bin[n, p], Hyp[N, M, n], Poi[λ] og N[µ, σ]. De blå pilene representerer setningene i lign.(7.18) og lign.(7.23). 75
7.9 Sum av uavhengige stokastiske variabler Setning: ( binomisk fordeling ) Anta at vi har uavhengige og binomisk fordelte stokastiske variabler X 1 Bin[ n 1, p ], X 2 Bin[ n 2, p ] og X 3 Bin[ n 3, p ]. Da er også summen Y = X 1 + X 2 + X 3 (7.74) binomisk fordelt: Y Bin [ n Y, p ] (7.75) hvor n Y = n 1 + n 2 + n 3 (7.76) 76
Setning: ( hypergeometrisk ) Det er ingen enkel eller generell sannsynlighetsfordeling for summen av uavhengige hypergeometriske stokastiske variabler. 77
Setning: ( Poisson fordeling ) Anta at vi har uavhengige og Poisson fordelte stokastiske variabler X 1 Poi[ λ 1 ], X 2 Poi[ λ 2 ] og X 3 Poi[ λ 3 ] Da er også summen Y = X 1 + X 2 + X 3 (7.77) Poisson fordelt: Y Poi [ λ Y ] (7.78) hvor λ Y = λ 1 + λ 2 + λ 3 (7.79) 78
Setning: ( normalfordeling ) Anta at vi har uavhengige og normalfordelte stokastiske variabler X 1 N[ µ 1, σ 2 1 ], X 2 N[ µ 2, σ 2 2 ] og X 3 N[ µ 3, σ 2 3 ] Da er også lineærkombinajonen Y = ax 1 + bx 2 + cx 3 (7.80) normalfordelt: Y N [ µ Y, σ 2 Y ] (7.81) hvor µ Y = aµ 1 + bµ 2 + cµ 3 (7.82) σ 2 Y = a 2 σ 2 1 + b 2 σ 2 2 + c 2 σ 2 3 (7.83) 79
For oversikten sin del så formulerer vi her sentralgrenseteoremet fra side 68 i samme stil, altså vi formulerer CLT på en alternativ og likeverdig måte sammenlignet med lign.(7.44). Setning: ( CLT ) Anta at vi har n antall uavhengige og stokastiske variabler. Anta videre at disse variablene har samme forventning og samme varians, dvs. E[X i ] = µ og V ar[x i ] = σ 2, i = 1, 2, 3,..., n (7.84) Da vil også summen Y = X 1 + X 2 + X 3 +... + X n (7.85) i grensen når n, være normalfordelt: Y N [ µ Y, σ 2 Y ] (7.86) hvor E[Y ] = µ (7.87) V ar[y ] = n σ 2 (7.88) 80
Kapittel 11 Regresjonsanalyse Figur 11.1: Regresjon. 81
11.1 Introduksjon Regresjonsanalyse: Teori og metoder for å analysere og utnytte samvariasjon mellom variable. Formål: konstruere modeller som kan brukes til å anslå verdien ( prediksjon/forutsi ) av en variabel Y ved hjelp av informasjon om en annen variabel X. teminologi: variabel X: har info om dette/kjenner denne {}}{ uavhengig variabel eller forklaringsvariabel variabel Y: avhengig variabel eller responsvariabel }{{} ønsker å anslå denne Man skiller ofte mellom lineær regresjon og ikke-lineær regresjon. I dette kurset skal vi kun se på: lineær regresjon samspill mellom bare to variabler y x Figur 11.2: Lineær regresjon. 82
11.2 Residual og SSE 1) Observasjoner: De røde punktene i figur (11.3) viser de fem observasjonspunktene (x 1, y 1 ), (x 2, y 2 ),..., (x 5, y 5 ). 2) Rett linje: Den røde linjen i figur (11.3) viser linjen ŷ = a + bx, hvor a og b er parametre. For observasjonsverdien x i, hvor i = 1, 2,..., 5, er det en tilhørende verdi ŷ i på den rette linjen: 1 ŷ i = a + bx i (11.1) Forskjellen mellom de observerte verdiene y i og de tilsvarende verdiene til den rette linjen er de loddrette avstandene (blå linjer) som vist i figur (11.3). Denne forskjellen/avviket mellom observert verdi og prediksjonen som rette linjen foreslår for datapunktet er: e i = y i ŷ }{{} i residual (11.2) og kalles residual eller estimat for eksperimentfeilen. Residualen e i måler dermed feilen vi gjør ved å bruke verdien på den rette linjen istedet for de observerte verdiene. Residualen e i kan være positiv, negativ eller 0. 2 y y = a + bx (Dette er ikke den linjen som passer best ). e 5 e 1 e 2 e 3 e 4 x Figur 11.3: Residual. 1 Den røde linjen i figur (11.3) er ikke den som passer best. Å finne denne den linjen som passer best er tema i neste avsnitt. 2 Ingen residual i figur (11.3) er null. Alle er negative. 83
Definisjon: ( SSE ) 3 La (x 1, y 2 ), (x 2, y 2 ),..., (x n, y n ) være observasjonspar/datasett. Størrelsen SSE, sum squared error, er da definert ved: 4 SSE = n (y i ŷ i ) 2 (11.4) i=1 hvor ŷ i er prediksjonene som linjen 5 ŷ i = a + bx }{{} i prediksjoner (11.5) gir for tilhørende observasjonsverdiene x i, og y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.6) 3 SSE står for sum square error. 4 Siden e i lign.(11.2) = y i ŷ i så kan SSE alternativt skrives: 5 a og b er parametre. SSE = n e 2 i (11.3) i=1 84
11.3 Minste kvadraters regresjonslinje Setning: ( minste kvadraters lineære regresjonslinje ) La (x 1, y 2 ), (x 2, y 2 ),..., (x n, y n ) være observasjonspar/datasett. Minste kvadraters lineære regresjonslinje 6 er da gitt ved: hvor ŷ = ˆα + ˆβ x, (11.7) og ˆβ = S xy (11.8) Sx 2 ˆα = y ˆβ x (11.9) S 2 x S xy lign.(1.10) = lign.(1.12) = 1 n 1 1 n 1 n (x i x) 2 (11.10a) i=1 n (x i x)(y i y) (11.10b) i=1 samt x = 1 n n i=1 x i og y = 1 n n i=1 y i. y Vilkårlig a og b: y α og β som passer best: y = a + bx y = α + βx e 5 e 5 e 1 e 2 e 3 e 4 e 3 e 4 x e 1 e 2 x Figur 11.4: Linje som ikke passer best, og linje som passer best. 6 Den linjen som passer best, dvs. minst SSE, har altså fått navnet regresjonslinje. 85
11.4 Forklaringsstyrke og SST Definisjon: ( SST ) 7 La (x 1, y 2 ), (x 2, y 2 ),..., (x n, y n ) være observasjonspar/datasett. Størrelsen SST, sum squared total, er da definert ved: SST = n (y i y) 2 (11.11) i=1 hvor y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.12) og y er det empiriske gjennomsnittet, dvs. y lign.(1.3) = 1 n n y i (11.13) i=1 y y i y i = residual y i y i y i y i = total variasjon y x i x Figur 11.5: Residual og total variasjon. 7 SST står for sum square total. 86
Definisjon: ( forklaringsstyrke ) 8 La x 1, x 2, x 3,..., x n og y 1, y 2, y 3,..., y n være observasjoner. Forklaringsstyrken R 2 er da: R 2 = 1 SSE SST (11.14) hvor SSE = SST = n (y i ŷ i ) 2 (11.15) i=1 n (y i y) 2 (11.16) i=1 hvor y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.17) og ŷ i er prediksjonene som linjen 9 ŷ i = ˆα + ˆβx }{{} i prediksjoner (11.18) samt y er det empiriske gjennomsnittet, dvs. y = 1 n n y i (11.19) i=1 8 Kalls også forklaringsgrad. 9 Se lign.(11.7). Parametrene/koeffisientene ˆα og ˆβ er parametre gitt ved lign.(11.9) og (11.8). 87