Formelsamling V-2014 MAT110 Statistikk 1 Per Kristian Rekdal
2
Forord Dette er formelsamlingen i emnet MAT110 Statistikk 1 ved høgskolen i Molde. Formlene i denne formelsamlingen er stort sett de formlene som er markert med rød skrift og ramme rundt i kompendiet. Studentene oppfordres til å bruke formelsamlingen aktivt når øvingsoppgaver skal løses. Hjelpemidler eksamen: Godkjent kalkulator og formelsamling. Kun originalversjonen av formelsamlingen utgitt av SiMolde Bok er lov å ha med på eksamen. (Dette fordi det skal være lett å se at dere har med den riktige og lovlige formelsamlingen på eksamen). Det er lov å skrive egne notater i formelsamlingen som dere kan ta med på eksamen. Men: Ikke skriv av hele eksempler og hele oppgaver. (Dersom dette blir praktisert i stor grad må vi revurdere denne ordningen i forhold til neste års studenter). En gratis PDF-versjon av formelsamlingen kan lastes ned fra www.himoldex.no. Per Kristian Rekdal Copyright c Høyskolen i Molde, mars 2014. 3
Innhold 1 Beskrivende statistikk 7 1.1 Populasjon og utvalg.................................. 7 1.2 Statistiske mål (èn variabel)............................. 8 1.2.1 Lokaliseringsmål................................ 8 1.2.2 Spredningsmål.................................. 10 1.3 Statistiske mål (to variabler)............................ 12 2 Sannsynlighetsregning 13 2.1 Utfallsrom........................................ 14 2.2 Sannsynligheter..................................... 14 2.3 Begivenhet........................................ 15 2.4 Mengdelære....................................... 16 2.5 Regning med sannsynligheter............................. 18 3 Kombinatorikk 21 3.1 Koblinger........................................ 22 3.2 4 situasjoner (endelig populasjon)........................... 23 3.3 Kombinatoriske sannsynligheter............................ 25 4 Betinget sannsynlighet 26 4.1 Multiplikasjonssetningen................................ 27 4.2 Bayes lov........................................ 27 4.3 Oppsplitting av Ω.................................... 28 4.4 Uavhengighet...................................... 30 5 Tilfeldige variabler, forventning og varians 33 5.1 Tilfeldige variabler................................... 34 5.2 Forventning og varians................................. 35 5.2.1 Forventning................................... 35 5.2.2 Varians..................................... 36 5.2.3 Noen regneregler................................ 37 5.3 Generelle forventninger................................. 38 4
6 Simultane sannsynlighetsfordelinger 39 6.1 Simultan- og marginalfordeling............................ 40 6.2 Generelle forventninger................................. 41 6.3 Kovarians........................................ 42 7 Sentrale sannsynlighetsfordelinger 45 7.1 Den binomiske fordelingen............................... 46 7.2 Den hypergeometriske fordelingen........................... 47 7.3 Poissonfordelingen................................... 49 7.4 Normalfordelingen (kontinuerlig).......................... 51 7.4.1 Standardavvik σ og %-vis areal........................ 53 7.5 Sentralgrensesetningen................................. 54 7.6 Diskrete fordelinger normalfordeling...................... 56 7.7 Sammenheng: Bin, Hyp, Poi og N.......................... 60 11 Regresjonsanalyse 63 11.1 Residual og SSE.................................... 64 11.2 Minste kvadraters regresjonslinje........................... 66 11.3 Forklaringsstyrke og SST............................... 67 5
6
Kapittel 1 Beskrivende statistikk 1.1 Populasjon og utvalg Definisjon: ( populasjon ) Populasjon = den totale mengden av objekter/data som vi ønsker å analysere Definisjon: ( utvalg ) Utvalg = en delmengde av populasjonen, dvs. en samling av data som er hentet fra en populasjon Definisjon: ( statistisk inferens ) Statistisk inferens = det å tolke/analysere utvalget for å finne ut mest mulig om hele populasjonen 7
1.2 Statistiske mål (èn variabel) 1.2.1 Lokaliseringsmål Definisjon: ( median ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: median = midtre observasjonen gjennomsnitt av to midterste observasjonene, n = odde, n = like (1.1) Definisjon: ( typetall ) 1 La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: typetall = den verdien som forekommer hyppigst (1.2) Definisjon: ( gjennomsnitt ) La x 1,x 2,x 3,...,x n være n antall observasjoner. Da er gjennomsnittet: x = 1 n n x i (1.3) i=1 1 Kalles også modus eller modalverdi. 8
Generelt er typetall, median og gjennomsnitt forskjellige, dvs. ikke sammenfallende, se figur(1.1b), (1.1c) og (1.1d). Unntaket er for en symmetrisk fordeling, se figur (1.1a). Figur 1.1: Illustrasjon av typetall ( mode ), median og gjennomsnitt ( mean ). 9
1.2.2 Spredningsmål Definisjon: ( modalprosent ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: modalprosent = %-vis andel av observasjonene som har verdi lik typetallet (1.4) Definisjon: ( variasjonsbredde ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: variasjonsbredde = differansen mellom største og minste verdi (1.5) Definisjon: ( kvartilavvik ) La n være en serie med tall/observasjoner i ordnet rekkefølge. Da er: k 1 = nedre kvartil, dvs. 25% av observasjonene har verdi k 1 (1.6) 50% av observasjonene har verdi k 2 k 2 = medianen, dvs. (1.7) 50% av observasjonene har verdi k 2 k 3 = øvre kvartil, dvs. 75% av observasjonene har verdi k 3 (1.8) Da er: kvartilavvik = k 3 k 1 (1.9) 10
Definisjon: ( empirisk varians ) 2 La x 1,x 2,x 3,...,x n være observasjoner, og la x være gjennomsnittet. Da er den empiriske variansen: S 2 x = 1 n 1 n (x i x) 2 (1.10) i=1 Definisjon: ( empirisk standardavvik ) 3 Det empiriske standardavviket er: S x = S 2 x (1.11) 2 Kalles også utvalgsvariansen. 3 Kalles også utvalgstandardavviket. 11
1.3 Statistiske mål (to variabler) Definisjon: ( empirisk kovarians ) 4 La x 1,x 2,x 3,...,x n og y 1,y 2,y 3,...,y n være observasjoner, og la x samt y være de respektive gjennomsnitt. Den empiriske kovariansen er da: S xy = 1 n 1 n (x i x)(y i y) (1.12) i=1 Definisjon: ( korrelasjonskoeffisient ) La x 1,x 2,x 3,...,x n og y 1,y 2,y 3,...,y n være observasjoner. Korrelasjonskoeffisienten er da: R xy = S xy S x S y (1.13) 4 Kalles også utvalgskovariansen. 12
Kapittel 2 Sannsynlighetsregning Figur 2.1: Sannsynlighetsregning. 13
2.1 Utfallsrom Definisjon: ( utfallsrom ) Resultatet av et stokastisk forsøk kan ikke forutsies entydig, men det kan angis en mengde mulige enkeltutfall. Denne mengden av mulige enkeltutfall kalles utfallsrom: Ω = { mengden av alle mulige enkeltutfall } (2.1) 2.2 Sannsynligheter Egenskaper ved sannsynligheten: ( diskret utfallsrom ) 0 p i 1, for alle i = 1,2,3,...,n (2.2) n i=1 p i = 1 (2.3) hvor n i=1 p i = p 1 +p 2 +p 3 +...+p n. 14
2.3 Begivenhet Definisjon: ( begivenhet ) begivenhet = delmengde av utfallsrommet (2.4) Egenskaper for en begivenhet: ( diskret utfallsrom ) P(A) = u A p(u) (2.5) I tillegg kan vi nå skrive lign.(2.2) og (2.3) på en alternativ måte: 0 P(A) 1, for alle A (2.6) P(Ω) = e Ω p(e) = 1 (2.7) 15
2.4 Mengdelære Ω Utfallsrommet er hele det blå området. Figur 2.2: Utfallsrommet Ω. A A visualiseres ved det blå området. Figur 2.3: Begivenheten A. Ā A A benevnes ikke A. Figur 2.4: Komplementet til A er A (eller A c ). 16
A B A og {}}{ B. A og B inntreffer. Tilsvarer OVERLAPP av mengder. Figur 2.5: Snittet mellom A og B. A B A eller {}}{ B. A eller B (eller begge) inntreffer. Tilsvarer SUM av mengder. Figur 2.6: Unionen mellom A og B. A B A og {}}{ B =. A og B inntreffer aldri samtidig. ingen felles elementer Figur 2.7: A og B er disjunkte, dvs. unionen mellom A og B er tom, altså umulig. Huskeregler: = og, tilsvarer OVERLAPP av mengder = eller, tilsvarer SUM av mengder 17
2.5 Regning med sannsynligheter Definisjon: ( disjunkte begivenheter) To begivenheter A og B er disjunkte dersom A og {}}{ B =. Setningen: ( den spesielle addisjonssetningen ) Dersom begivenhetene A og B er disjunkte, dvs. A og {}}{ B =, så gjelder: P(A eller {}}{ B) = P(A)+P(B) (2.8) Setningen: ( den generelle addisjonssetningen ) For begivenhetene A og B gjelder: eller {}}{ P(A B) = P(A)+P(B) P(A og {}}{ B) } {{ } ekstra ledd (2.9) 18
Setningen: ( den generelle addisjonssetningen ) For begivenhetene A, B og C gjelder: P(A B C) } {{ } eller = P(A)+P(B)+P(C) P(A B) P(A C) P(B C) + P(A B C) } {{ } og (2.10) Setningen: ( komplementsetningen ) For begivenheten A og dens komplement A (eller A c ) gjelder: P(A) = 1 P(A) (2.11) Setningen: ( total sannsynlighet ) For begivenhetene A og B gjelder: P(A) = P(A B)+P(A B) (2.12) 19
Setninger: ( tvillingsetningene ) og eller {}}{ {}}{ P(A B) = 1 P(A B) (2.13) og eller {}}{ {}}{ P(A B) = 1 P(A B) (2.14) 20
Kapittel 3 Kombinatorikk Figur 3.1: Kombinatorikk. En lås med svært mange kombinasjonsmuligheter. 21
3.1 Koblinger Definisjon: ( koblinger ) Koblinger = forhold som gjør at et bestemt valg kan påvirke utfallet av andre valg vi skal gjøre. Grunnprinsipp i kombinatorikk: ( antagelse ) Ingen kobling mellom mellom valgmulighetene. Kombinasjoner: ( uten koblinger ) Dersom vi har m 1 = antall muligheter i valg nr. 1 m 2 = antall muligheter i valg nr. 2.. m N = antall muligheter i valg nr. N (3.1) da er antall mulige kombinasjoner = m 1 m 2 m 3...m N (3.2) 22
3.2 4 situasjoner (endelig populasjon) Urnemodellen: er det trekking med eller uten tilbakelegging? betyr det noe i hvilken rekkefølge kulene trekkes? trekning m/tilbakelegging u/tilbakelegging ordnet situasjon 1 situasjon 2 ikke-ordnet situasjon 4 (forekommer sjelden) situasjon 3 Figur 3.2: 4 situasjoner for urnemodellen. 23
La: N = totalt antall valgobjekter (3.3) s = antall objekter som velges (3.4) Situasjon 1: # ordnede komb. m/tilbakelegging = N N... N = N s (3.5) Situasjon 2: # ordnede komb. u/tilbakelegging = N (N 1)... (N s+1) = N! (N s)! (3.6) Situasjon 3: # ikke-ordnede komb. u/tilbakelegging = N! (N s)! s! ( ) N s } {{ } binomialkoeff. (3.7) Situasjon 4: Ingen formel. 24
3.3 Kombinatoriske sannsynligheter La oss se på en tellesituasjon som kan beskrives med urnemodellen. I slike situasjoner er det en sammenheng mellom sannsynlighet og antall kombinasjoner: P(A) = antall gunstige kombinasjoner for A antall mulige kombinasjoner totalt (3.8) 25
Kapittel 4 Betinget sannsynlighet Figur 4.1: Gitt at vi vet hvilke kuler som er i bøtten... 26
4.1 Multiplikasjonssetningen Setning: ( multiplikasjonssetningen, generelle ) 1 P(A og {}}{ B) = P(A B) P(B) (4.2) Tilsvarende gjelder: = P(A B) { }} { P(B A) = P(B A) P(A) (4.3) 4.2 Bayes lov Setning: ( Bayes lov ) P(A B) = P(B A) P(A) P(B) (4.4) eller alternativt: P(B A) = P(A B) P(B) P(A) (4.5) 1 For en betinget sannsynlighet står det vi vet til høyre for : P(B A) = P(B når } vi {{ veta } ) (4.1) vet 27
4.3 Oppsplitting av Ω Setningen: ( oppsplitting av Ω i 2 ) {}}{ Anta at utfallsrommet Ω splittes i to delrom Ω = B 1 B 2, der B 1 B 2 =, dvs. delrommene B 1 og B 2 har ingen felles elementer: de er disjunkte. Enhver mengde A kan da skrives: eller med tilhørende sannsynlighet A = (A B 1 ) eller {}}{ (A B 2 ) (oppsplitting) (4.6) P(A) = P(A B 1 ) + P(A B 2 ) (4.7) Alternativt 2 kan lign.(4.7) skrives: P(A) = P(A B 1 ) P(B 1 ) + P(A B 2 ) P(B 2 ) (4.8) Figur 4.2: Oppsplitting av sannsynlighetsrom Ω, jfr. lign.(4.6). 2 Via multiplikasjonssetningen i lign.(4.2): P(A og {}}{ B) = P(A B) P(B). 28
Setningen: ( oppsplitting av Ω ) eller {}}{ {}}{ {}}{ {}}{ Anta at utfallsrommet Ω splittes i delrom Ω = B 1 B 2 B 3... B N, der alle B i B j =, dvs. ingen delromb 1, B 2,..., B N har noen felles elementer: disjunkte Enhver mengde A kan da skrives: eller eller eller eller {}}{ A = (A B 1 ) (A B 2 ) med tilhørende sannsynlighet eller {}}{... eller {}}{ (A B N ) (oppsplitting) (4.9) P(A) = P(A B 1 ) + P(A B 2 ) +... + P(A B N ) (4.10) Alternativt kan lign.(4.10) skrives: P(A) = P(A B 1 ) P(B 1 ) + P(A B 2 ) P(B 2 ) +... + P(A B N ) P(B N ) (4.11) Figur 4.3: Oppsplitting av sannsynlighetsrom Ω, jfr. lign.(4.9). 29
4.4 Uavhengighet Definisjon: ( uavhengighet ) To begivenheter A og B er uavhengige dersom P(A B) = P(A) (4.12) Setning: ( multiplikasjonssetningen, spesielle ) Dersom begivenhetene A og B er uavhengige, så gjelder: P(A og {}}{ B) uavh. = P(A) P(B) (4.13) 30
Sannsynlighetsregning ( kap. 2 og 4 ) Add. setn. Mult. setn. Disjunkt Uavh. Tvilling Komp. setn.: Total sanns.: Bayes lov: Oppspl. av Ω:
Kombinotarikk ( kap. 3 ) Situasjon 1: Situasjon 2: Situasjon 3: Situasjon 4: Ingen formel i vårt kurs
Kapittel 5 Tilfeldige variabler, forventning og varians Figur 5.1: Forventning og varians. 33
5.1 Tilfeldige variabler Definisjon: ( tilfeldig/stokastisk variabel ) En stokastisk variabel er en strrelse X som kan anta ulike verdier x med ulike sannsynligheter. Definisjon: ( sannsynlighetsfordeling, diskret ) En sannsynlighetsfordeling til en diskret variabel er en funksjon definert ved: P(x) }{{} = P(X = x) } {{ } liten x for verdier stor X for selve variabelen (5.1) Definisjon: ( kumulativ sannsynlighetsfordeling, diskret ) Den kumulative sannsynlighetsfordeling F til en diskret variabel X er definert ved: F(x) = P(X x) (5.2) 34
5.2 Forventning og varians 5.2.1 Forventning Definisjon: ( forventningsverdi, diskret ) For en diskret tilfeldig variabel X med de mulige verdiene x 1, x 2,..., x m er forventningsverdien: E[X] = m i=1 x i P(X = x i ) (5.3) Definisjon: ( forventningsverdi, kontinuerlig ) For en kontinuerlig tilfeldig variabel X er forventningsverdien: E[X] = x f(x)dx (5.4) hvor f(x) = sannsynlighetstettheten av x. 35
5.2.2 Varians Definisjon: ( varians, diskret ) For en diskret tilfeldig variabel X er variansen: Var[X] = E[(X E[X]) 2 ] (5.5) Variansen er altså forventningsverdien av (X E[X]) 2. Lign.(5.5) kan derfor skrives: Var[X] = m (x i E[X]) 2 P(X = x i ) (5.6) i=1 Setning: ( varianssetningen ) La X være en stokastisk variabel. For variansen gjelder da: Var[X] = E[X 2 ] E[X] 2 (5.7) Via lign.(5.3) kan varianssetningen skrives: Var[X] = m i=1 x 2 i P(X = x i) ( m i=1 x i P(X = x i )) 2 (5.8) 36
5.2.3 Noen regneregler La a og b være konstanter. La videre X og Y være to stokastiske variabler. Da gjelder: Regneregler for forventning: E[a] = a (5.9) E[a+X] = a+e[x] (5.10) E[a X] = a E[X] (5.11) E[aX +by] = ae[x]+be[y] (5.12) Regneregler for varians: V ar[a] = 0 (5.13) Var[a+X] = Var[X] (5.14) Var[a X] = a 2 Var[X] (5.15) Var[X] = Var[ X] (5.16) Dessuten er alltid Var[X] 0, dvs. en varians kan aldri være negativ. 37
5.3 Generelle forventninger Definisjon: ( generell forventningsverdi, diskret ) For en diskret tilfeldig variabel X og en vanlig funksjon h(x) så er: E[h(X)] = m i=1 h(x i ) P(X = x i ) (5.17) 38
Kapittel 6 Simultane sannsynlighetsfordelinger Figur 6.1: Simultane sannsynlighetsfordelinger. 39
6.1 Simultan- og marginalfordeling Definisjon: ( simultanfordeling ) La X og Y være to stokastiske variabler. Med simultanfordeling menes: p(x,y) = P(X = x og Y = y) (6.1) Definisjon: ( marginalfordeling ) La X og Y være to stokastiske variabler. Med marginalfordeling menes: P(X = x) = y p(x, y) (6.2) P(Y = y) = x p(x, y) (6.3) Definisjon: ( uavhengighet ) La X og Y være to stokastiske variabler. Disse er uavhengige dersom: P(X = x og Y = y) } {{ } = p(x,y) = P(X = x) P(Y = y) (6.4) for alle X = x og Y = y. 40
6.2 Generelle forventninger Definisjon: ( generell forventingsverdi, diskret ) For diskrete stokastiske variabel X, Y og funksjonen h(x, Y) så gjelder: E[h(X,Y)] = m n i=1 j=1 h(x i,y j ) p(x i,y j ) (6.5) Spesialtilfelle av definisjonen i lign.(6.5): La oss se på et spesialtilfelle av lign.(6.5), nemlig det spesialtilfellet når: Da er: h(x,y) = X Y (6.6) E[X Y] = m n i=1 j=1 x i y j p(x i,y j ) (6.7) Setning: La X og Y være to uavhengige stokastiske variabler Da gjelder: E[X Y] = E[X] E[Y] (6.8) 41
6.3 Kovarians Definisjon: ( kovarians ) La X og Y være to stokastiske variabler. Med samvariasjon/korrelasjon { }} { kovariansen mellom disse mener vi: Cov[X,Y] = E[(X E[X])(Y E[Y])] (6.9) Setning: ( kovarians ) La X og Y være to stokastiske variabler. For samvariasjon/korrelasjon { }} { kovariansen gjelder da: Cov[X,Y]= E[X Y] E[X] E[Y] (6.10) Setning, (spesialtilfelle): ( kovarians ) La X og Y være to stokastiske variabler. Dersom X og Y er uavhengige, dvs.: E[X Y] uavh. = E[X] E[Y] (6.11) så er Cov[X,Y] = 0 (6.12) 42
Definisjon: ( korrelasjonskoeffisienten ) La X og Y være to stokastiske variabler. Med korrelasjonskoeffisienten ρ[x,y] mener vi da: ρ[x,y] = Cov[X,Y] Var[X] Var[Y] (6.13) 43
Setning: ( kovarians II ) La X og Y være to stokastiske variabler. Generelt gjelder da følgende sammenhengen mellom variansen og kovariansen: 1 Var[aX +by] = a 2 Var[X] + b 2 Var[Y] + 2ab Cov[X,Y] (6.15) hvor a og b er konstanter. Setning, (spesialtilfelle): ( kovarians II ) La X og Y være to stokastiske variabler. Dersom X og Y er ukorrelerte, så er: Da gjelder: Cov[X,Y] = 0 (6.16) Var[aX +by] = a 2 Var[X] + b 2 Var[Y] (6.17) 1 Siden σ[x] 2 Var[X] og siden Cov[X,Y] = ρ[x,y] σ[x] σ[y], se lign.(6.13), så kan variansen Var[X +Y] skrives på en alternativ måte: σ[ax +by] 2 = a 2 σ[x] 2 + b 2 σ[y] 2 + 2ab ρ[x,y] σ[x] σ[y] (6.14) 44
Kapittel 7 Sentrale sannsynlighetsfordelinger Figur 7.1: Illustrasjon av sentralgrensesetningen ( CLT ). 45
7.1 Den binomiske fordelingen Binomisk forsøksserie: 1. Hvert forsøk skal ha 2 mulige utfall, s (suksess) eller f (fiasko). 2. Det skal være samme sannsynlighet p for suksess i alle n forsøkene. 3. Alle forsøk er uavhengige. 4. Vi gjennomfører et bestemt antall forsøk, n. En forsøksserie som oppfyller disse kravene kalles en binomisk forsøksserie. Definisjon: ( binomisk fordeling, X Bin[n, p] ) Punktsannsynlighetene for en binomisk fordeling er: P(X = x) def. = ( ) n p x (1 p) n x (7.1) x Setning: ( forventing og varians av X Bin[n,p] ) La X være en binomisk variabel, dvs. X Bin[n,p]. Da er forventningen: og variansen: E[X] = n p (7.2) Var[X] = n p(1 p) (7.3) 46
7.2 Den hypergeometriske fordelingen Definisjon: ( hypergeometrisk fordeling, X Hyp[N, M, n] ) Punktsannsynlighetene for en hypergeometrisk fordeling er: P(X = x) def. = ( ) ( ) M N M x n x ( ) (7.4) N n hvor X = stokastisk variabel = antall spesielle elementer i det tilfeldige utvalget på (7.5) n trukne elementer N = antall elementer i grunnmengden (7.6) M = antall spesielle elementer (7.7) N M = antall vanlige elementer (7.8) n = antall trukne elementer (7.9) Merk: En hypergeometrisk forsøksserie tilsvarer en situasjon med trekning uten tilbakelegging. 47
Setning: ( forventing og varians av X Hyp[N,M,n] ) La X være en hypergeometrisk variabel, dvs. X Hyp[N, M, n]. Forventningsverdien er da: E[X] = n M N (7.10) og variansen: Var[X] = N n N 1 n M ( N 1 M ) N (7.11) Setning: ( Hyp[N,M,n] Bin[n,p] ) Dersom grunnmengden N i en hypergeometrisk forsøkserie er mye større enn utvalget n, typisk: så er: N 20 n (7.12) X Hyp[N,M,n] N 20 n X Bin[n,p] (7.13) 48
7.3 Poissonfordelingen Definisjon: ( Poissonfordeling, X Poi[λ] ) 1 Punktsannsynlighetene for en Poissonfordeling er: hvor P(X = x) def. = λx x! e λ (7.14) λ = gjennsomsnittlig antall begivenheter innenfor en gitt tid eller gitt rom Setning: ( forventing og varians av X Poi[λ] ) La X være en Poissionfordelt variabel, dvs. X Poi[λ]. Forventningenverdien er da: og variansen er: E[X] = λ (7.15) Var[X] = λ (7.16) 1 Kalles ofte loven om sjeldne begivenheter. 49
Setning: ( Bin[n, p] Poi[λ] ) I en binomisk sannsynlighetsfordeling, dersom sannsynligheten for suksess p er svært liten og antall forsøk n er svært stor, typisk så er n 50 og p 0.05 (7.17) X Bin[n,p] n50 og p0.05 X Poi[λ] (7.18) 50
7.4 Normalfordelingen (kontinuerlig) Definisjon: ( generelle normalfordeling X N[µ, σ] ) La X være en kontinuerlig stokastisk variabel. Den generelle normalfordelingen for X er: f X (x) = 1 2πσ 2 e (x µ)2 2σ 2 (7.19) hvor µ = E[X] = forventingen av X (7.20) σ 2 = Var[X] = variansen av X (7.21) Definisjon: ( standardisert normalfordeling, X N[µ = 0, σ = 1] ) La X være en kontinuerlig stokastisk variabel. Dersom E[X] = µ = 0, Var[X] = σ 2 = 1 (7.22) så vil den generelle normalfordelingen i lign.(7.19) redusere seg til: f X (x) = 1 2π e x2 2 (7.23) Dette kalles den standardiserte normalfordelingen. 51
P(Z z 52
7.4.1 Standardavvik σ og %-vis areal For en normalfordeling med et gitt standardavvik σ, så dekker intervallet µ σ X µ+σ hele 68.2 % av arealet (7.24) under sannsynlighetfordelingen f X (x). Tilsvarende dekker intervallet µ 2σ X µ+2σ hele 95.4 % av arealet (7.25) under sannsynlighetfordelingen f X (x). Dette er illustrert i denne figuren: Figur 7.2: Standardavvik σ og %-vis areal for en normalfordeling. 53
7.5 Sentralgrensesetningen Setning: ( CLT 2, sentralgrensesetningen ) La X 1, X 2, X 3,... X n være uavhengige stokastiske variabler med samme P(X = x i ), dvs. diskret ELLER kont. { }} { sannsynlighetsfordeling X i samme sannsynlighetsfordeling for alle i = 1,2,3,...,n (7.26) hvor n er antall forsøk, dvs. E[X i ] = µ og Var[X i ] = σ 2, i = 1,2,3,...,n (7.27) er den samme for alle forsøk / gitt stokastisk variabel i. Da gjelder at gjennomsnittet X: X = X 1 +X 2 +X 3 +... +X n n er normalfordelt i grensen når antall forsøk n BLIR STOR: X n=stor [ ] σ N µ, n (7.29) (7.28) altså P(X = x) er normalfordelt med forventning og varians hhv. E[X] = µ og Var[X] = σ2 n (7.30) 2 På engelsk brukes ofte forkortelsen CLT, dvs. central limit theorem. 54
Det er en alternativ måte å formulere sentralgrensesetningen på: Setning: ( sentralgrensesetningen og G(z) ) diskret ELLER kont. { }} { LaX 1,X 2,X 3,...X n værenstk.uavhengigestokastiskevariablermedsammesannsynlighetsfordeling med µ som forventingsverdi og σ 2 som varians, dvs. E[X i ] = µ og Var[X i ] = σ 2, i = 1,2,3,...,n (7.31) Gjennomsnittet X av disse n stk. stokastiske variablene X = X 1 +X 2 +X 3 +... +X n n (7.32) er da normalfordelt for store n, dvs. ( ) P(X x) n=stor x µ G σ n (7.33) Kommentar: Hvor stor n må være ( n = antall forsøk ) for at sentralgrensesetningen skal gjelde er avhengig av situasjonen. Men en tommelfingerregel er at vi bør ha: n 30 (7.34) dvs. antall forsøk bør være ca. 30 eller mer. 55
7.6 Diskrete fordelinger normalfordeling Setning: ( Bin[n,p] N[µ,σ] ) For en diskret { }} { binomisk fordeling, X Bin[n, p], hvor n p(1 p) 5 (7.35) så er sannsynligheten X har verdien x være kont. { }} { normalfordelt: ( ) x+0.5 E[X] P(X x) G σ[x] ( ) x 0.5 E[X] P(X x) 1 G σ[x] (7.36) (7.37) hvor forventning og standardavvik er E[X] lign.(7.2) = n p (7.38) σ[x] lign.(7.3) = n p(1 p) (7.39) 56
Setning: ( Hyp[N,M,n] N[µ,σ] ) For en diskret { }} { hypergeometrisk fordeling, X Hyp[N, M, n], hvor N 20 n (7.40) n M N (1 M N ) 5 (7.41) så vil X være tilnærmet en kont. { }} { normalfordeling: ( ) x+0.5 E[X] P(X x) G σ[x] ( ) x 0.5 E[X] P(X x) 1 G σ[x] (7.42) (7.43) hvor forventning og standardavvik er E[X] σ[x] lign.(7.10) = n M N lign.(7.11) = (7.44) n M N (1 M N ) (7.45) 57
Setning: ( Poi[λ] N[µ,σ] ) For en diskret { }} { Poissonfordeling, X Poi[λ], hvor λ 5 (7.46) så vil X være tilnærmet en kont. { }} { normalfordeling: ( ) x+0.5 E[X] P(X x) G σ[x] ( ) x 0.5 E[X] P(X x) 1 G σ[x] (7.47) (7.48) hvor forventning og standardavvik er E[X] lign.(7.15) = λ (7.49) σ[x] lign.(7.16) = λ (7.50) 58
Setning: ( diskret N[µ,σ] ) Dersom X er diskret sannsynlighetsfordeling som er tilnærmet kont. { }} { normalfordelt, dvs. og hvor X kun kan ha hele tall, dvs. X tilnærmet N[µ, σ] (7.51) da gjelder X = diskret stokastisk variabel som kun har hele tall (7.52) ( ) x+0.5 E[X] P(X x) G σ[x] ( ) x 0.5 E[X] P(X x) 1 G σ[x] (7.53) (7.54) hvor E[X] σ[x] lign.(7.15) = forventning til den diskrete variabelen (7.55) lign.(7.16) = variansen til den diskrete variabelen (7.56) 59
7.7 Sammenheng: Bin, Hyp, Poi og N Her er en oversikt over sammenhengene mellom de fire sannsynlighetsfordelingene som inngår i MAT110 Statistikk 1 : Figur 7.3: Oversikt. De blå pilene representerer setningene i lign.(7.13) og lign.(7.18). 60
Bin[ n, p ] Hyp[ N, M, n ] Poi[ λ ] N[ μ, σ ] 2 param. 3 param. 1 param. 2 param. diskret diskret diskret kontinuerlig
Bin[ n, p ] Hyp[ N, M, n ] Poi[ λ ] N[ μ, σ ] 1) 2 mulig utfall 2) samme p for suksess 3) uavhengige 1) x antall suksesser / spesielle 2) N antall i grunnmengden 3) M antall spesielle 1) x antall begivenheter innenfor en gitt tid 2) λ = rate 1) Tetthetsfunksjon f X (x) 2) Gausskurve 4) n antall forsøk 4) n antall trukne elementer - kjenner ikke fordelingen i urnen - m / tilbakelegging - teller opp antall suksesser - kjenner fordelingen i urnen - u / tilbakelegging - teller opp antall suksesser - rate ( konstant ) - antall begivenheter innenfor en gitt tid eller gitt rom - telleforsøk - loven om skjeldne begivenh. - under bestemte betingelser vil mange diskrete og kontinuerige fordelinger med god tilnæring være normalfordelt (f.eks. CLT )
Kapittel 11 Regresjonsanalyse Figur 11.1: Regresjon. 63
11.1 Residual og SSE Definisjon: ( residual ) 1 La (x 1,y 2 ),(x 2,y 2 ),...,(x n,y n ) være observasjonspar/datasett. La videre linjen ŷ = a + bx, hvor a og b er parametre, være en foreslått lineær modell for observasjonsparene. For observasjonsverdien x i, hvor i = 1,2,...,n, er da den tilhørende predikerte/estimerte verdien ŷ i gitt ved: ŷ i = a+bx i (11.1) Residual e i er da definert ved: e i = y i ŷ i (11.2) hvor y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.3) 1 SSE står for sum square error. 64
Definisjon: ( SSE ) 2 La (x 1,y 2 ),(x 2,y 2 ),...,(x n,y n ) være observasjonspar/datasett. Størrelsen SSE, sum squared error, er da definert ved: 3 SSE = n (y i ŷ i ) 2 (11.5) i=1 hvor ŷ i er prediksjonene/estimatene som linjen 4 ŷ i = a + bx i } {{ } prediksjoner (11.6) gir for tilhørende observasjonsverdiene x i, og y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.7) 2 SSE står for sum square error. 3 Siden e i lign.(11.2) = y i ŷ i så kan SSE alternativt skrives: 4 a og b er parametre. SSE = n e 2 i (11.4) i=1 65
11.2 Minste kvadraters regresjonslinje Å finne den linjen ŷ i = a+bx i som passer best med datasettet menes å finne den a og b som gir minst SSE, dvs. minst sum squared error i forhold til datasettet. y Vilkårlig a og b: y og som passer best: y = a + bx e 5 y = + x e 5 e 1 e 2 e 3 e 4 e 3 e 4 e 1 e 2 x x Figur 11.2: Linje som ikke passer best, og linje som passer best. Setning: ( minste kvadraters lineære regresjonslinje ) La (x 1,y 2 ),(x 2,y 2 ),...,(x n,y n ) være observasjonspar/datasett. Minste kvadraters lineære regresjonslinje er da gitt ved: hvor ŷ = ˆα + ˆβx, (11.8) og ˆβ = S xy Sx 2 (11.9) ˆα = y ˆβx (11.10) S 2 x lign.(1.10) = 1 n 1 n i=1 (x i x) 2, S xy lign.(1.12) = 1 n 1 n (x i x)(y i y) (11.11) i=1 samt x = 1 n n i=1 x i og y = 1 n n i=1 y i. 66
11.3 Forklaringsstyrke og SST Definisjon: ( SST ) 5 La (x 1,y 2 ),(x 2,y 2 ),...,(x n,y n ) være observasjonspar/datasett. Størrelsen SST, sum squared total, er da definert ved: SST = n (y i y) 2 (11.12) i=1 hvor y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.13) og y er det empiriske gjennomsnittet, dvs. y lign.(1.3) = 1 n n y i (11.14) i=1 y y i y i = residual y i y i y i y i = total variasjon y x i x Figur 11.3: Residual og total variasjon. 5 SST står for sum square total. 67
Definisjon: ( forklaringskraften ) 6 La x 1,x 2,x 3,...,x n og y 1,y 2,y 3,...,y n være observasjoner. Forklaringskraften R 2 er da: R 2 = 1 SSE SST (11.15) hvor SSE = SST = n (y i ŷ i ) 2 (11.16) i=1 n (y i y) 2 (11.17) i=1 hvor y i er de faktiske observasjonene/dataene: y i }{{} faktiske observasjoner/data (11.18) og ŷ i er prediksjonene/estimatene som linjen 7 ŷ i = ˆα + ˆβx i } {{ } prediksjoner (11.19) samt y er det empiriske gjennomsnittet, dvs. y = 1 n n y i (11.20) i=1 6 Kalls også forklaringsgrad. 7 Se lign.(11.8). Parametrene/koeffisientene ˆα og ˆβ er parametre gitt ved lign.(11.10) og (11.9). 68