FORMELSAMLING STATISTIKK, HiG Hans Petter Hornæs hans.hornaes@hig.no Versjon per 18. februar 2004 Innhold 1 EMPIRISKE STATISTISKE MÅL 1 1.1 Forventningsverdi, varians og standardavvik..................... 1 1.2 Grupperte data..................................... 1 1.3 Ordnede data, median og kvartiler.......................... 2 1.4 Regresjon........................................ 2 2 SANNSYNLIGHETSREGNING 3 2.1 Definisjon av sannsynlighet - Kolmogoroffs aksiomer................ 3 2.2 Kombinatorikk..................................... 3 2.3 Diskrete sannsynlighetsfordelinger.......................... 4 2.4 Kontinuerlige sannsynlighetsfordelinger........................ 5 2.5 Forventningsverdi og varians............................. 7 2.6 Regneregler for forventningsverdi og varians..................... 7 2.7 Sentralgrenseteoremet................................. 8 3 STATISTISKE METODER 10 3.1 Generelle inisjoner.................................. 10 3.2 Tifeldig utvalg, en variabel (eller paret modell)................... 10 3.3 Tilfeldig utvalg, to variable (Uparet modell):.................... 11 3.4 Lineær regresjonsmodell................................ 11 3.5 Variansanalyse (ANOVA)............................... 12 3.6 Ikke parametriske tester................................ 14 3.7 χ 2 -tester (kjikvadrattester).............................. 14 4 TABELLER 16 4.1 Kumulativ normalfordeling Φ(z)........................... 16 4.2 Fraktiler, normalfordeling............................... 16 4.3 Student T fordeling, fraktiltabell........................... 17 4.4 χ 2 fordeling, fraktiltabell............................... 18 4.5 Fishers F fordeling, fraktiltabell........................... 19 0
1 EMPIRISKE STATISTISKE MÅL 1.1 Forventningsverdi, varians og standardavvik La x {x 1,x 2,... x n } være et datasett av (reelle) tall: 1.1.1 Beliggenhetsmål: Empirisk forventningsverdi (gjennomsnitt): x x 1 + x 2 + + x n n 1.1.2 Definisjon av noen hjelpestørrelser: 1 n n x i (1) s xx n x 2 i n x2 n (x i x) 2 s yy n y 2 i n y2 n (y i y) 2 (2) s xy n x i y i n x y n (x i x)(y i y) 1.1.3 Spredningsmål: Empirisk varians og standardavvik Varians (empirisk varians) s 2 er gitt ved: s 2 Var(x) n (x i x) 2 n 1 s xx (n 1) (3) Standardavvik er gitt ved: 1.2 Grupperte data s Var(x) (4) Hvis det er flere observasjoner av hver verdi kan observasjonene organiseres i en frekvenstabell. La y i for i {1, 2,...,k} være verdiene som finnes blant de n observasjonene. Antall observasjoner av y i kalles frekvensen, betegnet F i. Andel observasjoner av y i kalles den relative frekvensen, betegnet f i.daerf i F i /n. Med utgangspunkt i at verdiene y 1,y 2,...,y k, n og frekvensene (og dermed de relative frekvensene) er kjent, får vi følgende formler: 1.2.1 Gjennomsnitt, grupperte data x k y i f i (5) 1.2.2 Varians, grupperte data k s 2 (y i x) 2 f i n 1 Standardavviket er fortsatt s s 2. n ( k ) yi 2 n 1 f i (x) 2 (6) 1
1.3 Ordnede data, median og kvartiler La x {x [1],x [2],... x [n] } være et datasett av (reelle) tall ordnet i stigende rekkefølge: 1.3.1 Beliggenhetsmål: Median Medianen x (også benevnt md eller q 2, midterste verdi) : x x [(n+1)/2] n oddetall ) x 1 2 (x [n/2] + x [(n/2)+1] n partall (7) 1.3.2 Spredningsmål: Kvartilavstand Nedre kvartil q 1 avgrenser nedre fjerdedel, mens øvre kvartil q 4 avgrenser øvre fjerdedel av de ordnede dataene. (Mer presist, inert som i matematikkprogrammet Maple, inisjonen kan variere noe mellom forskjellige bøker eller kalkulatorer): s q 1 q 3 n 4k n/4 x [s] x [n s] 3 n 4k +1 (n 1)/4 4 x [s] + 1 4 x [s+1] 1 n 4k +2 (n 2)/4 2 x [s] + 1 2 x [s+1] 1 n 4k +3 (n 3)/4 4 x [s] + 3 4 x [s+1] 1 4 x [n s 1] + 3 4 x [n s] 1 2 x [n s 1] + 1 2 x [n s] 3 4 x [n s 1] + 1 4 x [n s] (8) 1.4 Regresjon Kvartilavstand: q 3 q 1 (9) Tilpasning av n tallpar { (x 1,y 1 ), (x 2,y 2 ),...(x n,y n ) } til linja y a + bx: Stigning: Konstant: Empirisk korrelasjon: b a r s xy s xx y bx (10) s xy sxx syy 2
2 SANNSYNLIGHETSREGNING 2.1 Definisjon av sannsynlighet - Kolmogoroffs aksiomer a) 0 P(A) 1 b) P(S) 1 c) P( A i ) P(A i ) hvis i j A i A j 2.1.1 Noen umiddelbare konsekvenser av Kolmogoroffs aksiomer a) P(A B) P(A)+P(B) hvis A B b) P(A B) P(A)+P(B) P(A B) c) P(A) 1 P(A) d) P( ) 0 (11) (12) 2.1.2 Betinget sannsynlighet P(A B) P(A B)/P(B) (13) Dette gir at P(A B) P(A B)P(B) ogp(a B) P(A)P(B A). 2.1.3 Uavhengighet Hendelsene A og B kalles uavhengige P(A B) P(A)P(B) (14) Dette er det samme som at P(A B) P(A), og også det samme som at P(B A) P(B). 2.2 Kombinatorikk 2.2.1 Multiplikasjonsprinsippet En operasjon utføres i n etapper. I i te etappe er det N i mulige utfall. Da er det totale antall mulige utfall N 1 N 2 N 3 N n (15) 2.2.2 Fakultet og binomialkoeffisienter Fakultet ( n! ) N Binomialkoeffisienter n ( ) N Binomialkoeff., alternativ n For n 0 inerer vi 0! n (n 1) (n 2) 3 2 1 N! (N n)! n! 1 N (N 1) (N 2) (N n +1) n (n 1) (n 2) 3 2 1, (16) ( ) N 1 (17) 0 3
2.2.3 Antall kombinasjoner Urnemodell: Trekker n kuler fra en urne med totalt N kuler. Antall måter å gjøre dette på: Ordnet utvalg Ikke ordnet utvalg Med tilbakelegging N n (Ikke pensum) ( ) (18) N Uten tilbakelegging N (N 1) (N 2) (N n +1) n 2.3 Diskrete sannsynlighetsfordelinger 2.3.1 Generelt a) Kumulativ sanns.fordeling F (x) b) Punktsannsynlighet f(x) c) Forventningsverdi µ E(X) d) Varians Var(X) P(X x) P(X x) x i P(X x i ) Alternativ formel Var(X) e) Standardavvik σ (x i µ) 2 P(X x i ) x 2 i P(X x i) µ 2 Var(X) (19) 2.3.2 Binomisk fordeling X bin(n, p) Parametrene p og n er konstanter, der 0 p 1ognet naturlig tall, hvis X har punktsannsynlighet ( ) n f(x) p x (1 p) n x x {0, 1, 2,...,n} (20) x Bruk: Gjentar samme forsøk n ganger, p er sannsynligheten for gunstig utfall i hvert enkelt forsøk, og X er antall gunstige utfall i forsøksrekken. For eksempel X er antall seksere i n terningkast. Da er p 1/6. Forventningsverdi E(X) np Varians Var(X) np(1 p) Standardavvik σ np(1 p) (21) 4
2.3.3 Poissonfordeling X po(λ t) (Parameteren λ t>0 er en konstant) hvis X har punktsannsynlighet (λ t)x f(x) e λ t x {0, 1, 2,...} (22) x! Bruk: X er antall ulykker i et tidsintervall med lengde t (konstant ulykkesrisiko, forventet antall ulykker per tidsenhet er λ). Forventningsverdi E(X) λ t Varians Var(X) λ t (23) 2.3.4 Hypergeometrisk fordeling X hyp(n,m,n) (dern n>0, M N er naturlige tall) hvis X har punktsannsynlighet ( M )( N M ) x n x f(x) ( N x {0, 1, 2,...,n} (24) n) Bruk i urnemodell: Trekker n kuler uten tilbakelegging. Antall gunstige kuler er M og antall kuler totalt er N. X er antall gunstige kuler i utvalget. Ved å innføre p M/N, (p er andelen gunstige kuler ) har vi: Forventningsverdi E(X) np Varians Var(X) N n N 1 np(1 p) (25) 2.4 Kontinuerlige sannsynlighetsfordelinger 2.4.1 Generelt a) Kumulativ sanns.fordeling F (x) b) Sannsynlighetstetthet f(x) c) Forventningsverdi µ E(X) d) Varians Var(X) P(X x) Alternativ formel Var(X) e) Standardavvik σ d dx F (x) xf(x) dx (x µ) 2 f(x) dx x 2 f(x) dx µ 2 Var(X) (26) 5
2.4.2 Eksponentialfordeling T exp(λ) (λ>0 en konstant) hvis T har sannsynlighetstetthet og kummulativ sannsynighetsfordeling gitt ved f(t) λe λt for t 0, (f(t) 0fort<0) F (t) t 0 λe λτ dτ 1 e λt for t 0, (F (t) 0fort<0) Bruk: T er tid fram til neste ulykke (konstant ulykkesrisiko, samme forutsetninger som for Poissonfordeling). 2.4.3 Normalfordeling (27) Forventningsverdi E(X) 1/λ Varians Var(X) 1/λ 2 (28) En stokastisk variabel Z kalles standard normalfordelt, Z N(0, 1), om sannsynlighetstettheten er f(z) φ(z) 1 e 1 2 z2, ( <z< ) (29) 2π For standard normalfordeling betegnes den kumulative sannsynlighettstettheten Φ(z). Om Z N(0, 1), og µ, σ er konstanter, kalles fordelinga til normalfordeling med parametre µ og σ, med notasjon X σz + µ (der µ R og σ>0 ) (30) X N(µ, σ). Kumulativ sanns.fordeling F (x) ( ) x µ Φ σ Forventningsverdi E(X) µ Varians Var(X) σ 2 Tabell over sannsynligheter og fraktiler i standard normalfordeling er på side16 (31) 2.4.4 χ 2 fordeling Hvis Z 1,...,Z n er uavhengige og standard normalfordelt inerer vi fordelinga til n X Zi 2 (32) som en χ 2 fordeling med parameter ν n frihetsgrader, X χ 2 ν Hvis X 1,...,X n er uavhengige og N(µ, σ) fordelt, og X n X i /n, har ( ) n 2 Xi X X χ 2 fordeling med ν n 1 frihetsgrader (33) σ Forventningsverdi E(X) ν Varians Var(X) 2ν χ 2 fordeling brukes ved undersøkelse av varianser, ved tester om stokastisk avhengighet (sammenheng) og om hvorvidt et datasett passer til en gitt fordelingstype (avsnitt 3.7). Fraktiltabell for χ 2 fordeling er på side 18. 6 (34)
2.4.5 Students t fordeling Hvis Z er standard normalfordelt og X er χ 2 fordelt med ν frihetsgrader, Z og X uavhengige, kalles fordelingen til T Z (35) X/ν Students t fordeling med parameter ν frihetsgrader, t T ν Anta X 1,...,X n er uavhengige og N(µ, σ) fordelt. ( n n ) Hvis X X i /n og S Xi 2 nx 2 /(n 1) gjelder: T X µ S/ n er Students t-fordelt med ν n 1 frihetsgrader (36) Students t-fordeling brukes ved slutninger om forventningsverdier når standardavviket er ukjent. Fraktiltabell for Students t fordeling er på side 17. 2.4.6 Fisher fordeling Hvis U er χ 2 fordelt med n frihetsgrader og V er χ 2 fordelt med m frihetsgrader, U og V uavhengige, inerer vi fordelingen til F U/n V/m (37) som en Fisherfordeling med n og m frihetsgrader, F F n,m. Fisherfordeling brukes i forbindelse med variansanalyse (avsnitt 3.5), og ved sammenlikning av varianser. Fraktiltabell for Fisher fordeling er på side 19. 2.5 Forventningsverdi og varians Definisjon: Diskrete fordelinger: E(g(X)) g(x i ) f(x i ) (f(x i )P(X x i )) Kontinuerlige fordelinger: E(g(X)) g(x) f(x) dx (f(x) er sannsynlighetstettheten ) ( Varians: Var(X) E (X µ) 2) ( E X 2) µ 2 (der µ E(X)) (38) Som oftest er g(x) X. 2.6 Regneregler for forventningsverdi og varians a, b, a 1, a 2... a n er konstanter og X, Y, X 1, X 2... X n er stokastiske variable (diskrete eller kontinuerlige). X (X 1 + X 2 + + X n )/n er gjennomsnittet av n stokastiske variable. 7
2.6.1 Summeregler for forventningsverdier a) E(aX + b) a E(X)+b b) E(X + Y )E(X)+E(Y) c) E(a 1 X 1 + a 2 X 2 + + a n X n + b) a 1 E(X 1 )+a 2 E(X 2 )+ + a n E(X n )+b 2.6.2 Summeregler for varians a) Var(aX + b) a 2 Var(X) b) Var(X + Y )Var(X)+Var(Y ) hvis X og Y er uavhengige (ukorrelerte) c) Var(X + Y )Var(X)+Var(Y )+2Cov(X, Y ) d) Var(a 1 X 1 + a 2 X 2 + + a n X n + b) a 2 1 Var(X 1 )+a 2 2 Var(X 2 )+ + a 2 n Var(X n ) hvis alle X i ene er uavhengige (ukorrelerte) 2.6.3 Noen viktige konsekvenser a) σ ax+b aσ X hvis a>0, generelt σ ax+b a σ X b) E(X) µ hvis E(X i )µ for alle i c) Var(X) 1 n σ2 hvis Var(X i )σ 2 for alle i og alle X i ene er uavhengige d) σ X σ n hvis σ Xi σ for alle i og alle X i ene er uavhengige e) E(X Y )E(X) E(Y ) f) Var(X Y )Var(X)+Var(Y ) hvis X og Y er uavhengige 2.7 Sentralgrenseteoremet Om X 1, X 2,..., X i,... alle er uavhengige, E(X i )µ og Var(X i )σ 2 er ( n lim X i ) nµ N(0, 1) (standard normalfordelt) (39) n nσ I praksis betyr dette at summen av mange uavhengige observasjoner fra samme fordeling er tilnærmet normalfordelt. Om fordelingene i utgangspunktet er tilnærmet symmetriske behøver ikke n være videre stor for at tilnærmingen blir god. 8
2.7.1 Noen konsekvenser av sentralgrenseteoremet n X X i /n Y med Y N(µ, σ/ n) for store n (40) Det vil si at gjennomsnittet av mange uavhengige observasjoner fra samme fordeling er tilnærmet normalfordelt. ( Om X bin(n, p) erx Y der Y N np, ) np(1 p) P(a X b) P(a 1/2 Y b +1/2) for store n : (41) Det vil si at for store n er binomisk fordeling tilnærmet normalfordeling. Tommelfingerregel : np > 5 og n(1 p) > 5. For bedre tilnærming ta med en halv enhet ekstra i hver retning (halvkorreksjon). Også Poissonfordeling er tilnærmet normalfordelt for store λ ( Tommelfingerregel : λ > 15). Også her brukes halvkorreksjon. 9
3 STATISTISKE METODER 3.1 Generelle inisjoner Definisjon Hvis X er en tilfeldig variabel er α fraktilen k α inert ved likningen P (X >k α )α ( eller P (X k α )1 α ) (42) Definisjon betyr fordelt som. (f.eks betyr Z N(0, 1) at Z er standard normalfordelt) Definisjoner: Ved å bytte ut små med store bokstaver i inisjonene i avsnitt 1, Empiriske Statistiske Mål, for x og s ene i de empiriske formlene, får vi tilsvarende formler for tilfeldige variable (uobserverte verdier). Eksempel: S XX Xi 2 nx2 3.2 Tifeldig utvalg, en variabel (eller paret modell) La X 1,X 2,...,X n være uavhengige og identisk normalfordelte, X i N(µ, σ) 3.2.1 σ kjent Fordelinga til gjennomsnittet: X N(µ, σ/ n) (43) Z X µ n N(0, 1) σ (standard normalfordelt) (44) På grunn av sentralgrenseteoremet er dette fordelingsresultatet robust mot moderate avvik fra normalfordeling på X i ene. Anvendelse : (1 α) konfidensintervall for µ når σ er kjent: ( ) σ σ x z α/2 n, x + z α/2 n (45) der z α/2 betyr α/2 fraktilen til en standard normal fordeling. 3.2.2 σ ukjent T X µ n Tn 1 (Students T-fordelt med n 1 frihetsgrader) (46) S Anvendelse (1) : (1 α) konfidensintervall for µ når σ er ukjent, og t α/2 betyr α/2 fraktilen til en Students T fordeling med (n 1) frihetsgrader: ( x t α/2 s n, x + t α/2 ) s n (47) Anvendelse (2): Hypotesetesting av H 0 : µ µ 0 mot H 1 : µ>µ 0 på α nivået: Forkast H 0 om x µ 0 s 3.2.3 χ 2 fordeling (Kji-kvadrat fordeling) S XX σ 2 (n 1)S 2 /σ 2 n (X i X) 2 n > tα (48) σ 2 χ 2 n 1 (χ2 ford., n 1 frihetsgrader) (49) 10
3.3 Tilfeldig utvalg, to variable (Uparet modell): La X 1,X 2,...,X n være uavhengige og identisk normalfordelte, X i N(µ x,σ)ogy 1,Y 2,...,Y m uavhengige og identisk normalfordelte, Y i N(µ y,σ). (Dvs samme standard avvik, men muligens forskjellige forventningsverdier): T (X Y ) (µ x µ y ) S p 1 n + 1 m T n+m 2 (50) (Students T-fordelt med n + m 2 frihetsgrader.) Det polariserte standardavviket S p er estimator for σ, og er gitt ved formelen S p S XX + S YY n + m 2 (n 1)SX 2 +(m 1)S2 Y n + m 2 (51) S X og S Y er de empiriske standardavvikene til hhv. x-ene og y-ene. 3.4 Lineær regresjonsmodell La (x 1,Y 1 ), (x 2,Y 2 )...,(x n,y n ) være uavhengige par der vi antar Y ene stokastiske, og x ene under vår kontroll. Vi har en lineær regresjonsmodell om vi gjør følgende antagelse: Y i α + βx i + e i der e i N(0,σ) eller ekvivalent at Y i N(α + βx i,σ) (52) α estimeres ved a, ogβ ved b, dera og b er som i inisjonene i avsnitt 1.4. Før observasjonene (som tilfeldige variable) bruker vi de store Y ene istedenfor de små, og kaller størrelsene A og B: 3.4.1 Fordelingsresultater: A x 2 N α, σ i ( B N β, ns xx ) σ sxx (53) (B β) S T n 2 e/s 2 xx der Se 2 S YY B 2 s xx (punktestimator for σ 2 ) n 2 Eksempel på anvendelse: Hypotesetesting av H 0 : β 0motH 1 : β 0 med signifikansnivå δ. Vi bruker testobservatoren t: b t s 2 e /s xx Forkast H 0 om t>t δ/2 eller t< t δ/2 (der t δ/2 er δ/2 fraktilen i students T fordeling med n 2 frihetsgrader). 11
3.4.2 Konfidensintervall for regresjonslinjen Øvre og nedre grense er funksjonsuttrykk i x, og regresjonslinjen ligger mellom disse to grafene med sannsynlighet 1 δ: a + bx t δ/2 s e 1 (x x)2 1 (x x)2 +,a+ bx + t n s δ/2 s e + xx n s xx der t δ/2 er fraktilen i en Students t fordeling med n 2 frihetsgrader. 3.4.3 Prediksjonsintervall For en verdi x vil tilhørende observvasjon av y ligge innenfor disse grensene med sannsynlighet 1 δ: a + bx t δ/2 s e 1+ 1 (x x)2 +,a+ bx + t n s δ/2 s e 1+ 1 (x x)2 + (55) xx n s xx der t δ/2 er fraktilen i en Students t fordeling med n 2 frihetsgrader. (54) 3.5 Variansanalyse (ANOVA) 3.5.1 Enveis variansanalyse Datastruktur: Data Snitt Antall Gruppe 1 y 11,y 12,..., y 1n1 y 1 n 1 Gruppe 2 y 21,y 22,..., y 2n2 y 2 n 2.. Gruppe g y k1,y k2,..., y kng y g n g Total y n.. (56) Modell: Y ij µ i + e ij der e ij N(0,σ), e ij ene uavhengige Hypoteser: H 0 : µ 1 µ 2 µ g H 1 : Ikke alle µ i ene like Kvadratsummer: Variasjon Symbol Definisjon Utregning Frihetsgrader g n g g n g Total SS T (y ij y ) 2 yij 2 ny 2 n 1 j1 j1 g n g g Mellom grupper SS G (y i y ) 2 n i y 2 i ny 2 g 1 j1 g n g Residual SS E (y ij y i ) 2 SS T SS G n g j1 (57) Varianser: S 2 G SS G g 1 S 2 E SS E n g (58) 12
F observator: F S2 G SE 2, Hvis H 0 er sann er F F g 1,n g (59) Det vil si at F er Fisher-fordelt med g 1ogn g frihetsgrader hvis H 0 er sann. Testprosedyre: Forkast H 0 for store verdier av observasjon av F. 3.5.2 Toveis variansanalyse Antall grupper: g Antall blokker: b Antall elemnter i hvert feltr Antall observasjoner totalt:n g b r Datastruktur: Blokk 1... Blokk b Gruppesnitt Gruppe 1 y 111,...,y 11r... y 1b1,...,y 1br y 1.... Gruppe g y g11,...,y g1r... y gb1,...,y gbr y g Blokksnitt y 1... y b y (60) Modell: Y ijk α + β i + β j + e ijk, i {1,,g}, j {1,...,b}, k {1,...,r} og e ijk N(0,σ), uavhengige. g b β i 0, β j 0 (61) Kvadratsummer: j1 Variasjon Symbol Formel Frihetsgrader g b r Total SS T yijk 2 ny 2 n 1 j1 k1 g Mellom grupper SS G br y 2 i ny 2 g 1 j1 Mellom blokker SS B b gr y 2 j ny 2 b 1 Residual SS E SS T SS G SS B n b g +1 (62) 3.5.3 Hypotesetester Generelt F F r,s betyr at F er Fisherfordelt med r og s frihetsgrader. Forkast H 0 for store verdier av observasjon av F. Grupper H 0 : β 1 β 2 β g, Testobservator: F Blokker H 0 : β 1 β 2 β b, Testobservator: F H 1 : Ikke alle β i ene er like. SS G /(g 1) SS E /(n b g +1). Hvis H 0 er sann er F F g 1,n b g+1 (63) H 1 : Ikke alle β j ene er like. SS B /(b 1) SS E /(n b g +1). Hvis H 0 er sann er F F b 1,n b g+1 (64) 13
3.6 Ikke parametriske tester 3.6.1 Uparet Mann-Witney-Wilcoxon test Datastruktur : Gruppe 1 x 1 x 2 x n Gruppe 2 y 1 y 2 y m Definisjon av W : Sett opp alle dataene i en enkelt ordnet liste, og nummerer observasjonene i stigende rekkefølge. W er summen av numrene som tilhører x er. Hypoteser H 0 : x ỹ (medianene like) H 1 : x ỹ (medianene forskjellige). Testobservator Bruk W som testobservator. Hvis fordelingen på observasjonene er like og n > 10 og m > 10 er W tilnærmet normalfordelt: n(n + m + 1) W X N(µ, σ), µ, σ 2 nm(n+m+1) (65) 2 12 Er medianene (svært) ulike, er W vanligvis langt fra µ. Ensidige tester: Er x (mye) større (hhv. mindre) enn ỹ er W vanligvis større (hhv. mindre) enn µ. 3.6.2 Paret Wilcoxon test Datastruktur: {(x 1,y 1 ), (x 2,y 2 ),...,(x n,y n )} Definisjon av W : Sett opp differensen x i y i i en enkelt liste ordnet etter tallverdiene x i y i, og nummerer observasjonene i stigende rekkefølge. W er summen av numrene som tilhører positive verdier. Hypoteser H 0 : x ỹ (medianene like) H 1 : x ỹ (medianene forskjellige). Testobservator Bruk W som testobservator. Hvis fordelingen på observasjonene er like og n > 20 er W tilnærmet normalfordelt: n(n + 1) W X N(µ, σ), µ, σ 2 n(n + 1)(2n + 1) 4 24 Er medianene (svært) ulike, er W vanligvis langt fra µ. (66) 3.7 χ 2 -tester (kjikvadrattester) 3.7.1 Krysstabeller- Test av uavhengighet En oppdeling av utfallsrommet S i hendelser A 1,A 2,...A r kalles en partisjon hvis A 1 A 2... A r S og A i A j når i j. La A 1,A 2,...A r og B 1,B 2,...B k være partisjoner av S.. Da sier vi partisjonene er uavhengige hvis P(A i B j )P(A i ) P(B j ) for alle par A i,b j. 14
Hypoteser H 0 : Partisjonene A 1,A 2,...A r og B 1,B 2,...B k er uavhengige. H 1 : Partisjonene A 1,A 2,...A r og B 1,B 2,...B k er avhengige. Vi skal foreta n observasjoner av uavhengige gjentagelser, og telle opp antall resultater i hver mengde A i B j, og kalle dette tallet X ij. Summen av antall observasjoner i A i kalles R i, og summen av antall observasjoner i B j kalles K j.hvish 0 er sann er E ij R i K j /n forventet antall observasjoner i A i B j. Definer: Q r k j1 (X ij E ij ) 2 E ij (67) Hvis alle E ij 5ogH 0 er sann er Q tilnærmet χ 2 (r 1)(k 1), χ2 fordelt med (r 1)(k 1) frihetsgrader. 3.7.2 Modelltest Forkast H 0 for store verdier av Q (68) Tester om et datasett med n verdier passer til en fordelingstype (f.eks normalfordeling) der vi må estimere r parametre (f.eks µ og σ, r 2) fra dataene: Hypoteser H 0 : Dataene passer til en fordeling fra en fordelingstype med r ukjente parametre H 1 : Dataene passer ikke til denne fordelingstypen. Del den reelle aksen inn i k intervaller [x i 1,x i ](derx 0 og x k ), og regn ut p i P(x i 1 X i <x i ) (fra fordelingen med de estimerte dataene). Definer E i n p i,oglax i være antall observasjoner i intervallet [x i 1,x i ]. Definer: Q k (X i E i ) 2 E i (69) Hvis alle E i 5ogH 0 er sann er Q tilnærmet χ 2 k r 1, χ2 fordelt med k r 1 frihetsgrader. Forkast H 0 for store verdier av Q (70) 15
4 TABELLER 4.1 Kumulativ normalfordeling Φ(z) z 1 Φ(z) P (Z z) e x2 /2 dx 2π For z<0brukatφ( z) 1 Φ(z). der Z N(0, 1) (standard normalfordelt). z.,.0.,.1.,.2.,.3.,.4.,.5.,.6.,.7.,.8.,.9 0, 0 0, 5000 0, 5040 0, 5080 0, 5120 0, 5160 0, 5199 0, 5239 0, 5279 0, 5319 0, 5359 0, 1 0, 5398 0, 5438 0, 5478 0, 5517 0, 5557 0, 5596 0, 5636 0, 5675 0, 5714 0, 5753 0, 2 0, 5793 0, 5832 0, 5871 0, 5910 0, 5948 0, 5987 0, 6026 0, 6064 0, 6103 0, 6141 0, 3 0, 6179 0, 6217 0, 6255 0, 6293 0, 6331 0, 6368 0, 6406 0, 6443 0, 6480 0, 6517 0, 4 0, 6554 0, 6591 0, 6628 0, 6664 0, 6700 0, 6736 0, 6772 0, 6808 0, 6844 0, 6879 0, 5 0, 6915 0, 6950 0, 6985 0, 7019 0, 7054 0, 7088 0, 7123 0, 7157 0, 7190 0, 7224 0, 6 0, 7257 0, 7291 0, 7324 0, 7357 0, 7389 0, 7422 0, 7454 0, 7486 0, 7517 0, 7549 0, 7 0, 7580 0, 7611 0, 7642 0, 7673 0, 7704 0, 7734 0, 7764 0, 7794 0, 7823 0, 7852 0, 8 0, 7881 0, 7910 0, 7939 0, 7967 0, 7995 0, 8023 0, 8051 0, 8078 0, 8106 0, 8133 0, 9 0, 8159 0, 8186 0, 8212 0, 8238 0, 8264 0, 8289 0, 8315 0, 8340 0, 8365 0, 8389 1, 0 0, 8413 0, 8438 0, 8461 0, 8485 0, 8508 0, 8531 0, 8554 0, 8577 0, 8599 0, 8621 1, 1 0, 8643 0, 8665 0, 8686 0, 8708 0, 8729 0, 8749 0, 8770 0, 8790 0, 8810 0, 8830 1, 2 0, 8849 0, 8869 0, 8888 0, 8907 0, 8925 0, 8944 0, 8962 0, 8980 0, 8997 0, 9015 1, 3 0, 9032 0, 9049 0, 9066 0, 9082 0, 9099 0, 9115 0, 9131 0, 9147 0, 9162 0, 9177 1, 4 0, 9192 0, 9207 0, 9222 0, 9236 0, 9251 0, 9265 0, 9279 0, 9292 0, 9306 0, 9319 1, 5 0, 9332 0, 9345 0, 9357 0, 9370 0, 9382 0, 9394 0, 9406 0, 9418 0, 9429 0, 9441 1, 6 0, 9452 0, 9463 0, 9474 0, 9484 0, 9495 0, 9505 0, 9515 0, 9525 0, 9535 0, 9545 1, 7 0, 9554 0, 9564 0, 9573 0, 9582 0, 9591 0, 9599 0, 9608 0, 9616 0, 9625 0, 9633 1, 8 0, 9641 0, 9649 0, 9656 0, 9664 0, 9671 0, 9678 0, 9686 0, 9693 0, 9699 0, 9706 1, 9 0, 9713 0, 9719 0, 9726 0, 9732 0, 9738 0, 9744 0, 9750 0, 9756 0, 9761 0, 9767 2, 0 0, 9772 0, 9778 0, 9783 0, 9788 0, 9793 0, 9798 0, 9803 0, 9808 0, 9812 0, 9817 2, 1 0, 9821 0, 9826 0, 9830 0, 9834 0, 9838 0, 9842 0, 9846 0, 9850 0, 9854 0, 9857 2, 2 0, 9861 0, 9864 0, 9868 0, 9871 0, 9875 0, 9878 0, 9881 0, 9884 0, 9887 0, 9890 2, 3 0, 9893 0, 9896 0, 9898 0, 9901 0, 9904 0, 9906 0, 9909 0, 9911 0, 9913 0, 9916 2, 4 0, 9918 0, 9920 0, 9922 0, 9925 0, 9927 0, 9929 0, 9931 0, 9932 0, 9934 0, 9936 2, 5 0, 9938 0, 9940 0, 9941 0, 9943 0, 9945 0, 9946 0, 9948 0, 9949 0, 9951 0, 9952 2, 6 0, 9953 0, 9955 0, 9956 0, 9957 0, 9959 0, 9960 0, 9961 0, 9962 0, 9963 0, 9964 2, 7 0, 9965 0, 9966 0, 9967 0, 9968 0, 9969 0, 9970 0, 9971 0, 9972 0, 9973 0, 9974 2, 8 0, 9974 0, 9975 0, 9976 0, 9977 0, 9977 0, 9978 0, 9979 0, 9979 0, 9980 0, 9981 2, 9 0, 9981 0, 9982 0, 9982 0, 9983 0, 9984 0, 9984 0, 9985 0, 9985 0, 9986 0, 9986 z 3, 0 3, 1 3, 2 3, 3 3, 4 3, 5 3, 6 3, 7 3, 8 3, 9 Φ(z) 0, 9987 0, 9990 0, 9993 0, 9995 0, 9997 0, 9998 0, 9998 0, 9999 0, 9999 1, 0000 4.2 Fraktiler, normalfordeling Tabell over z α,gittved P(Z>z α )α der Z N(0, 1) (standard normalfordelt) α 0, 1000 0, 0500 0, 0250 0, 0100 0, 0050 0, 0010 0, 0005 0, 0001 0, 00005 α% 10% 5% 2, 5% 1% 0, 5% 0, 1% 0, 05% 0, 01% 0, 005% z α 1, 282 1, 645 1, 960 2, 326 2, 576 3, 091 3, 291 3, 719 3, 891 For nedre fraktil, P(Z >z 1 α )1 α, brukatz 1 α z α For tosidige tester og intervaller brukes at P( z α/2 Z z α/2 )1 α 16
4.3 Student T fordeling, fraktiltabell Tabell over t α,gittvedp(t>t α )α der T T ν.detvilsit er Students T-fordelt med ν frihetsgrader. ν α 0, 1000 0, 0500 0, 0250 0, 0100 0, 0050 0, 0010 0, 0005 1 3,078 6,314 12,706 31,821 63,657 318,309 636,619 2 1,886 2,920 4,303 6,965 9,925 22,327 31,599 3 1,638 2,353 3,182 4,541 5,841 10,215 12,924 4 1,533 2,132 2,776 3,747 4,604 7,173 8,610 5 1,476 2,015 2,571 3,365 4,032 5,893 6,869 6 1,440 1,943 2,447 3,143 3,707 5,208 5,959 7 1,415 1,895 2,365 2,998 3,499 4,785 5,408 8 1,397 1,860 2,306 2,896 3,355 4,501 5,041 9 1,383 1,833 2,262 2,821 3,250 4,297 4,781 10 1,372 1,812 2,228 2,764 3,169 4,144 4,587 11 1,363 1,796 2,201 2,718 3,106 4,025 4,437 12 1,356 1,782 2,179 2,681 3,055 3,930 4,318 13 1,350 1,771 2,160 2,650 3,012 3,852 4,221 14 1,345 1,761 2,145 2,624 2,977 3,787 4,140 15 1,341 1,753 2,131 2,602 2,947 3,733 4,073 16 1,337 1,746 2,120 2,583 2,921 3,686 4,015 17 1,333 1,740 2,110 2,567 2,898 3,646 3,965 18 1,330 1,734 2,101 2,552 2,878 3,610 3,922 19 1,328 1,729 2,093 2,539 2,861 3,579 3,883 20 1,325 1,725 2,086 2,528 2,845 3,552 3,850 21 1,323 1,721 2,080 2,518 2,831 3,527 3,819 22 1,321 1,717 2,074 2,508 2,819 3,505 3,792 23 1,319 1,714 2,069 2,500 2,807 3,485 3,768 24 1,318 1,711 2,064 2,492 2,797 3,467 3,745 25 1,316 1,708 2,060 2,485 2,787 3,450 3,725 26 1,315 1,706 2,056 2,479 2,779 3,435 3,707 27 1,314 1,703 2,052 2,473 2,771 3,421 3,690 28 1,313 1,701 2,048 2,467 2,763 3,408 3,674 29 1,311 1,699 2,045 2,462 2,756 3,396 3,659 30 1,310 1,697 2,042 2,457 2,750 3,385 3,646 40 1,303 1,684 2,021 2,423 2,704 3,307 3,551 50 1,299 1,676 2,009 2,403 2,678 3,261 3,496 60 1,296 1,671 2,000 2,390 2,660 3,232 3,460 70 1,294 1,667 1,994 2,381 2,648 3,211 3,435 80 1,292 1,664 1,990 2,374 2,639 3,195 3,416 100 1,290 1,660 1,984 2,364 2,626 3,174 3,390 120 1,289 1,658 1,980 2,358 2,617 3,160 3,373 1,282 1,645 1,960 2,326 2,576 3,091 3,291 For store ν bruker vi at Students t-fordeling er tilnærmet standard normalfordelt. Fraktilene til standard normalfordeling er i tabellen plassert som ν. 17
4.4 χ 2 fordeling, fraktiltabell Tabell over k α,gittvedp(x>k α )α der X χ 2 ν. Det vil si X er χ 2 fordelt med ν frihetsgrader. ν α 0.995 0.990 0.975 0.950 0.050 0.025 0.010 0.005 1 0,000 0,000 0,001 0,004 3,84 5,02 6,63 7,88 2 0,010 0,020 0,051 0,103 5,99 7,38 9,21 10,60 3 0,072 0,115 0,216 0,352 7,82 9,35 11,34 12,84 4 0,207 0,297 0,484 0,711 9,49 11,14 13,28 14,86 5 0,412 0,554 0,831 1,15 11,07 12,83 15,09 16,75 6 0,676 0,872 1,24 1,64 12,59 14,45 16,81 18,55 7 0,99 1,24 1,69 2,17 14,07 16,01 18,48 20,28 8 1,34 1,65 2,18 2,73 15,51 17,53 20,09 21,95 9 1,74 2,09 2,70 3,33 16,92 19,02 21,67 23,59 10 2,16 2,56 3,25 3,94 18,31 20,48 23,21 25,19 11 2,60 3,05 3,82 4,58 19,68 21,92 24,72 26,76 12 3,07 3,57 4,40 5,23 21,03 23,34 26,22 28,30 13 3,57 4,11 5,01 5,89 22,36 24,74 27,69 29,82 14 4,08 4,66 5,63 6,57 23,68 26,12 29,14 31,32 15 4,60 5,23 6,26 7,26 25,00 27,49 30,58 32,80 16 5,14 5,81 6,91 7,96 26,30 28,85 32,00 34,27 17 5,70 6,41 7,56 8,67 27,59 30,19 33,41 35,72 18 6,27 7,02 8,23 9,39 28,87 31,53 34,81 37,16 19 6,84 7,63 8,91 10,12 30,14 32,85 36,19 38,58 20 7,43 8,26 9,59 10,85 31,41 34,17 37,57 40,00 21 8,03 8,90 10,28 11,59 32,67 35,48 38,93 41,40 22 8,64 9,54 10,98 12,34 33,92 36,78 40,29 42,80 23 9,26 10,20 11,69 13,09 35,17 38,08 41,64 44,18 24 9,89 10,86 12,40 13,85 36,42 39,36 42,98 45,56 25 10,52 11,52 13,12 14,61 37,65 40,65 44,31 46,93 26 11,16 12,20 13,84 15,38 38,89 41,92 45,64 48,29 27 11,81 12,88 14,57 16,15 40,11 43,19 46,96 49,64 28 12,46 13,56 15,31 16,93 41,34 44,46 48,28 50,99 29 13,12 14,26 16,05 17,71 42,56 45,72 49,59 52,34 30 13,79 14,95 16,79 18,49 43,77 46,98 50,89 53,67 40 20,71 22,16 24,43 26,51 55,76 59,34 63,69 66,77 50 27,99 29,71 32,36 34,76 67,50 71,42 76,15 79,49 60 35,53 37,48 40,48 43,19 79,08 83,30 88,38 91,95 70 43,28 45,44 48,76 51,74 90,53 95,02 100,4 104,2 80 51,17 53,54 57,15 60,39 101,9 106,6 112,3 116,3 90 59,20 61,75 65,65 69,13 113,1 118,1 124,1 128,3 100 67,33 70,06 74,22 77,93 124,3 129,6 135,8 140,2 For store ν kan vi bruke at sentralgrenseteoremet gir at X N ( ν, 2ν ), slik at k α ν + 2ν z α 18
4.5 Fishers F fordeling, fraktiltabell Tabell over k α,gittvedp(f>k α )α der F F r,s,dvs.f er Fisher fordelt med r og s frihetsgrader. r er antall frihetsgrader i teller, i første rad, s er antall frihetsgrader i nevner, i første kolonne 4.5.1 α 0.05 (ogα 0.95 ) s \ r 1 2 3 4 5 6 8 10 15 25 50 1 161 200 216 225 230 234 239 242 246 249 252 2 18,5 19,0 19,2 19,2 19,3 19,3 19,4 19,4 19,4 19,5 19,5 3 10,1 9,55 9,28 9,12 9,01 8,94 8,85 8,79 8,70 8,63 8,58 4 7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,96 5,86 5,77 5,70 5 6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,74 4,62 4,52 4,44 6 5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,06 3,94 3,83 3,75 7 5,59 4,74 4,35 4,12 3,97 3,87 3,73 3,64 3,51 3,40 3,32 8 5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,35 3,22 3,11 3,02 9 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,14 3,01 2,89 2,80 10 4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,98 2,85 2,73 2,64 12 4,75 3,89 3,49 3,26 3,11 3,0 2,85 2,75 2,62 2,50 2,40 15 4,54 3,68 3,29 3,06 2,90 2,79 2,64 2,54 2,40 2,28 2,18 20 4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,35 2,20 2,07 1,97 50 4,03 3,18 2,79 2,56 2,40 2,29 2,13 2,03 1,87 1,73 1,60 100 3,94 3,09 2,70 2,46 2,31 2,19 2,03 1,93 1,77 1,62 1,48 For α 0.95 bruk at k 0.95 1/l 0.05 der l 0.05 er fraktilen for F fordeling med s og r frihetsgrader (omvendt rekkefølge på frihetsgradene). 4.5.2 α 0.01 (og α 0.99) s \ r 1 2 3 4 5 6 8 10 15 25 50 1 4050 5000 5400 5620 5760 5860 5980 6060 6160 6240 6300 2 98,5 99,0 99,2 99,2 99,3 99,3 99,4 99,4 99,4 99,5 99,5 3 34,1 30,8 29,5 28,7 28,2 27,9 27,5 27,2 26,9 26,6 26,4 4 21,2 18,0 16,7 16,0 15,5 15,2 14,8 14,5 14,2 13,9 13,7 5 16,3 13,3 12,1 11,4 11,0 10,7 10,3 10,1 9,72 9,45 9,24 6 13,7 10,9 9,78 9,15 8,75 8,47 8,10 7,87 7,56 7,30 7,09 7 12,2 9,55 8,45 7,85 7,46 7,19 6,84 6,62 6,31 6,06 5,86 8 11,3 8,65 7,59 7,01 6,63 6,37 6,03 5,81 5,52 5,26 5,07 9 10,6 8,02 6,99 6,42 6,06 5,80 5,47 5,26 4,96 4,71 4,52 10 10,0 7,56 6,55 5,99 5,64 5,39 5,06 4,85 4,56 4,31 4,12 12 9,33 6,93 5,95 5,41 5,06 4,82 4,50 4,30 4,01 3,76 3,57 15 8,68 6,36 5,42 4,89 4,56 4,32 4,0 3,80 3,52 3,28 3,08 20 8,10 5,85 4,94 4,43 4,10 3,87 3,56 3,37 3,09 2,84 2,64 50 7,17 5,06 4,20 3,72 3,41 3,19 2,89 2,70 2,42 2,17 1,95 100 6,90 4,82 3,98 3,51 3,21 2,99 2,69 2,50 2,22 1,97 1,74 For α 0.99 bruk at k 0.99 1/l 0.01, derl 0.01 er fraktilen for F fordeling med s og r frihetsgrader (omvendt rekkefølge på frihetsgradene). 19