FORMELSAMLING TIL STK2120 (Versjon av 30. mai 2012) 1 Enveis variansanalyse Anta at Y ij = µ + α i + ɛ ij ; j = 1, 2,..., J i ; i = 1, 2,..., I ; der ɛ ij -ene er uavhengige og N(0, σ 2 )-fordelte. Da har vi at: i (Y ij Ȳ ) 2 kan skrives som SST = SSE + SST r der innen ( within ) grupper i (Y ij Ȳi ) 2 er kvadratsummen for feil eller kvadratsummen SST r = I J i(ȳi Ȳ ) 2 er kvadratsummen for behandling eller kvadratsummen mellom ( between ) grupper (b) SSE og SST r er uavhengige (c) MSE = SSE/[ I (J i 1)] er en forventningsrett estimator for σ 2. SSE/σ 2 er kji-kvadratfordelt med I (J i 1) frihetsgrader. (d) Hvis alle α i -ene er lik null, er SST r/σ 2 kji-kvadratfordelt med I 1 frihetsgrader (e) Hvis J i = J for i = 1,..., I, så er max i1,i 2 (Ȳi 1 µ i1 ) (Ȳi 2 µ i2 ) / MSE/J fordelt som den studentifiserte variasjonsbredde med parametere I og I(J 1). 2 Toveis variansanalyse Anta at Y ijk = µ + α i + β j + γ ij + ɛ ijk ; k = 1,..., K ; j = 1,..., J ; i = 1,..., I ; der ɛ ijk -ene er uavhengige og N(0, σ 2 )-fordelte. Da har vi at: K k=1 (Y ijk Ȳ ) 2 kan skrives som SST = SSA + SSB + SSAB + SSE der SSA = JK I (Ȳi Ȳ ) 2 SSB = IK (Ȳ j Ȳ ) 2 SSAB = K I (Ȳij Ȳi Ȳ j + Ȳ ) 2 K k=1 (Y ijk Ȳij ) 2 (b) SSA, SSB, SSAB og SSE er uavhengige (c) MSE = SSE/IJ(K 1) er en forventningsrett estimator for σ 2. SSE/σ 2 er kji-kvadratfordelt med IJ(K 1) frihetsgrader. 1
(d) Hvis alle α i -ene er lik null, er SSA/σ 2 kji-kvadratfordelt med I 1 frihetsgrader (e) Hvis alle β j -ene er lik null, er SSB/σ 2 kji-kvadratfordelt med J 1 frihetsgrader (f) Hvis alle γ ij -ene er lik null, er SSAB/σ 2 kji-kvadratfordelt med (I 1)(J 1) frihetsgrader 3 Blokkforsøk (toveis variansanalyse uten gjentak) Anta at Y ij = µ + α i + β j + ɛ ij ; j = 1,..., J ; i = 1,..., I ; der ɛ ij -ene er uavhengige og N(0, σ 2 )-fordelte. Da har vi at: (Y ij Ȳ ) 2 kan skrives som SST = SSA + SSB + SSE der SSA = J I (Ȳi Ȳ ) 2 SSB = I (Ȳ j Ȳ ) 2 (Y ij Ȳi Ȳ j + Ȳ ) 2 (b) SSA, SSB og SSE er uavhengige (c) MSE = SSE/[(I 1)(J 1)] er en forventningsrett estimator for σ 2. SSE/σ 2 er kji-kvadratfordelt med (I 1)(J 1) frihetsgrader. (d) Hvis alle α i -ene er lik null, er SSA/σ 2 kji-kvadratfordelt med I 1 frihetsgrader (e) Hvis alle β j -ene er lik null, er SSB/σ 2 kji-kvadratfordelt med J 1 frihetsgrader 4 Tabelldata og kji-kvadrattester (a) Anta at (N 1,..., N k ) er multinomisk fordelt med sannsynligheter p i, der k N i = n og k p i = 1. Hvis p i = π i (θ), der θ = (θ 1,..., θ m ), og ˆθ er maksimum likelihood estimatoren for θ, så er k (N i E i ) 2 E i tilnærmet kji-kvadratfordelt med k 1 m frihetsgrader når E i = nπ i (ˆθ) 5 for (nesten) alle i (b) Homogenitetstesting: Anta at for i = 1,..., I er (N i1,..., N ij ) uavhengige og multinomisk fordelt med sannsynligheter p ij, der p ij = 1. Hvis p 1j = = p Ij, så er I J (N ij E ij ) 2 E ij 2
tilnærmet kji-kvadratfordelt med (I 1)(J 1) frihetsgrader når E ij = (N i N j )/N 5 for (nesten) alle i, j (c) Uavhengighetstesting: Anta at (N 11,..., N 1J, N 21,..., N 2J,..., N I1,..., N IJ ) er multinomisk fordelt med sannsynligheter p ij, der I p ij = 1. Hvis p ij = p i p j for alle i, j, så er I (N ij E ij ) 2 E ij tilnærmet kji-kvadratfordelt med (I 1)(J 1) frihetsgrader når E ij = (N i N j )/N 5 for (nesten) alle i, j 5 Multippel lineær regresjon Anta at Y i = β 0 + β 1 x i1 + + β k x i,k + ɛ i ; i = 1, 2,..., n ; der x ij -ene er kjente tall og ɛ i -ene er uavhengige og N(0, σ 2 )-fordelte. På matriseform kan vi skrive modellen som Y = Xβ, der Y = (Y 1,..., Y n ) T og β = (β 0,..., β k ) T er henholdsvis n- og k + 1-dimensjonale vektorer, og X = {x ij } er en n (k + 1)-dimensjonal matrise. Vi har at: (a) Minste kvadraters estimator for β er ˆβ = (X T X) 1 X T Y. (b) La ˆβ = ( ˆβ 0,..., ˆβ k ) T. Da er ˆβ j -ene normalfordelte og forventningsrette, og Var( ˆβ i ) = σ 2 c ii og Cov( ˆβ i, ˆβ j ) = σ 2 c ij der c ij er element (i, j) i (k + 1) (k + 1) matrisen C = (X T X) 1. (c) La Ŷi = ˆβ 0 + ˆβ 1 x i1 + + ˆβ k x i,k, og sett SSE = n (Y i Ŷi) 2. Da er S 2 = SSE/(n (k + 1)) en forventningsrett estimator for σ 2, og (n (k + 1))S 2 /σ 2 χ 2 n (k+1). Videre er S 2 og ˆβ uavhengige. (d) La S 2ˆβi være den variansestimatoren for ˆβ i vi får ved å erstatte σ 2 med S 2 i formlen for Var( ˆβ i ) i punkt b). Da er ( ˆβ i β i )/S ˆβi t n (k+1). 6 Bootstrapping Anta fordelingen til data X er beskrevet ved en fordelingsfunksjon F. La θ = θ(f ) være en egenskap ved F som estimeres ved ˆθ = ˆθ(X). (a) Bootstrapping-idéen er å tilnærme egenskapene til ˆθ ved å anta at et estimat F på F er den sanne fordelingsfunksjonen. 3
(b) Bootstrap estimering av skjevhet til ˆθ: bˆθ = 1 B B θb θ( F ) b=1 (c) Bootstrap estimering av standardavvik til ˆθ: E F [(ˆθ(X ) E F [ˆθ(X )]) 2 ] (d) Standard bootstrap konfidensintervall: (ˆθ δ, ˆθ δ) der δ og δ er nedre og øvre α/2 kvantil i bootstrap fordelingen til = ˆθ θ. 7 Maksimum likelihood metoden Anta at X 1, X 2,..., X n har simultan punktsannsynlighet/sannsynlighetstetthet f(x 1, x 2,..., x n θ), der θ = (θ 1,...., θ p ) er en parametervektor (skalar hvis p = 1). Vi antar at f(x 1, x 2,..., x n θ) tilfredsstiller visse deriverbarhetsbetingelser. (a) Gitt observerte verdier X i = x i ; i = 1,..., n; er likelihood-funksjonen lik(θ) = f(x 1, x 2,..., x n θ) og loglikelihood-funksjonen l(θ) = log(lik(θ)). (b) Maksimum likelihood estimatet er den verdien av θ som maksimerer lik(θ) eller ekvivalent maksimerer l(θ). Hvis vi erstatter de observerte x i -ene med de stokastiske X i -ene, får vi maksimum likelihood estimatoren. (c) Maksimum likelihood estimatet ˆθ = (ˆθ 1,...., ˆθ p ) er en løsning av ligningene s j (θ) = 0; j = 1,..., p; der s j (θ) = ( / θ j )l(θ) er score-funksjonene. Vektoren av scorefunksjoner er s(θ) = (s 1 (θ),..., s p (θ)) T. (d) Den observerte informasjonsmatrisen J(θ) er p p matrisen med element (i, j) gitt ved J ij (θ) = 2 θ i θ j l(θ). Den forventede informasjonsmatrisen (eller Fishers informasjonsmatrise) Ī(θ) er p p matrisen med element (i, j) gitt ved Īij(θ) = E[ J ij (θ)]. For uavhengige og identisk fordelte observasjoner har vi at Ī(θ) = ni(θ) der I(θ) er forventet informasjon til en observasjon. (e) Når ligningene i punkt (c) ikke har en eksplisitt løsning, kan vi finne maksimum likelihood estimatet ved å bruke Newton-Raphsons metode: θ (s+1) = θ (s) + J 1 (θ (s) )s(θ (s) ), ved å bruke Fishers scoringsalgoritme: θ (s+1) = θ (s) + Ī 1 (θ (s) )s(θ (s) ), eller ved passende modifikasjoner av disse. 4
(f) Når vi har tilstrekkelig mye data, er ˆθ i tilnærmet normalfordelt med forventning θ i og med varians lik det i-te diagonalelementet til Ī 1 (θ). Kovariansen mellom ˆθ i og ˆθ j er tilnærmet lik element (i, j) i Ī 1 (θ). Vi kan estimere varianser/kovarianser ved å sette inn ˆθ for θ i Ī 1 (θ) eller i J 1 (θ). 5