FORMELSAMLING TIL STK2100 (Versjon Mai 2017) 1 Tapsfunksjoner (a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. (b) For klassifikasjon brukes vanligvis 0-1 tap: L(y, ŷ) = I(y = ŷ) der I( ) er indikatorfunksjonen. Den optimale prediktor basert på input variable x er da Ŷ = argmax k Pr(Y = k x). 2 Multippel lineær regresjon (a) Modell: Y i = β 0 + β 1 x i1 + + β p x ip + ɛ i ; i = 1, 2,..., n ; der x ij -ene er kjente tall og ɛ i -ene er uavhengige og N(0, σ 2 )-fordelte. (b) Matriseform: Y = Xβ der Y = (Y 1,..., Y n ) T og β = (β 0,..., β p ) T er henholdsvis n- og (p + 1)- dimensjonale vektorer, og X = {x ij } (med x i0 = 1) er en n (p + 1)-dimensjonal matrise. (c) Minste kvadraters estimator for β er ˆβ = (X T X) 1 X T Y. (d) La ˆβ = ( ˆβ 0,..., ˆβ p ) T. Da er ˆβ j -ene normalfordelte og forventningsrette, og Var( ˆβ j ) = σ 2 c jj og Cov( ˆβ j, ˆβ l ) = σ 2 c jl der c jl er element (j, l) i (p + 1) (p + 1) matrisen C = (X T X) 1. (e) La Ŷi = ˆβ 0 + ˆβ 1 x i1 + + ˆβ p x ik, og sett SSE = n (Y i Ŷi) 2. Da er S 2 = SSE/[n (p + 1)] en forventningsrett estimator for σ 2, og [n (p + 1)]S 2 /σ 2 χ 2 n (p+1). Videre er S 2 og ˆβ uavhengige. (f) La SE( ˆβ j ) 2 være den variansestimatoren for ˆβ j vi får ved å erstatte σ 2 med S 2 i formelen for Var( ˆβ j ) i punkt (b). Da er ( ˆβ j β j )/SE( ˆβ j ) t n (p+1). 1
(g) Vi kan teste hypotesen H 0 : β 1 = β 2 = = β p = 0 ved å bruke testobservatoren F = (TSS RSS)/p RSS/(n p 1) der RSS = n (y i ŷ i ) 2 og TSS = n (y i ȳ) 2. Under H 0 er F F -fordelt med p og n p 1 frihetsgrader. (h) Vi kan teste hypotesen H 0 : β i1 = β i2 = = β iq = 0 ved å bruke testobservatoren F = (RSS 0 RSS)/q RSS/(n p 1) H 0 Fq,n p 1 der RSS 0 = n (y ŷ i) 2 når ŷ i er beregnet under H 0 mens RSS er tilsvarende for full modell. 3 Maksimum likelihood metoden Anta at Y 1, Y 2,..., Y n har simultan punktsannsynlighet/sannsynlighetstetthet f(y 1, y 2,..., y n θ), der θ = (θ 1,...., θ d ) er en parametervektor (skalar hvis d = 1). Vi antar at f(y 1, y 2,..., y n θ) tilfredsstiller visse deriverbarhetsbetingelser. (a) Gitt observerte verdier Y i = y i ; i = 1,..., n; er likelihood-funksjonen L(θ) = f(y 1, y 2,..., y n θ) og loglikelihood-funksjonen l(θ) = log L(θ). (b) Maksimum likelihood estimatet er den verdien av θ som maksimerer L(θ) eller ekvivalent maksimerer l(θ). Hvis vi erstatter de observerte y i -ene med de stokastiske Y i -ene, får vi maksimum likelihood estimatoren. (c) Maksimum likelihood estimatet ˆθ = (ˆθ 1,...., ˆθ d ) er en løsning av ligningene s j (θ) = 0; j = 1,..., d; der s j (θ) = ( / θ j )l(θ) er score-funksjonene. Vektoren av scorefunksjoner er s(θ) = (s 1 (θ),..., s d (θ)) T. (d) Den observerte informasjonsmatrisen J(θ) er d d matrisen med element (i, j) gitt ved J ij (θ) = 2 θ i θ j l(θ). Den forventede informasjonsmatrisen (eller Fishers informasjonsmatrise) Ī(θ) er d d matrisen med element (i, j) gitt ved Īij(θ) = E[ J ij (θ)]. For uavhengige og identisk fordelte observasjoner har vi at Ī(θ) = ni(θ) der I(θ) er forventet informasjon til en observasjon. (e) Når ligningene i punkt (c) ikke har en eksplisitt løsning, kan vi finne maksimum likelihood estimatet ved å bruke Newton-Raphsons metode: θ (s+1) = θ (s) + J 1 (θ (s) )s(θ (s) ), 2
ved å bruke Fishers scoringsalgoritme: θ (s+1) = θ (s) + Ī 1 (θ (s) )s(θ (s) ), eller ved passende modifikasjoner av disse. (f) Når vi har tilstrekkelig mye data, er ˆθ i tilnærmet normalfordelt med forventning θ i og med varians lik det i-te diagonalelementet til Ī 1 (θ). Kovariansen mellom ˆθ i og ˆθ j er tilnærmet lik element (i, j) i Ī 1 (θ). Vi kan estimere varianser/kovarianser ved å sette inn ˆθ for θ i Ī 1 (θ) eller i J 1 (θ). 4 Bootstrapping Anta fordelingen til data Y er beskrevet ved en fordelingsfunksjon F. La θ = θ(f ) være en funksjonal av F som estimeres ved ˆθ = ˆθ(Y). (a) Bootstrapping-idéen er å tilnærme egenskapene til ˆθ ved å anta at et estimat F for F er den sanne fordelingsfunksjonen. (b) Bootstrap estimering av skjevhet til ˆθ: bˆθ = 1 B B θb θ( F ) b=1 (c) Bootstrap estimering av standardavvik til ˆθ: { ) } 2 E (ˆθ(Y F ) E F [ˆθ(Y )] (d) Standard bootstrap konfidensintervall: (ˆθ δ, ˆθ δ) der δ og δ er nedre og øvre α/2 kvantil i bootstrap fordelingen til = ˆθ θ. 5 Modell seleksjonskriterier (a) AIC er definert ved AIC = 2l( ˆθ) + 2 θ der θ er dimensjonen på θ. (b) BIC er definert ved BIC = 2l( ˆθ) + log(n) θ. (c) k-foldet kryss-validering (for regresjon) (i) Del de n datapunkter opp i k grupper ved randomisering (ii) For i = 1,..., k 3
i. Tilpass modell på alle data unntatt data fra gruppe k. ii. Beregn prediksjon ŷ i for alle data i gruppe k basert på den tilpassende modell iii. Beregn MSE i = (y i ŷ i ) 2 (iii) Beregn CV (k) = 1 n n MSE i 6 Metoder for regresjon (a) K-nærmeste nabo regresjon er definert ved ˆf(x 0 ) = 1 K x i N 0 y i der N 0 {x 1,..., x n } som inneholder de K nærmeste punkter til x 0. (b) Ridge regresjon: Minimer mhp β ( ) 2 n h(β) = y i β 0 β j x ij + λ (c) Lasso regresjon: Minimer mhp β ( ) 2 n h(β) = y i β 0 β j x ij + λ β j (d) Kubisk spline: Stykkevis polynomisk med basisfunksjoner b 0 (x) =1, b 1 (x) = x, b 2 (x) = x 2, b 3 (x) = x 3, b 3+k (x) =(x c k ) 3 +, k = 1,..., K β 2 j (e) Tre-baserte metoder: f(x) = M m=1 c mi(x R m ) der R p = R 1 R 2 R M og regioner er definert gjennom sekvensiell oppsplitting basert på en variabel om gangen. (f) Bagging og random forrest: ˆf avg (x) = 1 B B b=1 ˆf b (x) der ˆf 1 (x), ˆf 2 (x),..., ˆf B (x) er B ulike prediktorer basert på ordinær bootstrapping (bagging) eller der oppsplitting kun vurderes blandt en delmengde av forklaringsvariablene (random forrest) (g) Nevrale nett med ett latent lag: f(x) = β 0 + M m=1 β kσ(α T mx). 4
7 Metoder for klassifikasjon (a) Logistisk regresjon: Y {0, 1} og Pr(Y = 1 x) = ext β 1 + e xt β = 1 Pr(Y = 0 x) (b) LDA: f k (x) = p(x y = k) = N(µ k, Σ). (c) QDA: f k (x) = p(x y = k) = N(µ k, Σ k ). (d) Support vektor klassifikator (2 klasser): Maksimer β 0,β,ε M begrenset til β 2 = 1, y i (β 0 + β T x i ) > M(1 ε i ), n ε i 0, ε i C i = 1,..., n 8 Ikke-styrt læring (a) Prinsipale komponenter: 1. prinsipale komponent definert gjennom z 1 = φ T 1 x der φ 1 er valgt slik at var(z 1 ) er størst mulig. (b) K-means Klustring: Oppdeling av data i grupper C 1,..., C K der C 1 C 2 C K = {1,..., n} C k C k = for k k Minimerer over C 1,..., C K K k=1 W (C k ) der W (C k ) = 1 C k i,i C k (x i,j x i,j) 2 5