(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Like dokumenter
(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

FORMELSAMLING TIL STK1100 OG STK1110

STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon

Tilleggsoppgaver for STK1110 Høst 2015

Prøveeksamen STK2100 (fasit) - vår 2018

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Prøveeksamen STK vår 2017

Løsningsforslag: STK2120-v15.

UNIVERSITETET I OSLO

STK Oppsummering

STK juni 2016

Ridge regresjon og lasso notat til STK2120

Ekstraoppgaver for STK2120

UNIVERSITETET I OSLO

Oppsummering av STK2120. Geir Storvik

Kapittel 6 - modell seleksjon og regularisering

Forelesning 6 STK3100

TMA4240 Statistikk Eksamen desember 2015

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Kp. 12 Multippel regresjon

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

FORMELSAMLING TIL STK1100 OG STK1110

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

TMA4240 Statistikk Eksamen desember 2015

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

UNIVERSITETET I OSLO

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

TMA4245 Statistikk Eksamen desember 2016

Eksponensielle klasser

STK2100. Obligatorisk oppgave 1 av 2

Generaliserte Lineære Modeller

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Eksamensoppgave i TMA4240 Statistikk

EKSTRAOPPGAVER I STK1110 H2017

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Kapittel 2: Hendelser

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Forelesning 9 STK3100/4100

Løsningsforslag eksamen 27. februar 2004

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

UNIVERSITETET I OSLO

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Oppgave 1: Feil på mobiltelefoner

Forelesning 9 STK3100/4100

STK Oppsummering

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO

Eksponensielle klasser og GLM

Forelesning 4 STK3100

UNIVERSITETET I OSLO

Om eksamen. Never, never, never give up!

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Generaliserte Lineære Modeller

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Forelesning 3 STK3100

Om eksamen. Never, never, never give up!

UNIVERSITETET I OSLO

Oppgave N(0, 1) under H 0. S t n 3

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2016

TMA4245 Statistikk Eksamen desember 2016

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1

UNIVERSITETET I OSLO Matematisk Institutt

Forelesning 8 STK3100/4100

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

Løsningsforslag oblig 1 STK1110 høsten 2014

6.6 Anvendelser på lineære modeller

Prøveeksamen i STK3100/4100 høsten 2011.

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

LØSNINGSFORSLAG ) = Dvs

vekt. vol bruk

Eksamensoppgåve i TMA4240 Statistikk

UNIVERSITETET I OSLO

Ekstraoppgaver STK3100 h10

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSTRAOPPGAVER I STK1110 H2018

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Modellvalg ved multippel regresjon notat til STK2120

10.1 Enkel lineær regresjon Multippel regresjon

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Fasit og løsningsforslag STK 1110

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

TMA4240 Statistikk Høst 2015

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

TMA4240 Statistikk 2014

Transkript:

FORMELSAMLING TIL STK2100 (Versjon Mai 2018) 1 Tapsfunksjoner (a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. (b) For klassifikasjon brukes vanligvis 0-1 tap: L(y, ŷ) = I(y = ŷ) der I( ) er indikatorfunksjonen. Den optimale prediktor basert på input variable x er da Ŷ = argmax k Pr(Y = k x). 2 Multippel lineær regresjon (a) Modell: Y i = β 0 + β 1 x i1 + + β p x ip + ɛ i ; i = 1, 2,..., n ; der x ij -ene er kjente tall og ɛ i -ene er uavhengige og N(0, σ 2 )-fordelte. (b) Matriseform: Y = Xβ + ε der Y = (Y 1,..., Y n ) T og β = (β 0,..., β p ) T er henholdsvis n- og (p + 1)- dimensjonale vektorer, og X = {x ij } (med x i0 = 1) er en n (p + 1)-dimensjonal matrise. (c) Minste kvadraters estimator for β er ˆβ = (X T X) 1 X T Y. (d) La ˆβ = ( ˆβ 0,..., ˆβ p ) T. Da er ˆβ j -ene normalfordelte og forventningsrette, og Var( ˆβ j ) = σ 2 c jj og Cov( ˆβ j, ˆβ l ) = σ 2 c jl der c jl er element (j, l) i (p + 1) (p + 1) matrisen C = (X T X) 1. (e) La Ŷi = ˆβ 0 + ˆβ 1 x i1 + + ˆβ p x ik, og sett SSE = n (Y i Ŷi) 2. Da er S 2 = SSE n (p+1) en forventningsrett estimator for σ 2, og [n (p + 1)]S 2 /σ 2 χ 2 n (p+1). Videre er S 2 og ˆβ uavhengige. (f) La SE( ˆβ j ) 2 være den variansestimatoren for ˆβ j vi får ved å erstatte σ 2 med S 2 i formelen for Var( ˆβ j ) i punkt (b). Da er ( ˆβ j β j )/SE( ˆβ j ) t n (p+1). 1

(g) Vi kan teste hypotesen H 0 : β 1 = β 2 = = β p = 0 ved å bruke testobservatoren F = (SST SSE)/p SST/(n p 1) der SSE = n (y i ŷ i ) 2 og SST = n (y i ȳ) 2. Under H 0 er F F -fordelt med p og n p 1 frihetsgrader. (h) Vi kan teste hypotesen H 0 : β i1 = β i2 = = β iq = 0 ved å bruke testobservatoren F = (SSE 0 SSE)/q SSE/(n p 1) H 0 Fq,n p 1 der SSE 0 = n (y ŷ i) 2 når ŷ i er beregnet under H 0 mens SSE er tilsvarende for full modell. 3 Maksimum likelihood metoden Anta at Y 1, Y 2,..., Y n har simultan punktsannsynlighet/sannsynlighetstetthet f(y 1, y 2,..., y n θ), der θ = (θ 1,...., θ d ) er en parametervektor (skalar hvis d = 1). Vi antar at f(y 1, y 2,..., y n θ) tilfredsstiller visse deriverbarhetsbetingelser. (a) Gitt observerte verdier Y i = y i ; i = 1,..., n; er likelihood-funksjonen L(θ) = f(y 1, y 2,..., y n θ) og loglikelihood-funksjonen l(θ) = log L(θ). (b) Maksimum likelihood estimatet er den verdien av θ som maksimerer L(θ) eller ekvivalent maksimerer l(θ). Hvis vi erstatter de observerte y i -ene med de stokastiske Y i -ene, får vi maksimum likelihood estimatoren. (c) Maksimum likelihood estimatet ˆθ = (ˆθ 1,...., ˆθ d ) er en løsning av ligningene s j (θ) = 0; j = 1,..., d; der s j (θ) = ( / θ j )l(θ) er score-funksjonene. Vektoren av scorefunksjoner er s(θ) = (s 1 (θ),..., s d (θ)) T. (d) Den observerte informasjonsmatrisen J(θ) er d d matrisen med element (i, j) gitt ved J ij (θ) = 2 θ i θ j l(θ). Den forventede informasjonsmatrisen (eller Fishers informasjonsmatrise) Ī(θ) er d d matrisen med element (i, j) gitt ved Īij(θ) = E[ J ij (θ)]. For uavhengige og identisk fordelte observasjoner har vi at Ī(θ) = ni(θ) der I(θ) er forventet informasjon til én observasjon. (e) Når ligningene i punkt (c) ikke har en eksplisitt løsning, kan vi finne maksimum likelihood estimatet ved å bruke Newton-Raphsons metode: θ (s+1) = θ (s) + J 1 (θ (s) )s(θ (s) ), 2

ved å bruke Fishers scoringsalgoritme: θ (s+1) = θ (s) + Ī 1 (θ (s) )s(θ (s) ), eller ved passende modifikasjoner av disse. (f) Når vi har tilstrekkelig mye data, er ˆθ i tilnærmet normalfordelt med forventning θ i og med varians lik det i-te diagonalelementet til Ī 1 (θ). Kovariansen mellom ˆθ i og ˆθ j er tilnærmet lik element (i, j) i Ī 1 (θ). Vi kan estimere varianser/kovarianser ved å sette inn ˆθ for θ i Ī 1 (θ) eller i J 1 (θ). 4 Modell seleksjonskriterier (a) Frihetsgrader: Antall frie parametre i en modell. For modeller der ŷ = Sy, er antall frihetsgrader lik Trase(S) = i S ii. (b) AIC er definert ved AIC = 2l( ˆθ) + 2 θ der θ er antall frie parametre i modellen. (c) BIC er definert ved BIC = 2l( ˆθ) + log(n) θ. 5 Noen andre metoder for regresjon (a) K-nærmeste nabo regresjon er definert ved ˆf(x 0 ) = 1 K x i N 0 y i der N 0 {x 1,..., x n } som inneholder de K nærmeste punkter til x 0. (b) Kjernemetoder (for eksempel lokal regresjon) er konseptuelt som K-nærmeste nabo regresjon, men påvirkning av en observasjon avhenger av avstanden fra interessepunktet, w i = 1 ( ) h w xi x 0 h der x i er observasjonen og x 0 interessepunktet. Typiske kjerner w(z) er Normal, 1 2π exp{( z 2 /2)}, støtte R; Rectangular, 1/2, støtte ( 1, 1); Epanechnikov, 3 4 (1 z2 ), støtte ( 1, 1); Biquadratic, 15 16 (1 z2 ) 2, støtte ( 1, 1); Tricubic, 70 81 (1 z 3 ) 3, støtte ( 1, 1); 3

(c) Ridge regresjon: Minimer mhp β ( ) 2 n p h(β) = y i β 0 β j x ij + λ (d) Lasso regresjon: Minimer mhp β ( ) 2 n p h(β) = y i β 0 β j x ij + λ p β 2 j p β j (e) Kubisk spline: Stykkevis polynomisk med basisfunksjoner b 0 (x) =1, b 1 (x) = x, b 2 (x) = x 2, b 3 (x) = x 3, b 3+k (x) =(x c k ) 3 +, k = 1,..., K (f) Tre-baserte metoder: f(x) = M m=1 c mi(x R m ) der R p = R 1 R 2 R M og regioner er definert gjennom sekvensiell oppsplitting basert på én variabel om gangen. (g) Bagging og random forrest: ˆf avg (x) = 1 B ˆf b (x) B b=1 der ˆf 1 (x), ˆf 2 (x),..., ˆf B (x) er B ulike prediktorer basert på ordinær bootstrapping (bagging) eller der oppsplitting kun vurderes blandt en delmengde av forklaringsvariablene (random forrest). (h) Nevrale nett med ett latent lag: f(x) = β 0 + M m=1 β kσ(α T mx). 6 Noen metoder for klassifikasjon (a) K-nærmeste nabo klassifikasjon er definert ved Pr(Y = j X = x 0 ) = 1 I(y i = j) K x i N 0 der N 0 {x 1,..., x n } som inneholder de K nærmeste punkter til x 0. (b) Logistisk regresjon: Y {0, 1} og Pr(Y = 1 x) = ext β 1 + e xt β (c) Bruk av Bayes teorem for klassifikasjon Pr(Y = k X = x) = = 1 Pr(Y = 0 x). π kf k (x) K l=1 π lf l (x). (i) LDA: f k (x) = p(x y = k) = N(µ k, Σ). (ii) QDA: f k (x) = p(x y = k) = N(µ k, Σ k ). 4

7 Dimensjonsreduksjon (a) Prinsipale komponenter: 1. prinsipale komponent definert gjennom z 1 = φ T 1 x der φ 1 er valgt slik at var(z 1 ) er størst mulig. (b) Partial least squares: Bruker også responsen til å definere de transformerte variable. 8 Hierarkisk klusteranalysen (a) Dekomponering av total dissimilarity-en, d(i, i ) = ij K K d(i, i ) + d(i, i ) k=1 G(i)=k G(i )=k k=1 G(i)=k G(i ) k der G(i) angir gruppen som i-te observagjon tilhører, K er totalt antall grupper od d(i, i ) = i d j(x ij, x i j)) er dissimilarity-en mellom observasjoner i og i. Her er x ij j-ne delen av observasjonen i. (b) Dissimilarity measures mellom grupper: single link, min i G,i G d(i, i ) complete link, max i G,i G d(i, i ) average link, 1 n G n G i G i G d(i, i ). 5