(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Like dokumenter
(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

FORMELSAMLING TIL STK1100 OG STK1110

STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon

Prøveeksamen STK2100 (fasit) - vår 2018

Tilleggsoppgaver for STK1110 Høst 2015

UNIVERSITETET I OSLO

Prøveeksamen STK vår 2017

UNIVERSITETET I OSLO

Kapittel 6 - modell seleksjon og regularisering

UNIVERSITETET I OSLO

STK Oppsummering

Ekstraoppgaver for STK2120

Ridge regresjon og lasso notat til STK2120

UNIVERSITETET I OSLO

Oppsummering av STK2120. Geir Storvik

UNIVERSITETET I OSLO

Løsningsforslag: STK2120-v15.

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

STK juni 2016

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

UNIVERSITETET I OSLO

TMA4240 Statistikk Eksamen desember 2015

Forelesning 6 STK3100

UNIVERSITETET I OSLO

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

STK2100. Obligatorisk oppgave 1 av 2

UNIVERSITETET I OSLO

FORMELSAMLING TIL STK1100 OG STK1110

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

UNIVERSITETET I OSLO

TMA4240 Statistikk Eksamen desember 2015

Kp. 12 Multippel regresjon

Løsningsforslag eksamen 27. februar 2004

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Kapittel 2: Hendelser

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

TMA4245 Statistikk Eksamen desember 2016

UNIVERSITETET I OSLO

Om eksamen. Never, never, never give up!

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Om eksamen. Never, never, never give up!

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

Generaliserte Lineære Modeller

Eksponensielle klasser

LØSNINGSFORSLAG ) = Dvs

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1

Eksamensoppgave i TMA4240 Statistikk

Oppgave N(0, 1) under H 0. S t n 3

Forelesning 3 STK3100

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

Forelesning 9 STK3100/4100

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk H2010

TMA4240 Statistikk 2014

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

EKSTRAOPPGAVER I STK1110 H2017

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

TMA4240 Statistikk Høst 2009

10.1 Enkel lineær regresjon Multippel regresjon

TMA4240 Statistikk Høst 2015

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Ekstraoppgaver STK3100 h10

STK Oppsummering

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE

Fasit og løsningsforslag STK 1110

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

UNIVERSITETET I OSLO

Fasit for tilleggsoppgaver

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2016

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Forelesning 4 STK3100

UNIVERSITETET I OSLO

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Seminaroppgave 10. (a) Definisjon: En estimator θ. = θ, der n er et endelig antall. observasjoner. Forventningsretthet for β: Xi X ) Z i.

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

UNIVERSITETET I OSLO Matematisk Institutt

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Bootstrapping og simulering Tilleggslitteratur for STK1100

Løsningsforslag oblig 1 STK1110 høsten 2014

Eksponensielle klasser og GLM

TMA4245 Statistikk Eksamen desember 2016

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

TMA4240 Statistikk 2014

Løsningsforslag, eksamen statistikk, juni 2015

Generaliserte Lineære Modeller

Forelesning 9 STK3100/4100

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Oppgave 1. Vi må forutsette at dataene kommer fra uavhengige og normalfordelte tilfeldige variable,

Oppgave 1: Feil på mobiltelefoner

Notat 3 - ST februar 2005

Transkript:

FORMELSAMLING TIL STK2100 (Versjon Mai 2017) 1 Tapsfunksjoner (a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. (b) For klassifikasjon brukes vanligvis 0-1 tap: L(y, ŷ) = I(y = ŷ) der I( ) er indikatorfunksjonen. Den optimale prediktor basert på input variable x er da Ŷ = argmax k Pr(Y = k x). 2 Multippel lineær regresjon (a) Modell: Y i = β 0 + β 1 x i1 + + β p x ip + ɛ i ; i = 1, 2,..., n ; der x ij -ene er kjente tall og ɛ i -ene er uavhengige og N(0, σ 2 )-fordelte. (b) Matriseform: Y = Xβ der Y = (Y 1,..., Y n ) T og β = (β 0,..., β p ) T er henholdsvis n- og (p + 1)- dimensjonale vektorer, og X = {x ij } (med x i0 = 1) er en n (p + 1)-dimensjonal matrise. (c) Minste kvadraters estimator for β er ˆβ = (X T X) 1 X T Y. (d) La ˆβ = ( ˆβ 0,..., ˆβ p ) T. Da er ˆβ j -ene normalfordelte og forventningsrette, og Var( ˆβ j ) = σ 2 c jj og Cov( ˆβ j, ˆβ l ) = σ 2 c jl der c jl er element (j, l) i (p + 1) (p + 1) matrisen C = (X T X) 1. (e) La Ŷi = ˆβ 0 + ˆβ 1 x i1 + + ˆβ p x ik, og sett SSE = n (Y i Ŷi) 2. Da er S 2 = SSE/[n (p + 1)] en forventningsrett estimator for σ 2, og [n (p + 1)]S 2 /σ 2 χ 2 n (p+1). Videre er S 2 og ˆβ uavhengige. (f) La SE( ˆβ j ) 2 være den variansestimatoren for ˆβ j vi får ved å erstatte σ 2 med S 2 i formelen for Var( ˆβ j ) i punkt (b). Da er ( ˆβ j β j )/SE( ˆβ j ) t n (p+1). 1

(g) Vi kan teste hypotesen H 0 : β 1 = β 2 = = β p = 0 ved å bruke testobservatoren F = (TSS RSS)/p RSS/(n p 1) der RSS = n (y i ŷ i ) 2 og TSS = n (y i ȳ) 2. Under H 0 er F F -fordelt med p og n p 1 frihetsgrader. (h) Vi kan teste hypotesen H 0 : β i1 = β i2 = = β iq = 0 ved å bruke testobservatoren F = (RSS 0 RSS)/q RSS/(n p 1) H 0 Fq,n p 1 der RSS 0 = n (y ŷ i) 2 når ŷ i er beregnet under H 0 mens RSS er tilsvarende for full modell. 3 Maksimum likelihood metoden Anta at Y 1, Y 2,..., Y n har simultan punktsannsynlighet/sannsynlighetstetthet f(y 1, y 2,..., y n θ), der θ = (θ 1,...., θ d ) er en parametervektor (skalar hvis d = 1). Vi antar at f(y 1, y 2,..., y n θ) tilfredsstiller visse deriverbarhetsbetingelser. (a) Gitt observerte verdier Y i = y i ; i = 1,..., n; er likelihood-funksjonen L(θ) = f(y 1, y 2,..., y n θ) og loglikelihood-funksjonen l(θ) = log L(θ). (b) Maksimum likelihood estimatet er den verdien av θ som maksimerer L(θ) eller ekvivalent maksimerer l(θ). Hvis vi erstatter de observerte y i -ene med de stokastiske Y i -ene, får vi maksimum likelihood estimatoren. (c) Maksimum likelihood estimatet ˆθ = (ˆθ 1,...., ˆθ d ) er en løsning av ligningene s j (θ) = 0; j = 1,..., d; der s j (θ) = ( / θ j )l(θ) er score-funksjonene. Vektoren av scorefunksjoner er s(θ) = (s 1 (θ),..., s d (θ)) T. (d) Den observerte informasjonsmatrisen J(θ) er d d matrisen med element (i, j) gitt ved J ij (θ) = 2 θ i θ j l(θ). Den forventede informasjonsmatrisen (eller Fishers informasjonsmatrise) Ī(θ) er d d matrisen med element (i, j) gitt ved Īij(θ) = E[ J ij (θ)]. For uavhengige og identisk fordelte observasjoner har vi at Ī(θ) = ni(θ) der I(θ) er forventet informasjon til en observasjon. (e) Når ligningene i punkt (c) ikke har en eksplisitt løsning, kan vi finne maksimum likelihood estimatet ved å bruke Newton-Raphsons metode: θ (s+1) = θ (s) + J 1 (θ (s) )s(θ (s) ), 2

ved å bruke Fishers scoringsalgoritme: θ (s+1) = θ (s) + Ī 1 (θ (s) )s(θ (s) ), eller ved passende modifikasjoner av disse. (f) Når vi har tilstrekkelig mye data, er ˆθ i tilnærmet normalfordelt med forventning θ i og med varians lik det i-te diagonalelementet til Ī 1 (θ). Kovariansen mellom ˆθ i og ˆθ j er tilnærmet lik element (i, j) i Ī 1 (θ). Vi kan estimere varianser/kovarianser ved å sette inn ˆθ for θ i Ī 1 (θ) eller i J 1 (θ). 4 Bootstrapping Anta fordelingen til data Y er beskrevet ved en fordelingsfunksjon F. La θ = θ(f ) være en funksjonal av F som estimeres ved ˆθ = ˆθ(Y). (a) Bootstrapping-idéen er å tilnærme egenskapene til ˆθ ved å anta at et estimat F for F er den sanne fordelingsfunksjonen. (b) Bootstrap estimering av skjevhet til ˆθ: bˆθ = 1 B B θb θ( F ) b=1 (c) Bootstrap estimering av standardavvik til ˆθ: { ) } 2 E (ˆθ(Y F ) E F [ˆθ(Y )] (d) Standard bootstrap konfidensintervall: (ˆθ δ, ˆθ δ) der δ og δ er nedre og øvre α/2 kvantil i bootstrap fordelingen til = ˆθ θ. 5 Modell seleksjonskriterier (a) AIC er definert ved AIC = 2l( ˆθ) + 2 θ der θ er dimensjonen på θ. (b) BIC er definert ved BIC = 2l( ˆθ) + log(n) θ. (c) k-foldet kryss-validering (for regresjon) (i) Del de n datapunkter opp i k grupper ved randomisering (ii) For i = 1,..., k 3

i. Tilpass modell på alle data unntatt data fra gruppe k. ii. Beregn prediksjon ŷ i for alle data i gruppe k basert på den tilpassende modell iii. Beregn MSE i = (y i ŷ i ) 2 (iii) Beregn CV (k) = 1 n n MSE i 6 Metoder for regresjon (a) K-nærmeste nabo regresjon er definert ved ˆf(x 0 ) = 1 K x i N 0 y i der N 0 {x 1,..., x n } som inneholder de K nærmeste punkter til x 0. (b) Ridge regresjon: Minimer mhp β ( ) 2 n h(β) = y i β 0 β j x ij + λ (c) Lasso regresjon: Minimer mhp β ( ) 2 n h(β) = y i β 0 β j x ij + λ β j (d) Kubisk spline: Stykkevis polynomisk med basisfunksjoner b 0 (x) =1, b 1 (x) = x, b 2 (x) = x 2, b 3 (x) = x 3, b 3+k (x) =(x c k ) 3 +, k = 1,..., K β 2 j (e) Tre-baserte metoder: f(x) = M m=1 c mi(x R m ) der R p = R 1 R 2 R M og regioner er definert gjennom sekvensiell oppsplitting basert på en variabel om gangen. (f) Bagging og random forrest: ˆf avg (x) = 1 B B b=1 ˆf b (x) der ˆf 1 (x), ˆf 2 (x),..., ˆf B (x) er B ulike prediktorer basert på ordinær bootstrapping (bagging) eller der oppsplitting kun vurderes blandt en delmengde av forklaringsvariablene (random forrest) (g) Nevrale nett med ett latent lag: f(x) = β 0 + M m=1 β kσ(α T mx). 4

7 Metoder for klassifikasjon (a) Logistisk regresjon: Y {0, 1} og Pr(Y = 1 x) = ext β 1 + e xt β = 1 Pr(Y = 0 x) (b) LDA: f k (x) = p(x y = k) = N(µ k, Σ). (c) QDA: f k (x) = p(x y = k) = N(µ k, Σ k ). (d) Support vektor klassifikator (2 klasser): Maksimer β 0,β,ε M begrenset til β 2 = 1, y i (β 0 + β T x i ) > M(1 ε i ), n ε i 0, ε i C i = 1,..., n 8 Ikke-styrt læring (a) Prinsipale komponenter: 1. prinsipale komponent definert gjennom z 1 = φ T 1 x der φ 1 er valgt slik at var(z 1 ) er størst mulig. (b) K-means Klustring: Oppdeling av data i grupper C 1,..., C K der C 1 C 2 C K = {1,..., n} C k C k = for k k Minimerer over C 1,..., C K K k=1 W (C k ) der W (C k ) = 1 C k i,i C k (x i,j x i,j) 2 5