STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon

Transkript

1 STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon Oppsummering av kurset 17. april 2018

2 Hovedproblem Input x R p. Output y Numerisk: regresjon Kategorisk: Klassifikasjon Gitt data {(x i, y i ), i = 1,..., N}, vil bygge opp en sammenheng mellom x og y Læring Prediksjon

3 Statistisk læring Fokus: Prediksjon av responsvariabel basert på forklaringsvariable Maskinlæring: Fokus på algoritmer for prediksjon Brukes ofte som en black box Evaluering ofte basert på et test sett Statistisk læring: Fokus på metoder for prediksjon Mer "åpen boks" Fokus på inferens kvantifisering av usikkerhet Evaluering av metode hypotesetesting Ikke noe klart skille, begge fokus på prediksjon

4 Tapsfunksjoner Spesifiserer hvor mye feil koster Kvadratisk feil for regresjon L(Y, Ŷ ) = (Y Ŷ )2 Optimal prediktor Ŷ = E[Y X = x] f (x) Klassfikasjonsfeil for klassifikasjon L(Y, Ŷ ) = I(Y = Ŷ ) Optimal prediktor Ŷ = arg max k Pr(Y = k x), Pr(Y = k x) = E[I(Y = k) x] = f k (x) Andre muligheter Regresjon: L 1 tap: L(Y, Ŷ ) = Y Ŷ Mer robust mot ekstreme observasjoner Klassifikasjon: Vektlegge ulike typer feil ulikt L(k, a) = l k,a

5 Regresjon Anta y = f (x) + ε, ε (0, σ 2 ) f (x) = E[y x] Vil finne f Minste kvadrater: n i=1 (y i f (x i )) 2 Noen ganger trenger vi likelihood (AIC/BIC) Gaussisk støy: Minste kvadrater optimalt log L = 1 2σ 2 N (y i f (x i )) 2 i=1

6 Regresjonsproblem Vil estimere f (x) = E[y x]. f : R p R MANGE mulige f Ikke nok data til å vurdere alle muligheter (curse of dimensjonality) Generell ide: Fleksibel f men med restriksjoner/straff Parametriske/ikke-parametriske Lineær Basis ekspansjoner Additive Tre struktur Glatt Nærmeste nabo metoder Restriksjoner: Dimensjon reduksjon (Variabel seleksjon/pca/pls) Straffeledd på parametre (Ridge/Lasso) Seleksjon: AIC, BIC, Kryss-validering

7 Oversikt over ulike metoder Interpretability Low High Subset Selection Lasso Least Squares Generalized Additive Models Trees Bagging, Boosting Support Vector Machines Low High Flexibility

8 Klassifikasjon Modell basert: p k (x) = Pr(y = k x) Data {(x i, y i ), i = 1,..., n} Likelihood L = N p yi (x i ) = i=1 N K p k (x i ) I(y i =k) i=1 k=1 Kan bruke likelihood baserte metoder også for klassfikasjon Ridge/lasso type AIC/BIC

9 Klassifikasjon som regresjon Anta y i {1,..., K } Definer y i,k = { 1 hvis y i = k 0 ellers Merk: y i = arg max k y ik Kan utføre regresjon for hver k, gir Ŷk(x). Klassifiser Ŷ (x) = arg max k Ŷk(x)

10 Skjevhet versus varians Oppsplitting av forventet kvadratisk feil: Err(x) = E[(Y Ŷ )2 x] = E[f (x) f (x)] 2 + }{{} V(ε) }{{} Reduserbar Ikke reduserbar Reduserbar del: E[f (x) f (x)] 2 =E[f (x) E[ f (x)] + E[ f (x)] f (x)] 2 =[f (x) E[ f (x)]] 2 + E[(E[ f (x)] f (x)]) 2 = [f (x) E[ f (x)]] 2 }{{} Forventningsskjevhet + Var[ f (x)] }{{} Varians Err(x) = Bias 2 + varians + σ 2 For enkel model: Varians liten, skjevhet stor For kompleks model: Skjevhet liten, varians stor Trade-off skjevhet varians Samme data for tilpasning (læring) og evaluering gir for optimistisk verdi på feil (overtilpasning)

11 Modell evaluering og valg av model Hvordan velge mellom modeller/metoder? Vil ha lav prediksjonsfeil på nye data. Bruk av samme data for tilpasning og evaluering gir for optimistisk prediksjonsfeil Trenger to evalueringer En for valg av model/metode glatthet/kompleksitet/turing parameter En for evaluering av endelig modell/metode

12 Trening/validering/test sett Vanlig å dele data inn i Treningsset: Velge/tilpasse modell/metode Test sett: Evaluering av endelig modell Noen ganger deles treningssett i to: Treningssett: Tilpasning av modell/metode Valideringssett: Valg av modell/metode Har da test sett for å estimere prediksjonsfeil på nye data

13 Kryss-validering og bootstrapping Trening/test sett kan hver for seg bli for små Kryss-validering: Del data i K groups Tilpass model på K 1 grupper, valider på siste gruppe Sirkulering gir tilpasning på (K 1)/K av data, validering på K /K. Bootstrapping: Simuler nye datasett ved trekking med repetisjon fra opprinnelig datasett (ikke-parametrisk) trekking fra modell med parameterverdier=estimater (parametrisk) Bruk simulerte data til å estimere usikkerhet (++)

14 Informasjonskriterier Informasjonskriterier: AIC = 2 N loglik + 2 d N BIC = 2 d loglik + log(n) N N I noen lærebøker/software tas ikke faktoren 1 N med Brukes for å sammenlikne modeller Fordel: Ikke behov for å dele data i trening/test Ulempe: Baserer seg mer på modell antagelser Merk: d bør være effektivt antall parametre Eksempel: GAM/splines Relatert: C p, justert R 2

15 Lineær regresjon Modell Y = β 0 + β 1 x β p x p + ε, (*) Data (x 1, y 1 ),..., (x n, y n ) Minste kvadraters estimater (også ML hvis ε iid N(0, σ 2 )) ˆβ =(X T X) 1 X T Y ŷ = ˆβ 0 + ˆβ 1 x ˆβ p x p Hvis (*) er riktig, E[ ˆβ] = β, V[ ˆβ] = σ 2 (X T X) 1 Test H 0 : β j = 0: T = ˆβ SE( ˆβ j ) Test H 0 : β 1 = β 2 = = β p = 0 F = (TSS RSS)/p RSS/(n p 1) n RSS = i=1 H 0 tn p 1 under H 0 H 0 Fp,n p 1 under H 0 n (y i ŷ i ) 2 < TSS = i=1 (y i ȳ) 2

16 Lineære modeller - regresjon f (x) = β 0 + p j=1 β jx j Problemer hvis p stor Restriksjon på parametre Ridge: h(β) = n i=1 Lasso: h(β) = n i=1 Dimensjon reduksjon ( y i β 0 ) p 2 j=1 β p j x ij + λ j=1 β2 j ( y i β 0 ) p 2 j=1 β p j x ij + λ j=1 β j Model seleksjon: Setter β j = 0 for noen j PCR/PLS: z m = p j=1 φ jmx j, m = 1,..., M ˆf (x) = ˆβ0 + p j=1 ˆβ j x j

17 Lineære modeller - klassifikasjon lineær hvis grense mellom klasser er lineær Kan behandles som regresjon problem lineær regresjon Logistic regresjon Modellering av p(x y), LDA/QDA Direkte bestemmelse av grenser mellom klasser Separererende hyperplan

18 LDA og QDA De fleste metoder: Direkte modellering av Y X LDA/QDA: Modellering av X Y og Y, p(y x) = p(y)p(x y p(x) LDA: p(x y = k) = N(µ k, Σ); gir lineære grenser QDA: p(x y = k) = N(µ k, Σ k ); gir kvadratiske grenser Kan være enklere/bedre i noen sammenhenger Nyttig i situasjoner der y 1,..., y n ikke representerer p(y)

19 ROC kurver Eksempel: x y = 1 N(0, 1) x y = 2 N(2, 1) Pr(y = 1) = 0.5 Regel som minimerer feilrate { 1 hvis x 1 Ŷ = 2 hvis x > 1 Vil gi like mange feil 1 2 som 2 1 Alternative regler: { 1 hvis x c Ŷ = 2 hvis x > c Definer p 1 (c) = Pr(Ŷ = 2 Y = 1), p 2 (c) = Pr(Ŷ = 1 Y = 2) For c < 1: p 1 (c) øker, p 2 (c) minker For c > 1: p 2 (c) øker, p 1 (c) minker ROC kurve: Plot av 1 p 2 (c) som funksjon av p 1 (c) 1 p p1

20 y x 2 y x 2 Utover lineære modeller K -nærmeste nabo regresjon Ikke-parametriske metoder Antar ingen eksplisitt form K -nærmeste nabo metode: ˆf (x0 ) = 1 K x i N 0 y i der N 0 {x 1,..., x n } som inneholder de K nærmeste punkter til x 0. x 1 x 1 Valg av K : Trade-off mellom forventningsskjevhet og varians

21 Kjerne metoder Nærmeste nabo: ˆf (x) = Ave(y i x i N k (x)) Local polynomial min α,β j n K λ (x 0, x i ) y i α i=1 d j=1 β j x j i 2 Vanligvis: d = 0, 1, 2 Hovedproblem: Velge glattingsparameter k/λ, typisk ved kryss-validering

22 Basis ekspansjoner Anta f (x) = M m=1 β mh m (x) h m glatte funksjoner Stykkevise polynomer Splines (GAM) Sigmaoider (Nevrale network) Stykkevis konstante (trær) Restriksjoner på β m s Effektivt antall parametre (splines, GAM) Ridge-type (Nevrale network) Lineære i parametre, kan bruke resultater for minste kvadraters metode

23 GAM Modell: f (x) = β 0 + p j=1 f j(x j ) Glattings straff på f j ( ). Som regel smoothing splines som fører til kubisk splines som igjen fører til eksempel på basisfunksjoner Basisfunksjonene ikke forhåndsbestemt, antall knuter og glattingsstraff bestemt av data Glattingsparameter gjennom CV eller effektivt antall parametre Kan inkludere interaksjoner Klassifikasjon: Logistisk type modellering

24 Trær R p = R 1 R 2 R M Modell: f (x) = M m=1 c mi(x R m ) For fleksible modeller, restriksjoner gjennom sekvensiell definisjon av R m -ene Oppsplitting bare gjennom en variabel om gangen Beskjæring av tre Klassifikasjon: Pr(y = k x) = p m,k for x R m. Estimat ˆp m,k = 1 N m x i R m I(y i = k)

25 Bagging og Random Forrest Anta ˆf 1 (x),ˆf 2 (x),...,ˆf B (x) er B ulike prediktorer Kan konstruere en ny prediktor ved ˆfavg (x) = 1 B B ˆf b (x) b=1 Bagging: Lag B bootstrap utvalg ˆf b (x) = prediktor basert på bootstrap utvalg b. Random forrest ( Ønsker mindre korrelerte Trær) Kun et tilfeldig utvalg av m < p forklaringsvariable vurderes ved splitting Typisk: m p De fleste variable blir ikke vurdert i hver oppsplitting!

26 Boosting - idé Ett stort tre kan lett gi overtilpasning Boosting lærer sakte: ˆf (x) ˆf (x) + λˆf b (x) r i r i λˆf b (x) vekter ned (med λ) tilpasningen tilpasser residualer i hvert trinn Avhenger sterkt av tidligere tilpassninger

27 Separerende hyperplan Idé: Finne et hyperplan som skiller (de to) klassene Hyperplan i p dimensjoner, et flatt (affint) underrom av orden p 1. Bestemt av β 0 + β 1 x β p x p = β 0 + β T x = 0 der β = (β 1,..., β p ) T. Punkter som ikke ligger på hyperplan har egenskapene eller β 0 + β T x > 0, x R 1 β 0 + β T x < 0, x R 1 Data {(x 1, y 1 ),..., (x n, y n )} der y i { 1, 1} Ønsker å finne hyperplan slik at x i R 1 for y i = 1 og x i R 1 for y i = 1. Hvis ikke mulig å finne separerende hyperplan: Legge inn straffeledd for punkter på gal side. Kan legge inn ikke-lineære funksjoner av data. Kan generaliseres til flere klasser.

28 Nevrale Nett Modell: f (x) = β 0 + M m=1 β kσ(α T mx) Tillater store M, Ridge-type straff på α, β. Definerer z m = σ(α T mx) gir gjemte lag z 1,..., z M Kan generaliseres til flere lag (dyp læring). Klassifikasjon: Logistisk type modellering

29 Læring versus prediksjon Kurs: Fokus på prediksjon Lærning: Hvilke kovariater er viktige? Mye mer vanskelig spørsmål Ofte: Prediksjonsfeil brukt som kriterie for evaluering av viktighet av kovariat Problemer: Mangel på prediktiv styrke kan være pga lite data Prediktiv styrke kan være pga indirekte innflytelse gjennom andre variable

30 Ikke-styrt læring Mange situasjoner: Ingen responsvariabel Kan være at den mangler, finnes egentlig en respons Eller, kun struktur i x i -ene av interesse Av interesse Visualisering av x i R p Undergrupper av x i -ene? Fokus på to metoder Prinsipale komponenter Klustring Transformasjon til lavere dimensjon visualisering Gruppere data slik at observasjoner innen gruppe er like mens observasjoner fra forskjellige grupper er mer ulike Hierarkisk klustring: Sekvensiell metode der to grupper blir slått sammen på hvert trinn K-means klustring: der (f.eks) minimer{ C 1,...,C K K W (C k )} k=1 W (C k ) = 1 C k i,i C k p (x i,j x i,j ) 2 j=1

31 Store datamengder Predikere framtidige observasjoner Få innsikt i relasjon mellom input variable og respons Forstå hetereogenitet i og fellesfaktorer over ulike subpopulasjoner Utforske gjemte strukturer i subpopulasjoner Fellesfaktorer selv når det er store individuelle varasjoner Utfordringer Falske sammenhenger Tilfeldige likheter Store beregningskostnader og numeriske ustabilitieter Statistiske skjevheter Representativt utvalg? Aggregering over ulike tidspunkter Data samlet inn med ulike teknologier Tre ulike tilnærminger (fokus på beregninger) Parallellprosessering Split og hersk metoder (divide and conquer) Dynamisk oppdatering Subsampling baserte metoder

32 Statistical learning på Youtube Søk på Statistical learning