Generalisering til mange klasser - feilrettingsmetodene

Mange klasser Generalisering til mange klasser - feilrettingsmetodene Kesslers konstruksjon - omskriving av c-klasseproblemet til et toklasseproblem. Her innføres en sammensatt vektvektor a og et sett av c 1 samplevektorer h ij, alle av dimensjon c ˆd: 2 3 0 1 2 3. a 1 y 6 7 a = 4. 5 og h ij =. a c y 6 7 4. 5 0. i. j. c j = 1,...,c, j 6= i der samplevektoren y står i posisjon i, mens y står i posisjon j. Problemet består i å finne en vektvektor a som tilfredsstiller ulikhetene: a t h ij > 0 8i,j, j 6= i.

Mange klasser Generalisert fast inkrement regel Mangeklasseproblemet er omformulert til et toklasseproblem der dimensjonen på vektrommet er multiplisert med c og antall sampler med c 1. Fast inkrement regelen for mange klasser blir da: a 1 (1),...,a c (1)=vilkårlige startvektorer a i (k + 1)=a i (k)+y k 9 (sann klasse) >= a j (k + 1)=a j (k) y k (feil klasse) >; k = 1,2,... a l (k + 1)=a l (k), l 6= i,j Her endres kun vektvektoren til klassen det feilklassifiserte samplet faktisk tilhører og den klassen det er blitt feilaktig klassifisert til. Vektvektorene for de andre klassene endres ikke. De øvrige feilrettingsmetodene kan generaliseres på tilsvarende måte.

Mange klasser Perceptron-algoritmen på datasett med fem klasser Stykkevis lineære desisjonsgrenser på ikke-separabelt datasett.

Mange klasser Generalisering til mange klasser - Minste kvadraters metode Innfører datamatrise Y og vektmatrise A for mangeklasseproblemet: 2 3 Y 1 2 Y 2 y t 3 1 Y = 6 7 4. 5 = 6 7 4. 5 (n ˆd) og A =[a 1,a 2,...,a c ] (ˆd c). Y c y t n I tillegg defineres en matrise B der søylene inneholder marginene for hver klasse: 2 3 2 3 B 0...0 1 0...0 1 B 2 B = 6 7 4. 5 (n c) der B....... i = 6....... 7 4....... 5 (n i c), B c 0...0 1 0...0 dvs. en matrise med enere i søyle nr. i og nuller ellers. i

Mange klasser Generalisering av minste kvadraters metode Her skal likningssystemet: YA = B løses med hensyn til vektmatrisen A. Normalt er dette overbestemt (ingen eksakt løsning). En minste kvadraters løsning finnes ved å minimalisere: Tr {(YA B) t (YA B)} = c Â i=1 ky a i b i k 2 (kan vises). Dette svarer til å minimalisere hvert ledd i summen, som for toklasseproblemet, dvs: a i = Y b i, i = 1,...,c eller A = Y B. Her er Y =(Y t Y ) 1 Y t den pseudoinverse til Y, som tidligere.

Mange klasser Minste kvadraters metode på datasett med fem klasser Stykkevis lineære desisjonsgrenser på ikke-separabelt datasett (Pseudoinvers metode).

Oversikt Innhold i kurset Beslutningsteori (desisjonsteori) Parametriske metoder Ikke-parametriske metoder Lineære og generaliserte diskriminantfunksjoner Feilrateestimering og evaluering av klassifikatorer Ikke-ledet læring Klyngeanalyse.

Feilrateestimering Feilrateestimering Anta at vi har trent opp en klassifikator vha. en av teknikkene beskrevet tidligere. Spørsmålet er da: Er denne klassifikatoren god nok? Finnes andre klassifikatorer som er bedre? + Behov for å kunne bestemme feilraten til klassifikatoren. To hovedmetoder: Parametrisk metode, Empirisk metode.

Feilrateestimering Parametrisk metode - eksempel med to klasser For et toklasseproblem er feilraten gitt ved: P(e)=P(w 1 ) Z p(x w 1 )dx + P(w 2 ) R 2 Z p(x w 2 )dx R 1 der R 1 og R 1 er desisjonsregionene bestemt av klassifikatoren. Feilraten kan beregnes fra uttrykket ved å sette inn estimater for á priori sannsynlighetene og tetthetsfunksjonene (antar f.eks. p(x w i )=N(ˆµ i, ˆ i ) der ˆµ i og ˆ i er bestemt fra treningssettet). Ulemper: Resultatet ofte for optimistisk fordi samme antakelser om statistikken ofte brukes ved treningen av klassifikatoren. Den parametriske modellen kan i seg selv også være tvilsom. Den numeriske beregningen av integralene i uttrykket ofte komplisert, selv om tetthetsfunksjonene er kjente.

Feilrateestimering Empirisk metode Det er mest vanlig å gjøre feilrateestimeringen ved hjelp av et uavhengig testsett med sampler der klassetilhørigheten er kjent (som for treningssettet). Feilraten kan da uttrykkes ved: ˆP(e)= k n = Antall feilklassifiseringer Totalt antall sampler som er et maksimum likelihood estimat med kjente konfidensintervaller. Dilemma: Man ønsker flest mulig sampler i både treningssett og testsett, mens det totale antall merkede sampler vanligvis er mye mindre enn man kunne ønske. Samplene må derfor fordeles på en gunstig måte.

Feilrateestimering Vanlige løsninger Dele settet tilfeldig (eller systematisk), f.eks. i to omtrent like store deler (50/50). Gjennomføre prosessen oppdeling, trening, feilrateestimering flere ganger med forskjellige oppdelinger, og midle estimatene av feilraten til slutt. Leave-one-out metoden. Her benyttes ett sample til testing av klassifikatoren, som trenes opp på de øvrige n 1 samplene i det totale settet. Prosessen gjentas n ganger, der et nytt sample utelates hver gang. Feilraten finnes ved å summere antall feilklassifiseringer i de n testene som er foretatt og dividere med n. Når egenskapskombinasjon og klassifikatortype er valgt ut fra tester som ovenfor, foretas endelig trening vha. hele datasettet.

Dimensjonalitetsproblemer Dimensjonalitetsproblemer Ofte behov for titals eller hundretalls egenskaper, der hver egenskap forhåpentligvis gir bidrag til klassifikatorens diskrimineringsevne. Feilraten for to klasser er gitt ved: P(e)=P(w 1 ) Z p(x w 1 )dx + P(w 2 ) R 2 Z p(x w 2 )dx R 1 der R 1 og R 1 er optimale (minimum feilrate) desisjonsregioner. Anta nå at statistikken i dette toklasseproblemet er gitt ved: P(w 1 )=P(w 2 )=1/2 p(x w i )=N(µ i, i ),i = 1,...,c i =,i = 1,...,c.

Dimensjonalitetsproblemer Dimensjonalitetsproblemer (2) Feilraten blir da: P(e)= 1 p 2p Z r/2 e 1 2 u2 du (dvs. Bayes optimale feilrate) der: r 2 =(µ 1 µ 2 ) t 1 (µ 1 µ 2 ) (Mahalanobis avstand) Feilraten vil derved avta med økende r. For uavhengige egenskaper vil kovariansmatrisen være diagonal: = diag(s 2 1,...,s 2 d ) slik at: r 2 = d Â i=1 (µ i1 µ i2 ) 2 s 2 i

Dimensjonalitetsproblemer Dimensjonalitetsproblemer (3) Ved å inkludere flere uavhengige egenskaper der µ i1 6= µ i2 i egenskapsvektoren vil r 2 øke og P(e) avta, slik at: P d+1 (e) apple P d (e). Dette forutsetter imidlertid kjent statistikk (uendelig stort treningssett)! I praksis er statistikken ukjent og må estimeres vha. et endelig treningssett. Estimert feilrate som funksjon av d vil da typisk avta opp til en gitt dimensjon, og deretter øke. Dette er tegn på overtrening, der klassifikatoren blir stadig mer spesialisert til gjenkjenning av treningssamplene, og mister evnen til å generalisere til nye data. Feilraten estimert ved hjelp av treningssettet vil derimot som regel gå mot null. Dette beskrives nærmere under Problemmidlet feilrate i lærebøkene.