Generalisering til mange klasser - feilrettingsmetodene

Like dokumenter
Dimensjonalitetsproblemer (3)

Innledning Beslutningsteori Parametriske metoder Ikke-parametriske metoder Diskriminantfunksjoner Evaluering Ikke-ledet læring Klyngeanalyse Oversikt

Innledning Beslutningsteori Parametriske metoder Ikke-parametriske metoder Diskriminantfunksjoner Evaluering Ikke-ledet læring Klyngeanalyse Oversikt

Ikke-separable problemer

Unik4590/Unik9590/TTK Mønstergjenkjenning

TEK5020/TEK Mønstergjenkjenning

Unik4590/Unik9590/TTK Mønstergjenkjenning

Unik4590/Unik9590/TTK Mønstergjenkjenning

TEK5020/TEK Mønstergjenkjenning

Normalfordelingen. Univariat normalfordeling (Gaussfordelingen): der µ er forventningsverdien og σ 2 variansen. Multivariat normalfordeling:

Minimalisering av kriteriefunksjon - gradientsøk

Diskrete egenskaper. Egenskapsvektoren x antar kun diskrete verdier: v 1,v 2,...,v m. Endringer fra det kontinuerlige tilfellet er at:

STK Oppsummering

STK Oppsummering

Bayesisk estimering. Tettheten i punkt x er her gitt ved: der p(q X ) er áposterioriparameterfordelinggitt ved: p(q X )=

Prøveeksamen STK2100 (fasit) - vår 2018

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Econ 2130 uke 16 (HG)

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Ekstraoppgaver for STK2120

Kapittel 3: Studieopplegg

Tilleggsoppgaver for STK1110 Høst 2015

LØSNINGSFORSLAG ) = Dvs

3.9 Teori og praksis for Minste kvadraters metode.

Prøveeksamen STK vår 2017

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk Høst 2018

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Klassisering. Insitutt for matematiske fag, NTNU 21. august Klassiseringsproblemet. Notat for TMA4240/TMA4245 Statistikk

Fra første forelesning:

Øving 3 Determinanter

TMA4240 Statistikk H2010

Eksamen - INF 283 Maskinlæring

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Likningssystem for maksimum likelihood løsning

H 0 : Null hypotese. Konservativ. H 1 : Alternativ hypotese. Endring. Kap.10 Hypotesetesting

Litt om numerisk integrasjon og derivasjon og løsningsforslag til noen ekstraoppgaver MAT-INF 1100 uke 48 (22/11-26/11)

Kort overblikk over kurset sålangt

Notat 3 - ST februar 2005

Inferens i regresjon

Suffisient observator

Eksamensoppgave i TMA4240 Statistikk

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

UNIVERSITETET I OSLO

Oppsummering av STK2120. Geir Storvik

UNIVERSITETET I OSLO

Mer om Markov modeller

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

Øving 2 Matrisealgebra

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

Lineære likningssystemer og matriser

Homogene lineære ligningssystem, Matriseoperasjoner

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Løsningsforslag. Oppgave 1 Gitt matrisene ] [ og C = A = 4 1 B = 2 1 3

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

HMM-tagging INF4820 H2008. Jan Tore Lønning. 30. september. Institutt for Informatikk Universitetet i Oslo

Løsningsforslag eksamen 25. november 2003

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Presentasjon av Field II. Teori om simuleringsmetoden

5.8 Iterative estimater på egenverdier

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

TMA4240 Statistikk Høst 2015

Sannsynligheten for en hendelse (4.2) Empirisk sannsynlighet. ST0202 Statistikk for samfunnsvitere

Statistikk for språk- og musikkvitere 1

Polynomisk interpolasjon

FFI-RAPPORT. Teknologiske muligheter for Tolletaten. mønstergjenkjenning og maskinlæring

MA0002 Brukerkurs i matematikk B Vår 2013

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Om eksamen. Never, never, never give up!

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Vektorligninger. Kapittel 3. Vektorregning

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

TMA4245 Statistikk Eksamen desember 2016

TMA4245 Statistikk Høst 2016

Om eksamen. Never, never, never give up!

Forelesning 3. april, 2017

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

Reelle tall på datamaskin

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

TMA4240 Statistikk H2010

4 Matriser TMA4110 høsten 2018

TMA4240 Statistikk Høst 2016

Eksamensoppgave i TMA4245 Statistikk

Sensitivitet og kondisjonering

7.4 Singulærverdi dekomposisjonen

Computers in Technology Education

Løsningsforslag Eksamen S2, høsten 2015 Laget av Tommy O. Sist oppdatert: 25. mai 2017

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

UNIVERSITETET I OSLO

Introduksjon til inferens

Oppgave 1: Feil på mobiltelefoner

TMA4240 Statistikk Høst 2009

Transkript:

Mange klasser Generalisering til mange klasser - feilrettingsmetodene Kesslers konstruksjon - omskriving av c-klasseproblemet til et toklasseproblem. Her innføres en sammensatt vektvektor a og et sett av c 1 samplevektorer h ij, alle av dimensjon c ˆd: 2 3 0 1 2 3. a 1 y 6 7 a = 4. 5 og h ij =. a c y 6 7 4. 5 0. i. j. c j = 1,...,c, j 6= i der samplevektoren y står i posisjon i, mens y står i posisjon j. Problemet består i å finne en vektvektor a som tilfredsstiller ulikhetene: a t h ij > 0 8i,j, j 6= i.

Mange klasser Generalisert fast inkrement regel Mangeklasseproblemet er omformulert til et toklasseproblem der dimensjonen på vektrommet er multiplisert med c og antall sampler med c 1. Fast inkrement regelen for mange klasser blir da: a 1 (1),...,a c (1)=vilkårlige startvektorer a i (k + 1)=a i (k)+y k 9 (sann klasse) >= a j (k + 1)=a j (k) y k (feil klasse) >; k = 1,2,... a l (k + 1)=a l (k), l 6= i,j Her endres kun vektvektoren til klassen det feilklassifiserte samplet faktisk tilhører og den klassen det er blitt feilaktig klassifisert til. Vektvektorene for de andre klassene endres ikke. De øvrige feilrettingsmetodene kan generaliseres på tilsvarende måte.

Mange klasser Perceptron-algoritmen på datasett med fem klasser Stykkevis lineære desisjonsgrenser på ikke-separabelt datasett.

Mange klasser Generalisering til mange klasser - Minste kvadraters metode Innfører datamatrise Y og vektmatrise A for mangeklasseproblemet: 2 3 Y 1 2 Y 2 y t 3 1 Y = 6 7 4. 5 = 6 7 4. 5 (n ˆd) og A =[a 1,a 2,...,a c ] (ˆd c). Y c y t n I tillegg defineres en matrise B der søylene inneholder marginene for hver klasse: 2 3 2 3 B 0...0 1 0...0 1 B 2 B = 6 7 4. 5 (n c) der B....... i = 6....... 7 4....... 5 (n i c), B c 0...0 1 0...0 dvs. en matrise med enere i søyle nr. i og nuller ellers. i

Mange klasser Generalisering av minste kvadraters metode Her skal likningssystemet: YA = B løses med hensyn til vektmatrisen A. Normalt er dette overbestemt (ingen eksakt løsning). En minste kvadraters løsning finnes ved å minimalisere: Tr {(YA B) t (YA B)} = c  i=1 ky a i b i k 2 (kan vises). Dette svarer til å minimalisere hvert ledd i summen, som for toklasseproblemet, dvs: a i = Y b i, i = 1,...,c eller A = Y B. Her er Y =(Y t Y ) 1 Y t den pseudoinverse til Y, som tidligere.

Mange klasser Minste kvadraters metode på datasett med fem klasser Stykkevis lineære desisjonsgrenser på ikke-separabelt datasett (Pseudoinvers metode).

Oversikt Innhold i kurset Beslutningsteori (desisjonsteori) Parametriske metoder Ikke-parametriske metoder Lineære og generaliserte diskriminantfunksjoner Feilrateestimering og evaluering av klassifikatorer Ikke-ledet læring Klyngeanalyse.

Feilrateestimering Feilrateestimering Anta at vi har trent opp en klassifikator vha. en av teknikkene beskrevet tidligere. Spørsmålet er da: Er denne klassifikatoren god nok? Finnes andre klassifikatorer som er bedre? + Behov for å kunne bestemme feilraten til klassifikatoren. To hovedmetoder: Parametrisk metode, Empirisk metode.

Feilrateestimering Parametrisk metode - eksempel med to klasser For et toklasseproblem er feilraten gitt ved: P(e)=P(w 1 ) Z p(x w 1 )dx + P(w 2 ) R 2 Z p(x w 2 )dx R 1 der R 1 og R 1 er desisjonsregionene bestemt av klassifikatoren. Feilraten kan beregnes fra uttrykket ved å sette inn estimater for á priori sannsynlighetene og tetthetsfunksjonene (antar f.eks. p(x w i )=N(ˆµ i, ˆ i ) der ˆµ i og ˆ i er bestemt fra treningssettet). Ulemper: Resultatet ofte for optimistisk fordi samme antakelser om statistikken ofte brukes ved treningen av klassifikatoren. Den parametriske modellen kan i seg selv også være tvilsom. Den numeriske beregningen av integralene i uttrykket ofte komplisert, selv om tetthetsfunksjonene er kjente.

Feilrateestimering Empirisk metode Det er mest vanlig å gjøre feilrateestimeringen ved hjelp av et uavhengig testsett med sampler der klassetilhørigheten er kjent (som for treningssettet). Feilraten kan da uttrykkes ved: ˆP(e)= k n = Antall feilklassifiseringer Totalt antall sampler som er et maksimum likelihood estimat med kjente konfidensintervaller. Dilemma: Man ønsker flest mulig sampler i både treningssett og testsett, mens det totale antall merkede sampler vanligvis er mye mindre enn man kunne ønske. Samplene må derfor fordeles på en gunstig måte.

Feilrateestimering Vanlige løsninger Dele settet tilfeldig (eller systematisk), f.eks. i to omtrent like store deler (50/50). Gjennomføre prosessen oppdeling, trening, feilrateestimering flere ganger med forskjellige oppdelinger, og midle estimatene av feilraten til slutt. Leave-one-out metoden. Her benyttes ett sample til testing av klassifikatoren, som trenes opp på de øvrige n 1 samplene i det totale settet. Prosessen gjentas n ganger, der et nytt sample utelates hver gang. Feilraten finnes ved å summere antall feilklassifiseringer i de n testene som er foretatt og dividere med n. Når egenskapskombinasjon og klassifikatortype er valgt ut fra tester som ovenfor, foretas endelig trening vha. hele datasettet.

Dimensjonalitetsproblemer Dimensjonalitetsproblemer Ofte behov for titals eller hundretalls egenskaper, der hver egenskap forhåpentligvis gir bidrag til klassifikatorens diskrimineringsevne. Feilraten for to klasser er gitt ved: P(e)=P(w 1 ) Z p(x w 1 )dx + P(w 2 ) R 2 Z p(x w 2 )dx R 1 der R 1 og R 1 er optimale (minimum feilrate) desisjonsregioner. Anta nå at statistikken i dette toklasseproblemet er gitt ved: P(w 1 )=P(w 2 )=1/2 p(x w i )=N(µ i, i ),i = 1,...,c i =,i = 1,...,c.

Dimensjonalitetsproblemer Dimensjonalitetsproblemer (2) Feilraten blir da: P(e)= 1 p 2p Z r/2 e 1 2 u2 du (dvs. Bayes optimale feilrate) der: r 2 =(µ 1 µ 2 ) t 1 (µ 1 µ 2 ) (Mahalanobis avstand) Feilraten vil derved avta med økende r. For uavhengige egenskaper vil kovariansmatrisen være diagonal: = diag(s 2 1,...,s 2 d ) slik at: r 2 = d  i=1 (µ i1 µ i2 ) 2 s 2 i

Dimensjonalitetsproblemer Dimensjonalitetsproblemer (3) Ved å inkludere flere uavhengige egenskaper der µ i1 6= µ i2 i egenskapsvektoren vil r 2 øke og P(e) avta, slik at: P d+1 (e) apple P d (e). Dette forutsetter imidlertid kjent statistikk (uendelig stort treningssett)! I praksis er statistikken ukjent og må estimeres vha. et endelig treningssett. Estimert feilrate som funksjon av d vil da typisk avta opp til en gitt dimensjon, og deretter øke. Dette er tegn på overtrening, der klassifikatoren blir stadig mer spesialisert til gjenkjenning av treningssamplene, og mister evnen til å generalisere til nye data. Feilraten estimert ved hjelp av treningssettet vil derimot som regel gå mot null. Dette beskrives nærmere under Problemmidlet feilrate i lærebøkene.