MØNSTERGJENKJENNING. Forelesningsnotater til kurset Unik4590/Unik9590/TTK4205

Størrelse: px
Begynne med side:

Download "MØNSTERGJENKJENNING. Forelesningsnotater til kurset Unik4590/Unik9590/TTK4205"

Transkript

1 MØNSTERGJENKJENNING Forelesigsotater til kurset Uik4590/Uik9590/TTK4205 Idar Dyrdal Uiversitetsseteret på Kjeller Høste 2016 (oppdatert 15. oktober 2016) Faget møstergjekjeig deles valigvis i i to hovedkategorier, heholdsvis strukturelle og umeriske metoder. Ved strukturell møstergjekjeig er ma, i tillegg til å idetifisere møsteret, ofte iteressert i å gi e beskrivelse av det. Dette ka f.eks. brukes i sceeaalyse, der ma ut fra bilder av scee først idetifiserer objekter eller deler av objekter og side setter dem samme til e beskrivelse av scee som helhet. Numeriske metoder (også kalt statistiske eller desisjosteoretiske metoder) iskreker seg til å idetifisere de ekelte objektee eller objektdelee, ærmere bestemt tilorde dem til e av et edelig atall mulige klasser eller kategorier. E slik klassifiserig av deler av et mer sammesatt møster vil valigvis være e forløper for strukturell behadlig, der det er e forutsetig at visse elemetære byggesteier (primitiver) på forhåd er idetifisert. Disse otatee omhadler i hovedsak umeriske metoder, som er mest brukt i praktiske avedelser i dag. Emet gir e gruleggede iførig i møstergjekjeig, med vekt på klassifiserigsteori. Temaer som gjeomgås er Bayesisk beslutigsteori, klassifikatorer og klassifiserigssystemer, ledet lærig, parametriske og ikke-parametriske metoder, lieære og geeraliserte diskrimiatfuksjoer, egeskapsutvelgig og feilrateestimerig, dimesjoalitetsproblemer, ikke-ledet lærig og klygeaalyse. Møstergjekjeig brukes ofte i sammeheg med bildeog sigalaalyse, og vil derfor være yttig for mage studeter iefor disse fagee. 1

2 Uiversitetsseteret på Kjeller Ihold 1 Iledig Møstergjekjeig Klassifiserig Ledet lærig Desisjosteori for to klasser - iledede eksempel Størrelser og begreper Bayes regel Á posteriori sasylighet Feilrate Eksempel - to uivariat ormalfordelte klasser Bayesisk desisjosteori Størrelser og begreper Eksempel 1 - to klasser Eksempel 2 - ull-é kostfuksjo og c klasser Desisjosregioer Diskrimiatfuksjoer Diskrimiatfuksjoer for uivariate ormalfordeliger Multivariat ormalfordelig Mahalaobis avstad Diskrimiatfuksjoer for multivariate ormalfordeliger Det geerelle tilfellet Like kovariasmatriser Diagoale kovariasmatriser med like variaser Diskrete egeskaper Parametriske metoder Maksimum-likelihood metode Eksempel 1 - Multivariat ormalfordelig med ukjet forvetig Eksempel 2 - Uivariat ormalfordelig med ukjet forvetig og varias Kovariasmatrise i de multivariate ormalfordelige Eksempel 3 - Estimerig av á priori sasyligheter Oppsummerig av resultatee så lagt Bayesisk estimerig Eksempel - Bayesisk estimerig av forvetigsverdie i e uivariat ormalfordelig Rekursiv Bayesisk estimerig Eksempel - Bayesisk estimerig av forvetig i multivariat ormalfordelig Suffisiete observatorer Ekspoesialfamilie Ikke-parametriske metoder Tetthetsestimerig Vidumetode (Parze-viduer) Nærmeste-abo metoder INNHOLD 2

3 Uiversitetsseteret på Kjeller 4.2 Estimerig av á posteriori sasylighet K-ærmeste-abo regele Nærmeste-abo regele Asymptotisk feilrate for NNR Feilrate for k-ærmeste-abo regele Problemer med ikke-parametriske metoder Mulige løsiger for vidumetode Mulige forekliger for NNR og k-nnr Lieære og geeraliserte diskrimiatfuksjoer Iledig To klasser Mage klasser Eksempel - Miste avstad klassifiserig Geeraliserte lieære diskrimiatfuksjoer Lieære diskrimiatfuksjoer Toklasseproblemet Kriteriefuksjoer Gradietsøk Perceptrometode Perceptro-kriteriet Perceptro-algoritme Fast ikremet regele Variabelt ikremet regele Koverges for Perceptro-algoritme Relaksasjosmetode Ikke-separable problemer Miste kvadraters metode Pseudoivers metode Alterativt valg av margivektor Løsig ved gradietsøk Geeraliserig til flere klasser - Kesslers kostruksjo Geeraliserig av feilrettigsmetodee - Kesslers kostruksjo Geeraliserig av miste kvadraters metode Feilrateestimerig og evaluerig av klassifikatorer Feilrateestimerig Parametrisk metode Empirisk metode Dimesjoalitetsproblemer Estimerig av kovariasmatriser Lieær separabilitet Aktuelle løsiger Egeskapsutvelgig Redesig av egeskapsuttrekkere Lieære trasformasjoer INNHOLD 3

4 Uiversitetsseteret på Kjeller 7 Ikke-ledet lærig Bladigstetthet med ukjet parametervektor Geeraliserig - ukjete á priori sasyligheter Isodata-algoritme (K-Meas-Clusterig) Klygeaalyse Optimaliserig av kriteriefuksjo Hierarkiske metoder Gyldighet Referaser 110 INNHOLD 4

5 Uiversitetsseteret på Kjeller 1 Iledig 1.1 Møstergjekjeig Formålet med møstergjekjeig, slik fagfeltet valigvis defieres, er i hovedsak å gjekjee objekter, det vil si tilorde ukjete objekter til é av flere mulige klasser eller kategorier. Dette er det såkalte klassifiserigsproblemet, som er hovedtema i kurset og som valigvis løses ved bruk av statistiske metoder. Setralt her er Bayesisk beslutigsteori (desisjosteori). Igagsdata til klassifiserigsprosesse er umerisk iformasjo, som ka være hetet fra digitale bilder eller édimesjoale sigaler (tidsrekker). Det ka også være sakk om direkte (mauelle) måliger på fysiske gjestader eller data hetet fra besvarte spørreskjema mm. I oe tilfeller, spesielt der det er et stort atall mulige klasser, ka møstergjekjeig bestå i å komme frem til e beskrivelse av sammesatte objekter ved hjelp av mer gruleggede kompoeter. Dee greie av faget refereres ofte til som strukturell møstergjekjeig. Her beyttes såkalte sytaktiske metoder. Iput til dee prosesse er symbolsk iformasjo, ofte e streg av symboler som aalyseres (parses) i hehold til et gitt regelverk (grammatikk). Resultatet av aalyse er e hierarkisk beskrivelse av objektet, som deretter ka være utgagspukt for e ærmere klassifiserig av objektet. Her er oe eksempler på avedelser av møstergjekjeig: Fjeraalyse (vegetasjostyper, overvåkig), Automatisk ispeksjo (f.eks. flaskeautomater), Medisi (EEG, EKG, blodlegemer, kromosomer), Seismisk aalyse (oljeletig, kjerefysiske prøver), Talegjekjeig, Karaktergjekjeig (f.eks. lesig av hådskrift), Maskisy (robotsy), Overvåkigssesorer, Økoomi, Psykologi (gjekjeig av tilstader), Arkeologi. Liste er på ige måte utfyllede. Lesere ka sikkert komme på mage flere eksempler. Beslutigsteoretiske metoder brukes typisk i sammeheger der det er sakk om et begreset atall mulige klasser. Eksempel på klassifiserigssystem basert på beslutigsteori er vist i figur 1. I dette tilfellet klassifiseres objektee på samlebådet i to klasser. Valget av klasse er basert på iformasjo fra et kamera, som tar bilder av objektee på samlebådet. Strukturelle metoder ka som evt brukes der det er svært mage mulige klasser og/eller der det er viktig å kartlegge sammehege mellom objekter/delobjekter av forskjellig type. Eksempel på bruk av sytaktiske metoder (beskrivelse av skipskotur) er vist i figur 2. I dette eksempelet blir omrisset av skipet (til vestre) først delt opp i lijesegmeter av forskjellig form, symbolisert ved a, b, c, d, e, f eller g. Disse grusymbolee, primitivee, settes samme til e streg (setig), som vist ederst til vestre. Setige aalyseres (parses) for å fastslå om de 1 INNLEDNING 5

6 Uiversitetsseteret på Kjeller Tallmessig represetasjo av objekter basert på f.eks.: Kamera lysstyrke farge form Samlebåd Tilordig av objekter til et edelig atall mulige klasser. Figur 1: Eksempel på bruk av møstergjekjeig for å sortere produkter på et samlebåd. Et kamera tar bilder av objektee, og bildee aalyseres automatisk for å skille mellom produkttyper basert på f.eks. farge og form til objektet. I dette eksempelet skal systemet skille mellom to objekttyper (klasser). I mage praktiske avedelser, f.eks. flaskeautomater, er atall mulige klasser lagt høyere. I adre tilfeller ka ma være iteressert i å skille mellom objekter med og ute feil i e produksjosprosess, dvs. skille mellom de to mulige klassee godkjet og forkastet produkt. Figur 2: Sytaktisk beskrivelse av skipskotur i form av e streg av primitiver (til vestre), hierarkisk beskrivelse (øverst til høyre) og regelverket (grammatikke) som agir hvilke sammeheger som er tillatt mellom de ulike elemetee (ederst til høyre). er i overesstemmelse med regelverket (grammatikke) ederst til høyre. I dette eksempelet beskriver grammatikke hvorda omrisset av et skip skal se ut. Dersom parsige lykkes, bygges det samtidig opp e hierarkisk beskrivelse av skipet, med skipet som helhet på toppe av hierarkiet og primitivee på laveste ivå, som vist øverst til høyre i figure. 1 INNLEDNING 6

7 Uiversitetsseteret på Kjeller 1.2 Klassifiserig Dette kurset er avgreset til beslutigsteoretiske metoder for klassifiserig av objekter. Et eksempel er vist i figur 3. Et kamera tar et bilde av hvert trestykke på samlebådet. Egeskapsuttrekkere foretar bildeaalyse og bereger tallstørrelser som beskriver objektet, og klassifikatore foretar et valg av klasse (ask eller bjørk) ut fra verdie på egeskapee. Figur 3: Eksempel på klassifiserigssystem for å skille mellom trestykker fra de to klassee bjørk og ask. La å størrelse x 1 = lysstyrke være e slik egeskap ved objektet. Ved å måle lysstyrke for et atall trestykker ka ma plotte histogrammer for de to klassee. For et stort atall trestykker vil slike histogrammer være tilærmet lik sasylighetstetthetsfuksjoee for hver av klassee. Ata at fordeligee er som vist i figur 4. Ut fra figure vil det være aturlig å velge følgede desisjosregel (beslutigsregel) for valg av klasse: Velg bjørk hvis x 1 x 0, ellers ask. Her er størrelse x 0 er terskelverdi (desisjosgrese) som brukes til å skille mellom klassee. Overlapp mellom fordeligee ka gi opphav til feilklassifiseriger. Hyppighet! 2! 1 x 0 Figur 4: Fordelig av lysstyrke for klassee bjørk og ask (ka tilærmes ved å plotte histogrammer for et stort atall trestykker fra hver klasse). 1 INNLEDNING 7

8 Korethet Uiversitetsseteret på Kjeller Dersom dee beslutigsregele ikke gir tilstrekkelig sikker klassifiserig av trestykkee, ka ma itrodusere e ekstra egeskap, f.eks. x 2 = korethet (ett eller aet mål på tekstur i vede). Figur 5 viser et eksempel på trestykker fra de to klassee, plottet i i et todimesjoalt egeskapsrom med lysstyrke og korethet på aksee. I dette tekte eksempelet er samplee fra de to klassee så godt adskilt at det er mulig å trekke e desisjosgrese (de stiplede lije i figure) som skiller de to klassee perfekt, i det miste for dette utvalget av sampler fra hver klasse. Ask Desisjosgrese Bjørk Lysstyrke Figur 5: Plott av korethet som fuksjo av lysstyrke for oe trestykker fra klassee ask og bjørk (kostruert eksempel). Figure viser at ask stort sett er mørkere, me mer koret e bjørk. Lite overlapp mellom klassee leder til relativt sikker klassifiserig (lav feilrate). Bruk av flere egeskaper gir valigvis mer iformasjo for klassifiserig, og derved lavere feilrate. R 1 R 2 R 3 Figur 6: Todimesjoalt egeskapsrom idelt i desisjosregioer for et klassifiserigsproblem med tre klasser. Det ukjete objektet (svart kvadrat) i figure vil her bli klassifisert til klasse 2. Geerelt ka atall egeskaper og atall klasser være vilkårlig. Egeskapee for objektet 1 INNLEDNING 8

9 Uiversitetsseteret på Kjeller orgaiseres i e egeskapsvektor x 1 x 2 x =. x d der d er dimesjoe til egeskapsrommet. Målet er å dele dette d-dimesjoale egeskapsrommet i i adskilte desisjosregioer R 1,R 2,...,R c, dvs. é regio for hver klasse ω 1,ω 2,...,ω c i problemet. Figur 6 illustrerer et tilfelle med to egeskaper og tre klasser. 1.3 Ledet lærig Ledet lærig krever et sett av objekter (sampler) med kjet klassetilhørighet, som brukes til å tree opp e desisjosregel. Dette treigssettet er e megde av isamlede egeskapsvektorer X = {x 1, x 2,..., x } som er trukket ut (ekstrahert) fra objektee gjeom f.eks. e bildeaalyseprosess, og der klassetilhørighete til hver av egeskapsvektoree altså er kjet. Beslutigsregele ma kommer frem til vil utgjøre imate i klassifikatore, som igår i det edelige klassifiserigssystemet. I figur 7 represeterer egeskapsvektore x et ukjet sample som klassifiseres ved hjelp av beslutigsregele, som er resultatet av e forutgåede treigsprosess basert på treigssettet. Treigssett X Treig Beslutigsregel Treigsfase Bruksfase Ukjet objekt x Klassifiserig Klasse Figur 7: Illustrasjo av prisippet for ledet lærig. I treigsfase (aalysefase) brukes et sett av sampler med kjet klassetilhørighet (treigssettet) som iput til e av mage mulige treigsmetoder for å geerere e beslutigsregel. Beslutigsregele igår i klassifikatore som i bruksfase (gjekjeigsfase) foretar klassifiserig av ukjete sampler til (forhåpetligvis) riktig klasse. Ledet lærig vil valigvis også omfatte e testfase, der klassifikatore prøves ut på et uavhegig sett av sampler med kjet klassetilhørighet (testsettet), for å estimere feilrate til klassifikatore før de tas i bruk som kompoet i et ferdigutviklet klassifiserigssystem (som illustrert i figur 8). 1 INNLEDNING 9

10 Uiversitetsseteret på Kjeller Sesor Egeskapsuttrekker Klassifikator! i Figur 8: Typisk klassifiserigssystem. E sesor heter i rådata fra objekter i omverdee. Egeskapsuttrekkere bearbeider rådataee og heter ut iformasjo om de ukjete objektee i form av et sett av egeskaper for hvert objekt. Egeskapsvektoree sedes deretter til klassifikatore, som tilorder objektee til é av flere mulig klasser. Systemet foretar e stor grad av datareduksjo på veie fra rådata til klasse. 1.4 Desisjosteori for to klasser - iledede eksempel Størrelser og begreper Ifører begrepee: ω 1,ω 2 - klasser, tilstader som objektee skal tilordes (f.eks. bjørk og ask), P(ω 1 ),P(ω 2 ) - á priori sasylighet for hver klasse. Mulig desisjosregel: Velg ω 1 hvis P(ω 1 ) > P(ω 2 ), Velg ω 2 hvis P(ω 2 ) > P(ω 1 ), (Vilkårlig hvis P(ω 1 ) = P(ω 2 )). Dee regele ka gi tilfredsstillede resultat (tilstrekkelig lav feilrate) dersom de ee klasse i utgagspuktet er mye mer sasylig e de adre. Feilrate vil her være de miste av de to á priori sasylighetee. Normalt vil klassifiserig av et objekt (sample) være basert på et atall måliger som igår i e egeskapsvektor for objektet. Ata at vi i første omgag har tilleggsiformasjo i form av e ekelt egeskap x (f.eks. lysstyrke). Til dee egeskape ka det da kyttes e sasylighetstetthetsfuksjo til hver av klassee: } p(x ω 1 ) for klasse ω 1 klassebetigede tetthetsfuksjoer. p(x ω 2 ) for klasse ω 2 Disse tetthetsfuksjoee kalles klassebetigede fordi de geerelt er forskjellige for forskjellige klasser (ellers ville egeskape x ikke gi oe yttig iformasjo for å skille mellom klassee). Se eksempler på slike fordeliger i figur 9. Hvorda skal målige x beyttes videre? Til dette brukes Bayes regel som ka utledes som vist i este avsitt Bayes regel La A og B være såkalte hedelser (evets). De betigede sasylighete for at hedelse A skal itreffe gitt hedelse B er P(A B) de = f P(A,B) (1) P(B) 1 INNLEDNING 10

11 Uiversitetsseteret på Kjeller Figur 9: Klassebetigede tetthetsfuksjoer for to klasser. Det grøe arealet tilsvarer sasylighete for at det skal opptre et sample med verdi x i itervallet mellom a og b, gitt at klassetilhørighete er ω 2. der P(A,B) er de simultae sasylighete for hedelsee A og B. Tilsvarede ka ma da skrive P(B A) = P(B,A) P(A) = P(A,B) P(A), (2) side sasylighete for A og B er lik sasylighete for B og A (dvs. P(A,B) = P(B,A)). Isettig av (2) i (1) gir da P(A B) = P(B A)P(A) P(B) (Bayes regel). La å A : x ω i (objektet represetert ved x tilhører klasse ω i ) B : x 0 x x 0 + x Isettig i Bayes regel gir da (x ligger iefor itervallet med bredde x) P(ω i x 0 x x 0 + x) = P(x 0 x x 0 + x ω i )P(ω i ) P(x 0 x x 0 + x) I grese x 0 gir dette P(ω i x) = p(x ω i)p(ω i ). p(x) Dette er de forme av Bayes regel som vil bli mest brukt videre. p(x ω i) xp(ω i ). p(x) x 1 INNLEDNING 11

12 Uiversitetsseteret på Kjeller Á posteriori sasylighet Størrelse P(ω i x) kalles á posteriori sasylighet, dvs. sasylighete for at sa klasse er ω i etter at egeskape x er målt. Dee sasylighete er altså gitt ved Bayes regel som der evere i det aktuelle toklassetilfellet blir P(ω i x) = p(x ω i)p(ω i ), i = 1,2 p(x) p(x) = 2 p(x ω j )P(ω j ) j=1 dvs. de samlede tetthete i puktet x, uavhegig av klasse. Á posteriori sasylighet kombierer iformasjoe fra måligee med á priori kuskap, og ka sees på som á priori sasylighet oppdatert med iformasjo om det ukjete objektet i form av egeskape (målige) x. Som vi skal se i este avsitt er á posteriori sasylighet e gruleggede størrelse for optimalt valg av klasse Feilrate Ata at vi har kostruert e klassifikator og har delt egeskapsrommet i i desisjosregioer R 1 og R 2. Feilrate (sasylighete for å klassifisere feil) for dee klassifikatore er da gitt ved P( f eil) = P( f eil,x)dx = P( f eil x)p(x)dx. Av dette uttrykket ser ma at P( f eil) miimaliseres ved å miimalisere de betigede feilrate P( f eil x) for ehver verdi av x. Nå er de betigede feilrate gitt ved { P(ω 1 x) hvis vi velger ω 2 P( f eil x) = P(ω 2 x) hvis vi velger ω 1 { 1 P(ω 2 x) hvis vi velger ω 2 = 1 P(ω 1 x) hvis vi velger ω 1. Dette gir følgede optimale desisjosregel (miimum feilrate klassifiserig) Velg ω i hvis P(ω i x) P(ω j x), j = 1,2. Figur 10 viser á posteriori sasylighet for de to klassee som fuksjo av egeskape x. Terskelverdie x 0 der P(ω 1 x) = P(ω 2 x) = 1/2 blir da desisjosgrese i dette tilfellet, og deler rommet i de to tilhørede desisjosregioee R 1 og R 2. Desisjosregele ka skrives som Velg ω 1 hvis x x 0, ellers ω 2. Ved å sette i for Bayes regel ka desisjosregele alterativt skrives på følgede måte: Velg ω 1 hvis p(x ω 1)P(ω 1 ) p(x) p(x ω 2)P(ω 2 ), ω 2 ellers. p(x) Side de totale tetthete p(x) er de samme for begge klasser, ka de forkortes bort, og desisjosregele ka forekles til Velg ω 1 hvis p(x ω 1 )P(ω 1 ) p(x ω 2 )P(ω 2 ), ω 2 ellers. 1 INNLEDNING 12

13 Uiversitetsseteret på Kjeller 0.5 Figur 10: Plott av á posteriori sasylighet for to klasser. Desisjosgrese deler x-akse i puktet der á priorisasylighetee er like. For spesialtilfellet med like á priori sasyligheter, dvs.: reduseres desisjosregele til: P(ω 1 ) = P(ω 2 ) = 1/2 Velg ω 1 hvis p(x ω 1 ) p(x ω 2 ), ω 2 ellers. I dette tilfelle beyttes ku tetthetsfuksjoee, og klassifiserige foregår ved å sammelike tetthetee i det aktuelle puktet. Bayes regel kombierer derimot tetthet og á priori sasylighet. Dette leder til Bayes desisjosregel som gir optimalt valg av klasse (og miimum feilrate) ved å velge klasse med størst á posteriori sasylighet Eksempel - to uivariat ormalfordelte klasser Ata to klasser der tetthetsfuksjoee er ormalfordeliger N(µ i,σ i ), i = 1,2 (se figur 11): [ p(x ω i ) = 1 exp 1 ( ) ] x 2 µi, i = 1,2 2πσi 2 Her er forvetigsverdiee gitt ved µ i = E{x} = σ i xp(x ω i )dx 1 INNLEDNING 13

14 Uiversitetsseteret på Kjeller og variasee ved σi 2 = E{(x µ i ) 2 } = (x µ i ) 2 p(x ω i )dx. Figur 11: Uivariat ormalfordelig for klasse med forvetigsverdi µ i og stadardavvik σ i. I dette eksempelet er Isettig i desisjosregele µ 1 = 1 σ 1 = 1 µ 2 = 0 σ 2 = 1 Velg ω 1 hvis p(x ω 1)P(ω 1 ) p(x) P(ω 1 ) = P(ω 2 ) = 1/2. p(x ω 2)P(ω 2 ), ω 2 ellers p(x) gir da Velg ω 1 hvis exp [ 12 ] (x 1)2 exp [ 12 ] x2, ω 2 ellers, der kostate faktorer er forkortet bort. Dee desisjosregele ka forekles ytterligere ved å avede de aturlige logaritme på begge sider. Side logaritme er e mootot voksede fuksjo, påvirker ikke dette plasserige av desisjosgrese som fies ved å løse likige som gir verdie 1 2 (x 1)2 = 1 2 x2 x 0 = INNLEDNING 14

15 Uiversitetsseteret på Kjeller som eeste løsig. Dee terskelverdie er da desisjosgrese i dette tilfellet, og desisjosregele ka da skrives som Velg ω 1 hvis x 1 2, ω 2 ellers. Figur 12 viser de to fordeligee (veiet med á priori sasylighet) og de optimale desisjosgrese mellom klassee. Feilrate i dette tilfellet ka fies ved å berege uttrykket P( f eil) = = 1/2 0,308. P( f eil,x)dx p(x ω 1 )P(ω 1 )dx + p(x ω 2 )P(ω 2 )dx (det grøe arealet i figur 12) 1/2 Dette betyr at de optimale klassifikatore (Bayes klassifikator) i dette tilfellet vil klassifisere ca. 69 % av objektee riktig. Dette forutsetter selvsagt at tetthetsfuksjoee og á priorisasylighetee virkelig er som oppgitt i dette eksempelet. Feilrate er illustrert ved det grøe arealet i figur 12. Figur 12: Tetthetsfuksjoee for de to klassee, veiet med á priori sasylighet. Det grøe arealet viser feilrate med de optimale desisjosgrese (stiplet lije gjeom puktet der de to veiede tetthetsfuksjoee er like). Figur 13 viser det samme eksempelet, me med e litt ae desisjosgrese, forskjellig fra x 0 = 1/2. Dee grese er åpebart ikke optimal, side feilrate her får et tillegg illustrert ved det røde arealet. De optimale desisjosgrese fier ma i skjærigspuktet mellom kurvee, dvs. for de verdie av x der p(x ω 1 )P(ω 1 ) = p(x ω 2 )P(ω 2 ). 1 INNLEDNING 15

16 Uiversitetsseteret på Kjeller Figur 13: Tetthetsfuksjoee for de to klassee, veiet med á priori sasylighet. Det røde arealet idikerer de ekstra feilrate som oppstår ved et suboptimalt valg av desisjosgrese. 2 Bayesisk desisjosteori Dette kapitlet tar for seg de geerelle teorie for optimalt valg av klasse for e gitt problemstillig. Her atas at statistikke, dvs. tetthetsfuksjoe og á priorisasylighete for hver klasse er kjet. 2.1 Størrelser og begreper La de mulige klassee (tilstadee) være gitt ved der c er atall klasser i problemet. Til hver klasse hører e á priori sasylighet ω 1,ω 2,...,ω c, P(ω 1 ),P(ω 2 ),...,P(ω c ), som er sasylighete for at hver klasse skal opptre. Til hver klasse hører også klassebetigede sasylighetstetthetsfuksjoer p(x ω i ),i = 1,...,c. Her er x = [x 1,x 2,...,x d ] t e målt egeskapsvektor for et gitt objekt. 2 BAYESISK DESISJONSTEORI 16

17 Uiversitetsseteret på Kjeller Bayes regel P(ω i x) = p(x ω i )P(ω i ) c p(x ω j )P(ω j ) j=1, i = 1,...,c kytter samme á priori sasyligheter og tetthetsfuksjoer og gir á posteriori sasylighet for klasse ω i gitt målige x. Hadliger (evets) α 1,α 2,...,α a er oe som utføres på bakgru av klassifiserigsresultatet. Valigvis er a = c, slik at det er e é-til-é sammeheg mellom klasser og hadliger (hadlige α i består da i å klassifisere objektet til klasse ω i ), me geerelt er a c, f.eks. a = c + 1, der hadlig α c+1 tilsvarer å ikke foreta klassifiserig (forkastig). De edelige beslutige (valg av hadlig) ka f.eks. utsettes til mer iformasjo er tilgjegelig, slik at e sikrere klassifiserig ka utføres. Desisjosfuksjoe α(x) α 1,α 2,...,α a er e fuksjo av egeskapsvektore, som har é av de mulige hadligee som utfall. Kostfuksjoe λ(α i ω j ), der i = 1,...,a og j = 1,...,c, agir kostade (tapet) ved å velge α i år ω j er sa klasse. Det ka f.eks. være et større tap forbudet ved å klassifisere bjørk som ask e omvedt, slik at kostadee for disse tilfellee ka være λ(velg bjørk ask) = 1 λ(velg ask bjørk) = 10, mes kostadee for riktig valg av hadlig som oftest vil settes til ull, dvs. λ(velg bjørk bjørk) = λ(velg ask ask) = 0. Betiget risk (forvetet tap) er kostade forbudet ved e gitt hadlig, gitt e målig (dvs. egeskapsvektore for et ukjet objekt): R(α i x) = c λ(α i ω j )P(ω j x), i=1,...,a j=1 Total risk er gitt ved R = R(α(x) x)p(x)dx (3) Rd for e gitt desisjosfuksjo α(x) med utfallee α 1,α 2,...,α a. De totale riske skal miimaliseres ved å velge α i slik at de betigede riske R(α(x) x) er miimum for ehver x. Dette leder til Bayes desisjosregel, som ka skrives som: Velg α m hvis R(α m x) R(α j x), j = 1,...,a. (4) Utfallet av desisjosfuksjoe er da α m, dvs. α(x) = α m. Dette er de hadlig som gir miimum betiget risk, og samtidig miimum total risk (miimum av itegralet i likig 3) og kalles derfor miimum risk klassifiserig. 2 BAYESISK DESISJONSTEORI 17

18 Uiversitetsseteret på Kjeller Eksempel 1 - to klasser La klassee være ω 1 og ω 2 og de tilhørede hadligee heholdsvis α 1 og α 2, slik at hadligee her består i å velge de ee eller de adre klasse, dvs: α i : x ω i der a = c = 2 og α 1 og α 2 er de mulige utfallee. La kostfuksjoe være gitt ved: λ(α i ω j ) = λ i j der λ i j > λ ii, i j De betigede riske forbudet med hver hadlig blir da: Beslutigsregele blir da: R(α 1 x) = λ 11 P(ω 1 x) + λ 12 P(ω 2 x) R(α 2 x) = λ 21 P(ω 1 x) + λ 22 P(ω 2 x) Velg α 1 hvis R(α 1 x) R(α 2 x), ellers α 2 Velg ω 1 hvis (λ 11 λ 21 )P(ω 1 x) (λ 22 λ 12 )P(ω 2 x), ω 2 ellers Velg ω 1 hvis P(ω 1 x) P(ω 2 x) λ 12 λ 22, ω 2 ellers. (5) λ 21 λ }{{ 11 } >0 Her er ulikhetsteget sudd fordi λ 11 λ 21 < 0. Ata spesialtilfellet: λ ii = 0, λ i j,i j > 0 slik at riktig klassifiserig er ute kostad og alle feilklassifiseriger har e edelig kostad. Desisjosregele reduseres derved til: Velg ω 1 hvis P(ω 1 x) P(ω 2 x) λ 12 λ 21, ω 2 ellers Hvis det er mest kostbart å velge ω 1 hvis ω 2 er sa (dvs. λ 12 λ 21 ) iebære dette at P(ω 1 x) må overskride P(ω 2 x) med faktore λ 12 /λ 21 > 1 før ω 1 ka velges. Ved å iføre Bayes regel ka beslutigsregele i likig 5 skrives som: Dette gir desisjosregele: p(x ω 1 )P(ω 1 ) p(x ω 2 )P(ω 2 ) λ 12 λ 22 λ 21 λ 11 Velg ω 1 hvis p(x ω 1 ) p(x ω 2 ) λ 12 λ 22 λ 21 λ 11 P(ω 2 ) P(ω 1 ), ω 2 ellers Terskele på høyre side av ulikhetsteget er uavhegig av egeskapsvektore x og forøvrig > 0. 2 BAYESISK DESISJONSTEORI 18

19 Uiversitetsseteret på Kjeller Eksempel 2 - ull-é kostfuksjo og c klasser Her velges kostfuksjoe slik at: λ i j = { 0 i = j 1 i j (6) De betigede riske blir derved: R(α i x) = = c j=1 λ i j P(ω j x) c P(ω j x) j=1, j i =1 P(ω i x), side c P(ω j x) = 1 j=1 Med dette valget av kostader reduseres derfor desisjosregele i likig 4 til: Velg ω i hvis P(ω i x) P(ω j x), j = 1,...,c Miimum risk klassifiserig reduseres derved til miimum feilrate klassifiserig for dette valget av kostader. Ata videre at P(ω i ) = 1/c, dvs. like á priori sasyligheter for klassee som igår. I dette tilfellet forekles desisjosregele ytterligere til: Dette kalles maksimum tiltro klassifiserig. 2.2 Desisjosregioer Velg ω i hvis p(x ω i ) p(x ω j ), j = 1,...,c Atar å e ull-é kostfuksjo som i likig 6 og ser på de totale feilrate, dvs. sasylighete for å velge feil klasse. Dee feilsasylighete ka skrives som: P( f eil) =1 P(rett), der sasylighete for riktig valg er P(rett) = = c j=1 c { j=1 P(x R j,ω j ) = c j=1 } p(x ω j )dx P(ω j ) = R j P(x R j ω j )P(ω j ) c p(x ω j )P(ω j )dx j=1 R j Sasylighete P(rett) maksimaliseres ved å velge desisjosregioee R i, i = 1,...,c slik at p(x ω i )P(ω i ) p(x ω j )P(ω j ), j = 1,...,c for alle x R i. Desisjosgreser fier ma i de pukter der to klasser har samme veiede tetthet, som i tillegg er maksimum over alle klasser. Figur 14 viser et eksempel med tre klasser der det édimesjoale egeskapsrommet er delt i i tre desisjosregioer med desisjosgreser (i dette tilfellet terskler) som ikke er optimale. Figur 15 viser det samme eksempelet, me med optimale desisjosgreser. 2 BAYESISK DESISJONSTEORI 19

20 Uiversitetsseteret på Kjeller Figur 14: Veiede tetthetsfuksjoer for et problem med tre klasser. De markerte desisjosgresee deler det édimesjoale egeskapsrommet i i tre desisjosregioer, me er ikke optimale. Figur 15: Veiede tetthetsfuksjoer for et problem med tre klasser. De markerte desisjosgresee gir e optimal idelig av egeskapsrommet i tre desisjosregioer. Legg merke til at det ikke er oe desisjosgrese der de veiede tetthetee for ω 1 og ω 3 er like; dette fordi de veiede tetthete for ω 2 er de maksimale her. 2 BAYESISK DESISJONSTEORI 20

21 Uiversitetsseteret på Kjeller 2.3 Diskrimiatfuksjoer Beslutigsregler ka formuleres på e ehetlig måte ved hjelp av såkalte diskrimiatfuksjoer. Dette er et sett av fuksjoer, é for hver klasse, som gir e geerell (kaoisk) form på beslutigsregele: g i (x), i = 1,...,c. Beslutigsregele ka da skrives som: Velg ω i hvis g i (x) = max{g j (x)} j Klassifikatore ka geerelt betraktes som e maski som leser i egeskapsvektore, bereger diskrimiatfuksjoee, fier de maksimale fuksjosverdie og returerer de tilhørede klasse (se figur 16). g 1 (x) x g 2 (x) g c (x) Mulige diskrimiatfuksjoer: Figur 16: Klassifikatore betraktet som e maski. g i (x) =P(ω i x) = g i (x) =p(x ω i )P(ω i ) p(x ω i )P(ω i ) c j=1 p(x ω j )P(ω j ) g i (x) =l[p(x ω i )P(ω i )] = l p(x ω i ) + lp(ω i ) g i (x) = R(α i x) Desisjosgreser går gjeom pukter der to diskrimiatfuksjoer har samme verdi, som i tillegg er større e verdie til alle øvrige diskrimiatfuksjoer, dvs: g i (x) = g j (x) år R i og R j er aboer. For to klasser ka ma for ekelhets skyld iføre e felles diskrimiatfuksjo: g(x) = g 1 (x) g 2 (x) 2 BAYESISK DESISJONSTEORI 21

22 Uiversitetsseteret på Kjeller slik at beslutigsregele for toklasseproblemet ka skrives som: Mulige diskrimiatfuksjoer for to klasser: Velg ω 1 hvis g(x) > 0 og ω 2 ellers. g(x) = P(ω 1 x) P(ω 2 x) g(x) = l P(ω 1 x) P(ω 2 x) = l p(x ω 1 ) p(x ω 2 ) + l P(ω 1) P(ω 2 ) Det siste alterativet gir ofte e eklere beslutigsregel, spesielt dersom tetthetsfuksjoee er på ekspoesiell form. Bruk av logaritme (eller e ae mootot voksede fuksjo) på forholdet mellom á posteriori sasylighetee, foradrer ikke forteget på diskrimiatfuksjoe og heller ikke valg av klasse. 2.4 Diskrimiatfuksjoer for uivariate ormalfordeliger Ata c uivariat ormalfordelte klasser: [ p(x ω i ) = 1 exp 1 ( ) ] x 2 µi, i = 1,...,c 2πσi 2 Et mulig valg for diskrimiatfuksjoee er da: σ i g i (x) = lp(ω i x) = l p(x ω i ) + lp(ω i ) l p(x) = 1 ( ) x 2 µi l2π lσ i + lp(ω i ) l p(x) σ i som etter fjerig av ledd som er like for alle klasser gir: g i(x) = 1 2σi 2 x 2 + µ i µ 2 ) x ( i σi 2 2σ 2 + lσ i lp(ω i ) i }{{}}{{}}{{} a i b i c i = a i x 2 + b i x + c i, i = 1,...,c Dette er kvadratiske diskrimiatfuksjoer (kvadratiske med hesy til egeskape x). For to klasser ka diskrimiatfuksjoee slås samme: g(x) = g 1 (x) g 2 (x) = 1 ( 1 2 σ2 2 1 ) σ1 2 }{{} a = ax 2 + bx + c, ( x 2 µ1 + σ 2 1 µ ) 2 x + 1 ( µ σ 2 2 } {{ } b σ 2 2 µ2 1 σ1 2 ) + l σ 2P(ω 1 ) σ 1 P(ω 2 ) } {{ } c som også er e kvadratisk diskrimiatfuksjo, og der koeffisietee a, b og c er gitt ved: a = 1 ( 1 2 σ2 2 1 ) σ1 2 ( µ1 b = σ1 2 µ ) 2 σ2 2 c = 1 2 ( µ 2 2 σ 2 2 µ2 1 σ 2 1 ) + l σ 2P(ω 1 ) σ 1 P(ω 2 ) 2 BAYESISK DESISJONSTEORI 22

23 Uiversitetsseteret på Kjeller 1) Ata at µ 1 = µ 2 = 0. Dette gir g(x) = ax 2 +c, slik at likige g(x) = 0 for desisjosgresee gir løsige: x 0 = ± som gir to terskler på tallije (se figur 17). Tersklee deler egeskapsrommet opp i to desisjosregioer. Klasse med mist varias får e ekeltsammehegede regio omkrig origo, mes de adre klasse får e todelt regio for x < x 0 til vestre og x > x 0 til høyre. c a Figur 17: To klasser med like forvetigsverdier og forskjellige variaser. Desisjosgresee (to terskler) er vist med stiplede lijer. 2) Ata σ 1 = σ 2 = σ, som gir g(x) = 1 σ 2 (µ 1 µ 2 ) x + µ2 2 µ2 1 }{{} 2σ 2 + l P(ω 1) = bx + c. P(ω 2 ) }{{} b c Dette er e lieær diskrimiatfuksjo. Desisjosgrese fies ved å løse likige g(x) = 0, som i dette tilfellet gir: x 0 = c b = µ 2 2 µ2 1 2σ 2 + l P(ω 1) P(ω 2 ) 1 σ 2 (µ 1 µ 2 ) µ 2 2 µ σ 2 l P(ω 1) P(ω = 2 ). 2(µ 1 µ 2 ) Dersom å P(ω 1 ) = P(ω 2 ) blir desisjosgrese (stiplet lije i figur 18): x 0 = µ 1 + µ 2. 2 Med ulike á priori sasyligheter vil desisjosgrese få e ae plasserig (forskyves vekk fra klasse med størst P(ω i ). 2 BAYESISK DESISJONSTEORI 23

24 Uiversitetsseteret på Kjeller Figur 18: To klasser med like variaser og forskjellige forvetigsverdier. Desisjosgrese (é terskel i dette tilfellet) er markert (stiplet lije). 2.5 Multivariat ormalfordelig De multivariate ormalfordelige (ormalfordelig i et rom av vilkårlig dimesjo) er gitt ved: 1 p(x) = (2π) d/2 Σ 1/2 e 1 2 (x µ)t Σ 1 (x µ) = N(µ,Σ) Her er µ forvetigsvektore: µ 1 µ = E{x} =. µ d (d kompoeter) og Σ kovariasmatrise: σ 11 σ σ 1d Σ = E{(x µ)(x µ) t } =... (d d kompoeter) σ d1 σ d2... σ dd Matrise Σ er symmetrisk (dvs. σ i j = σ ji ) og positiv semidefiitt slik at Σ 0. I eksemplee som følger atar vi at Σ > 0. Dersom Σ = 0 er fordelige avgreset til et uderrom i det d-dimesjoale egeskapsrommet, oe som ka forekomme dersom egeskapee ieholder redudat iformasjo (fuksjoell koblig mellom egeskaper). Kompoeter i Σ: σ i j,i j = E{(x i µ i )(x j µ j )} = kovarias (ikke-diagoale kompoeter) σ ii = E{(x i µ i ) 2 } = σ 2 i = varias (diagoale kompoeter) 2 BAYESISK DESISJONSTEORI 24

25 Uiversitetsseteret på Kjeller Hvis egeskapee x i,x j, i j er uavhegige medfører dette at: σ i j = E{(x i µ i )(x j µ j )} = E{x i µ i }E{x j µ j } = 0 0 = 0 dvs. Σ er diagoal. Dette gir: { 1 p(x) = (2π) d/2 d i=1 σ exp 1 d ( ) } xi µ 2 i i 2 i=1 σ i { 1 = exp 1 ( ) } xi µ 2 i 2πσi 2 = d i=1 d i=1 N(µ i,σ 2 i ) σ i Figur 19: Multivariat ormalfordelig i to dimesjoer. E multivariat ormalfordelig i to dimesjoer (bivariat fordelig) er illustrert i figur Mahalaobis avstad Det kvadratiske uttrykket som igår i ekspoete i de multivariate ormalfordelige, gitt ved størrelse r 2 = (x µ) t Σ 1 (x µ) kalles gjere de kvadrerte Mahalaobis avstad mellom forvetigsverdie og et pukt x i egeskapsrommet. Koturer gjeom pukter med kostat sasylighetstetthet, og derved kostat r, daer hyperellipsoider omkrig forvetigsvektore (se figur 20). Volumet av disse hyperellipsoidee er et mål på spredige av fordelige. Det ka vises at volumet for gitt Mahalaobisavstad r er gitt ved: V = V d Σ 1/2 r d 2 BAYESISK DESISJONSTEORI 25

26 Uiversitetsseteret på Kjeller der V d = er volumet av e d-dimesjoal hyperkule med radius=1. Dette viser at spredige av fordelige er proporsjoal med Σ 1/2 for gitt verdi av d. Figur 20 viser e todimesjoal (bivariat) ormalfordelig represetert ved ellipser gjeom pukter med samme tetthet (samme Mahalaobisavstad). V µ µ Figur 20: Bivariat ormalfordelig represetert ved ellipser med kostat Mahalaobisavstad (figure til vestre). I det geerelle tilfellet (vilkårlig dimesjo) vil volumet av e hyperellipsoide (illustrert ved det fargede arealet i figure til høyre) for gitt Mahalaobisavstad, være et mål på spredige til fordelige omkrig forvetigsvektore µ. Stort volum idikerer stor spredig, lite volum idikerer at fordelige er tett kosetrert omkrig forvetigsvektore. 2.7 Diskrimiatfuksjoer for multivariate ormalfordeliger Det geerelle tilfellet Hvis ma øsker å kostruere e beslutigsregel basert på miimum feilrate prisippet, dvs. velge klasse med størst á posteriori sasylighet, ka det være aturlig å velge diskrimiatfuksjoer på forme: g i (x) = l[p(x ω i )P(ω i )] = l p(x ω i ) + lp(ω i ) Isettig av de multivariate ormalfordelige: gir da: p(x ω i ) = 1 (2π) d/2 Σ i 1/2 e 1 2 (x µ i ) t Σ 1 (x µ i ) = N(µ i,σ i ) g i (x) = 1 2 (x µ i ) t Σ 1 i (x µ i ) d 2 l(2π) 1 2 l Σ i + lp(ω i ) Dette er geerelt e kvadratisk diskrimiatfuksjo som ka skrives på forme: der W i = 1 2 Σ 1 i g i (x) = x t W i x + w t x + w i0, i = 1,...,c (d d matrise) w i = Σ 1 i µ t i (d 1 vektor) w i0 = 1 2 µt i Σ 1 i µ i 1 2 l Σ i + lp(ω i ) (1 1 skalar) 2 BAYESISK DESISJONSTEORI 26

27 Uiversitetsseteret på Kjeller Desisjosgreser er gitt ved g i (x) = g j (x),i j. Dette leder til såkalte hyperkvadratiske flater (sirkler, ellipser, parabler, hyperbler og rette lijer i plaet). Figur 21 viser et todimesjoalt eksempel med to klasser, der kovariasee er like. Desisjosgresee er i dette tilfellet hyperbler. Se adre eksempler i læreboka. I det følgede skal vi se på to spesialtilfeller. µ 1 µ 2 Figur 21: Kvadratiske desisjosgreser for toklasseproblem med ulike (me i dette tilfellet diagoale) kovariasmatriser Like kovariasmatriser Her atas like kovariasmatriser for alle klasser, dvs. Σ i = Σ. Diskrimiatfuksjoee ka da forekles. De kvadratiske diskrimiatfuksjoe: fra det geerelle tilfellet reduseres til: g i (x) = x t W i x + w t ix + w i0 g i (x) = w t ix + w i0 side det kvadratiske leddet ka fjeres fordi W i = W = 1 2 Σ 1 = kostat for alle klasser. Resultatet er lieære diskrimiatfuksjoer der: w i = Σ 1 µ i w i0 = 1 2 µt i Σ 1 µ i + lp(ω i ) (side 1 l Σ = kostat) 2 Ser å på to vilkårlige klasser ω i og ω j og kostruerer e felles toklasse diskrimiatfuksjo som differese mellom de ekelte fuksjoee: g(x) =g i (x) g j (x) =(w i w j ) t x + (w i0 w j0 ) =w t x + w 0 (7) 2 BAYESISK DESISJONSTEORI 27

28 Uiversitetsseteret på Kjeller der: w = Σ 1 (µ i µ j ) (8) w 0 = 1 2 (µ i µ j ) t Σ 1 (µ i + µ j ) + l P(ω i) P(ω j ) For to vilkårlige pukt x 1 og x 2 på desisjosgrese ka ma da skrive: g(x 1 ) = w t x 1 + w 0 = 0 g(x 2 ) = w t x 2 + w 0 = 0 side diskrimiatfuksjoe skal være ull på desisjosgrese. Dette medfører at: og derav at w t (x 1 x 2 ) = 0 w t (x 1 x 2 ) Dette iebærer at desisjosgrese er et hyperpla med vektvektore w som ormalvektor. La å x 0 være et pukt på desisjosflate på lije mellom µ i og µ j : g(x 0 ) = w t x 0 + w 0 = 0 x 0 = µ i + α(µ j µ i ) som er likigssystemet for et pla (geerelt hyperpla). Isettig av x 0 i de første av disse likigee gir da: w t µ i + α w t (µ j µ i ) + w 0 = 0 Ved å sette i for w og w 0 leder dette til: (µ i µ j ) t Σ 1 µ i α(µ i µ j ) t Σ 1 (µ i µ j ) 1 2 (µ i µ j ) t Σ 1 (µ i + µ j ) + l P(ω i) P(ω j ) = (µ i µ j ) t Σ 1 (µ i µ j ) α(µ i µ j ) t Σ 1 (µ i µ j ) + l P(ω i) P(ω j ) = 0 α = l{ P(ω i )/P(ω j ) } (µ i µ j ) t Σ 1 (µ i µ j ) x 0 = µ i + α(µ j µ i ) = 1 2 (µ i + µ j ) l{ P(ω i )/P(ω j ) } (µ i µ j ) t Σ 1 (µ i µ j ) (µ i µ j ) Dersom P(ω i ) = P(ω j ) gir dette x 0 = 1 2 (µ i + µ j ). Dersom P(ω i ) > P(ω j ) iebærer dette at hyperplaet (og puktet x 0 ) er forskjøvet vekk fra µ i og i retig mot µ j, og motsatt dersom P(ω i ) < P(ω j ). Legg merke til at ma i dette tilfellet også ka skrive diskrimiatfuksjoee på forme: (9) g i (x) = 1 2 (x µ i ) t Σ 1 (x µ i ) + lp(ω i ) (Σ i = Σ fremdeles), 2 BAYESISK DESISJONSTEORI 28

29 Uiversitetsseteret på Kjeller µ i x 0 µ j w Figur 22: Lieær desisjosgrese for toklasseproblem med like kovariasmatriser. dvs. ute å multiplisere ut kvadratuttrykket og deretter stryke kvadratleddet i x. Dersom P(ω i ) = kostat = 1/c iebærer dette at: g(x i ) = 1 2 r 2 i (Mahalaobis avstad) som gir beslutigsregele: Velg ω i hvis r i er miimum over alle i. Her velges altså klasse med miimum Mahalaobisavstad til det ukjete samplet. Går videre til este spesialtilfelle med dette som utgagspukt Diagoale kovariasmatriser med like variaser Atar Σ i = σ 2 I, dvs. klassee har felles diagoal kovariasmatrise med like variaser for alle egeskaper. Diskrimiatfuksjoee ka da forekles til: g i (x) = (x µ i ) t (x µ i ) 2σ 2 + lp(ω i ) = x µ i 2 2σ 2 + lp(ω i ) Dersom P(ω i ) = P(ω j ) for alle i, j reduseres diskrimiatfuksjoe til: g i (x) = x µ i 2 (10) Side ma skal velge klasse med mist verdi på diskrimiatfuksjoe, svarer dette til å velge klasse med ærmeste forvetigsverdi (miste avstad klassifiserig, se figur 23). 2 BAYESISK DESISJONSTEORI 29

30 Uiversitetsseteret på Kjeller w Figur 23: Miste avstad klassifiserig der ukjete sampler tilordes ærmeste klasse (ærmeste µ i i hehold til Euclidsk avstad). Geometrisk tilsvarer dette å dele rommet i to regioer med e lieære desisjosgrese ormalt på lije mellom forvetigsverdiee, som vist i figure. Dette kalles også Template Matchig, side forvetigsvektore til hver klasse brukes som mal (template) for avstadsberegige. Mahalaobisavstade (foregåede pukt) er her redusert til Euclidsk avstad, side egeskapee her har lik varias og derved vektlegges like mye. Diskrimiatfuksjoe i likig 10 ka forøvrig forekles ved å multiplisere ut orme og sløyfe kvadratleddet i x, slik at fuksjoe blir lieær som i foregåede tilfelle med like kovariasmatriser. Dette gjelder også i det geerelle tilfellet med vilkårlige á priori sasyligheter. La oss ta utgagspukt i de lieære toklasse diskrimiatfuksjoe i likig 7 i foregåede avsitt: g(x) = w t x + w 0 der vektvektore i likig 8 i dette tilfellet forekles til w = Σ 1 (µ i µ j ) = (µ i µ j ) σ 2 w (µ i µ j ) og skalarvekte i (9) til w 0 = ( µ i 2 µ j 2 ) 2σ 2 + l P(ω i) P(ω j ). Skjærigspuktet mellom hyperplaet og lije mellom forvetigsverdiee er å gitt ved x 0 = 1 2 (µ i + µ j ) σ 2 µ i µ j 2 l P(ω i) P(ω j ) (µ i µ j ). Dette er illustrert i figur 24. Desisjosflate for P(ω i ) = P(ω j ) forskyves mot µ j dersom P(ω i ) > P(ω j ) og mot µ i dersom P(ω i ) < P(ω j ). 2 BAYESISK DESISJONSTEORI 30

31 Uiversitetsseteret på Kjeller µ i x 0 w µ j Figur 24: Lieære desisjosgreser for toklasseproblem der kovariasmatrisee er diagoale og med like variaser. Plasserige av desisjosgrese varierer med á priorisasylighetee, me orieterige er uedret. 2.8 Diskrete egeskaper I dette tilfellet ka egeskapsvektore x bare ata verdiee v 1, v 2,..., v m, dvs. ku diskrete verdier. Edriger fra det kotiuerlige tilfellet er at og at Bayes regel skrives på forme p(x ω i )dx m P(v k ω i ) P(ω i x) = P(x ω i )P(ω i ), P(x) dvs. itegraler erstattes av summer og tetthetsfuksjoer av sasyligheter. Utover dette ka desisjosteorie brukes som i det kotiuerlige tilfellet. Eksempler på diskrimiatfuksjoer er g i (x) = lp(x ω i ) + lp(ω i ), i = 1,...,c. For to klasser ka diskrimiatfuksjoee som valig slåes samme til é fuksjo g(x) = g 1 (x) g 2 (x) = l P(x ω 1 ) P(x ω 2 ) + l P(ω 1) P(ω 2 ), (11) og objektet represetert ved x klassifiseres til ω 1 hvis g(x) 0 og til ω 2 ellers. 2 BAYESISK DESISJONSTEORI 31

32 Uiversitetsseteret på Kjeller Eksempel - uavhegige biære egeskaper La egeskapsvektoree være gitt ved x = [x 1,x 2,...,x d ] t der hver av kompoetee er biære, slik at { 0 x i = 1, i = 1,...,d, og forøvrig ibyrdes uavhegige. De mulige egeskapsvektoree som ka forekomme, svarer da til hjører i e hyperkube med side= 1, som illustrert for d = 2 i figur 25. (0,1) (1,1) (0,0) (1,0) Figur 25: Todimesjoalt problem med biære egeskaper. De fire mulige utfallee (0,0), (1,0), (1,1) og (0,1) dae her hjøree i et kvadrat med side = 1. Ata å to klasser ω 1 og ω 2 og la p i =P(x i = 1 ω 1 ) (sasylighete for x i = 1 hvis sa klasse er ω 1 ) q i =P(x i = 1 ω 2 ) (sasylighete for x i = 1 hvis sa klasse er ω 2 ). Hvis p i > q i vil verdie x i = 1 for ω 1 forekomme hyppigere e for ω 2. De klassebetigede sasylighetee blir da P(x ω 1 ) = P(x ω 2 ) = d i=1 d i=1 P(x i ω 1 ) = P(x i ω 2 ) = d i=1 d i=1 p x i i (1 p i) 1 x i q x i i (1 q i) 1 x i, der faktoriserige er mulig fordi kompoetee i x er atatt å være ibyrdes uavhegige. 2 BAYESISK DESISJONSTEORI 32

33 Uiversitetsseteret på Kjeller Isettig i diskrimiatfuksjoe i likig 11 gir g(x) =l = = = d i=1 d i=1 d i=1 d i=1 Dette gir følgede desisjosregel: p x i i (1 p i) 1 x i q x i i (1 q i) 1 x + l P(ω 1) i P(ω 2 ) { x i l p i q i + (1 x i )l 1 p i 1 q i l p i(1 q i ) q i (1 p i ) } {{ } w i w i x i + w 0 d } + l P(ω 1) P(ω 2 ) x i + l 1 p i + l P(ω 1) i=1 1 q i P(ω 2 ) }{{} w 0 =w t x + w 0 (lieær diskrimiatfuksjo). Velg ω 1 hvis w t x + w 0 > 0, ω 2 ellers. Dersom p i > q i blir w i > 0 slik at x i = 1 gir positivt bidrag til valget av ω 1, mes p i < q i gir w i < 0 slik at x i = 1 gir positivt bidrag til valget av ω 2. Legg merke til at á priori sasylighetee bare igår i terskelverdie w 0. 3 Parametriske metoder I parametriske metoder atas at de klassebetigede tetthetsfuksjoee har kjet form, dvs. tetthetsfuksjoee ka uttrykkes på forme p(x ω i, θ i ), i = 1,...,c der θ i er de såkalte parametervektore til fordelige for klasse ω i. Fordelige atas altså å være e kjet fuksjo av x og θ i, me parametervektore må være kjet for at de aktuelle fordelige skal være fullstedig bestemt. For multivariate ormalfordeliger der p(x ω i ) = N(µ i,σ i ), i = 1,...,c er parametree eksempelvis gitt ved µ i og Σ i som ka settes samme til e parametervektor på forme θ i = (µ i1,..., µ }{{ id,σ } i11,σ i12,...,σ idd ) t. }{{} d kompoeter d(d+1)/2 kompoeter Side temaet her er ledet lærig forutsettes videre at ma har et treigssett X = {x 1, x 2,..., x } av sampler med kjet klassetilhørighet til rådighet. I parametriske metoder brukes dette settet til å fie forhåpetligvis gode estimater for parametree som igår i tetthetsfuksjoee, dvs. parametervektoree θ i, i = 1,...,c i et klassifiserigsproblem med c klasser. Side treigssamplee har kjet klassetilhørighet ka dette estimerigsproblemet løses for 3 PARAMETRISKE METODER 33

34 Uiversitetsseteret på Kjeller é og é klasse om gage ved å dele opp treigssettet i delmegder ut fra klassetilhørighet. Ved estimerig av parametree til e gitt klasse brukes bare delmegde av treigssampler fra de samme klasse. Vi ka da forekle otasjoe ved å utelate klassehevisige, side θ i atas uavhegig av θ j for i j. Problemet består derfor i å estimere θ i de kjete fordelige p(x θ) ved hjelp av X, der alle sampler kommer fra de aktuelle klasse. Vi skal her se på følgede to estimerigsmetoder: Maksimum-likelihood metode: Her atas parametervektore θ å ha e fast, me ukjet verdi. De simultae sasylighetstetthete for de observerte samplee i X skal maksimaliseres med hesy på θ. Estimatet ˆθ beyttes videre som erstatig for de sae, me ukjete parametervektore. Bayesisk estimerig: Parametervektore θ betraktes her som e stokastisk variabel med p(θ) som tilhørede tetthetsfuksjo (á priori parameterfordelig). Treigssettet brukes til å oppdatere dee á priorifordelige til e á posteriori parameterfordelig. Tetthetsestimatet fies deretter ved å itegrere tetthetsfuksjoe veiet med áposteriorifordelige over alle mulige verdier av θ. Metodee gir som oftest este idetiske resultater. 3.1 Maksimum-likelihood metode De simultae sasylighetstetthete for de observerte treigssamplee ka uttrykkes ved likelihoodfuksjoe: p(x θ) = p(x 1, x 2,..., x θ) = p(x k θ) (12) som skal maksimaliseres med hesy til de ukjete parametervektore θ. Faktoriserige i likig 12 er mulig fordi treigssamplee atas å være ibyrdes uavhegige. Det er eklere å arbeide med logaritme til likelihoodfuksjoe, side produktet da erstattes med e sum, og resultatet uasett blir det samme side logaritme er e mootot voksede fuksjo. Derved blir dee log-likelihoodfuksjoe: L (θ) = l p(x θ) = l(p(x k θ) maksimum for samme verdi av θ. Maksimum av L fies ved å ta gradiete til loglikelihoodfuksjoe mht. θ: θ L (θ) = θ l(p(x k θ)) og sette de lik ull. Dette gir følgede likigssystem for parametervektore: θ l(p(x k θ)) = 0. (13) Dette er et likigssystem med p ukjete, der p er atall kompoeter i parametervektore. Figur 26 illustrerer metode for et problem med é ukjet parameter. 3 PARAMETRISKE METODER 34

35 Uiversitetsseteret på Kjeller Figur 26: Likelihoodfuksjoe for et problem med é parameter. Målet er å fie de parameterverdie ˆθ der fuksjoe er maksimum Eksempel 1 - Multivariat ormalfordelig med ukjet forvetig Ata at fordelige er multivariat ormal, dvs: p(x µ) = N(µ, Σ) der forvetigsvektore µ er ukjet og skal estimeres ved hjelp av treigssettet X = {x 1, x 2,..., x }, der alle sampler kommer fra klasse parametervektore skal estimeres for. Kovariasmatrise Σ atas her å være kjet. Vi starter med tetthetsfuksjoe som fuksjo av µ: p(x k µ) = Logaritme til tetthete blir da: og gradiete mhp. µ blir: 1 (2π) d/2 exp Σ 1/2 [ 1 2 (x k µ) t Σ 1 (x k µ) l p(x k µ) = 1 2 (x k µ) t Σ 1 (x k µ) d 2 l2π 1 2 l Σ som isatt i likigssystemet (13) gir: µ L (µ) = µ l p(x k µ) = Σ 1 (x k µ), Σ 1 (x k µ) = Σ 1 (x k µ) = 0. Ved å multiplisere med Σ på begges sider av likhetsteget, reduseres likigssystemet til: som gir løsige: (x k µ) = 0 ˆµ = 1 x k. Dette er maksimum-likelihood estimatet av forvetigsvektore som igår i de multivariate ormalfordelige. Som ma ser er estimatet rett og slett sampelmiddelet av egeskapsvektoree i treigssettet. 3 PARAMETRISKE METODER 35 ].

36 Uiversitetsseteret på Kjeller Eksempel 2 - Uivariat ormalfordelig med ukjet forvetig og varias Her atas e uivariat ormalfordelig p(x θ) = N(µ,σ 2 ) der både µ og σ er ukjete. La å parametervektore være gitt ved [ ] [ ] µ θ1 θ = =. σ Dette gir θ 2 [ p(x k θ) = 1 exp 1 2πθ2 2 l p(x k θ) = 1 2 ( xk θ 1 Isettig i likig 13 og partialderivasjo mhp. θ 1 gir da θ 2 ( ) ] xk θ 2 1 θ 2 ) 2 lθ l(2π). som gir løsige L (θ) x = θ 1 k θ 1 θ2 2 = 0 (atar θ 2 0), ˆθ 1 = ˆµ = 1 x k (dvs. sampelmiddelet over X ). Isettig i (13) og partialderivasjo mhp. θ 2 gir tilsvarede som gir L (θ) θ 2 = { (xk θ 1 ) 2 1 } = 0, θ 2 θ 3 2 ˆθ 2 2 = 1 (x k θ 1 ) 2. Maksimum-likelihood estimatet for variase til ormalfordelige blir da basert på samplee i X. ˆσ 2 = 1 (x k µ) 2, Kovariasmatrise i de multivariate ormalfordelige Det ka vises at maksimum-likelihood estimatet av kovariasmatrise i fordelige N(µ,Σ) er der ˆΣ = 1 (x k ˆµ)(x k ˆµ) t, (14) ˆµ = 1 x k, 3 PARAMETRISKE METODER 36

37 Uiversitetsseteret på Kjeller som vist i eksempel 1. Dette er et tilfredsstillede resultat side de sae kovariasmatrise er defiert ved Σ = E{(x µ)(x µ) t }. Me ˆΣ er ikke forvetigsrett, dvs. E{ ˆΣ} Σ. Derimot er ˆΣ asymptotisk forvetigsrett, dvs. E{ ˆΣ} Σ år. Et forvetigsrett alterativ er matrise C = 1 1 (x k ˆµ)(x k ˆµ) t = 1 ˆΣ, de såkalte sampel kovariasmatrise. Legg merke til at lim ˆΣ = C, slik at forskjelle mellom de to estimatee er eglisjerbar år >> 1. Ma fier begge estimater av kovariasmatrise i litterature; ige av dem er gale eller riktige, de er bare to i praksis gaske like alterativer Eksempel 3 - Estimerig av á priori sasyligheter Her skal á priori sasylighete P(ω i ) for e gitt klasse ω i estimeres ved hjelp av treigssettet. Dette forutsetter at treigssettet er samlet i på e slik måte at hyppighete av de ulike klassee i treigssettet represeterer virkelighete. La å X = {x 1, x 2,..., x } være det totale treigssettet for problemet (her må alle klasser være represetert i settet). La videre klassetilhørighete være gitt ved ideksee {z i1,z i2,...,z i } der { 1 hvis xk ω i z ik = 0 ellers, og la de ukjete parametere være gitt ved θ i = P(ω i ). Likelihoodfuksjoe blir da P(X θ i ) = P(z i1,z i2,...,z i θ i ) = P(z ik θ i ) = θ z ik i (1 θ i ) 1 z ik, der de siste overgage beytter samme omskrivig som i avsitt 2.8. Log-likelihoodfuksjoe ka å skrives som L (θ i ) = {z ik lθ i + (1 z ik )l(1 θ i )}. Maksimum-likelihoodløsige fies ved å sette de deriverte mhp. θ i lik ull: [ L (θ i ) zik = 1 z ] ik = 0. θ i θ i 1 θ i Dette gir {z ik (1 θ i ) (1 z ik )θ i } = 0 {z ik θ i } = 0, 3 PARAMETRISKE METODER 37

38 Uiversitetsseteret på Kjeller som gir estimatet ˆθ i = ˆP(ω i ) = 1 z ik = i, der i er atall sampler fra klasse ω i i treigssettet. Estimatet av á priori sasylighet er således adele av de aktuelle klasse i treigssettet; et resultat som er gaske ituitivt Oppsummerig av resultatee så lagt Vi har å fuet estimatee ˆµ i, ˆΣ i og ˆP(ω i ) for hver klasse i = 1,...,c for et problem med multivariat ormalfordelte klasser. Ka da berege størrelsee: W i = 1 2 w i = ˆΣ 1 i ˆΣ 1 i ˆµ i w i0 = 1 2 ˆµ t ˆΣ 1 i ˆµ 1 2 l ˆΣ i + l ˆP(ω i ) som igår i de kvadratiske diskrimiatfuksjoee: g i (x) = x t W i x + w t i x + w i0, i = 1,...,c som ble utledet i avsitt Ved miimum feilrateklassifiserig blir beslutigsregele: Velg ω i hvis g i (x) > g j (x), j i som utgjør kjere i klassifikatore for et problem der klassee er atatt å være multivariat ormalfordelte. Dette er et eksempel på treig av e klassifikator. Figur 27 viser et eksempel med to klasser og kvadratisk desisjosgrese (hyperbel). 3.2 Bayesisk estimerig Bayesisk estimerig skiller seg fra maksimum likelihoodmetode ved at det er mulig å beytte seg av á priori kuskap i tillegg til iformasjoe som ligger i treigssettet X. I tillegg betraktes, som evt tidligere, parametervektore som e stokastisk variabel med e gitt tetthetsfuksjo. Ata å: p(x θ) = atatt parametrisk fordelig p(θ) = á priori parameterfordelig. Tetthetsfuksjoe p(θ) represeterer på sett og vis e iitiell formodig om parametervektore, og er oe ma må velge ut fra kuskap om problemet. Maksimalpuktet i fordelige vil ormalt represetere det ma aser som de mest sasylige verdie, mes spredige (variase) til fordelige sier oe om usikkerhete i dee atagelse. Side vi er iteressert i å kue klassifisere ukjete objekter, øsker vi å fie tetthete i et vilkårlig pukt x i egeskapsrommet, dvs. vi øsker å fie tetthetsfuksjoe p(x X ) som er gitt ved: p(x X ) = p(x, θ X )dθ = p(x θ, X )p(θ X )dθ = p(x θ)p(θ X )dθ (side x er uavhegig av X ), (15) 3 PARAMETRISKE METODER 38

39 Uiversitetsseteret på Kjeller Figur 27: Diskrimierig mellom aturlige jordskjelv og uderjordiske kjerefysiske detoasjoer. Dette er et toklasseproblem der det er bereget to egeskaper utfra målte seismiske sigaler. Treigsmetode beskrevet her er brukt til å kostruere e toklasse diskrimiatfuksjo for problemet. Dette gir desisjosgreser som består av to hyperbler. De ee greie er vist i figure; de adre ligger utefor figure. der Bayes regel gir at p(θ X ) ka skrives som: p(θ X ) = p(x θ)p(θ). (16) p(x θ)p(θ)dθ Dette er á posteriori parameterfordelig, dvs. parameterfordelige etter at treigssettet er itrodusert. I dette uttrykket igår likelihoodfuksjoe: p(x θ) = p(x k θ), som var utgagspuktet for maksimum likelihood metode. Hvis p(x θ) har e skarp topp i ett eller aet pukt ˆθ, dvs. maksimum likelihood løsige (se figur 28) og p(θ) er tilærmet uiform i ærhete av dee verdie, iebærer likig 16 at p(θ X ) også vil ha e skarp topp i ærhete av ˆθ (se figur 30). Itegralet i likig 15 vil derfor lede til et resultat som tilsvarer hva ma ville få med maksimum likelihoodmetode, side ˆθ er tilærmet de verdie som vektlegges sterkest i itegralet. Selv om p(θ) er lagt fra uiform vil á posteriori parameterfordelig uasett ha e skarp topp i ærhete av maksimum likelihoodløsige år er stor. I det asymptotiske tilfellet ( ) vil p(θ X ) i de fleste tilfeller kovergere mot e Dirac deltafuksjo setrert omkrig ˆθ. Itegralet i likig 15 gir da: p(x X ) = p(x θ)p(θ X )dθ = p(x θ)δ( ˆθ θ)dθ = p(x ˆθ), 3 PARAMETRISKE METODER 39

40 Uiversitetsseteret på Kjeller som er ettopp maksimum likelihoodløsige. I det edelige tilfellet vil dette fremdeles være tilærmet riktig, slik at p(x X ) p(x ˆθ) dersom treigssettet er stort ( >> 1). Vi skal se på oe eksempler på bruk av Bayesisk estimerig. Figur 28: Likelihoodfuksjoe og á priori parameterfordelig. Dersom á priori parameterfordelig er tilærmet uiform omkrig toppe til likelihoodfuksjoe, vil også á posteriori parameterfordelig ha e topp i ærhete av ˆθ Eksempel - Bayesisk estimerig av forvetigsverdie i e uivariat ormalfordelig Her er de ukjete tetthetsfuksjoe være e édimesjoal ormalfordelig N(µ,σ 2 ) der bare forvetigsverdie µ er ukjet. I tillegg atar vi e á priori parameterfordelig, som også er uivariat ormal og med kjet forvetig og varias. Vi skal se hvorda Bayesisk estimerig ka brukes til å oppå et estimet av tetthete i et vilkårlig pukt x i egeskapsrommet. Utgagspuktet er altså følgede: p(x µ) = N(µ,σ 2 ) der σ atas kjet og µ er ukjet, p(µ) = N(µ 0,σ 2 0 ) der µ 0 og σ 0 er kjete, X = {x 1,x 2,...,x } treigssampler fra aktuell klasse. Her ka ma se på µ 0 som e iitiell atakelse om verdie til parametere µ og σ 0 som usikkerhete i dee atakelse (se figur 29). Likelihoodfuksjoe blir her: [ 1 p(x µ) = p(x k µ) = exp 1 ( ) ] xk µ 2 2πσ 2 σ [ 1 = (2π) /2 σ exp 1 ( ) ] xk µ 2 2 σ 3 PARAMETRISKE METODER 40

41 Uiversitetsseteret på Kjeller Figur 29: Á priori parameterfordelig p(µ) der forvetige µ 0 represeterer de beste gjetige om parameterverdie og stadardavviket σ 0 represeterer usikkerhete i dee atagelse. Á posteriori parameterfordelig blir da: Her er: p(x µ)p(µ) p(µ X ) = p(x µ )p(µ )dµ [ = α exp 1 ( ) ] [ xk µ 2 2 exp 1 ( ) ] µ 2 µ0 σ 2 σ 0 [ { = α exp 1 ( ) xk µ 2 ( ) }] µ 2 µ0 + 2 σ σ 0 [ { }] = α exp σ 2 k x 2 2 µ σ 2 x k + µ2 σ 2 + µ2 σ0 2 2 µµ 0 σ0 2 + µ2 0 σ0 2 [ { ( = α exp 1 2 σ ) ( )}] σ0 2 µ 2 1 2µ σ 2 x k + µ 0 σ0 2 [ = α exp 1 ( µ 2 )] 2µµ 2 σ 2 (der hjelpestørrelsee µ og σ er iført) [ = α exp 1 ( ) ] µ 2 µ 2 = N(µ,σ 2 ) µ = σ 1 σ 2 x k + µ 0 σ σ 2 σ0 2 = σ 2 0 x k + σ 2 µ 0 σ σ 2 3 PARAMETRISKE METODER 41

42 Uiversitetsseteret på Kjeller og σ 2 = Videre ka ma skrive: som gir: m = σ 2 σ0 2 x k = σ 2 σ 2 0 σ σ 2. dvs. samplemiddel over treigssettet, µ = σ 0 2m + σ 2 µ 0 σ0 2 + σ 2 = σ 0 2 σ0 2 + σ 2 m σ 2 + σ0 2 + σ 2 µ 0. Har å fuet [ 1 p(µ X ) = exp 1 ( ) ] µ 2 µ = N(µ,σ 2 ) (á posteriori parameterfordelig), 2πσ 2 σ mes vi fra før har [ 1 p(µ) = exp 1 ( ) ] µ 2 µ0 = N(µ 0,σ0 2 ) (á priori parameterfordelig). 2πσ0 2 σ 0 Som vi ser av dette er kosekvese av å ikludere treigssamplee at á priori parameterverdier erstattes av á posteriori verdier, dvs.: µ 0 µ der µ er beste gjetig om µ etter at treigssettet er itrodusert, og σ 0 σ der σ represeterer usikkerhete i dee gjetige. Legg merke til at µ er et veiet middel av m (måliger) og µ 0 (á priori atagelse), side µ = α 1 m + α 2 µ 0 der α 1 + α 2 = 1. Vi har altså fuet at á posteriori parameterfordelig er gitt ved: p(µ X ) = N(µ,σ 2 ) der og µ = σ 0 2 σ0 2 + σ 2 m σ 2 + σ0 2 + σ 2 µ 0 σ 2 = σ 2 σ 2 0 σ σ 2. Her er µ 0, σ 0 og σ kjete størrelser, mes m = 1 x k er samplemiddelet av treigssamplee, som tidligere. 3 PARAMETRISKE METODER 42

43 Uiversitetsseteret på Kjeller Av disse resultatee ser vi følgede: µ er veiet middel av m og µ 0 lim µ = m, dvs. størst tiltro til måligee år treigssettet er stort µ µ 0 hvis σ 0 << σ dvs. á priori kuskap betyr mest hvis de er god (lite σ 0 ) µ m hvis σ 0 >> σ dvs. ye måliger betyr mest hvis lite á priori kuskap (stor σ 0 ) σ o hvis σ << 1 dvs. lite usikkerhet i estimatet av skarp fordelig lim σ = 0,σ σ år >> 1 dvs. Bayesisk lærig. Figur 30: Á priori og á posteriori parameterfordeliger. Á posteriorifordelige vil typisk være mye skarpere e á priorifordelige; e kosekves av å itrodusere iformasjoe fra treigssettet. Når vokser vil p(θ X ) ormalt kovergere mot e Dirac-deltafuksjo i ˆθ. Tetthete i puktet x ka å bereges: p(x X ) = p(x µ)p(µ X )dµ [ 1 = exp 1 ( ) ] [ x µ 2 1 exp 1 ( ) ] µ 2 µ dµ 2πσ 2 σ 2πσ 2. (lag regig) [ 1 = 2π(σ 2 + σ 2 ) exp (x µ ) 2 ] 2(σ 2 + σ 2 ) = N(µ,σ 2 + σ 2 ). σ 3 PARAMETRISKE METODER 43

44 Uiversitetsseteret på Kjeller De estimerte fordelige for x blir e ormalfordelig med forvetig lik veiet middel av m og µ 0 og varias lik de kjete variase for fordelige med tillegg av usikkerhete i estimatet av forvetigsverdie. Side σ 0 og µ m år (det asymptotiske tilfellet) vil p(x X ) N(m,σ 2 ). Dette betyr at Bayes løsig maksimum likelihoodløsige år Rekursiv Bayesisk estimerig Skal her betrakte Bayesisk estimerig som e gradvis prosess der treigssamplee itroduseres ett og ett om gage. Ifører her følgede otasjo for treigssettet: X = {x 1, x 2,..., x } Ka da skrive likelihoodfuksjoe som: Dette gir: p(x 1 θ) = p(x θ) p(θ X ) = dvs. et treigssett med sampler, der >1. p(x k θ) = p(x θ)p(x 1 θ) p(x θ)p(θ) p(x θ)p(θ)dθ = p(x θ)p(x 1 θ)p(θ) p(x θ)p(x 1 θ)p(θ)dθ (17) Ka tilsvarede skrive: p(θ X 1 ) = p(x 1 θ)p(θ) p(x 1 θ)p(θ)dθ for et treigssett med 1 sampler. (18) Isettig av likig 18 i likig 17 gir da: p(θ X ) = p(x θ)p(θ X 1 ) p(x 1 θ)p(θ)dθ p(x θ)p(θ X 1 )[ p(x 1 ) θ )p(θ )dθ ]dθ (19) = p(x θ)p(θ X 1 ) p(x θ)p(θ X 1 )dθ (20) Defierer å: slik at: p(θ X 0 ) = p(θ) der X 0 er et tomt treigssett p(θ), p(θ x 1 ), p(θ x 1, x 2 ),..., p(θ X ),... er e følge av fordeliger som ka bereges rekursivt ved hjelp av likig 20. Typisk vil á posteriorifordelige bli skarpere og skarpere år atall sampler øker. Bayesisk lærig har ma dersom p(θ X ) δ(θ θ 0 ) år, dvs. koverges mot Diracs deltafuksjo om e eller ae parametervektor θ 0. Som evt tidligere gir dette maksimumlikelihood løsige; se likig 15. Dee kovergese forutsetter at fordelige er idetifiserbar. Med dette mees at parametervektore θ er uikt bestemt av fordelige p(x θ). De fleste kotiuerlige fordeliger er idetifiserbare, mes mage diskrete fordeliger ikke er det. Magel på idetifiserbarhet er ikke oe problem i ledet lærig, side vi her uasett midler over alle mulige parameterverdier for é og samme klasse. Det er imidlertid et fudametalt problem ie ikke-ledet lærig, der det er umulig å fie parametervektoree for de ekelte klassee som igår i problemet hvis fordeligee ikke er idetifiserbare (mer om dette seere). 3 PARAMETRISKE METODER 44

45 Uiversitetsseteret på Kjeller Eksempel - Bayesisk estimerig av forvetig i multivariat ormalfordelig Atar her følgede: p(x µ) = N(µ,Σ), p(µ) = N(µ 0,Σ 0 ), X = {x 1, x 2,..., x }, µ = ukjet,σ = kjet, µ 0 = kjet,σ 0 = kjet, treigssett med sampler fra é og samme klasse. Bereger først: og deretter: p(µ X ) = p(x µ) = p(x k µ) = p(x µ)p(µ) p(x µ)p(µ)dµ [ 1 (2π) d/2 Σ /2 = α exp 1 (x k µ) t Σ 1 (x k µ) 2 [ { = α exp 1 2 [ = α exp 1 2 [ = α exp 1 2 µ t Σ 1 µ + µ t Σ 1 0 µ + { ] [ exp 1 ] 2 (x k µ) t Σ 1 (x k µ) [ exp 1 ] 2 (µ µ 0 ) t Σ 1 0 (µ µ 0 ) x t k Σ 1 x k 2µ t Σ 1 µ t (Σ 1 + Σ 1 0 )µ 2µt (Σ 1 x k + Σ 1 0 µ 0 ) { µ t Σ 1 µ 2µ t Σ 1 } ] µ der µ og Σ er løsiger av likigssystemet: Σ 1 = Σ 1 µ = Σ 1 Σ 1 + Σ 1 0 m + Σ 1 0 µ 0 }] x k 2µ t 0 Σ 1 0 µ + µt 0 Σ 1 0 µ 0 }] med: Dette gir: [ p(µ X ) = α exp = α exp = N(µ,Σ ), m = 1 { µ t Σ 1 x k. 1 µ 2µ t Σ 1 2 [ 1 2 (µ µ ) t Σ 1 (µ µ ) µ + µ t } ] Σ 1 µ ] dvs. e multivariat ormalfordelig med µ og Σ gitt av likigssystemet: = Σ 1 + Σ 1 0 (21) µ = Σ 1 m + Σ 1 0 µ 0 (22) Σ 1 Σ 1 3 PARAMETRISKE METODER 45

46 Uiversitetsseteret på Kjeller Fra likig 21 får ma: der relasjoe: Σ = [( 1 Σ) 1 + Σ 1 0 ] 1 = 1 Σ(1 Σ + Σ 0) 1 Σ 0 = 1 Σ 0( 1 Σ + Σ 0) 1 Σ (A 1 +B 1 ) 1 = A(A+B) 1 B = B(A+B) 1 A (der A og B er ikkesigulære, kvadratiske matriser) er beyttet. Ved å løse for Σ fra (21) og sette i i (22), får ma: Her er: µ = Σ Σ 1 m + Σ Σ 1 0 µ 0 = Σ 0 ( 1 Σ + Σ 0) 1 ΣΣ 1 m + 1 Σ(1 Σ + Σ 0) 1 Σ 0 Σ 1 0 µ 0 = Σ 0 ( 1 Σ + Σ 0) 1 m + 1 Σ(1 Σ + Σ 0) 1 µ 0 = C 1 m +C 2 µ 0 = veiet middel av m og µ 0. C 1 +C 2 = Σ 0 ( 1 Σ + Σ 0) Σ(1 Σ + Σ 0) 1 = (Σ Σ)(1 Σ + Σ 0) 1 = I I grese (det asymptotiske tilfellet) får ma da: µ m Σ 1 Σ 0, dvs. Bayes løsig maksimum likelihood løsige år vokser. Tetthete i puktet x ka bereges fra likig 15: p(x X ) = p(x µ)p(µ X )dµ = N(µ,Σ) N(µ,Σ ) = N(µ,Σ + Σ ) (ka vises). De kjete kovariasmatrise Σ har altså fått et tillegg Σ som represeterer usikkerhete i estimatet av forvetige. Asymptotisk blir p(x X ) = N(m,Σ) Suffisiete observatorer Vi har sett at Bayesisk estimerig gir kompliserte beregiger selv i ekle tilfeller. Eksistese av suffisiete observatorer, f.eks. m = 1 x k for de multivariate ormalfordelige N(µ, Σ), gir mulighet til forekliger. Observatore ieholder de iformasjo fra treigssettet X som er tilstrekkelig for estimerig av parametervektore θ. Defiisjo: s er suffisiet for θ hvis p(θ s) er uavhegig av θ, dvs. hvis p(x s, θ) = p(x s). Isatt i Bayes formel gir dette (med θ atatt stokastisk) p(θ s,x ) = p(x s, θ)p(θ s) p(x s) = p(θ s). 3 PARAMETRISKE METODER 46

47 Uiversitetsseteret på Kjeller Dette gir s er suffisiet p(θ s,x ) = p(θ s), (der ekvivales ka vises) slik at s ieholder all ødvedig iformasjo fra X. Det ka også vises at s er suffisiet for θ hvis og bare hvis p(x θ) = g(s, θ)h(x ), (det såkalte faktoriserigsteoremet). Suffisiete observatorer er yttige dersom s og g(s, θ) er ekle og mest mulig av likelihoodfuksjoe ka skilles ut i faktore h(x ). Bruk av suffisiete observatorer 1) Maksimum likelihood estimerig: Her skal likelihoodfuksjoe p(x θ) = g(s, θ)h(x ) maksimaliseres med hesy på parametervektore θ. Med faktoriserige ovefor er det tilstrekkelig å fie maksimum av fuksjoe g(s, θ) (e kjet fuksjo så sart s er bereget fra treigssettet) med hesy på θ, og glemme h(x ). 2) Bayesisk estimerig: Her må ma først fie á posteriori parameterfordelig fra uttrykket p(θ X ) = p(x θ)p(θ) = p(x θ)p(θ)dθ g(s, θ)h(x )p(θ) = g(s, θ)h(x )p(θ)dθ Dersom p(θ) er uiform ka dee fordelige uttrykkes ved p(θ X ) = g(s, θ) g(s, θ)dθ = g(s, θ), g(s, θ)p(θ). g(s, θ)p(θ)dθ de såkalte kjeretetthete til g. Kjeretetthete er ivariat uder skalerig av g. Resultatet ovefor gjelder også i det asymptotiske tilfellet selv om p(θ) ikke er uiform. Dersom >> 1 vil p(θ X ) g(s, θ) selv om p(θ) ikke er uiform. I dette tilfellet blir p(x X ) p(x θ) g(s, θ)dθ der p(x θ) er atatt kjet (som fuksjo av x og θ), mes g ka fies i lærebøker Ekspoesialfamilie Dette er e familie av kjete fordeliger med ekle suffisiete observatorer og faktoriseriger (ekle g eller g fuksjoer). Disse fordeligee ka skrives på de felles forme p(x θ) = α(x)exp[a(θ) + b(θ) t c(x)] der a er e skalar og b og c er vektorer. Likelihoodfuksjoe ka da skrives som p(x θ) = α(x k )exp[a(θ) + b(θ) t c(x k )] [ { }] = exp a(θ) + b(θ) t 1 c(x k ) α(x k ) }{{}}{{} g(s,θ) h(x ) = g(s, θ)h(x ), 3 PARAMETRISKE METODER 47

48 Uiversitetsseteret på Kjeller der de suffisiete observatore er gitt ved s = 1 c(x k ). Se tabeller over fordeliger med tilhørede s og g(s, θ) i lærebøkee. Noe eksempler er vist i tabell 1. Adre eksempler er Rayleigh-, Maxwell-, beta-, Beroulli- og biomialfordeligee (se f.eks. [1] for detaljer). Nav Fordelig Parametre Suffisiet observator g(s,θ) Uivariat θ2 θ ormal p(x θ) = 2π e 1 1 = µ 2 θ2(x θ1)2 θ 2 = σ 2 > 0 s 1 = 1 x k s 2 = 1 xk 2 θ /2 2 e 2 θ2(s2 2θ1s1+θ 2 1 ) Multivariat ormal p(x θ) = Θ (2π) d/2 e 1 2 (x θ 1)t Θ2(x θ 1) θ 1 = µ Θ 2 = Σ 1, Θ 2 > 0 s 1 = 1 x k S 2 = 1 x k x t k Θ 2 /2 e 2 [Tr(Θ2)s2 2θt 1 Θ2s1+θt 1Θ2θ 1] Ekspoesial p(x θ) = { θe θx x 0 0 ellers θ > 0 s = 1 x k θ e θs θ θ1+1 2 Gamma p(x θ) = Γ(θ 1 + 1) xθ1 e θ2x x 0 0 ellers θ 1 > 1 θ 2 > 0 ( ) 1/ s 1 = x k s 2 = 1 x k [ ] θ θ1+1 2 Γ(θ 1 + 1) sθ1 1 e θ2s2 Poisso P(x θ) = θ x x! e θ, der x = 0,1,2,... θ > 0 s = 1 x k θ s e θ d Multiomial θ x i = 0,1,...,m P(x θ) = m! xi i i=1 x, der d i! x i = m i=1 0 < θ i < 1 θ i,i=1,...,d der d θ i = 1 i=1 s = 1 x k d θ si i i=1 Tabell 1: Noe fordeliger i ekspoesialfamilie. 4 Ikke-parametriske metoder Parametriske metoder har visse begresiger: Tetthetsfuksjoee har som oftest ukjet form slik at gal eller dårlig atakelse om forme gir suboptimalt resultat. De fleste kjete (ekle) fordeliger har bare é mode, slik at de passer dårlig til mage virkelige fordeliger med flere moder (multimodale fordeliger). Tetthetsfuksjoee ka være kjete, me beregigsmessig kompliserte; de ka f.eks. bestå av e bladig av uimodale kompoeter. I ikke-parametriske metoder, som er tema for dette kapitlet, gjøres det ige atakelser om forme på tetthetsfuksjoee. Vi skal i det følgede se på estimerig av tetthetsfuksjoe for e gitt klasse vha. samplee i treigssettet (puktestimerig), og deretter estimerig av á posteriori sasylighet for hver klasse i et problem med vilkårlig atall klasser. 4 IKKE-PARAMETRISKE METODER 48

49 Uiversitetsseteret på Kjeller 4.1 Tetthetsestimerig Her skal sasylighetstetthete i et gitt pukt x i egeskapsrommet estimeres ved hjelp av treigssettet X. Ata at treigssettet består av de samplee x 1, x 2,..., x. La å R være e vilkårlig regio omkrig puktet x, som vist i figur 31. x 2 x Figur 31: Tetthetsestimerig. E vilkårlig regio R er plassert omkrig puktet x. Noe av treigssamplee (blå symboler) ligger ie i regioe, de øvrige utefor. Sasylighete for at et vilkårlig sample, f.eks. samplet x i fra treigssettet, skal opptre iefor regioe ka uttrykkes ved P(x i R) = p(x )dx Her er p(x) de sae me ukjete tetthetsfuksjoe. Sasylighete for at k sampler fra treigssettet skal opptre iefor regioe blir da ( ) ( ) P k = P k (1 P) k! der = k k k!( k)!. Samplee i X forutsettes her å være ibyrdes uavhegige. De er selvsagt også trukket fra é og samme klasse, emlig de klasse sasylighetstetthete skal estimeres for. Forvetigsverdie til k blir da E{k} = kp k = k k=0 k=0 side ( ) k a k b k = (a + b) 1 b k=0 k Et aturlig estimat for sasylighete P er da R ( ) P k (1 P) k = P k ˆP = k, (fra formelsamlig). 4 IKKE-PARAMETRISKE METODER 49 x 1

50 Uiversitetsseteret på Kjeller der k er atall observasjoer ie R. Atar å at regioe R er lite og at tetthetsfuksjoe p(x) er kotiuerlig slik at p(x )dx p(x) dx = p(x)v, R R der x R og V er volumet av regioe R omkrig x. Dette gir p(x) 1 p(x )dx P(x R) = k / V V V. R For treigssettet X med uavhegige sampler fra e og samme klasse ka vi da sette opp estimatet for tetthete i det vilkårlige puktet x: p (x) = k / V. x 2 x k V Figur 32: Tetthetsestimerig. Regioe R omkrig puktet x har volum V og ieholder k av de totalt samplee (blå symboler) i treigssettet. Her er k atall sampler (observasjoer) fra treigssettet X = {x 1, x 2,..., x } iefor regioe og V er volumet av regioe omkrig x (se figur 32). Idekse idikerer at dette gjelder et treigssett med sampler. Dette estimatet skal vi bruke videre. Et godt estimat sasylighetstetthete vil rimeligvis kreve at k er stor og V er lite, oe som leder til at må være stor (dvs. stort treigssett). Stor k vil være ødvedig for å sikre lite varias (lite støy) i selve estimatet, mes lite V kreves for å oppå god romlig oppløsig (lite grad av midlig av estimatet). Koverges av estimatet til de sae tetthetsfuksjoe, dvs. lim p (x) = p(x) krever at: lim V = 0, lim k =, k / lim = 0. V 4 IKKE-PARAMETRISKE METODER 50 x 1

51 Uiversitetsseteret på Kjeller I praksis vil selvsagt være edelig, slik at det må gjøres e avveiig av k og V (øyaktighet vs. oppløsig) for å oppå tilfredsstillede resultat. To hovedprisipper ka følges: Fastsette volumet og telle opp k (f.eks. V 1/ ), Fastsette k og måle volumet (f.eks. k ). Dette leder til heholdsvis vidumetoder og ærmeste-abo metoder. De samme prisippee ka også brukes til direkte estimerig av á posteriori sasyligheter (X må da ieholde sampler fra alle klasser). Vidumetoder brukes imidlertid mest ved tetthetsestimerig, mes estimerig av á posteriori sasyligheter leder til de såkalte ærmeste-abo reglee, dvs. ikkeparametriske beslutigsregler for klassifiserig av ukjete sampler Vidumetode (Parze-viduer) La å R = d-dimesjoal hyperkube setrert om x, V = h d der h er side til hyperkube. Hyperkube ka represeteres ved hjelp av e vidufuksjo { 1, u ϕ(u) = j 2 1, j = 1,...,d 0, ellers. j x j h xi Figur 33: Parze-viduer. Hvert sample x i i treigssettet er omsluttet av e vidufuksjo ϕ((x x i )/h ) der h er legde på itervallet der vidufuksjoe har verdie 1. Parametere h tilsvarer side i hyperkube i det d-dimesjoale tilfellet. Ma teker seg å at e slik vidufuksjo er setrert omkrig hvert treigssample. Et édimesjoalt eksempel er vist i figur 33. Her svarer hver vidufuksjo til et itervall på tallije med fuksjosverdi 1 iefor itervallet og verdie 0 utefor. Itervallee ka overlappe, avhegig av parameterverdie h og plasserige av treigssamplee på x akse. Atall sampler iefor volum V omkrig et vilkårlig pukt x ka da skrives som e sum av vidufuksjoee til alle sampler i X : k = i=1 ( x xi ϕ 4 IKKE-PARAMETRISKE METODER 51 h ),

52 Uiversitetsseteret på Kjeller der ku de sampler som ligger iefor regioe med volum V setrert om x vil gi bidrag til summe. Tetthetsestimatet ka da skrives som p (x) = k / = 1 ( ) 1 x xi V ϕ. V h Dette er utledet for e rektagulær vidufuksjo som e re omskrivig av det tidligere resultatet, me det er også mulig å beytte adre avstadsavhegige fuksjoer, f.eks. x j h xi ϕ(u) = i=1 1 (2π) d/2 e 1 2 u 2 (se figur 34). p1 2p e 1 x 2 xi h 2 Figur 34: Gaussisk vidufuksjo (uivariat eksempel). Krav til e geerell ϕ er ϕ(u)du = 1 og Dette følger av at p (x)dx = ϕ(u) 0. 1 i=1 ( 1 x xi ϕ V h 1 ϕ(u)h i=1 d V du ) dx = 1 = ϕ(u)du (side V = h d ) = 1 (som er det øskede resultatet). 4 IKKE-PARAMETRISKE METODER 52

53 Uiversitetsseteret på Kjeller Defierer å δ (x) = 1 ( ) x ϕ V h der δ (x)dx = 1 og lim V 0 δ (x) = δ(x) (Diracs deltafuksjo). Estimatet ka da skrives som p (x) = 1 i=1 δ (x x i ). Estimatet vil avhege av parametere h, som bestemmer volumet av regioe dersom vidufuksjoe er biær, eller utstrekige til viduet dersom e geerell vidufuksjo er valgt. Lite h fører til superposisjo av skarpe topper i sampleposisjoee, dvs. støyfylt estimat (figur 35), mes stor h gir et defokusert estimat, dvs. dårlig romlig oppløsig (figur 36). Figur 35: Tetthetsestimatet med Gaussisk vidufuksjo med lite h. For et edelig datasett (treigssett) må det gjøres e avveiig mellom romlig oppløsig og øyaktighet i estimatet, dvs. prøvig og feilig med hesy til valg av V. Figur 36: Tetthetsestimat med Gaussisk vidufuksjo med stor h. I det asymptotiske tilfellet der oppås koverges av p (x) til de sae tetthete p(x) ved å la V 0. La å p (x) være forvetige til estimatore p (x), med tilhørede 4 IKKE-PARAMETRISKE METODER 53

54 Uiversitetsseteret på Kjeller varias σ 2 (x). Vi skal her si at estimatet kovergerer dersom Forvetige blir da lim p (x) = p(x) og lim σ 2 (x) = 0. p (x) = E{p (x)} { ( ) } 1 1 x xi = E ϕ i=1 V h = 1 { ( )} 1 x xi E ϕ V = 1 = 1 = i=1 i=1 i=1 h E{δ (x x i )} δ (x v)p(v)dv δ (x v)p(v)dv side alle ledd i summe er like p(x) år V 0 side δ (x v) δ(x v) år V 0. Dette gir lim p (x) = p(x) dersom lim V = 0 og p(x) kotiuerlig i x. Egetlig er det tilstrekkelig å la V 0 selv for edelig, me hva da med variase? Variase til estimatore er gitt ved σ 2 (x) = E{[p (x) p (x)] 2 } [ ( 1 1 x xi = E ϕ i=1 V h { [ ( 1 x xi = E ϕ V i=1 h ) ] 2 p (x) ) 1 ] } 2 p (x) (fordi variase til e sum av fuksjoer av uavhegige stokastiske variabler er lik summe av variasee til hver fuksjo) { ( )} 1 x = E i=1 2 V 2 ϕ 2 xi 2 { ( )} 1 x h p xi (x) E ϕ + 1 i=1 V h p (x) 2 ( ) 1 x v = 2 V 2 ϕ 2 p(v)dv 1 h p2 (x) (fordi summe av forvetigsverdiee i det adre leddet ovefor er lik p (x)) 1 ( ) 1 x v ϕ 2 p(v)dv V V h supϕ ( ) 1 x v ϕ p(v)dv V V h = supϕ p (x) V 0 år. 4 IKKE-PARAMETRISKE METODER 54

55 Uiversitetsseteret på Kjeller Dette betyr at estimatet ikke vil kovergere for edelig ved å la V 0. Koklusjo er at betigelsee supϕ <, lim V = og lim V = 0 medfører at lim p (x) = p(x), slik at estimatet derved kovergerer til de sae tetthetsfuksjoe. Ikke-parametriske metoder er geerelle (krever ige atakelse om tetthetsfuksjoe) og kovergerer til vilkårlige fordeliger, dvs. det er mulig å oppå så god tilærmig til p(x) som ma måtte øske ved å la treigssettet bli tilstrekkelig stort. Ulempe er at det geerelt kreves et mye større treigssett e for parametriske metoder (der disse ka brukes) for å oppå samme øyaktighet i estimatet. Videre må hele treigssettet i utgagspuktet lagres og gjeomsøkes ved hver klassifiserig (hvert puktestimat). For vidumetode må i tillegg vokse ekspoesielt med dimesjoe d på egeskapsrommet for å ugå at de fleste regioer blir tomme. Dersom dette skal motvirkes ved å velge et stort volum V, vil detaljer i tetthetsfuksjoe viskes ut. V har uasett e fast verdi, og er ikke tilpasset lokale forhold i egeskapsrommet Nærmeste-abo metoder Her beyttes samme estimat som tidligere: p (x) = k / V, der k i dette tilfellet velges fast, mes V varierer slik at regioe R omslutter k. Her ka k velges som fuksjo av, f.eks. k =. Det ka vises at betigelsee lim k = og lim k / = 0 er ødvedige og tilstrekkelige for koverges av estimatet til de sae tetthete i x (såkalt koverges i sasylighet) år p(x) er kotiuerlig i x. Et mulig valg er som evt Dette gir p (x) = k = dvs. k vokser lagsommere e. / 1 som medfører V V = V 1 der V 1 = 1 p(x) p(x), slik at volumet V automatisk tilpasses de lokale tetthete av sampler ved at V settes lite der det er stor tetthet av sampler (og høy sasylighetstetthet) og stor der det er lagt mellom samplee i rommet (og tilsvarede lav sasylighetstetthet). Nærmeste-abo metode sikrer derved at p (x) > 0 overalt. Derimot vil p (x)dx =, mes p 1 (x) vil være diskotiuerlig i x 1 år = 1. Uasett gir metode asymptotisk riktig resultat. Eksempler på ærmeste-abo estimerig med varierede og k er vist i lærebøkee. Tilsvarede eksempler med varierede h er vist for Parze-metode. Vi skal å gå videre til direkte estimerig av á posteriori sasylighet. Dette leder til de velkjete ærmeste-abo (NN) og k-ærmeste-abo (knn) reglee for klassifiserig (beslutigsregler), ute å gå veie om tetthetsestimerig. 4 IKKE-PARAMETRISKE METODER 55

56 Uiversitetsseteret på Kjeller x V k Figur 37: Nærmeste-abo estimerig. 4.2 Estimerig av á posteriori sasylighet Ata her at á posteriorisasylighete for e gitt klasse, la oss si ωi, skal estimeres i puktet x (markert i rødt i figur 38). La å ki = atall represetater fra klasse ωi, k = ci=1 ki atall sampler totalt ie regioe R (med volum V ), i atall sampler fra ωi i treigssettet X, = ci=1 i atall sampler totalt i X. x Figur 38: Estimerig av á posteriori sasylighet. Regioe med volum V omkrig puktet x (rødt pukt) omslutter k sampler (blå symboler) fra treigssettet X, der alle klasser er represetert. 4 IKKE-PARAMETRISKE METODER 56

57 Uiversitetsseteret på Kjeller Med dette ka følgede estimat av P (ω i x) settes opp: P (ω i x) = p (x ω i )P (ω i ) c p (x ω j )P (ω j ) j=1 = c j=1 k i / i V k j / j V i j = k i k. (23) Dette estimatet vil kovergere mot de sae á posteriori sasylighete P(ω i x) dersom volumet går mot ull og atall sampler iefor regioe går mot uedelig år atall sampler i treigssettet går mot uedelig. Dette iebærer at feilrate går mot de optimale verdie, dvs. k V 0 P (e) P (dette skal vises). Her er P de optimale (Bayesiske) feilrate K-ærmeste-abo regele Som vi ser av likig 23 er estimatet for á priorisasylighetee altså gitt ved de ekelte klassees adel av samplee iefor regioe. Også her har ma valget mellom Fast V, variabel k Vidumetoder (f. eks. V 1/ ), Fast k, variabel V Nærmeste-abo metoder (f. eks. k ). De valigste fremgagsmåte er å fastsette k og tilpasse størrelse på regioe slik at akkurat så mage sampler faller iefor. Miimum feilrateprisippet (velge klasse med størst á posteriori sasylighet) leder da til besluttigsregele Velg ω m hvis k m = max j {k j }. Dette er de såkalte k-ærmeste-abo regele (k-nnr). De går i korthet ut på å fie de k samplee i treigssettet som ligger ærmest egeskapsvektore til objektet som skal klassifiseres, og deretter velge klasse med flest represetater blat de k samplee. Legg merke til at det ikke er behov for eksplisitt å berege hverke volumet til regioe eller á posteriorisasylighete i seg selv. Det er valig å bruke Euclidsk avstad (valig vektororm) som mål på avstad i egeskapsrommet, og tilsvarede la regioe være e hyperkule, spesielt hvis egeskapee er skalert omtret likt. Det fies imidlertid adre avstadsmål, f.eks. skalert Euclidsk distase der de ulike egeskapee ormaliseres ekeltvis. I det siste tilfellet ka ma i så fall velge e hyperellipsoidisk regio Nærmeste-abo regele Skal se på tilfellet k = 1, dvs. ku ett sample fra treigssettet iefor volumet V. Dette vil da være de ærmeste aboe til x. La egeskapsvektore til de ærmeste aboe være x og klassetilhørighete være θ. Desisjosregele blir da Velg ω m hvis θ = ω m. 4 IKKE-PARAMETRISKE METODER 57

58 Uiversitetsseteret på Kjeller Dette er de såkalte ærmeste-abo regele (NNR), som med adre ord består i å velge samme klasse som klasse til de ærmeste aboe i treigssettet. Dee beslutigsregele virker bra fordi P(ω i x ) P(ω i x) side x x er lite, slik at i de deler av egeskapsrommet der é av klassee har vesetlig større á posteriori sasylighet e de øvrige klassee vil NNR mest sasylig velge samme klasse som de optimale klassifikatore. Nær desisjosgresee for de optimale klassifikatore (dvs. der to av klassee har samme á posteriori sasylighet) vil de to klassifikatoree ofte velge forskjellig klasse, mes de betigede feilrate likevel vil være omtret de samme for begge beslutigsreglee. Begge vil faktisk ha omtret samme sasylighet for å velge feil klasse. For å sikre lite avstad mellom x og x er det øskelig å ha et så stort treigssett som mulig. Vi skal å se på de asymptotiske feilrate, dvs. tilfellet Asymptotisk feilrate for NNR Her skal de asymptotiske feilrate sammelikes med de optimale (Bayesiske) feilrate, dvs. feilrate ma ville oppådd dersom statistikke var fullstedig kjet. Disse størrelsee er gitt ved heholdsvis P = P(e x)p(x)dx (asymptotisk feilrate) og P = P (e x)p(x)dx (optimal feilrate). Treigssettet er gitt ved tuppler beståede av egeskapsvektor og klassetilhørighet: X = {(x 1,θ 1 ),(x 2,θ 2 ),...,(x,θ )}, der θ i = ω i,...,ω c, dvs. kjet klassetilhørighet. La videre tuppelet (x,θ) represetere e observasjo fra ukjet klasse, og la (x,θ ) X være de ærmeste aboe til x fra klasse θ. Samplee i treigssettet (ikludert de ærmeste aboe til x) atas å være stokastiske variabler. Betiget feilrate for NNR i pukt x er gitt ved P (e x) = P (e x, x )p(x x)dx. Ser først på tetthete p(x x). Sasylighete for at et vilkårlig sample x faller iefor hyperkule S (se figur 39) er gitt ved 4 IKKE-PARAMETRISKE METODER 58

59 Uiversitetsseteret på Kjeller Dette gir P S = S p(x )dx. P(alle x i X utefor S) = (1 P S ) 0 år, som medfører P(mist ett sample iefor S) 1 år. Dette gjelder uasett hvor lite S er, dvs. x x år. Herav følger at x x 0 p(x x) δ(x x) år. Ser å på sasylighete P (e x, x ) Figur 39: Det ukjete samplet og de ærmeste aboe iefor regioe S. P (e x, x ) = P(θ θ x, x ) = 1 P(θ = θ x, x ) = 1 = 1 c i=1 c i=1 P(θ = ω i,θ = ω i x, x ) P(ω i x)p(ω i x ), side P(θ,θ x, x ) = P(θ x)p(θ x ) fordi både θ og θ er uavhegige og x og x er uavhegige. Dette gir ] P (e x) = [ 1 c i=1 som er vaskelig å berege i praksis. Imidlertid er side [ lim P (e x) = 1 = 1 c i=1 c i=1 P(ω i x)p(ω i x ) P(ω i x)p(ω i x ) P 2 (ω i x), f (t)δ(x t)dt de f = f (x). Av dette følger at de asymptotiske feilrate blir P = lim P (e) = lim P (e x)p(x)dx [ c = lim P (e x)p(x)dx = 1 i=1 p(x x)dx, ] P 2 (ω i x) δ(x x)dx ] p(x)dx. 4 IKKE-PARAMETRISKE METODER 59

60 Uiversitetsseteret på Kjeller Skal å fie e øvre grese for P som fuksjo av P. Dette oppås ved å miimalisere kvadratsumme av á posteriorisasylighetee som igår i det siste uttrykket. Dee summe ka omskrives til c i=1 P 2 (ω i x) = P 2 (ω m x) + P 2 (ω i x), i m der ω m er klasse med maksimal á posteriori sasylighet og P(ω m x) = 1 P (e x), der P (e x) er de optimale betigede feilrate i puktet x. E øvre grese for P fies ved å miimalisere dee summe uder førigee og Miimum oppås dersom Dette gir og derav P(ω i x) 0 P(ω i x) = 1 P(ω m x) = P (e x). i m c i=1 P = [ 1 = = 2 P (e x) i m P(ω i x) = c 1 1 P (e x) i = m. P 2 (ω i x) [1 P (e x)] 2 + P 2 (e x) c 1, c i=1 P 2 (ω i x) ] p(x)dx [ ] 1 (1 P (e x)) 2 P 2 (e x) p(x)dx c 1 P (e x)[2 P (e x)] p(x)dx 1 P 2 (e x)p(x)dx c c 1 P (e x)p(x)dx }{{} c 1 P Det siste itegralet er P 2 fordi Var{P (e x)} = [P (e x) P ] 2 p(x)dx = P 2 (e x)p(x)dx P 2 P 2 (e x)p(x)dx. } {{ } P 2 0 (variase til e variabel er pr. defiisjo ull eller positiv), slik at og herav P 2 (e x)p(x)dx P 2, P 2P 2 c c 1 P 2. 4 IKKE-PARAMETRISKE METODER 60

61 Uiversitetsseteret på Kjeller For de asymptotiske feilrate til NNR gjelder da P P P (2 c c 1 P ), som ka illustreres ved figur 40. For ehver verdi av P vil P ligge i det skraverte arealet. For små verdier av P gjelder relasjoe P 2P (illustrert ved tagete til de øverste kurve i origo). Figur 40: Asymptotisk feilrate for ærmeste-abo regele som fuksjo av de optimale feilrate P. For ehver verdi av P vil de asymptotiske feilrate ligge i itervallet mellom de øvre heltruke kurve og de stiplede lije gitt ved P = P (det skraverte arealet) Feilrate for k-ærmeste-abo regele Ser her på de asymptotiske feilrate for k-nnr år c = 2 og k = odde. Bayes optimale klassifikator velger ω m hvis P(ω m x) = max i P(ω i x). NNR velger ω m med sasylighet P(ω m x) år er stor. k-nnr velger ω m hvis k m = max i {k i } dvs. med sasylighete P(k m = maksimal) = (k 1)/2 i=0 k i=(k+1)/2 ( k i ) P(ω m x) i [1 P(ω m x)] k i 1 år k. Det ka vises at de asymptotiske feilrate for k-nnr (med c = 2 og k = odde) er oppad begreset av fuksjoe C k (P ) som er de miste kokave fuksjo av P som er større e ( ) k [ P i+1 (1 P ) k i + P k i (1 P ) i+1]. i Plott av de øvre grese for P for ulike verdier av k er vist i figur 41. Se tilsvarede figur for NNR. Geerelt vil P P år og k (ved f.eks. å velge k ). 4 IKKE-PARAMETRISKE METODER 61

62 Uiversitetsseteret på Kjeller Figur 41: Asymptotisk feilrate for k-ærmeste-abo regele som fuksjo av de optimale feilrate. De øvre grese (heltruke kurver for ulike verdier av k) kovergerer mot de edre grese (stiplet lije gitt ved P = P ) år k. 4.3 Problemer med ikke-parametriske metoder Et geerelt problem for både vidumetode og ærmeste-abo metodee er: Hele treigssettet må i utgagspuktet lagres og gjeomsøkes for hvert objekt som skal klassifiseres. Dette leder til: Stort krav til hukommelse, Lag regetid for klassifikatore Mulige løsiger for vidumetode E mulig foreklig ved vidumetode er å foreta e rekkeutviklig av selve vidufuksjoe ϕ, f.eks. i form av e Taylorrekke. La rekkeutviklige være gitt ved ( ) x m xi ϕ = h a j ψ j (x)χ j (x i ), j=1 der ψ j og χ j er sett av basisfuksjoer. 4 IKKE-PARAMETRISKE METODER 62

63 Uiversitetsseteret på Kjeller Fra dette får ma da p (x) = 1 = 1 = = i=1 i=1 m j=1 ( ) 1 x xi ϕ V 1 V ( m j=1 a j V ( i=1 h a j ψ j (x)χ j (x i ) χ j (x i ) ) } {{ } b j m b j ψ j (x), j=1 ψ j (x) ) der koeffisietee b j, j = 1,...,m ka bestemmes é gag for alle fra treigssettet. Koeffisietee ka også lett oppdateres med ye data (dersom ye treigssampler ka skaffes tilveie på et seere tidspukt). Dee metode gir redusert datamegde dersom m < d. Spørsmålet er hvor stor ordee m må være for å gi e rekkeutviklig med tilstrekkelig øyaktighet. Eksempel - Taylorutviklig av vidufuksjoe Ser her på et uivariat problem og beytter e Gaussisk vidufuksjo som tilærmes med et Taylorpolyom av orde m: Velger m = 2: Da blir der ϕ(u) = 1 π e u2 [ 1 m 1 π ( ) x xi ϕ h p (x) 1 h π ( 1) j u2 j j=0 1 π [1 j! + ε m ] ( ) ] x 2 xi h der ε m < u2m m!. = 1 [ 1 x2 π h 2 + 2x ix h 2 x2 i h 2 i=1 = b 0 + b 1 x + b 2 x 2, [ b 0 = 1 h 1 1 π h 2 b 1 = 2 h 3 π ]. [1 x2 h 2 + 2x ] ix h 2 x2 i h 2 i=1 b 2 = 1 h 3 π. 4 IKKE-PARAMETRISKE METODER 63 x 2 i, i=1 x 2 i ],

64 Uiversitetsseteret på Kjeller All relevat iformasjo fra X er å kodesert i disse koeffisietee som ka bereges é gag for alle i treigsfase. Spørsmålet er hvor god tilærmige til de faktiske tetthetsfuksjoe er for e gitt orde på rekkeutviklige. God tilpassig krever i dette eksempelet at max i x x i << h. Dette leder til krav om stor h, dvs. dårlig romlig oppløsig. For å sikre god oppløsig i tetthetsestimatet må m velges stor, dvs. flere ledd må tas med i rekkeutviklige Mulige forekliger for NNR og k-nnr Her eves kort følgede tekikker: Hierarkisk orgaiserig av treigssettet for å redusere regetide ved klassifiserig, dvs. de tide det tar å fie ærmeste abo eller de k ærmeste aboee til det ukjete samplet. Kodeserig av treigssettet ved å fjere de sampler som ikke har betydig for utfallet av klassifiserige, dvs. sampler som ligger lagt fra desisjosgresee og er beskyttet av sampler som ligger ærmere opp til gresee i egeskapsrommet. Se figur 42. Disse samplee ka trygt fjeres ute å påvirke klassifiserigseve. Editerig av treigssettet som består i å fjere outliere i datasettet. Slike sampler ka være et resultat av feilregistrerig (målefeil) og ligger typisk lagt vekk fra de fleste adre sampler fra samme klasse, f.eks. som ekeltsampler omgitt av treigssampler fra e ae klasse. Slike outliere ka føre til at kodeserig blir midre effektivt (flere treigssampler i ærhete av outliere må beholdes for å ugå at dee gir opphav til feilklassifiseriger). Editerig bør derfor gjøres før kodeserig. 5 Lieære og geeraliserte diskrimiatfuksjoer 5.1 Iledig De to foregåede kapitlee behadler metoder for estimerig av tetthetsfuksjoer. Med kjete fordeliger (og á priori sasyligheter) ka ma kostruere e beslutigsregel, f.eks. i form av et sett av diskrimiatfuksjoer. Dette kapitlet behadler metoder der ma bestemmer diskrimiatfuksjoee direkte ute å gå veie om tetthetsestimerig. Her velger ma forme på diskrimiatfuksjoee, f.eks. lieære eller kvadratiske, og justerer parametree (dvs. vektee) i diskrimiatfuksjoee for å oppå best mulig (mest riktig) klassifiserig av treigssamplee. Kokret vil treige av klassifikatore bestå i e optimaliserig av e eller ae kriteriefuksjo mhp. parametree i diskrimiatfuksjoee. I hovedsak skal vi se på liære diskrimiatfuksjoer, som ka skrives på forme: g i (x) = w t i x + w i0,i = 1,...,c, der w i er de såkalt vektvektore og skalare w i0 er terskligsvekte for hver av klassee ω 1 til ω c. Lieære diskrimiatfuksjoer ka i oe tilfeller gi de optimale løsige. For multivariat ormalfordelte klasser med like kovariasmatriser er de optimale beslutigsregele (de som gir miimum feilrate) f.eks. gitt ved et sett av lieære diskrimiatfuksjoer. 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 64

65 Uiversitetsseteret på Kjeller x 2 x 1 Figur 42: Kodeserig. Treigssamplee iefor regioee markert i grøt ka fjeres ute at dette vil påvirke klassifiserige av ye sampler iefor de samme regioee To klasser For to klasser ka de to diskrimiatfuksjoee slåes samme til é: g(x) =g 1 (x) g 2 (x) =(w1 t x + w 10 ) (w2 t x + w 20 ) =(w 1 w 2 ) t + (w 10 w 20 ) =w t x + w 0 (24) der vektvektore i dee toklasse-diskrimiatfuksjoe er og terskligsvekte er w t =w 1 w 2 w 0 =w 10 w 20. Desisjosregele blir da: Velg ω 1 hvis g(x) > 0, ω 2 ellers. (25) Vi har tidligere vist at desisjosgrese for e slik lieær toklasse diskrimiatfuksjo er et hyperpla med w som ormalvektor. Avstade r fra et vilkårlig pukt x i egeskapsrommet til dette hyperplaet er gitt ved (se figur 43): 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 65

66 Uiversitetsseteret på Kjeller x = x p + r w w der x p er projeksjoe av x på hyperplaet. Isettig av dette uttrykket i toklassediskrimiatfuksjoe (likig 24) gir da g(x) =w t x p + w t w r w + w 0 =r w (side w t x p + w 0 = 0). w x p x Dette gir: r = g(x) w. Figur 43: Avstade fra x til hyperplaet er r, mes hyperplaets avstad fra origo er d. Vektore x x p står ormalt på hyperplaet. Avstade mellom hyperplaet og et vilkårlig pukt x i egeskapsrommet er følgelig proporsjoal med verdie til diskrimiatfuksjoe i puktet. Avstade mellom origo og hyperplaet blir derved: d = g(0) w Disse tre tilfellee er illustrert i figur w 0 > 0 : origo på positiv side av hyperplaet w 0 = 0 : origo på hyperplaet w 0 < 0 : origo på egativ side av hyperplaet w Figur 44: Hyperplaets plasserig år w 0 < 0. Origo ligger på de egative side (d < 0). 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 66

67 Uiversitetsseteret på Kjeller w Figur 45: Hyperplaets plasserig år w 0 = 0. Hyperplaet går gjeom origo (d = 0). w Figur 46: Hyperplaets plasserig år w 0 > 0. Origo ligger på de positive side (d > 0). 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 67

68 Uiversitetsseteret på Kjeller Vektvektore w bestemmer orieterige til hyperplaet, mes w 0 bestemmer plasserige. Tallverdie til g(x) er proporsjoal med avstade fra puktet x til hyperplaet. Toklasse-diskrimiatfuksjoe g(x) = w t x + w 0, med desisjosregele i likig 25, gir opphav til ett hyperpla som deler egeskapsrommet i to desisjosregioer R 1 og R 2 (dvs. to halvrom) Mage klasser De valige måte å behadle mage klasser på (i det miste de som skal brukes her) er å beytte é diskrimiatfuksjo for hver klasse: og velge klasse i hehold til desisjosregele: g i (x) = w t ix + w i0, i = 1,...,c Velg ω m hvis g m (x) = max{g i (x)} i Dee strategie gir opphav til c ekeltsammehegede desisjosregioer R 1,R 2,...,R c, adskilt av stykkevis lieære desisjosgreser (geerelt hyperpla). E ødvedig betigelse for at et pukt x ligger på e desisjosgrese er at mist to av diskrimiatfuksjoee er like i dette puktet, dvs. g i (x) = g j (x) der i, j = 1,...,c,i j (dersom e tredje diskrimiatfuksjo har høyere verdi vil x likevel ikke ligge på e desisjosgrese). Desisjosregioee er forøvrig kovekse. Lieære diskrimiatfuksjoer har begreset fleksibilitet, og eger seg best for problemer med uimodale klassebetigede tetthetsfuksjoer (se de etterfølgede eksemplee). Adre måter å hådtere flere klasser på er å dele problemet opp i et atall toklasseproblemer, ete ved å behadle alle par av klasser hver for seg, eller ved å se på hver ekelt klasse mot alle de øvrige (der alle de adre klassee behadles som é klasse). I begge tilfeller ka dette lede til tvetydige eller udefierte regioer i egeskapsrommet (se eksempler i lærebøker) Eksempel - Miste avstad klassifiserig Hvis ma øsker å klassifisere objekter ut fra midlere avstade til hver klasse ka ma la diskrimiatfuksjoee være gitt ved (se avsitt på side 29): g i (x) = x µ i 2 = x t x + 2x t µ i µt i µ i Ved å velge klasse med størst fuksjosverdi tilorder ma altså ukjete sampler til klasse med ærmeste forvetigsvektor. Side det første leddet i dette uttrykket er felles for alle klasser, ka det sløyfes. Diskrimiatfuksjoee ka dermed skrives som: g i (x) = 2x t µ µ i i 2 [ ] 1 = [ µ i 2,2µ t i }{{} ] x a t }{{} y = a t i y. 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 68

69 Uiversitetsseteret på Kjeller Her er det iført to ye størrelser, de utvidede vektvektore a og de utvidede egeskapsvektore y. For to klasser og d = 1 ka ma da skrive diskrimiatfuksjoe som: [ ] 1 g(x) = a1 t y at 2 y = [µ2 2 µ 1,2(µ 2 1 µ 2 )] = (µ 2 2 µ 2 x 1) + 2(µ 1 µ 2 )x Desisjosgrese er gitt ved g(x) = 0 slik at x 0 = (µ 1 + µ 2 )/2 er terskele mellom klassee på tallije. Figur 47: Desisjosregioer for miimum avstad klassifiserig (todimesjoalt tilfelle med tre klasser). Figur 47 og 48 viser todimesjoale eksempler på egeskapsrom delt i i desisjosregioer. Desisjosgresee er her stykkevis lieære og desisjosregioee er ekeltsammehegede og kovekse, slik resultatet blir med lieære diskrimiatfuksjoer. 5.2 Geeraliserte lieære diskrimiatfuksjoer Lieære diskrimiatfuksjoer ka skrives som: g(x) = w t x + w 0 = w 0 + d i=1 w i x i (klasseagivelse er utelatt her). E geeraliserig til høyere orde ka oppås ved å legge til høyereordes produkter av egeskapee: g(x) = w 0 + d i=1 w i x i + d i=1 d j=1 w i j x i x j + d d d i=1 j=1 w i jk x i x j x k LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 69

70 Uiversitetsseteret på Kjeller Figur 48: Desisjosregioer for miimum avstad klassifiserig (todimesjoalt tilfelle med fire klasser). Derved itroduseres flere frihetsgrader hva agår forme til desisjosgresee. E slik geeralisert, polyomisk diskrimiatfuksjo ka betraktes som e rekkeutviklig av g(x) til orde d, ˆ og ka skrives som: a ˆ d g(x) = dˆ i=1 a i y i (x) = a t y. (26) Dette er e lieær diskrimiatfuksjo i y der: a 1 y 1 (x) a 2 y 2 (x) a = (geeralisert vektvektor) og y = (geeralisert egeskapsvektor)... yd ˆ (x) Fuksjoee y 1 (x),...,y d (x) defierer e avbildig fra det opprielige egeskapsrommet (xrommet) til et ytt y-rom der diskrimiatfuksjoee er lieære og gir opphav til ekeltsammehegede og kovekse desisjosregioer. For et toklasseproblem vil desisjosregioee i y-rommet være et hyperpla som går gjeom origo, dette fordi dee geeraliserte lieære diskrimiatfuksjoe magler skalarleddet. Vi ser av dette at vilkårlig kompliserte diskrimiatfuksjoer ka skrives om som e lieær diskrimiatfuksjo, me da i et høyeredimesjoalt rom. Reste av dette kapitlet er viet ulike metoder for opptreig av lieære diskrimiatfuksjoer, me disse metodee ka da 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 70

71 Uiversitetsseteret på Kjeller også brukes på høyereordes (polyomiske) diskrimiatfuksjoer år disse er omskrevet til lieær form som i likig 26. Samme geeraliserte form skal forøvrig brukes i de videre behadlige av lieære diskrimiatfuksjoer. 5.3 Lieære diskrimiatfuksjoer Her skal vi altså beytte de lieære diskrimiatfuksjoe trasformert til y-rommet: 1 g(x) = w t d x 1 x + w 0 = w 0 + w i x i = [w 0,w 1,...,w d ]. = at y der: i=1 a = utvidet vektvektor y = utvidet egeskapsvektor Dette er e avbildig fra d ˆ d = d + 1 dimesjoer. Alle sampler fra x-rommet vil ligge i et d-dimesjoalt uderrom i det ye y-rommet (se figur 49). Geerelt ka ma å skrive: g i (x) = a t i y, der a i er de utvidede vektvektore for klasse ω i. Desisjosregele sier at ma skal velge klasse med størst fuksjosverdi. Her tilsvarer dette å velge klasse med størst skalarprodukt av utvidet vektvektor med utvidet egeskapsvektor Toklasseproblemet De felles diskrimiatfuksjoe for toklasseproblemet ka å skrives på forme: g(x) = g 1 (x) g 2 (x) = a t 1 y at 2 y = at y, der de utvidede vektvektore a = a 1 a 2 er ormalvektor til desisjosflate (geerelt et hyperpla). Side dee diskrimiatfuksjoe ikke har oe kostatledd (terskligsvekt), medfører det at hyperplaet i y-rommet vil gå gjeom origo. Side valg av klasse er bestemt av forteget på diskrimiatfuksjoe, betyr det at ma her velger ω 1 hvis a t y > 0 og ω 2 hvis a t y 0. Ata å et treigssett Y = {y 1, y 2,..., y } med sampler fra klassee ω 1 eller ω 2. Dette settet kalles lieært separabelt dersom: a slik at a t y i > 0 år y i ω 1 og a t y i 0 år y i ω 2. E slik vektor a kalles e separerede vektor eller e løsigsvektor. Megde av alle mulige løsigsvektorer for et gitt problem utgjør e løsigsregio. Se figur 50. Målet er å fie e løsigsvektor for treigssettet dersom dette er lieært separabelt. Fra å av skal vi su forteget på egeskapsvektoree fra klasse ω 2, dvs: y i y i dersom y i ω 2. Etter fortegsskiftet vil samplee fra ω 2 ligge lags lije gitt ved y 1 = 1. Alle sampler vil å ligge på positiv side av hyperplaet, dersom dette er et separerede hyperpla. Dette er illustrert i figur LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 71 x d

72 Uiversitetsseteret på Kjeller Separerede hyperpla a Figur 49: Trasformasjo av et édimesjoalt datasett med to klasser fra x-rommet til y-rommet av dimesjo 2, der samplee ligger i uderrommet gitt ved y 1 = 1. Her er grøe sirkler fra ω 1 og røde kvadrater fra ω 2. I y-rommet (det utvidede egeskapsrommet) ka klassee separeres vha. e lieær diskrimiatfuksjo, som gir et hyperpla som desisjosgrese. De utvidede vektvektore a er ormalvektor til hyperplaet, og peker i i det positive halvrommet (desisjosregioe for ω 1 ). Legg merke til at hyperplaet går gjeom origo Kriteriefuksjoer Vektvektore skal tilpasses treigssettet slik at klassifikatore gitt av diskrimiatfuksjoe(e) vil fugere best mulig. Det er vaskelig å optimalisere mht. feilrate direkte, derfor beyttes e kriteriefuksjo J(a) dvs. e skalar fuksjo som skal miimaliseres mht. vektvektore a. J(a) defieres valigvis lik 0 for e løsigsvektor. Optimaliserige ka f.eks. utføres ved hjelp av et såkalt gradietsøk Gradietsøk Kriteriefuksjoe J(a) skal miimaliseres for å fie e løsigsvektor for et lieært separabelt sett. Gradietsøk er e iterasjosprosess, der ma ut fra et startpukt (e vilkårlig startvektor) forflytter vektvektore e viss avstad motsatt av gradietes retig: a 1 =vilkårlig startverdi a k+1 =a k ρ k J(a k ),k = 1,2,... 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 72

73 Uiversitetsseteret på Kjeller Separerede hyperpla Løsigsregio a Figur 50: Trasformasjo fra x-rommet til y-rommet, der samplee ligger i et uderrom gitt av y 1 = 1. I dette tilfellet er datasettet lieært separabelt, og det eksisterer uedelig mage vektvektorer (med tilhørede hyperpla) som vil separere klassee ute feilklassifiseriger. Alle vektvektorer a ie de grøfargede løsigsregioe gir opphav til et slikt separerede hyperpla. der ρ k er e positiv skrittlegde (ikremetet). Algoritme vil forhåpetligvis kovergere mot et globalt miimum for J(a), me det vil alltid være e fare for å ede i et lokalt miimum (avhegig av forme på kriteriefuksjoe). Løsige vil avhege av J(a), a 1 og ρ k. For stort ikremet ka gi diverges, mes for lite verdi ka føre til lagsom koverges. E optimal verdi av ρ k ka bestemmes ved å rekkeutvikle J(a) om a k : der matrise D har kompoetee: J(a) J(a k ) + J(a k ) t (a a k ) (a a k ) t D(a a k ) D i j = 2 J(a k ) a j a k, dvs. aeordes partialderiverte av kriteriefuksjoe. Isettig av a k+1 = a k ρ k J(a k ) for a gir da: J(a k+1 ) J(a k ) ρ k J t J ρ2 k J t D J. Beste forbedrig pr. iterasjo oppås ved å miimalisere J(a k ) med hesy tilρ k : J(a k+1 ) ρ k = 0 J 2 + ρ k J t D J = 0 ρ k = J 2 J t D J. 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 73

74 Uiversitetsseteret på Kjeller Separerede hyperpla Løsigsregio a Figur 51: Datasettet i figur 50 etter skifte av forteg for samplee fra ω 2. Dette er et optimalt valg for ikremetet ρ k, dvs. et variabelt ikremet. Det er ofte raskere å velge e lite, kostat verdi for ikremetet. Vi skal å gå over til kokrete algoritmer for treig av vektvektore i toklassediskrimiatfuksjoe. 5.4 Perceptrometode Perceptro-kriteriet Her velges kriteriefuksjoe: J p (a) = a t y der Y = {y : a t y 0} (27) y Y der Y er megde av feilklassifiserte sampler fra treigssettet. Et miimum for dee kriteriefuksjoe vil gi et hyperpla der flest mulig av samplee ligger på positiv side av hyperplaet, eller i det miste ligger så ær opp til hyperplaet som mulig, på egativ side. Håpet er at dette vil gi e løsig i ærhete av e miimum-feilrate løsig. Legg forøvrig merke til at: J p (a) er kotiuerlig i a, og skal miimaliseres mhp. a, J p (a) de f = 0 år Y = /0 dvs. ige feilklassifiseriger, 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 74

75 Uiversitetsseteret på Kjeller J p (a) = 0 ku år a er e løsigsvektor eller a = 0, og J p (a) > 0 dersom mist ett sample gir et ikke-positivt produkt, dvs. a t y 0, der y er et feilklassifisert sample mht. a Perceptro-algoritme Gradiete til kriteriefuksjoe er: J p (a) = y y Y Gradietsøket skissert i foregåede avsitt gir da følgede algoritme: a 1 = vilkårlig startvektor a k+1 =a k + ρ k y, k = 1,2,... Perceptro-algoritme (sammesatt oppdaterig) y Y k der: Y k = {y : a t k y 0} er megde av sampler feilklassifisert av de aktuell vektvektore a k. Dee algoritme foretar e oppdaterig av vektvektore etter hvert gjeomløp av treigssettet. Dersom treigssettet gjeomløpes syklisk, med oppdaterig av vektvektore for hvert feilklassifiserte sample, gir dette i stedet Variabelt ikremet regele: } a 1 = vilkårlig startvektor a k+1 =a k + ρ k y k Variabelt ikremet regele (ekeltsample oppdaterig), k = 1,2,... Dette er Perceptro algoritme med ekeltsample oppdaterig, der vektvektore justeres hver gag det blir fuet et feilklassifisert sample i de sykliske gjeomgage. Idekse k refererer her til atall oppdateriger av vektvektore, ikke til atall gjeomløp av treigssettet. De feilklassifiserte samplee y 1, y 2,..., y k,... er således ummerert fortløpede fra starte av iterasjosprosesse. Algoritme beskrives ærmere i avsitt Fast ikremet regele Et spesialtilfelle av variabelt ikremet regele oppås ved sette ikremetet til e fast verdi, f.eks. ρ k = ρ = 1. Ekeltsample algoritme reduseres derved til: } a 1 = vilkårlig startvektor a k+1 = a k + y k Fast ikremet regele, k = 1,2,... Oppdaterige er illustrert i figur 52. Samplet represetert ved y k er her feilklassifisert med hesy til vektvektore a k. Oppdaterige ovefor flytter vektvektore direkte mot hyperplaet gitt ved a t y k = 0, slik at y k i dette tilfellet vil bli riktig klassifisert av a k+1. Koverges til løsigsvektor Fast ikremet regele vil kovergere til e løsigsvektor for lieært separable sett. Ata 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 75

76 Uiversitetsseteret på Kjeller a k+1 y k a t y k =0 y k a k Figur 52: Oppdaterige i fast ikremet regele. Vektvektore a k oppdateres til a k+1 ved å legge til det feilklassifiserte samplet y k. at âa er e slik løsigsvektor, slik at âa t y i > 0 y i. Vi atar selvsagt også at settet er lieært separabelt. Geerelt øsker ma da: a k+1 âa < a k âa dvs. a k âa år. E slik koverges mot e spesifikk vektor âa vil imidlertid ikke kue oppås geerelt. I stedet skal ma søke koverges mot e vektor αâa, der α > 0 er e skalerigsfaktor, side det er retige og ikke orme til vektvektore som bestemmer klassifiserigsresultatet (retige på vektvektore bestemmer orieterige på hyperplaet). Ma øsker da at: Starter med oppdaterigsregele: a k+1 αâa < a k αâa slik at a k αâa år. a k+1 = a k + y k (der y k er feilklassifisert av a k ) (a k+1 αâa) = (a k αâa) + y k a k+1 αâa 2 = a k αâa 2 + 2(a k αâa) t y k + y k 2 = a k αâa ak t }{{} yk 2αâa t y k + y k 2 ( 0 side y k feilklassifisert av a k ) a k αâa 2 2αâa t y k + y k 2 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 76

77 Uiversitetsseteret på Kjeller La å: β 2 = max i y i 2, γ = mi i âa t y i > 0 a k+1 αâa 2 a k αâa 2 2αγ + β 2 Norme på vestre side i ulikhete reduseres følgelig i hver iterasjo dersom: 2αγ + β 2 < 0 α > β 2 dvs. legde på løsigsvektore må være tilstrekkelig stor. Velger å f.eks. α = β 2 /γ slik at: 2γ a k+1 αâa 2 a k αâa 2 β 2 dvs. β 2 er reduksjoe pr. iterasjo. Etter k iterasjoer: 0 a k+1 αâa 2 a 1 αâa 2 kβ 2 k a 1 αâa 2 Algoritme kovergerer til løsigsvektor for et lieært separabelt sett etter maksimalt β 2 k 0 = a 1 αâa 2 β 2 iterasjoer! Ata å a 1 = 0 slik at: k 0 = a 1 αâa 2 β 2 = α2 âa 2 β 2 = β 2 âa 2 γ 2 = (max i y i 2 ) âa 2 mi i (âa t y i ) 2 k 0 er stor hvis y i ormalt på âa for é eller flere y i Trag løsigsregio krever mage iterasjoer. Koklusjoe er at fast ikremet regele uasett gir e løsigsvektor etter et edelig atall iterasjoer Variabelt ikremet regele Ved å la ikremetet være variabelt (som i de opprielige perceptro-algoritme) får ekeltsampleversjoe forme: } a 1 = vilkårlig startvektor a k+1 = a k + ρ k y k, k = 1,2,..., der ak t Variabelt ikremet regele yk b, b > 0 der det er itrodusert e positiv margi b. Dee algoritme ka også vises å kovergere til e løsigsvektor dersom følgede betigelser er oppfylt: 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 77

78 Uiversitetsseteret på Kjeller 1. Datasettet er lieært separabelt 2. ρ k 0 m m 3. lim ρ k = m 4. lim ρ2 k m ( m ρ k) 2 = 0 E løsigsvektor er her defiert som e vektor a som tilfredsstiller ulikhetee a t y k > b y i. Margie b > 0 iføres her for å oppå koverges mot e mer robust vektvektor; dette med take på sikrere klassifiserig av ye, ukjete sampler (med positiv margi vil algoritme søke e løsigsvektor iefor e sevrere løsigsregio for å ugå at ekelte sampler i treigssette bare blir akkurat såvidt riktig klassifisert). Margie ka av samme gru også iføres i både fast ikremet regele og de geerelle Perceptro-algoritme Koverges for Perceptro-algoritme Hvis âa er e løsigsvektor for settet y 1,..., y, dvs. âa t y i < 0 y i, da vil âa også være e løsigsvektor for alle delsummer av sampler fra dette settet, dvs. fordi: âa t y = âa t y = y i der Y {y 1,..., y } y i Y y i = âa t y i > 0 side âa t y i > 0 y i y i Y y i Y De opprielige Perceptro-algoritme med de sammesatte oppdaterige gitt ved a k+1 = a k + ρ k y Y k y, der Y k = {y : a t k y 0}, er da idetisk med variabelt ikremet regele dersom y Yk y betraktes som et feilklassifisert sample fra settet av alle mulige delsummer over Y. Dersom ρ k = kostat = 1 (som i fast ikremet regele), eller oppfyller kravee til koverges av variabelt ikremet regele, vil følgelig de tilsvarede versjoer av Perceptroalgoritme (med fast eller variabelt ikremet) også kovergere til e løsigsvektor. Mage valg av ρ k gir koverges, f.eks.: ρ k = ρ > 0, ρ k = ρ 0 k, og til og medρ k = ρ 0 k (voksede ikremet). Dersom ma øsker å fie e god vektvektor også for et ikke-separabelt sett, er det imidlertid mest foruftig å beytte et lite, kostat ikremet eller et lagsomt avtagede ikremet. 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 78

79 Uiversitetsseteret på Kjeller 5.5 Relaksasjosmetode Perceptrokriteriet har diskotiuerlig gradiet. Et alterativ er å kvadrere leddee i summe i likig 27 slik at kriteriefuksjoe blir: J q (a) = (a t y) 2. y Y Dette gir kotiuerlig gradiet. Her går imidlertid gradiete mot ull på rade av løsigsregioe, slik at gradietsøk vil kue gi lagsom koverges mot et slik radpukt, og e dårlig vektvektor med take på klassifiserig av ye sampler. J q er også domiert av de legste egeskapsvektoree i datasettet. Et alterativ er derfor det såkalte relaksasjoskriteriet gitt ved: (a t y b) 2 J r (a) = 1 2 y Y y 2 der Y = {y : a t y b}. Her er bruke av e positiv margi b ødvedig for å ugå koverges mot et radpukt. Egeskaper for J r (a): 1. J r (a) 0 dvs. det skal søkes etter et miimum, 2. J r (a) = 0 hvis og bare hvis a t y > b y, 3. J r (a) de f = 0 hvis Y = /0. Gradiete til kriteriefuksjoe med hesy på vektvektore blir: a k+1 = a k + ρ k y Y k b at k y a J r (a) = y Y a t y b y 2 y slik at gradietsøkalgoritme (de såkalte Relaksasjosalgoritme) blir: a 1 = vilkårlig startvektor y 2 y, Y k = {y : ak t y b} Relaksasjosalgoritme, mes de tilsvarede ekeltsamplealgoritme (Relaksasjosregele) blir: a 1 = vilkårlig startvektor a k+1 = a k + ρ b at k yk y k 2 yk, der ρ k = ρ = kostat og ak t yk b Relaksasjosregele. Figur 53 illustrerer oppdaterige i relaksasjosregele. Samplet y k i figure er feilklassifisert av a k fordi ak t yk < b. Skal da fie det puktet a på hyperplaet a t y k = b som er ærmest a k. Dette puktet er gitt ved a = a k + r k avstade fra a k til hyperplaet. Dette gir: a t y k = a t k yk + r k (y k ) t y k yk b = a t k yk + r k y k (side a t y k = b) r k = b at k yk y k y k y k der r k er 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 79

80 Uiversitetsseteret på Kjeller a t y k = b y k a k a Figur 53: Oppdaterige i relaksasjosregele. Vektvektore a k oppdateres til a k+1 ved å gi et tillegg ρr k i retig mot hyperplaet. Oppdaterige i relaksasjosregele ka derved skrives som: y k a k+1 = a k + ρr k y k. Med ρ = 1 vil vektvektore flyttes direkte til hyperplaet slik at speige forbudet med ulikhete a t k yk < b fjeres, dvs. avslappig (relaksasjo). Med ρ > 1 flyttes vektvektore til adre side av hyperplaet (overrelaksasjo). Med ρ < 1 flyttes vektvektore ærmere, me ikke helt frem til hyperplaet (uderrelaksasjo). Det ka vises at relaksasjosregele (og derved også relaksasjosalgoritme) kovergerer til e løsigsvektor for lieært separable sett dersom 0 < ρ < Ikke-separable problemer Perceptro- og relaksasjosmetodee søker å tilfredsstille et sett av ulikheter gitt ved feilklassifiserte sampler. Kokret søker disse algoritmee å fjere feilklassifiseriger ved å justere på vektvektore, og kalles derfor med e fellesbetegelse feilrettigsmetoder. Metodee kovergerer til løsigsvektorer for lieært separable problemer, me ka også gi gode resultater på 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 80

81 Uiversitetsseteret på Kjeller ikke-separable problemer, spesielt hvis det er lite overlapp mellom klassee. Side algoritmee ikke vil kovergere på slike problemer (det fies ikke løsigsvektorer), må det spesifiseres egede stoppkriterier, f.eks. stopp etter et maksimalt atall iterasjoer eller etter et gitt atall iterasjoer ute oe forbedrig av resultatee. I stedet for å bruke de siste vektvektore, med fare for at iterasjosprosesse har stoppet med e ugustig vektvektor, ka ma midle et atall av de siste vektvektoree før algoritme stopper. Et svært effektivt alterativ er å ta vare på de beste vektvektore så lagt i iterasjosprosesse, og velge dee som edelig vektvektor år prosesse omsider stopper (de såkalte Pocket-algoritme). Det må også gjøres et foruftig valg av ikremet, f.eks. lagsomt avtagede ρ k, og startvektor a 1. Algoritme ka også kjøres flere gager med ulike startverdier, i håp om å komme ær det globale miimum for kriteriefuksjoe på det aktuelle treigssettet. Figur 54 viser et eksempel på bruk av Perceptro-algoritme på et ikke-separabelt datasett. Desisjosgresee (de rette lijee) etter heholdsvis 10 og 30 iterasjoer er plottet. Figur 54: Eksempel på bruk av Perceptro-algoritme (sammesatt oppdaterig) på et ikke-separabelt datasett. Desisjosgresee (de rette lijee) etter heholdsvis 10 og 30 iterasjoer er vist. Etter 10 iterasjoer er løsige fremdeles dårlig, med e desisjosgrese som deler de ee klasse i to, mes løsige etter 30 iterasjoer syes å være ær det optimale på dette datasettet. 5.7 Miste kvadraters metode Øsker her å fie e vektvektor a som løsig av likigssystemet: a t y i = b i der b i > 0, i =,1,..., 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 81

82 Uiversitetsseteret på Kjeller i håp om at de fleste produkter da vil bli positive, dvs. riktig klassifisert av vektvektore a. Defierer e datamatrise Y og e vektor av margiverdier b: y t 1 Y =. y t ( ˆ d ) og b = Hver lije i Y ieholder e utvidet egeskapsvektor. Øsket om å fie e vektvektor som gjør alle produkter med egeskapsvektorer positive, leder da til følgede likigssystem: b 1. b. Y a = b som skal løses med hesy på a. Dersom Y er kvadratisk (dvs. ) og Y = 0 gir dette løsige: a = Y 1 b. Valigvis er imidlertid >> ˆ d, slik at likigssystemet er overbestemt og ige eksakt løsig eksisterer. Her søkes i stedet e miste kvadraters løsig der legde av feilvektore: Dette leder til kriteriefuksjoe: e = Y a b J s (a) = e 2 = Y a b 2 = er så lite som mulig. i=1 (a t y i b i ) 2, som skal miimaliseres mht. a. Dette ka gjøres direkte, dvs. ved de såkalte pseudoiverse løsigsmetode eller ved hjelp av gradietsøk som tidligere. Disse to fremgagsmåtee behadles hver for seg i det følgede Pseudoivers metode E ødvedig betigelse for miimum av kriteriefuksjoe J s (a) er at gradiete er ull, dvs: J s (a) = 2 i=1 (a t y i b i )y i = 2Y t (Y a b) = 0 Y t Y a = Y t b der Y t Y er kvadratisk ( ˆ d ˆ d). Atar å Y t Y = 0 (som oftest tilfelle). Dette gir løsige: der a = (Y t Y ) 1 Y t b = Y b Y = (Y t Y ) 1 Y t er de pseudoiverse til Y. E miste kvadraters løsig vil imidlertid alltid eksistere, selv om Y t Y er sigulær. Se lærebøkee for detaljer. Løsige ovefor avheger av hvilket valg som gjøres for b, og vil ikke ødvedigvis være e separerede vektor, selv om datasettet er lieært separabelt. Håpet er å fie e god løsig, ete settet er separabelt eller ikke-separabelt. Et valig valg for margivektore er b = [1,...,1] t, der poeget er at alle b ee er like. E ae verdi e é vil bare føre til e skalerig av a. Et eksempel på desisjosgrese for et todimesjoalt, ikke-separabelt toklasseproblem, oppådd med pseudoiversmetode og dette valget av margivektor, er vist i figur LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 82

83 Uiversitetsseteret på Kjeller Figur 55: Eksempel på bruk av miste kvadraters metode (Pseudoivers løsigsmetode) på samme ikke-separable datasett som i figur Alterativt valg av margivektor Starter med å dele treigssettet (beståede av de opprielige x-vektoree) i to delmegder ut fra klassetilhørighet: X = {x 1, x 2,..., x }{{} } = X }{{} 1 + X dvs. et treigssett med 1 sampler fra ω 1 og 2 sampler fra ω 2. Datamatrise Y ka da uttrykkes ved hjelp av de opprielige egeskapsvektoree på følgede måte: 1 x t 1 y1 t.. 1 x t [ ] Y =. = 1 u1 X y t 1 x t = 1 der u 1 +1 u 2 X i = i, i = 1,2. 1 x t Vektvektore ka tilsvarede uttrykkes vha. de opprielige vektvektore og skalarvekte (se tidligere): [ ] w0 a =. w Det valget for margivektore b som skal brukes her er: [ 1 ] u 1 b = 2 u 2 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 83

84 Uiversitetsseteret på Kjeller slik at klasse med færrest represetater i treigssettet vil vektlegges sterkere ved å få e større verdi på sie b er. Dette vil ormalt gi e bedre løsig dersom treigssettet er ubalasert mht. atall represetater fra de to klassee. Likigssystemet: ka da skrives som: [ u 1 t u2 t ][ u1 X 1 X1 t X2 t u 2 X 2 der: Y t Y a = Y t b ][ w0 [ ( 1 m m 2 ) t ( 1 m m 2 ) S w + 1 m 1 m1 t + 2m 2 m2 t m i = 1 i x X i x og S w = w ] 2 i=1 = [ u t 1 u t 2 X t 1 X t 2 ][ w0 ] [ ] 1 u 1 2 u 2 ] [ ] 0 = w (m 1 + m 2 ) x X i (x m i )(x m i ) t. Her er m i middelet av samplee i klasse ω i (sample mea), mes matrise S w er et mål på de totale spredige (avviket fra middelvektoree) av samplee iefor hver klasse (withi class scatter). Dette likigssystemet gir løsige: w 0 = m t w der m = ( 1 m m 2 )/ (middel over begge klasser), og w = αs 1 w (m 1 m 2 ) (se lærebøkee for detaljee i utledige). Derved er vektvektore a bestemt. Diskrimiatfuksjoe blir da: [ ] 1 g(x) = a t y = [w 0, w t ] = w t (x m) x som gir desisjosregele (Fishers klassifikator): Velg ω 1 hvis w t (x m) > 0, ellers ω 2. Vektvektore w kalles Fishers lieære diskrimiat (se avsitt 6.5.3). Produktet w t x ka betraktes som e projeksjo av det opprielige d-dimesjoale egeskapsrommet ed i et édimesjoalt uderrom for klassifiserige, som består i å sammelike produktet med terskelverdie w 0 = m t w Løsig ved gradietsøk E miste kvadraters løsig ka også fies ved gradietsøk: J s (a) = 2Y t (Y a b) Dette gir algoritme: } a 1 = vilkårlig startvektor a k+1 = a k ρ k Y t (Y a k b), k = 1,2,... (oppdaterig for hele treigssettet). 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 84

85 Uiversitetsseteret på Kjeller Dee algoritme ka vises å kovergere til e vektor a som tilfredsstiller Y t (Y a b) = 0, dersom: ρ k = ρ 1 /k med ρ 1 > 0. Dette gir e miste kvadraters løsig selv om matrise Y t Y er sigulær. E tilsvarede ekeltsampleregel, Widrow-Hoff algoritme, er gitt ved: } a 1 = vilkårlig startvektor a k+1 = a k + ρ k (b k ak t yk )y k (oppdaterig for hvert sample), k = 1,2,... I disse algoritmee vil alle sampler føre til e justerig av vektvektore så lege a t k yk b k. Avtagede ρ k gir geerelt koverges til e vektvektor der gradiete er ull, f.eks. ρ k = ρ 1 /k. 5.8 Geeraliserig til flere klasser - Kesslers kostruksjo Treigsalgoritmee for lieære diskrimiatfuksjoer har så lagt blitt beskrevet for toklasseproblemet, me metodee ka geeraliseres til et vilkårlig atall klasser. Side feilrettigsmetodee og miste kvadraters metode baserer seg på forskjellige prisipper, dvs. løsig av et sett av ulikheter vs. løsig av et overbestemt likigssystem, er også geeraliserigsmetodee forskjellige, og blir behadlet hver for seg i de følgede avsittee Geeraliserig av feilrettigsmetodee - Kesslers kostruksjo Dee metode ka brukes til å geeralisere feilrettigsmetodee fra to til flere klasser. Ata først treigssettet beståede av utvidede egeskapsvektorer: Y = {y 1, y 2,... }{{}}{{}......, y... } = Y Y c }{{} 1 2 med i sampler fra hver klasse, der i = 1,...,c. Settet er lieært separabelt hvis det eksisterer vektvektorer âa 1,...,âa c slik at âa t i y k > âa t j y k for alle y k Y i og for alle i, j der j i. Dette gir oss da et sett av diskrimiatfuksjoer som klassifiserer alle treigssamplee perfekt. Ata y Y 1 : dvs. c 1 ulikheter skal tilfredsstilles. Ifører e c ˆ d-dimesjoal vektvektor: Øsker da at âa t 1 y âat jy > 0, j = 2,...,c y Y 1 c α = [ a t 1, at 2,..., at c og c 1 samplevektorer med c dˆ kompoeter: y y y 0 y y η 12 =, η 13 =,..., η 1c = y 0 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 85 ] t

86 Uiversitetsseteret på Kjeller Udervektoree i disse utvidete egeskapsvektoree har alle dimesjo d ˆ (0 symboliserer e vektor beståede av dˆ uller, dvs. 0 = [0,...,0] t ). Med disse defiisjoee ka settet av ulikheter for det valgte samplet y Y 1 skrives som: ˆα t η 1 j = âa t 1 y âat jy > 0, j = 2,...,c For et sample y fra vilkårlig klasse ω i øsker vi geerelt: Her er: a 1 α =. a c a t i y > a t jy der j i år y Y i. og η i j = ỵ i.. y j.. 0 c j = 1,...,c, j i der udervektore y står i posisjo i, mes y står i posisjo j. Problemet består da i å fie e vektor α som tilfredsstiller: α t η i j > 0 i, j, j i Mageklasseproblemet er da omformulert som et toklasseproblem (med é ekelt diskrimiatfuksjo), der dimesjoe på egeskapsrommet er multiplisert med c og atall sampler med c 1. Fast ikremet regele for to klasser ka skrives som: Dee ka å umiddelbart geeraliseres til: a(1) = vilkårlig a(k + 1) = a(k) + y k α(1) = vilkårlig α(k + 1) = α(k) + η k i j der ηi k j er et feilklassifisert sample med hesy til α(k), dvs. α t (k)ηi k j 0. Oppdaterige i de geeraliserte algoritme ka skrives ut som: a 1 (k + 1) a 1 (k).. 0. a i (k + 1) a i (k) y k. =. +. a j (k + 1) a j (k) y k... a c (k + 1) a c (k) 0 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 86

87 Uiversitetsseteret på Kjeller der samplet y k fra klasse ω i er feilklassifisert til klasse ω j. De geeraliserte fast ikremet regele ka da skrives som: a 1 (1),..., a c (1) = vilkårlige startvektorer a i (k + 1) = a i (k) + y k a j (k + 1) = a j (k) y k k = 1,2,... a l (k + 1) = a l (k), l i, j I dee oppdaterige edres ku vektvektoree til de klasse det feilklassifiserte samplet faktisk tilhører, og de klasse det er blitt feilaktig klassifisert til. Vektvektoree for de øvrige klassee edres ikke. De adre feilrettigsmetodee ka geeraliseres på tilsvarede måte Geeraliserig av miste kvadraters metode For to klasser øsker ma her å oppfylle likigssystemet a t y = b for alle sampler y i treigssettet. Ved å oppheve fortegskovesjoe (foreklige som ble brukt uder behadlige av toklasseproblemet) og for ekelthets skyld velge b = 1, ka likigssystemet skrives som: a t y = 1 år y Y 1 a t y = 1 år y Y 2 I mageklassetilfellet ka dette omformuleres til: } ai t y = 1 år y Y i ai t, i = 1,...,c y = 0 år y / Y i E eksakt løsig av dette likigssystemet ville gitt vektvektorer som tilfredsstiller: a t i y > a t jy j i år y Y i som er ettopp det ma øsker å oppå. Et slikt sett av vektvektorer vil da klassifisere alle treigssampler riktig, me side likigssystemet er overbestemt må ma, som i toklassetilfellet, øye seg med e miste kvadraters løsig. Ifører å datamatrise Y for mageklasseproblemet: Y 1 Y 2 y1 t Y =. =. Y c y t ( ˆ d ) og e matrise A der søylee er vektvektoree for hver av klassee: A = [a 1, a 2,..., a c ] ( ˆ d c). 5 LINEÆRE OG GENERALISERTE DISKRIMINANTFUNKSJONER 87

88 Uiversitetsseteret på Kjeller I tillegg defieres e matrise B der søylee ieholder margiee for hver klasse: B B 2 B =. ( c) der B i = ( i c), B c dvs. e matrise med eere i søyle r. i og uller ellers. Likigssystemet ka da skrives på forme: YA = B som skal løses med hesy til vektmatrise A. Likigssystemet er som evt ormalt overbestemt, slik at det ikke eksisterer oe eksakt løsig. E miste kvadraters løsig fies ved å miimalisere: Tr{(YA B) t (YA B)} = c i=1 Y a i b i 2 (ka vises). Dette svarer til å miimalisere hvert ledd i summe, som for toklasseproblemet, dvs: a i = Y b i, i = 1,...,c eller A = Y B. Her er Y = (Y t Y ) 1 Y t de pseudoiverse til Y, som tidligere. 6 Feilrateestimerig og evaluerig av klassifikatorer Til å har ulike metoder for opptreig av klassifikatorer blitt behadlet, både statistiske (parametriske og ikke-parametriske metoder) og ikke-statistiske metoder (lieære og geeraliserte diskrimiatfuksjoer). Dette kapitlet tar for seg evaluerig av klassifikatorer og problemstilliger kyttet til robusthet. Temaer som behadles er estimerig av feilrate for e gitt klassifikator, dimesjoalitetsproblemer og ulike måter å omgå eller redusere problemer med overtreig av klassifikatorer. 6.1 Feilrateestimerig Ata at vi har tret opp e klassifikator vha. e av tekikkee beskrevet tidligere. Spørsmålet er da: Er dee klassifikatore god ok? Fies adre klassifikatorer som er bedre? Det er således et behov for å kue bestemme feilrate til klassifikatore, dvs. sasylighete for at de klassifiserer et vilkårlig objekt feil. To hovedmetoder er aktuelle. Disse beskrives i det følgede. 6 FEILRATEESTIMERING OG EVALUERING AV KLASSIFIKATORER 88

89 Uiversitetsseteret på Kjeller Parametrisk metode For et toklasseproblem ka feilrate uttrykkes ved: P(e) = P(ω 1 ) p(x ω 1 )dx + P(ω 2 ) R 2 p(x ω 2 )dx R 1 (28) der R 1 og R 1 er desisjosregioer gitt av klassifikatore. Feilrate ka da estimeres ved å sette i estimater for ápriori sasylighetee og tetthetsfuksjoee, f.eks. p(x ω i ) = N( ˆµ i, ˆΣ i ) der ˆµ i og ˆΣ i er bestemt fra treigssettet. Dee metode tederer til å gi et overoptimistisk resultat, fordi de samme atakelser om statistikke gjere også er beyttet ved treige av klassifikatore. De parametriske modelle ka i seg selv også være tvilsom. I tillegg ka de umeriske beregige av itegralee i uttrykket for feilrate bli svært komplisert, selv om tetthetsfuksjoee er kjete Empirisk metode Det er mest valig å gjøre feilrateestimerige ved hjelp av et uavhegig testsett med sampler der klassetilhørighete er kjet, dvs. som for treigssettet. Feilrate ka da uttrykkes ved: ˆP(e) = k Atall feilklassifiseriger =. Totalt atall sampler Dette er et maksimum likelihood estimat av feilrate, der kofidesitervaller er kjet (se lærebøker). Dilemma: Ma øsker flest mulig sampler i både treigssett og testsett, mes det totale atall merkede sampler valigvis er mye midre e ma kue øske. Det totale settet av merkede sampler må derfor fordeles på de to delmegdee på e gustig måte. Valige løsiger: Dele settet tilfeldig (eller systematisk) i to omtret like store deler. Gjeomføre prosesse oppdelig, treig, feilrateestimerig flere gager med forskjellige oppdeliger, og midle estimatee av feilrate til slutt. Leave-oe-out metode. Her beyttes ett sample til testig av klassifikatore, som trees opp på de øvrige 1 samplee i det totale settet. Dee prosesse gjetas gager, der et ytt sample utelates hver gag. Feilrate fies ved å summere atall feilklassifiseriger i de testee som er foretatt. Når egeskapskombiasjo og klassifikatortype er valgt ut fra tester som ovefor, foretas edelig treig vha. hele datasettet. 6.2 Dimesjoalitetsproblemer Det ka ofte være behov for titals eller hudretalls egeskaper, der hver egeskap forhåpetligvis gir bidrag til klassifikatores diskrimierigseve. Feilrate for to klasser er som evt (se 6 FEILRATEESTIMERING OG EVALUERING AV KLASSIFIKATORER 89

90 Uiversitetsseteret på Kjeller likig 28) gitt ved: P(e) = P(ω 1 ) p(x ω 1 )dx + P(ω 2 ) R 2 p(x ω 2 )dx R 1 der R 1 og R 1 er desisjosregioer som vi her atar er gitt ut fra miimum feilrate prisippet, dvs. ved at vi velger klasse svarede til maksimum á posteriori sasylighet. Ata å at statistikke i dette toklasseproblemet er gitt ved: P(ω 1 ) = P(ω 2 ) = 1/2 p(x ω i ) = N(µ i,σ i ),i = 1,...,c Σ i = Σ,i = 1,...,c. Feilrate blir da: P(e) = 1 2π r/2 e 1 2 u2 du (dvs. Bayes optimale feilrate) der: r 2 = (µ 1 µ 2 ) t Σ 1 (µ 1 µ 2 ) (Mahalaobis avstad) Feilrate vil derved avta med økede r. For uavhegige egeskaper vil kovariasmatrise være diagoal: Σ = diag(σ 2 1,...,σ 2 d ) der σ1 2,...,σ2 d er elemetee lags diagoale (variasee til hver ekelt egeskap), mes elemetee uteom diagoale er ull. Mahalaobisavstade blir derved: r 2 = d (µ i1 µ i2 ) 2 i=1 σi 2 Ikluderig av flere uavhegige egeskaper der µ i1 µ i2 i egeskapsvektore, vil derved gi økt r 2, og derved redusert P(e), dvs. P d+1 (e) P d (e). Dette er imidlertid et teoretisk resultat som forutsetter kjet statistikk! I praksis er tetthetsfuksjoee og ápriorisasylighetee ukjete og må estimeres ved hjelp av et edelig treigssett. Estimert feilrate som fuksjo av dimesjoe på egeskapsrommet vil da typisk avta opp til e gitt dimesjo, og deretter øke. Dette er et teg på overtreig, der klassifikatore blir stadig mer spesialisert til gjekjeig av treigssamplee, og mister eve til å geeralisere til ye data. Feilrate estimert ved hjelp av treigssettet vil derimot som regel gå mot ull. Dette er illustrert i figur 56, og beskrives ærmere uder Problemmidlet feilrate i lærebøkee. 6.3 Estimerig av kovariasmatriser Estimatet: ˆΣ i = 1 (x k ˆµ i )(x k ˆµ i ) t ieholder d(d + 1)/2 uavhegige parametre, side ˆΣ i er symmetrisk. Videre er ˆΣ i sigulær hvis d, og det tregs mist = d + 1 sampler for å sikre at ˆΣ i > 0. Dette setter greser for hvor stor d ka være. Det totale atall parametre ka reduseres ved å ata samme ˆΣ for alle klasser (dvs. ˆΣ i = ˆΣ,i = 1,...,c). Ma ka også ata ˆΣ i diagoal (ved å ulle ut ikke-diagoale elemeter) eller ulle ut små elemeter. Det er også mulig å oppå et mer robust estimat av 6 FEILRATEESTIMERING OG EVALUERING AV KLASSIFIKATORER 90

91 Uiversitetsseteret på Kjeller Feilrate Testsett Treigssett d Figur 56: Estimert feilrate for treigssett og testsett som fuksjo av dimesjoe d på egeskapsrommet. Feilrate for testsettet vil ofte begye å øke med voksede d. Dette er et teg på overtreig. kovarasmatrise ved å itrodusere á priori kuskap i form av e iitiell kovariasmatrise Σ i0 og beytte Bayesisk estimerig. Alterativt ka pseudo-bayesisk estimerig beyttes, der estimatet av kovariasmatrise betraktes som et veiet middel av á priori iformasjo og sampleiformasjo: λσ i0 + (1 λ)ˆσ i Slike suboptimale løsiger ka ofte gi bedre resultat (ref. aalogi til kurvetilpassig av måledata). 6.4 Lieær separabilitet Ata sampler av dimesjo d i såkalt geerell posisjo, dvs. ige delmegde av d +1 sampler skal falle i et d 1 dimesjoalt uderrom. For d = 2 betyr dette at ige delmegde av 3 sampler skal ligge på lije. Dette er illustrert i figur 57. Videre atas samplee å komme fra to klasser, ω 1 og ω 2. Det er 2 mulige måter å fordele de samplee på disse to klassee. La fuksjoe f (,d) være de adele (fraksjoe) av disse oppdeligee som daer lieært separable sett, slik at klassee ka skilles med et hyperpla. Det ka da vises at: 1 d + 1 f (,d) = 2 2 d i=0 ( ) 1 i > d FEILRATEESTIMERING OG EVALUERING AV KLASSIFIKATORER 91

92 Uiversitetsseteret på Kjeller Figur 57: Datasett med sampler i geerell posisjo (ige delmegde av d + 1 sampler skal ligge i et d 1 dimesjoalt uderrom). Figur 58 viser at alle sett der d + 1 er separable. Selv for = 2(d + 1) er halvparte av settee (oppdeligee) separable. Ma må ha >> d + 1 for å ugå e slik tilfeldig lieær separabilitet, som bare er et resultat av at samplesettet er lite i forhold til dimesjoe på egeskapsrommet og ikke et resultat av at tetthetsfuksjoee for de to klassee er godt adskilt (lite overlapp). Selvsagt er det fit om treigssettet er lieært separabelt, me da skal det være et resultat av e reell separasjo mellom klassee. De aller fleste oppdeligee vil svare til sampelsett med svært dårlig separasjo, likevel blir e stor del av settee separable år atall sampler er for lavt. For å sikre e robust klassifikator bør altså dimesjoe til egeskapsrommet være lav i forhold til størrelse på treigssettet. Dette setter greser for hvor mage egeskaper som ka brukes ute å risikere overtreig av klassifikatore. E overtret klassifikator vil være dårlig til å klassifisere ye, ukjete sampler, selv om de klassifiserer treigssamplee perfekt (dårlig geeraliserig). 6.5 Aktuelle løsiger Skal her se på oe metoder for å omgå eller redusere problemer med overtreig: Utvelgig av de beste kadidatee fra et stort sett av mulige egeskaper, Redesig av egeskapsuttrekkere, Trasformasjo av egeskapsrommet til lavere dimesjo. 6 FEILRATEESTIMERING OG EVALUERING AV KLASSIFIKATORER 92

93 Uiversitetsseteret på Kjeller Figur 58: Adele lieært separable oppdeliger som fuksjo av og d. Kort om hver av disse mulighetee i det følgede Egeskapsutvelgig E ekelt egeskaps eve til å diskrimiere mellom klassee ka vurderes mauelt, f.eks. ut fra édimesjoale histogrammer. Ulike separasjosmål ka også beyttes for å automatisere ragerigs- og utvelgigsprosesse. Det fies e rekke kriteriefuksjoer for å måle separasjo mellom klasser, de fleste for to klasser, me også oe for mage klasser. Her skal bare eves to eksempler på avstadsmål for toklasseproblemer: og J 1 (ω 1,ω 2 ) = [p(x ω 1 ) p(x ω 2 )]l p(x ω 1 ) p(x ω 2 ) dx (Diverges) J 2 (ω 1,ω 2 ) = l p(x ω1 )p(x ω 2 )dx (Bhattacharyya distase). Estimater av tetthetsfuksjoee (parametriske eller ikkeparametriske) igår i beregige av slike separasjosmå, som typisk er defiert slik at de har høy verdi for god separasjo og verdie J 1 (ω 1,ω 2 ) = 0 ved fullstedig overlapp mellom klassee. De ekleste løsige består i å berege separasjoe for é og é egeskap om gage, med tetthetsfuksjoee represetert ved édimesjoale histogrammer. Deretter rageres egeskapee mht. separasjosmålet, og et atall av de beste kadidatee velges ut. 6 FEILRATEESTIMERING OG EVALUERING AV KLASSIFIKATORER 93

94 Uiversitetsseteret på Kjeller Figur 59: Figure viser sampler fra to klasser med stor overlapp for hver av egeskapee x 1 og x 2, år egeskapee brukes ekeltvis. I kombiasjo gir disse egeskapee derimot et lieært separabelt sett. De stiplede lije er e mulig separerede desisjosgrese i dette tilfellet. Fare med dee fremgagsmåte er at gode kombiasjoer av egeskaper ka gå tapt. Figur 59 viser et eksempel med to egeskaper som hver for seg er dårlige, me som samme gir perfekt separasjo av klassee i datasettet. For å ugå tap av slike gode muligheter bør egeskapee vurderes i kombiasjo med hverader. Et fullstedig søk over alle mulige kombiasjoer er imidlertid umulig, selv for et moderat atall egeskapskadidater. Adre søkemetoder må derfor beyttes. E mulighet er et suboptimalt søk, der ma først fier de beste ekeltegeskape. Dee velges ut, og de resterede d 1 kadidatee evalueres i kombiasjo med de som allerede er valgt ut. De beste kadidate (og derved forhåpetligvis de beste kombiasjoe av to egeskaper) velges igje ut, og de øvrige d 2 udersøkes videre i kombiasjo med de to som allerede er valgt ut. Dette gjetas til det øskede atall d < d kadidater er valgt ut. Dee metode gir imidlertid ige garati for at de beste kombiasjoe er fuet. Et optimalt søk, der beste løsig i hehold til et gitt separasjosmål blir fuet, ka utføres ved såkalte Brach ad Boud tekikker (se f.eks. [2]). 6 FEILRATEESTIMERING OG EVALUERING AV KLASSIFIKATORER 94

95 Uiversitetsseteret på Kjeller Redesig av egeskapsuttrekkere Atall egeskaper ka også reduseres ved å fie kombiasjoer av kadidater som med fordel ka slås samme til e y størrelse. Figur 60 viser et eksempel på et todimesjoalt datasett fra to klasser. Begge egeskapee x 1 og x 2 viser ekeltvis forholdsvis stor overlapp mellom klassee (fordelige til de ee klasse ligger midt ie i fordelige til de adre). Kombiasjoe av x 1 og x 2 gir imidlertid et datasett som er kvadratisk separabelt, dvs. separabelt vha. e kvadratisk diskrimiatfuksjo (i figure ka f.eks. e sirkulær desisjosgrese brukes til å skille klassee. De kombierte egeskape x 3 = x1 2 + x2 2 gir imidlertid et lieært separabelt sett, der klassee i dette eksemplet ka skilles med e terskel T på de ye x 3 -akse, dvs. e eklere klassifikator. Figur 60: Figure til vestre viser et datasett der klassee ka separeres med e kvadratisk diskrimiatfuksjo (f.eks. e sirkulær desisjosgrese). Ved å kombiere de to egeskapee x 1 og x 2 ka problemet reduseres til et édimesjoalt lieært separabelt tilfelle, der klassee ka skilles ved tersklig av de kombierte egeskape x Lieære trasformasjoer De opprielige egeskapsvektoree x ka trasformeres til lavere dimesjo vha. projeksjoe: a1 t y = Ax der A =. og d < d. Her er y de ye egeskapsvektore i det d -dimesjoale y-rommet, fuet ved å projisere x ed på aksee gitt ved vektvektoree a 1, a 2,..., a d. Trasformasjosmatrise A fies fra treigssettet, og bør være slik at de diskrimierede iformasjoe i størst mulig grad blir bevart, mes redudat iformasjo fjeres. To muligheter beskrives her. Prisipalkompoetaalyse (PCA) Her fies vektvektoree ved å løse egeverdiproblemet: a t d ˆΣa i = λ i a i,i = 1,...,d 6 FEILRATEESTIMERING OG EVALUERING AV KLASSIFIKATORER 95

96 Uiversitetsseteret på Kjeller der estimatet av kovariase er: ˆΣ = 1 (x k ˆµ)(x k ˆµ) t. Legg merke til at dee matrise er estimert for hele treigssettet (alle klasser uder ett). Forøvrig er egevektoree ibyrdes ortogoale og egeverdiee er større eller lik ull: a t i a j = 0, i j λ i 0 Egeverdiee sorteres slik at λ 1 λ 2,..., λ d 0, mes de respektive egevektoree ormaliseres slik at a i = 1. De første d egevektoree i de sorterte liste utgjør lijee i trasformasjosmatrise A. Egevektoree represeterer hovedaksee i hyperellipsoidee med: r 2 = (x ˆµ) t ˆΣ 1 (x ˆµ) = kostat dvs. kostat Mahalaobisavstad. Se figur 61. Ved å velge aksee med største egeverdier oppås e projeksjo ed i et uderrom med mest mulig spredig i datasettet. Håpet er at størst mulig separasjo mellom klassee er å fie i det samme uderrommet. Svakhete med PCA er at de kjete klassetilhørighete til samplee ikke utyttes. a 1 a 2 Figur 61: Datasett, ellipse med kostat Mahalaobisavstad og egevektoree a 1 og a 2 til kovariasmatrise. Egevektoree er ortogoale. 6 FEILRATEESTIMERING OG EVALUERING AV KLASSIFIKATORER 96

97 Uiversitetsseteret på Kjeller Fishers lieære diskrimiat Fishers lieære diskrimiat (se avsitt 5.7.2) er et eksempel på e lieær trasformasjo fra et geerelt d-dimesjoalt rom til et é-dimesjoalt uderrom. Akse w som defierer uderrommet, er gitt ved: w = γs 1 W (m 1 m 2 ) der m i, i = 1,2 er samplemidlee for hver klasse og S W = 2 i=1 x X i (x m i )(x m i ) t er de såkalte spredigsmatrise ie klasser (se tidligere). Dee diskrimiate utytter klasseiformasjoe til å fie retige w slik at spredige mellom klassee er maksimalisert. Figur 62 er e illustrasjo av Fishers lieære diskrimiat (vektore w) bereget for et todimesjoalt datasett med to klasser. Projeksjo av samplee ed i det édimesjoale uderrommet gitt ved retige til w gir perfekt separasjo mellom klassee, på tross av at det er stor overlapp mellom klassee i hver ekelt av de to egeskapee x 1 og x 2. I dette eksempelet er iformasjo som bidrar til å skille mellom klassee i stor grad tatt vare på ved dee lieære trasformasjoe, mes redudat (overflødig) iformasjo, gitt ved avstade fra samplet til de stiplede lije, er fjeret. Metode ka geeraliseres slik at dimesjoe på uderrommet er større e é [3]. Klassifikatorer som er treet opp i et slikt laveredimesjoalt rom ka, som evt, ofte vise seg å være mer robuste (geeralisere bedre) e klassifikatorer som er tret opp i et høydimesjoalt rom. Her er fare for overtreig større, slik at det ofte vil være behov for et mye større treigssett for å gi tilsvarede grad av robusthet med hesy til ye, ukjete sampler. 7 Ikke-ledet lærig Dette kapitlet tar for seg metoder som ka brukes år det ma har av treigssampler ikke er merket med klassetilhørighet. Ikke-ledet lærig går ut på tree klassifikatorer ute slike merkede treigssampler. I oe tilfeller lar det seg faktisk gjøre å estimere tetthetsfuksjoee til de ekelte klassee, og derved kue kostruere e klassifikator. Det beslektede temaet klygeaalyse (se kapittel 8) dreier seg hovedsakelig om å fie struktur i et ukjet datasett. Målet er å dele datasettet i i et atall aturlige klyger ut fra ibyrdes likhet (similaritet) eller ærhet i egeskapsrommet. Klygee behøver ikke ødvedigvis represetere klasser eller uderklasser. Klygeaalyse ka også brukes på merkede datasett, og da ka sammehege mellom klyger og klasser gi verdifull isikt i klassifiserigsproblemet. Mer om dette tema i este kapittel. I ikke-ledet lærig består altså problemet i å tree e klassifikator ved hjelp av et treigssett med umerkede sampler (dvs. klassetilhørighete til samplee er ukjet). Behov for dette ka ma bl.a. ha år: merkede sampler ikke er tilgjegelig, det er kostbart å merke sampler, og år statistikke i problemet edres over tid slik at klassifikatore må være dyamisk. 7 IKKE-LEDET LÆRING 97

98 Uiversitetsseteret på Kjeller w Figur 62: Fishers lieære diskrimiat for datasett med to klasser. Samplee projiseres ed i et édimesjoalt uderrom gitt ved vektore w, der separasjoe mellom klassee (her gitt som avstade mellom samplemidlee dividert på spredige ie klassee) er maksimalisert. Vi skal her se på parametriske metoder, ærmere bestemt maksimum likelihood metode. Metode i seg selv er akkurat som i ledet lærig; forskjelle er at fordelige som skal estimeres i dette tilfellet er e såkalt bladigstetthet der alle klasser er ikludert. Dette gir mer kompliserte beregiger e for ledet lærig, me det er mulig å komme frem til e løsig. Vi skal se på et par tilfeller. 7.1 Bladigstetthet med ukjet parametervektor I dette tilfellet atas følgede: Atall klasser c er kjet, Klassees á priori sasyligheter P(ω i ), i = 1,...,c er kjete, Tetthetsfuksjoee p(x ω i, θ i ), i = 1,...,c har kjet form og er bestemt av θ i. Videre er: θ = (θ t 1,..., θ t c) t de ukjete parametervektore og X = {x 1,..., x } treigssett av sampler med ukjet klassetilhørighet. 7 IKKE-LEDET LÆRING 98

99 Uiversitetsseteret på Kjeller Bladigstetthete som skal estimeres er: p(x θ) = c p(x ω i, θ i )P(ω i ). i=1 Her er p(x ω i, θ i ) kompoettetthetee og P(ω i ) bladigsparametree. Parametervektore θ, som består av kompoetee θ 1,..., θ c, skal estimeres ved hjelp av treigssettet X. Dette er mulig bare dersom p(x θ) er idetifiserbar, dvs. at θ er uik. Her forutsettes derfor idetifiserbarhet. Dette er som oftest tilfelle for bladiger av valige (kotiuerlige) tetthetsfuksjoer, mes diskrete fordeliger ofte ikke er idetifiserbare. Likelihoodfuksjoe er: p(x θ) = Log-likelihoodfuksjoe blir da: p(x k θ) (som tidligere). L (θ) = l p(x θ) = Ved isettig for bladigstetthete blir gradiete: l p(x k θ). θ i L (θ) = = = θ i p(x k θ) [ ] 1 c p(x k θ) θ i p(x k ω j, θ j )P(ω j ) j=1 P(ω i ) p(x k θ) θ i p(x k ω i, θ i ), der de siste overgage er mulig side θ i og θ j er fuksjoelt uavhegige for i j. Isettig av Bayes regel: P(ω i x k, θ) = p(x k ω i, θ i )P(ω i ) p(x k θ) gir da: θ i L (θ) = = P(ω i x k, θ) θ i p(x k ω i, θ i ) p(x k ω i, θ i ) P(ω i x k, θ) θ i l p(x k ω i, θ i ). E ødvedig betigelse for maksimum av L er derved gitt ved likigssystemet: P(ω i x k, θ) θ i l p(x k ω i, θ i ) = 0, i = 1,...,c. 7 IKKE-LEDET LÆRING 99

100 Uiversitetsseteret på Kjeller Eksempel - Multivariate ormalfordeliger Atar at fordeligee er gitt ved N(µ i,σ i ),i = 1,...,c der parametervektore µ = (µ t 1,..., µ t c )t er ukjet. Da blir: slik at: l p(x ω i, µ i ) = 1 2 (x µ i ) t Σ 1 i (x µ i ) l{(2π) d/2 Σ i 1/2 } Isettig i likigssystemet gir da: µi l p(x ω i, µ i ) = Σ 1 i (x µ i ). P(ω i x k, µ)σ 1 i (x k µ i ) = 0 og multiplikasjo med Σ i på begge sider av likhetsteget gir: Løsige blir da: ˆµ i = P(ω i x k, ˆµ)x k P(ω i x k, ˆµ) P(ω i x k, µ)(x k µ i ) = 0., i = 1,...,c, der P(ω i x k, ˆµ) = p(x k ω i, ˆµ i )P(ω i ). p(x k ˆµ) Dette er et tilfredsstillede resultat, der samplee veies med áposteriorisasylighetee for hver klasse, dvs. de mest sasylige klasse gis størst vekt. Dette er imidlertid e implisitt løsig for forvetigsvektore. Det er i de fleste tilfeller umulig å fie e eksplisitt løsig, me problemet ka uasett løses ved iterasjo ved hjelp av følgede uttrykk: der ˆµ i ( j + 1) = P(ω i x k, ˆµ( j))x k, i = 1,...,c P(ω i x k, ˆµ( j)) P(ω i x k, ˆµ( j)) = p(x k ω i, ˆµ i ( j))p(ω i ) c p(x k ω l, ˆµ l ( j))p(ω l ) l=1 Dette er e oppdaterig av forvetigsestimatee fra tri j til tri j +1 i iterasjosprosesse. Dee algoritme gir rask koverges dersom separasjoe mellom klassee er god, me ma er ikke garatert et globalt maksimum, bare at gradiete er ull. Eksempel - Uivariate ormalfordeliger Løsigsmetode i foregåede eksempel ka illustreres ved å se på et kokret tilfelle med to klasser ω 1 og ω 2, der kompoettetthetee (tetthetsfuksjoee for de to klassee) er uivariate 7 IKKE-LEDET LÆRING 100.

101 Uiversitetsseteret på Kjeller ormalfordeliger med ukjete forvetigsverdier µ 1 og µ 2, kjete stadardavvik σ 1 = σ 2 = 1 og á priori sasyligheter P(ω 1 ) = 1/3 og P(ω 2 ) = 2/3. Bladigstetthete er da gitt ved: p(x µ 1, µ 2 ) = 1 [ 3 2π exp 12 ] (x µ 1) [ 3 2π exp 12 ] (x µ 2) 2 som fuksjo av de ukjete parametree. Ata å at de sae verdiee er µ 1 = 2 og µ 2 = 2. Treigssettet i dette eksempelet består av 60 sampler trukket fra dee bladigstetthete (30 sampler fra hver klasse). Ut fra disse samplee ka ma berege log-likelihood fuksjoe som fuksjo av de to (ukjete) parametree, dvs.: L (µ 1, µ 2 ) = l p(x k µ 1, µ 2 ) der summe løper over alle = 60 sampler (disse samplee er plottet ederst i figur 66). Log-likelihood fuksjoe basert på disse samplee er vist i figur 63, som et koturplott som viser kurver trukket gjeom pukter med samme fuksjosverdi. De primære løsige i puktet [µ 1 = 2.7, µ 2 = 1.8] med fuksjosverdie er det globale maksimum, mes det også fies et lokalt maksimum i puktet [µ 1 = 1.7, µ 2 = 2.7] der fuksjosverdie er Dee sekudære løsige svarer grovt sett til e ombyttig av µ 1 og µ 2. Det globale maksimum stemmer gaske godt overes med fasite som treigsdataee er basert på. At løsige ikke stemmer eksakt skyldes at de er basert på et lite atall sampler trukket fra fordelige. Med et vesetlig større treigssett er det rimelig å ata at overesstemmelse blir tilsvarede bedre. Primært maksimum = -123,84 µ 2 Sekudært maksimum = -124,08 Figur 63: Koturplott av log-likelihoodfuksjoe, med markerig av det primære (globale) og sekudære (lokale) maksimim. µ 1 7 IKKE-LEDET LÆRING 101

102 Uiversitetsseteret på Kjeller L (µ 1, µ 2 ) µ 2 µ 1 Figur 64: Overflateplott av log-likelihoodfuksjoe. Figur 64 viser log-likelihoodfuksjoe i et tredimesjoalt overflateplott, mes figur 65 viser koturplott av log-likelihoodfuksjoe og iterasjosprosesse med forskjellige utgagspukt. Her ka ma ede i det globale maksimum, det sekudære (lokale) maksimum eller i sadelpuktet mellom de to toppee. I alle disse puktee er gradiete til loglikelihood fuksjoe ull. Det er åpebart at prosesse bør kjøres flere gager med forskjellige utgagspukt for å forsikre seg om at ma faktisk fier det globale maksimum. Figur 66 viser de to estimerte tetthetsfuksjoee som svarer til hhv. det globale maksimum (blå kurve) og det sekudære (lokale) maksimum (grøstiplet kurve). 7.2 Geeraliserig - ukjete á priori sasyligheter P(ω i ),i = 1,...,c ka ikluderes blat de ukjete. Et maksimum likelihood estimat ˆP(ω i ) av á priori sasylighete ka oppås dersom L er deriverbar og ˆP(ω i ) 0 for alle i = 1,...,c. Det ka vises at ˆP(ω i ) og ˆθ i må tilfredsstille likigssystemet: der ˆP(ω i ) = 1 ˆP(ω i x k, ˆθ) ˆP(ω i x k, ˆθ) θ i l p(x k ω i, ˆθ i ) = 0 i = 1,...,c, ˆP(ω i x k, ˆθ ) = p(x k ω i, ˆθ i ) ˆP(ω i ) c p(x k ω j, ˆθ j ) ˆP(ω j ) j=1 i = 1,...,c. 7 IKKE-LEDET LÆRING 102

103 Uiversitetsseteret på Kjeller µ 2 Figur 65: Koturplott av log-likelihoodfuksjoe, med illustrasjo av iterasjosprosesse for forskjellige startverdier. µ 1 For bladigstetthet med multivariat ormalfordelte kompoeter, dvs. p(x ω i, θ i ) = N(µ i,σ i ), med ukjete forvetigsvektorer og kovariasmatriser, ka det vises at løsige blir: ˆP(ω i ) = 1 ˆP(ω i x k, ˆθ) ˆµ i = ˆΣ i = ˆP(ω i x k, ˆθ)x k ˆP(ω i x k, ˆθ) ˆP(ω i x k, ˆθ)(x k ˆµ i )(x k ˆµ i ) t ˆP(ω i x k, ˆθ) i = 1,...,c. Ata her at samplee daer tette adskilte klyger (se figur 67). I et slikt tilfelle ka ma sette: { ˆP(ω i x k, ˆθ) 1 x k ω i 0 ellers. 7 IKKE-LEDET LÆRING 103

104 Uiversitetsseteret på Kjeller Figur 66: Tetthetsfuksjoee for de to løsigee. De blå kurve viser tetthetsestimatet som svarer til det globale maksimum, mes de grøe, stiplede kurve viser estimatet tilsvarede de sekudære løsige. Samplee i treigssettet er vist ederst i figure. La videre i være atall sampler i klasse ω i. Likigssystemet reduseres da til: ˆP(ω i ) i ˆµ i 1 i x k X i x k = m i ˆΣ i 1 i x k X i (x k m i )(x k m i ) t som er et tilfredsstillede resultat. Med overlapp mellom klassee smøres bidragee fra hvert sample ut over flere klasser. Likigssystemet ka løses ved iterasjo. 7.3 Isodata-algoritme (K-Meas-Clusterig) I eksempelet ovefor med multivariate ormalfordeliger er ˆP(ω i x k, ˆθ) stor år Mahalaobisavstade ri 2 = (x k µ i ) t ˆΣ 1 i (x k µ i ) er lite. Dersom ri 2 erstattes med de Euclidske avstade x k ˆµ i 2 for hvert klassemiddel, vil resultatet fra foregåede side atyde følgede ekle iterasjosprosess: Iitialisér ˆµ 1,..., ˆµ c Gjeta itil ferdig: Klassifisér x k,k = 1,..., til ærmeste middel Oppdatér ˆµ 1,..., ˆµ c Hvis ige edrig > ferdig. 7 IKKE-LEDET LÆRING 104

105 Uiversitetsseteret på Kjeller m 1 m 3 m 2 Figur 67: Datasett der samplee daer tette klyger omkrig samplemidlee. Dette er de gruleggede Isodata-algoritme, og er egetlig et eksempel på e klygeaalysemetode. Et eksempel på bruk av algoritme er vist i figur 68. Et umerket datasett (a) atas å komme fra tre klasser. Startvektorer for klassee velges (b) og samplee tilordes ærmeste middel (c). Middelvektoree oppdateres (d) og e y tilordig til klassee gjøres (e), etterfulgt av y oppdaterig (f) og y tilordig til klassee (g). Her vil ikke e y oppdaterig edre desisjosgresee (de stiplede lijee) så mye at klassetilhørighete til oe av samplee edres, og algoritme stopper med e edelig klasseidelig av samplee (h). 8 Klygeaalyse Klygeaalyse består i å dele et datasett i i grupper (klyger), slik at sampler ie hver klyge er mest mulig like, mes det er størst mulig ulikhet mellom sampler i forskjellige klyger. Klygeidelige er altså datadrevet, ved at samplees (objektees) egeskapsvektorer brukes direkte, og ikke basert på á priori kuskap i form av f.eks. klassetilhørighet. Klygeaalyse brukes ofte til å kartlegge strukture til ukjete data, f.eks. fie ut hvorvidt samplee i datasettet ka deles i i et atall kompakte og godt adskilte klyger, om det kaskje består av lagstrakte klyger eller har e mer komplisert struktur. I mage tilfeller ka klygee svare til forskjellige klasser. Klygeaalyse ka da være e hjelp til å merke datasettet slik at e klassifikator ka trees opp ved ledet lærig. I adre tilfeller er det ikke oe direkte samsvar mellom klyger og klasser, me klygeidelige ka likevel si oe om strukture til hver ekelt klasse (f.eks. atall moder), og derved gi et bedre grulag for valg av parametriske modeller for klassee. 8 KLYNGEANALYSE 105

106 Uiversitetsseteret på Kjeller a) Umerket datasett b) ˆµ 1 (rød), ˆµ 2 (blå) og ˆµ 3 (grø) c) Tilordig til ærmeste middel d) Oppdaterig av ˆµ 1, ˆµ 2 og ˆµ 3 e) Tilordig til ærmeste middel f) Oppdaterig av ˆµ 1, ˆµ 2 og ˆµ 3 g) Tilordig til ærmeste middel h) Edelig klassetilordig Figur 68: Eksempel på bruk av Isodata-algoritme. 8 KLYNGEANALYSE 106

107 Uiversitetsseteret på Kjeller Her skal vi se gaske kort på to hovedtyper av metoder: Optimaliserig av kriteriefuksjo, Hierarkiske metoder. For å kue si oe meigsfylt om strukture i et datasett er det ødvedig med et mål på likhet (similaritetsmål) mellom sampler eller ett eller aet mål på avstad mellom pukter i egeskapsrommet. Et eksempel på avstadsmål er metrikke: d(x 1, x 2 ) = x 1 x 2, dvs. Euclidsk avstad. E klyge ka da defieres som et utvalg av sampler der de ibyrdes avstade er lite, sammeliket med avstade til samplee i adre klyger. Ma ka f.eks. ata at samplee x 1 og x 2 tilhører samme klyge dersom d(x 1, x 2 ) < d 0. Resultatet vil avhege både av avstadsmålet og av terskele d 0. E skalerig av datasettet er ikke likegyldig for resultatet; avstadsmålet edres og eksisterede klygedaelse ka ødelegges, mes det itroduseres klygestruktur der ige fates tidligere. Eksempler i lærebøkee illustrerer dette. 8.1 Optimaliserig av kriteriefuksjo Problem her er å dele datasettet: X = {x 1,..., x } i i c klyger X 1,X 2,...,X c. E mulig kriteriefuksjo for å oppå dette er J e = c i=1 x X i x m i 2 der m i = 1 i x Xi x. Dee fuksjoe vil ha lav verdi år samplee daer tette klyger omkrig hvert klygemiddel. For datasett med f.eks. lagstrakte klyger, bør adre kriteriefuksjoer beyttes. I prisippet ka ma å fie de optimale klygeidelige av samplee (dvs. de idelige som gi miimum av J e ved å berege kriteriefuksjoe for alle mulig klygeideliger (partisjoeriger) av samplee i X. Problemet er at selv med c = 5 og = 100 gir dette av størrelseorde muligheter. Et fullt søk vil derfor være umulig, selv for slike små problemer. I stedet ka problemet løses ved iterativ optimaliserig av kriteriefuksjoe: Det velges e rimelig starttilstad, dvs. e iitiell oppdelig av samplee i c klyger. Deretter flyttes samplee, ett for ett til hver av de øvrige klygee, kriteriefuksjoe bereges for de ye kofigurasjoe og samplet flyttes tilbake til de opprielige klyge dersom ige reduksjo ble oppådd. Dette søket fortsetter til ige mulige flyttiger gir ytterligere reduksjo av kriteriefuksjoe. Ma er ikke garatert et globalt miimum, slik at flere forsøk med ulike starttilstader bør utføres. 8 KLYNGEANALYSE 107

108 Uiversitetsseteret på Kjeller 8.2 Hierarkiske metoder Vi skal avgrese oss til de såkalte agglomerative (samlede) metode: 1. Start med klyger, dvs. X i = {x i },i = 1,...,c; ĉ = 2. Fi ærmeste par av klyger, f.eks. X i,x j 3. Slå samme disse klygee; ĉ ĉ 1 4. Gjeta tri 2 og 3 itil øsket atall klyger ĉ = c er fuet. ĉ =6 ĉ =5 ĉ =4 ĉ =3 ĉ =2 Avstadsmål ĉ =1 Figur 69: Dedrogram - eksempel med 6 sampler. For illustrasjoes skyld er samplee her plassert lags de horisotale akse i hehold til tallverdie. Videre er de absolutte differase mellom samplemidlee til klygee brukt som avstadsmål. Bruk av d mi eller d max ville ha gitt samme hierarkiske idelig, me e litt ae plasserig på de vertikale akse. Et dedrogram gir e grafisk fremstillig av ibyrdes avstader mellom klygedaelser på ulike ivåer. Et eksempel er vist i figur 69. I dette eksempelet starter ma med alle sampler i hver si klyge. Atall klyger er da ĉ = 6. Deretter slår ma samme de ærmeste to klygee på hvert ivå, slik at atall klyger gradvis reduseres til ma år det øskede atall. I figure er prosesse kjørt helt ut, til alle sampler er samlet i é klyge. De vertikale akse i dedrogrammet represeterer avstade mellom klygee, basert på et gitt avstadsmål mellom klyger, og ka gi e pekepi om hva som er et aturlig atall klyger i datasettet. Det store spraget mellom ivåee ĉ = 2 og ĉ = 1 i dette eksempelet ka tyde på at datasettet består av to aturlige klyger. 8 KLYNGEANALYSE 108

109 Uiversitetsseteret på Kjeller Mulige avstadsmål mellom klyger, som ka brukes i e slik hierarkisk klygedaelse er: d mi (X i,x j ) = mi x Xi,x X j x x d max (X i,x j ) = max x Xi,x X j x x (Miste avstad) (Største avstad) Disse avstadsmålee er illustrert i figur 70. Eksempler på bruk d mi og d max er vist i figuree 71 til 73. Avstadsmålet d mi tederer til å favorisere lagstrakte klyger, mes d max favoriserer kompakte, godt adskilte klyger. Valg av metrikk vil således avhege av datastrukture, og hva slags klyger ma øsker å dele samplee i i. Adre avstadsmål er også evt i litterature. X 2 d max (X 1,X 2 ) X 1 d mi (X 1,X 2 ) Figur 70: Mulige mål på avstad mellom klyger. Miste avstad (d mi ) bruket avstade mellom samplee i det ærmeste par av sampler fra hver klyge som mål på avstade mellom klygee, mes Største avstad (d max ) i stedet bruker avstade mellom samplee i det fjereste par fra hver klyge. 8.3 Gyldighet Er det rimelig å ata c klyger? Ja, for oppdaterig av eksisterede klassifikator ved hjelp av ye data, me ikke ødvedigvis for ukjete data. Hvorda aslå e rimelig verdi på c? Muligheter er: For optimaliserigsmetode: Se etter kekkpukt i et plott av kriteriefuksjoe som fuksjo av atall klyger. For hierarkiske metoder: Se etter store sprag i dedrogrammet. Hypotesetestig. Ikke-lieære avbildiger fra høy til lav dimesjo på egeskapsrommet KLYNGEANALYSE 109

110 Uiversitetsseteret på Kjeller Datasett dmi dmax Figur 71: Datasett med kompakte klyger og resultater av klygeaalyse med avstadsmålee dmi og dmax. Avstadsmålee gir her idetiske resultat. Datasett dmi dmax Figur 72: Datasett med kompakte, me sammekoblede klyger og resultater av hierarkisk klygeaalyse med avstadsmålee dmi og dmax. Avstadsmålet dmi gir i dette tilfellet splittig av de ee klyge (kaskje ugustig?) og favoriserer lagstrakte klyger, mes dmax favoriserer kompakte klyger. Datasett dmi dmax Figur 73: Datasett med lagstrakte klyger og resultater av klygeaalyse med avstadsmålee dmi og dmax. Avstadsmålet dmi tederer til å favorisere lagstrakte klyger mes dmax har e tedes til å bryte dem opp. Referaser [1] Duda, Hart & Stork, Patter Classificatio, secod editio, Joh Wiley & Sos [2] Naredra, P. ad Fukuaga, K., A Brach ad Boud Algorithm for Feature Subset Selectio, IEEE Tras. Comput., Vol. C-26, Issue 9, pp , Sept [3] Foley, D. ad Sammo, J., A optimal set of discrimiat vectors, IEEE Tras. Comput., Vol. C-26, pp , March REFERANSER 110

Diskrete egenskaper. Egenskapsvektoren x antar kun diskrete verdier: v 1,v 2,...,v m. Endringer fra det kontinuerlige tilfellet er at:

Diskrete egenskaper. Egenskapsvektoren x antar kun diskrete verdier: v 1,v 2,...,v m. Endringer fra det kontinuerlige tilfellet er at: Iledig Beslutigsteori Parametriske metoder Ikke-parametriske metoder Diskrimiatfuksjoer Evaluerig Ikke-ledet lærig Klygeaalyse Diskrete egeskaper Diskrete egeskaper Egeskapsvektore x atar ku diskrete verdier:

Detaljer

Suffisient observator

Suffisient observator Iledig Beslutigsteori Parametriske metoder Ikke-parametriske metoder Diskrimiatfuksjoer Evaluerig Ikke-ledet lærig Klygeaalyse Suffisiete observatorer Suffisiet observator Statistisk størrelse s som ieholder

Detaljer

Likningssystem for maksimum likelihood løsning

Likningssystem for maksimum likelihood løsning Maksimum likelihood metode Likigssystem for maksimum likelihood løsig Treig av klassifikator ute merket treigssett. Atakelser (i første omgag): Atall klasser c er kjet, ÁpriorisasyligheteeP(w i ), i =

Detaljer

TMA4245 Statistikk Eksamen mai 2017

TMA4245 Statistikk Eksamen mai 2017 TMA445 Statistikk Eksame mai 07 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Løsigsskisse Oppgave a Når vi reger ut disse tre sasylighetee må ma huske på at de mulige verdiee

Detaljer

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44, Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalte oppgaver 9, blokk II Løsigsskisse Oppgave a) Vi lar her Y være atall fugler som kolliderer med vidmølla i løpet av de gitte

Detaljer

Estimering 1 -Punktestimering

Estimering 1 -Punktestimering Estimerig 1 -Puktestimerig Dekkes av kap. 8, 9.1-9.3 og 9.15/9.14. Vi har til å settpå e rekke forskjellige sasylighetsfordeliger og sett hvorda disse ka brukes til å modellere mage forskjellige typer

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro. ÅMA Sasylighetsregig med statistikk, våre 6 Kp. 4 Kotiuerlige tilfeldige variable og ormaldelige Kotiuerlige tilfeldige variable, itro. (eller: Kotiuerlige sasylighetsdeliger) Vi har til å sett på diskrete

Detaljer

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon Tidligere sett på KLMED8004 Medisisk statistikk Del I, høst 008 Estimerig Hvorda kjete sasylighetsfordeliger (biomialfordelig, ormalfordelig) med kjete populasjosparametrer (forvetig, varias osv.) ka gi

Detaljer

Estimering 1 -Punktestimering

Estimering 1 -Punktestimering Estimerig 1 -Puktestimerig Dekkes av kap. 8, 9.1-9.3 og 9.15/9.14. Vi har til å settpå e rekke forskjellige sasylighetsfordeliger og sett hvorda disse ka brukes til å modellere mage forskjellige typer

Detaljer

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005 Norges tekisk aturviteskapelige uiversitet Istitutt for matematiske fag Side av 8 LØSNINGSFORSLAG TILEKSAMEN I FAG TMA440/TMA445 STATISTIKK 0. august 005 Oppgave Smeltepuktsbestemmelse a) Vi jobber i dette

Detaljer

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan Løsigsforslag for adre obligatoriske oppgave i STK11 Våre 27 Av Igu Fride Tvete (ift@math..uio.o) og Ørulf Borga (borga@math.uio.o). NB! Feil ka forekomme. NB! Sed gjere e mail hvis du fier e feil! Oppgave

Detaljer

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10 Repetisjo; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10 og Geerell defiisjo av : Situasjo: Data x 1,...,x ;utfallav:x 1,...,X ; u.i.f. tilfeldige variable Ukjet parameter i fordelige til X i ee: θ Dersom L og U L

Detaljer

MOT310 Statistiske metoder 1, høsten 2011

MOT310 Statistiske metoder 1, høsten 2011 MOT310 Statistiske metoder 1, høste 2011 Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 24. august, 2011 Bjør H. Auestad Itroduksjo og repetisjo 1 / 32 Repetisjo; 9.1,

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro. ÅMA0 Sasylighetsregig med statistikk, våre 008 Kp. 4 Kotiuerlige tilfeldige variable; Normalfordelig Kotiuerlige tilfeldige variable, itro. (eller: Kotiuerlige sasylighetsfordeliger) Vi har til å sett

Detaljer

Unik4590/Unik9590/TTK Mønstergjenkjenning

Unik4590/Unik9590/TTK Mønstergjenkjenning Sammendrag og eksempler Universitetssenteret på Kjeller Høsten 2016 (17. august 2016) Hva er mønstergjenkjenning? Formålet med mønstergjenkjenning Gjenkjenne objekter - tilordne objekter til én av flere

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro. ÅMA Sasylighetsregig med statistikk, våre Kp. 4 Kotiuerlige tilfeldige variable; Normalfordelig Kotiuerlige tilfeldige variable, itro. (eller: Kotiuerlige sasylighetsfordeliger) Vi har til å sett på diskrete

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UIVERSITETET I OSLO Det matematisk-aturviteskapelige fakultet Eksame i: ST 105 - Iførig i pålitelighetsaalyse Eksamesdag: 8. desember 1992 Tid til eksame: 0900-1500 Tillatte hjelpemidler: Rottma: "Matematische

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-aturviteskapelige fakultet Eksame i STK2120 Statistiske metoder og dataaalyse 2 Eksamesdag: Madag 6. jui 2011. Tid for eksame: 09.00 13.00. Oppgavesettet er på 5 sider.

Detaljer

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalte oppgaver 11, blokk II Løsigsskisse Oppgave 1 a) E rimelig estimator for forvetigsverdie µ er gjeomsittet X = 1 X i, som

Detaljer

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering Eco 130 uke 15 (HG) Poissofordelige og iførig i estimerig 1 Poissofordelige (i) Tilærmig til biomialfordelige. Regel. ( Poissotilærmelse ) Ata Y ~ bi(, p) E( Y ) = p og var( Y ) = p(1 p). Hvis er stor

Detaljer

Kapittel 8: Estimering

Kapittel 8: Estimering Kaittel 8: Estimerig Estimerig hadler kort sagt om hvorda å aslå verdie å arametre som,, og dersom disse er ukjete. like arametre sier oss oe om oulasjoe vi studerer (dvs om alle måliger av feomeet som

Detaljer

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015 Løsigsforsalg til første sett med obligatoriske oppgaver i STK1110 høste 2015 Oppgave 1 (a Et 100(1 α% kofidesitervall for forvetigsverdie µ er gitt ved formel (8.15 på side 403 i læreboka. For situasjoe

Detaljer

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004 Norges tekisk aturviteskapelige uiversitet Istitutt for matematiske fag Side av 0 LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004 Oppgave Midtveiseksame a) X er e stokastisk variabel

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 ÅMA0 Sasylighetsregig med statistikk, våre 007 Kp. 4 Kotiuerlige tilfeldige variable; Normalfordelig Kotiuerlige tilfeldige variable, itro. (eller: Kotiuerlige sasylighetsfordeliger) Vi har til å sett

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5 ÅMA110 Sasylighetsregig med statistikk, våre 2008 Kp. 6, del 5 Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 26. mars Bjør H. Auestad Kp. 6: Hypotesetestig del 5 1/ 53

Detaljer

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018 Løsigsforsalg til første sett med obligatoriske oppgaver i STK1110 høste 2018 Oppgave 1 (a Et 100(1 α% kofidesitervall for forvetigsverdie µ er gitt ved formel (8.15 på side 403 i læreboka. For situasjoe

Detaljer

Estimering 2. -Konfidensintervall

Estimering 2. -Konfidensintervall Estimerig 2 -Kofidesitervall Dekkes av kap. 9.4-9.5, 9.10, 9.12 og forelesigsotatee. Dersom forsøket gjetas mage gager vil (1 α)100% av itervallee [ ˆΘ L, ˆΘ U ] ieholde de ukjete parametere θ (som er

Detaljer

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians Hypotesetestig / iferes (kap ) Itroduksjo Populasjo og utvalg Statistisk iferes Utvalgsfordelig (samplig distributio) Utvalgsfordelige til gjeomsittet Itroduksjo Vi øsker å få iformasjo om størrelsee i

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Oppsummering

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Oppsummering ÅMA110 Sasylighetsregig med statistikk, våre 2007 Oppsummerig Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 19. april Bjør H. Auestad Oppsummerig våre 2006 1 / 37 Oversikt

Detaljer

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004 Norges tekisk aturviteskapelige uiversitet Istitutt for matematiske fag Side av 0 LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004 Oppgave Foruresig X er e stokastisk variabel som agir

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-aturviteskapelige fakultet Eksame i: STK2100 Løsigsforslag Eksamesdag: Torsdag 14. jui 2018. Tid for eksame: 14.30 18.30. Oppgavesettet er på 6 sider. Vedlegg: Tillatte

Detaljer

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018 Løsigsforslag ST/ST6 kotiuasjoseksame Oppgave a Defier hedelsee R, B, B rød kule i første trekig, blå kule i adre trekig, blå kule i tredje trekig. Vi skal fie PR B B for to ulike situasjoer. Geerelt vet

Detaljer

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo. Kofidesitervall Notat til STK1110 Ørulf Borga, Igrid K. Glad og Aders Rygh Swese Matematisk istitutt, Uiversitetet i Oslo August 2007 Formål E valig metode for å agi usikkerhete til et estimat er å berege

Detaljer

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2016 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalt øvig 11 Løsigsskisse Oppgave 1 a) E rimelig estimator for forvetigsverdie µ er gjeomsittet X = 1 X i, som vil være ormalfordelt

Detaljer

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03). LØSNING, EKSAMEN I STATISTIKK, TMA440, DESEMBER 006 OPPGAVE 1 Ata at sa porøsitet er r. Målig med utstyret gir da X (x; r, 0,03). a) ( ) X r P(X > r) P 0,03 > 0 P(Z > 0) 0,5. ( X r P(X r > 0,05) P 0,03

Detaljer

Statistikk og økonomi, våren 2017

Statistikk og økonomi, våren 2017 Statistikk og økoomi, våre 07 Obligatorisk oppgave 6 Løsigsforslag Oppgave E terig kastes 0 gager, og det registreres hvor mage 6-ere som oppås i løpet av disse 0 kastee. Vi ka kalle atall 6-ere i løpet

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5 ÅMA11 Sasylighetsregig med statistikk, våre 7 Kp. 6, del 5 Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 26. mars Bjør H. Auestad Kp. 6: Hypotesetestig del 5 1/ 59 Bjør

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5 ÅMA110 Sasylighetsregig med statistikk, våre 2008 Kp. 6, del 5 Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 3. april Bjør H. Auestad Kp. 6: Hypotesetestig del 5 1/ 56

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5 ÅMA110 Sasylighetsregig med statistikk, våre 2006 Kp. 6, del 5 Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 3. april Bjør H. Auestad Kp. 6: Hypotesetestig del 5 1 / 56

Detaljer

Econ 2130 Forelesning uke 11 (HG)

Econ 2130 Forelesning uke 11 (HG) Eco 130 Forelesig uke 11 (HG) Mer om ormalfordelige og setralgreseteoremet Uke 1 1 Fra forrige gag ~ betyr er fordelt som. ~ N( µσ, ) E( ) = µ, og var( ) = σ Normalfordelige er symmetrisk om μ og kotiuerlig

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5 ÅMA110 Sasylighetsregig med statistikk, våre 2010 Kp. 6, del 5 Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 12. april Bjør H. Auestad Kp. 6: Hypotesetestig del 4 1/ 59

Detaljer

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2015 Høst 205 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Øvig ummer, blokk II Løsigsskisse Oppgave a) X bi(, p) fordi: Udersøker uavhegige delar av DNA-strukture. Fi for kvar del

Detaljer

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort? ECON EKSAMEN 8 VÅR TALLSVAR Oppgave Vi har e kortstokk beståede av 6 kort. På av disse står det skrevet JA på forside mes det står NEI på forside av de adre kortee. Hvis ma får se kortet med bakside vedt

Detaljer

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2009 TMA440 Statistikk Høst 009 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Øvig ummer b4 Løsigsskisse Oppgave Øsker å fie 99% kofidesitervall for µ µ år vi atar ormalfordeliger

Detaljer

Normalfordelingen. Univariat normalfordeling (Gaussfordelingen): der µ er forventningsverdien og σ 2 variansen. Multivariat normalfordeling:

Normalfordelingen. Univariat normalfordeling (Gaussfordelingen): der µ er forventningsverdien og σ 2 variansen. Multivariat normalfordeling: Normalfordelingen Univariat normalfordeling (Gaussfordelingen): p(x µ,σ 2 ) = 1 µ)2 (x e 2σ 2 = N(µ,σ 2 ) 2πσ der µ er forventningsverdien og σ 2 variansen. Multivariat normalfordeling: [ 1 p(x µ,σ) =

Detaljer

Mer om utvalgsundersøkelser

Mer om utvalgsundersøkelser Mer om utvalgsudersøkelser I uderkapittel 3.6 i læreboka gir vi e kort iførig i takegage ved utvalgsudersøkelser. Vi gir her e grudigere framstillig av temaet. Populasjo og utvalg Ved e utvalgsudersøkelse

Detaljer

Rep.: generelle begrep og definisjoner Kp. 10.1, 10.2 og 10.3

Rep.: generelle begrep og definisjoner Kp. 10.1, 10.2 og 10.3 Kp. 1, oversikt ; oversikt, t- ; oversikt ; stor ; Hypoteseig; ett- og to-utvalg Rep.: geerelle begrep og defiisjoer Kp. 1.1, 1.2 og 1.3 Rep.: ett-utvalgser for μ (...), p Kp. 1 og 1.8 Nytt: ett-utvalgs

Detaljer

ECON240 Statistikk og økonometri

ECON240 Statistikk og økonometri ECON240 Statistikk og økoometri Arild Aakvik, Istitutt for økoomi 1 Mellomregig MKM Model: Y i = a i + bx i + e i MKM-estimator for b: b = = Xi Y i 1 Xi Yi Xi 1 ( X i ) 2 (Xi X)(Y i Ȳi) (Xi X) 2 hvor vi

Detaljer

Forelesning 4 og 5 Transformasjon, Weibull-, lognormal, beta-, kji-kvadrat -, t-, F- fordeling

Forelesning 4 og 5 Transformasjon, Weibull-, lognormal, beta-, kji-kvadrat -, t-, F- fordeling STAT (V6) Statistikk Metoder Yushu.Li@uib.o Forelesig 4 og 5 Trasformasjo, Weibull-, logormal, beta-, kji-kvadrat -, t-, F- fordelig. Oppsummerig til Forelesig og..) Momet (momet about 0) og setral momet

Detaljer

Forkunnskaper i matematikk for fysikkstudenter. Derivasjon.

Forkunnskaper i matematikk for fysikkstudenter. Derivasjon. Defiisjo av derivert Vi har stor ytte av å vite hvor raskt e fuksjo vokser eller avtar Mer presist: Vi øsker å bestemme stigigstallet til tagete til fuksjosgrafe P Q Figure til vestre viser hvorda vi ka

Detaljer

Signifikante sifre = alle sikre pluss ett siffer til

Signifikante sifre = alle sikre pluss ett siffer til Sigifikate siffer og stadardavvik behadles i kap. Disse to emee skal vi ta for oss i dag. Kofidesgreser behadles i kap 4. Dette skal vi ta for oss i osdag. Presetasjo av aalysedata ka gjøres på følgede

Detaljer

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2016 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalt øvig 8 Løsigsskisse Oppgave 1 a) Simuler 1000 datasett i MATLAB. Hvert datasett skal bestå av 100 utfall fra e ormalfordelig

Detaljer

Oppgaver fra boka: X 2 X n 1

Oppgaver fra boka: X 2 X n 1 MOT30 Statistiske metoder, høste 00 Løsiger til regeøvig r 3 (s ) Oppgaver fra boka: 94 (99:7) X,, X uif N(µ, σ ) og X,, X uif N(µ, σ ) og alle variable er uavhegige Atar videre at σ = σ = σ og ukjet Kodesitervall

Detaljer

Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =

Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE = Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalte oppgaver 2, blokk II Løsigsskisse Oppgave a Miste kvadraters metode tilpasser e lije til puktee ved å velge de lija som

Detaljer

Forelesning Moment og Momentgenererende funksjoner

Forelesning Moment og Momentgenererende funksjoner ushu.li@uib.o Forelesig + 3 Momet og Mometgeererede fuksjoer 1. Oppsummerig til Forelesig 1 1.1) Fuksjoe av S.V: hvis variabele er e fuksjo (trasformasjo) av S.V. : g( ), da er også e S.V.: til ethvert

Detaljer

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi HØGSKOLEN I SØR-TRØNDELAG Avdelig for tekologi Målform: Bokmål Eksamesdato: 19 des. 2014 Varighet/eksamestid: Emekode: 3 timer TALM1005 Emeav: Statistikk og Økoomi statistikkdele Klasser: Logistikk 1 Kjemi

Detaljer

OM TAYLOR POLYNOMER. f x K f a x K a. f ' a = lim x/ a. f ' a z

OM TAYLOR POLYNOMER. f x K f a x K a. f ' a = lim x/ a. f ' a z OM TAYLOR POLYNOMER I dette otatet, som utfyller avsitt 6. i Gullikses bok, skal vi se på Taylor polyomer og illustrere hvorfor disse er yttige. Det å berege Taylor polyomer for håd er i prisippet ikke

Detaljer

Løsningsforslag til prøveeksamen i MAT1110, våren 2012

Løsningsforslag til prøveeksamen i MAT1110, våren 2012 Løsigsforslag til prøveeksame i MAT, våre Oppgave : Vi har A = 3 III+I I+II 3 ( )II 3 3 Legg merke til at A er de utvidede matrise til ligigssystemet. Vi ser at søyle 3 og 4 i de reduserte trappeforme

Detaljer

Oversikt over konfidensintervall i Econ 2130

Oversikt over konfidensintervall i Econ 2130 HG April 00 Oversikt over kofidesitervall i Eco 30 Merk at dee oversikte ikke er met å leses istedefor framstillige i Løvås, me som et supplemet. Løvås ieholder mage verdifulle kommetarer og eksempler.

Detaljer

Hypotesetesting, del 4

Hypotesetesting, del 4 Oversikt, del 4 t-fordelig t-test t-itervall Del 5 Kofidesitervall vs. test p-verdi t-fordelig Rett på defiisjo: Utgagspuktet er målemodelle med ormalatakelse: X 1,...,X,u.i.f.tilf.var.derX i Nμ, σ 2 ).La

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4 ÅMA11 Sasylighetsregig med statistikk, våre 21 Kp. 6, del 4 Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 22. mars Bjør H. Auestad Kp. 6: Hypotesetestig del 4 1/ 29 Bjør

Detaljer

Løsningsforslag Oppgave 1

Løsningsforslag Oppgave 1 Løsigsforslag Oppgave 1 a X i µ 0 σ X i µ 0 2 σ 2, i 1,..., er uavhegige og stadard N0, 1 fordelte. Da er, i 1,..., uavhegige og χ 2 -fordelte med e frihetsgrad. Da er summe χ 2 -fordelt med atall frihetsgrader

Detaljer

Oversikt over konfidensintervall i Econ 2130

Oversikt over konfidensintervall i Econ 2130 1 HG Revidert april 011 Oversikt over kofidesitervall i Eco 130 Merk at dee oversikte ikke er met å leses istedefor framstillige i Løvås, me som et supplemet. Løvås ieholder mage verdifulle kommetarer

Detaljer

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Eksamen desember 2015 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag TMA20 Statistikk Eksame desember 205 Løsigsskisse Oppgave a) De kumulative fordeligsfuksjoe til X, F (x) P (X x): F (x) P (X x) x

Detaljer

Emnenavn: Metode 1, statistikk deleksamen. Eksamenstid: 4 timer. Faglærer: Bjørnar Karlsen Kivedal

Emnenavn: Metode 1, statistikk deleksamen. Eksamenstid: 4 timer. Faglærer: Bjørnar Karlsen Kivedal EKSAMEN Emekode: SFB10711 Emeav: Metode 1, statistikk deleksame Dato: 10. oktober 2018 Hjelpemidler: Godkjet kalkulator og vedlagt formelsamlig m/tabeller Eksamestid: 4 timer Faglærer: Bjørar Karlse Kivedal

Detaljer

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi HØGSKOLEN I SØR-TRØNDELAG Avdelig for tekologi Målform: Bokmål Eksamesdato: 5 jui 2015 Varighet/eksamestid: Emekode: 3 timer TALM1005 Emeav: Statistikk og Økoomi statistikkdele Klasser: Logistikk 1 Kjemi

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011 ÅMA0 Sasylighetsregig statistikk våre 0 Kp. 4 Kotiulige tilfeldige variable; Normalfordelig Kotiulige tilfeldige variable itro. (ell: Kotiulige sasylighetsfordelig Vi har til å sett på diskrete fordelig

Detaljer

ST1201 Statistiske metoder

ST1201 Statistiske metoder ST Statistiske metoder Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Løsigsforslag - Eksame desember Oppgave a) Dette er e ANOVA-tabell for k-utvalg med k 4 og j 6 for j,,3,4.

Detaljer

TMA4245 Statistikk Eksamen august 2015

TMA4245 Statistikk Eksamen august 2015 Eksame august 15 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Løsigsskisse Oppgave 1 a asylighetee blir og X > Z > 1 1 Z 1 Φ.3,.5 W > 5 X + Y > 5 b Forvetet samfuskostad blir

Detaljer

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>. 1 ECON130: EKSAMEN 013 VÅR - UTSATT PRØVE TALLSVAR. Det abefales at de 9 deloppgavee merket med A, B, teller likt uasett variasjo i vaskelighetsgrad. Svaree er gitt i

Detaljer

Modeller og parametre. STK Punktestimering - Kap 7. Eksempel støtfangere. Statistisk inferens. Binomisk fordeling. p X (x) = p x (1 p) n x

Modeller og parametre. STK Punktestimering - Kap 7. Eksempel støtfangere. Statistisk inferens. Binomisk fordeling. p X (x) = p x (1 p) n x STK1100 - Puktestimerig - Kap 7 Geir Storvik Modeller og parametre Biomisk fordelig ( ) p X (x) = p x (1 p) x x Parameter: p Normalfordelig f X (x) = 1 2πσ e 1 2σ 2 (x µ) 2 11. april 2016 Parametre: µ,

Detaljer

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren 2 Kap. 9: Iferes om é populasjo I Kapittel 8 brukte vi observatore z = x μ σ/ for å trekke koklusjoer om μ. Dette krever kjet σ (urealistisk). ST0202 Statistikk for samfusvitere Bo Lidqvist Istitutt for

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering.

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering. ÅMA asylighetsregig med statistikk våre 008 Kp. 5 Estimerig Estimerig. Målemodelle. Ihold:. (ukt)estimerig i biomisk modell (kp. 5.). Målemodelle... (kp. 5.3) 3. (ukt)estimerig i målemodelle (kp. 5.3)

Detaljer

Metoder for politiske meningsmålinger

Metoder for politiske meningsmålinger Metoder for politiske meigsmåliger AV FORSKER IB THOMSE STATISTISK SETRALBYRÅ Beregigsmetodee som brukes i de forskjellige politiske meigsmåliger har vært gjestad for mye diskusjo i dagspresse det siste

Detaljer

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2 TMA4245 Statistikk Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Øvig ummer b4 Løsigsskisse Oppgave 1 Vi øsker å fie ut om et ytt serum ka stase leukemi. 5 mus får serumet, 4

Detaljer

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard EKSAMEN Emekode: SFB107111 Emeav: Metode 1, statistikk deleksame Dato: 7. mai 2018 Hjelpemidler: Godkjet kalkulator og vedlagt formelsamlig m/tabeller Eksamestid: 4 timer Faglærer: Has Kristia Bekkevard

Detaljer

Oppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre.

Oppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre. EKSAMEN I: ÅMA110 SANNSYNLIGHETSREGNING MED STATISTIKK VARIGHET: 4 TIMER DATO: 28. AUGUST 2010 BOKMÅL TILLATTE HJELPEMIDLER: KALKULATOR: HP30S, Casio FX82 eller TI-30 OPPGAVESETTET BESTÅR AV 3 OPPGAVER

Detaljer

Løsning TALM1005 (statistikkdel) juni 2017

Løsning TALM1005 (statistikkdel) juni 2017 Løsig TALM1005 statistikkdel jui 2017 Oppgave 1 a Har oppgitt at sasyligte for at é harddisk svikter er p = 0, 037. Ifører hedelsee A : harddisk 1 svikter B : harddisk 2 svikter C : harddisk 3 svikter

Detaljer

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram 2 Kort reetisjo fra kaittel 4 Betiget sasylighet og trediagram Eksemel: Fra e oulasjo av idrettsfolk trekkes e erso tilfeldig og testes for doig. De iteressate hedelsee er D=ersoe er doet, A=teste er ositiv.

Detaljer

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8% Prøve-eksame II MET 1190 Statistikk Dato 31. mai 2019 kl 1100-1400 Alle svar skal begrues. Når besvarelse evalueres, blir det lagt vekt på at framgagsmåte og resultat preseteres så klart, presist og kortfattet

Detaljer

Påliteligheten til en stikkprøve

Påliteligheten til en stikkprøve Pålitelighete til e stikkprøve Om origiale... 1 Beskrivelse... 2 Oppgaver... 4 Løsigsforslag... 4 Didaktisk bakgru... 5 Om origiale "Zuverlässigkeit eier Stichprobe" på http://www.mathe-olie.at/galerie/wstat2/stichprobe/dee

Detaljer

Eksamen REA3028 S2, Våren 2010

Eksamen REA3028 S2, Våren 2010 Eksame REA308 S, Våre 010 Del 1 Tid: timer Hjelpemidler: Valige skrivesaker, passer, lijal med cetimetermål og vikelmåler er tillatt. Oppgave 1 (6 poeg) a) Deriver fuksjoee: 1) f x x lx f x x lx x x f

Detaljer

Løsningsforslag til eksamen i STK desember 2010

Løsningsforslag til eksamen i STK desember 2010 Løsigsforslag til eksame i STK0 0. desember 200 Løsigsforslaget har med flere detaljer e det vil bli krevd til eksame. Oppgave a Det er tilpasset e multippel lieær regresjosmodell av forme β 0 + β x i

Detaljer

TMA4245 Statistikk Vår 2015

TMA4245 Statistikk Vår 2015 TMA4245 Statistikk Vår 2015 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Øvig ummer 12, blokk II Oppgave 1 Kari har ylig kjøpt seg e y bil. Nå øsker hu å udersøke biles besiforbruk

Detaljer

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1) MOT30 Statistiske metoder, høste00 Løsiger til regeøvig r. 5 (s. ) Oppgaver fra boka: Oppgave 0.36 (0.0:8) Dekkslitasje X,..., X u.i.f. N(µ, σ ) og X,..., X u.i.f. N(µ, σ ) og alle variable er uavhegige.

Detaljer

Kapittel 7: Noen viktige sannsynlighetsfordelinger

Kapittel 7: Noen viktige sannsynlighetsfordelinger Kapittel 7: Noe viktige sasylighetsfordeliger I mage situasjoer ka feomeet vi ser på beskrives med e bestemt type sasylighetsfordelig e sasylighetsfordelig gitt ved e bestemt formel. Vi skal se på oe av

Detaljer

Kap. 9: Inferens om én populasjon

Kap. 9: Inferens om én populasjon 2 ST0202 Statistikk for samfusvitere Bo Lidqvist Istitutt for matematiske fag Ka. 9: Iferes om é oulasjo Hvis σ er ukjet bytter vi ut σ med s i Ny observator blir t = x μ s/ z = x μ σ/ der s = Σx 2 (Σx)

Detaljer

Eksamen REA3028 S2, Våren 2011

Eksamen REA3028 S2, Våren 2011 Eksame REA08 S, Våre 0 Del Tid: timer Hjelpemidler: Valige skrivesaker, passer, lijal med cetimetermål og vikelmåler er tillatt. Oppgave (8 poeg) a) Deriver fuksjoee ) f 5 f 6 5 ) g g ) h l 9 9 6 4 h l

Detaljer

Noen vanlige. Indikatorfordeling: 1, dersom suksess. I mange situasjoner kan fenomenet vi ser på. 0, dersom ikke suksess

Noen vanlige. Indikatorfordeling: 1, dersom suksess. I mange situasjoner kan fenomenet vi ser på. 0, dersom ikke suksess Kapittel 5: Noe valige sasylighetsfordeliger I mage situasjoer ka feomeet vi ser på beskrives med e bestemt type sasylighets- fordelig (e sasylighetsfordelig gitt ved e bestemt formel. Vi skal se på oe

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering. ÅMA0 Sasylighetsregig med statistikk våre 006 Kp. 5 Estimerig Estimerig. Målemodelle. Ihold:. (Pukt)Estimerig i biomisk modell (kp. 5.). Målemodelle... (kp. 5.3) 3. (Pukt)Estimerig i målemodelle (kp. 5.3)

Detaljer

Kapittel 7: Noen viktige sannsynlighetsfordelinger

Kapittel 7: Noen viktige sannsynlighetsfordelinger Kapittel 7: Noe viktige sasylighetsfordeliger I mage situasjoer ka feomeet vi ser på beskrives med e bestemt type sasylighetsfordelig (e sasylighetsfordelig gitt ved e bestemt formel. Vi skal se på oe

Detaljer

SAMMENLIGNING AV MINSTE KVADRATERS METODE OG SANNSYNLIGHETSMAKSIMERINGSMETODEN I BINÆR REGRESJON. Henrik Dahl *)

SAMMENLIGNING AV MINSTE KVADRATERS METODE OG SANNSYNLIGHETSMAKSIMERINGSMETODEN I BINÆR REGRESJON. Henrik Dahl *) IO 78/8 7. april 978 SAMMENLIGNING AV MINSTE KVADRATERS METODE OG SANNSYNLIGHETSMAKSIMERINGSMETODEN I BINÆR REGRESJON av Herik Dahl *) INNHOLD Side Sammedrag. Om modeller for biær regresjo 3. Miste kvadraters

Detaljer

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013 TMA4240 Statistikk Vår 2008 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Øvig ummer b5 Løsigsskisse Oppgave 1 a) X 1,...,X 16 er u.i.f. N(80,18 2 ). Setter Y = X. i) P(X 1 >

Detaljer

STK1100 våren 2017 Estimering

STK1100 våren 2017 Estimering STK1100 våre 017 Estimerig Svarer til sidee 331-339 i læreboka Ørulf Borga Matematisk istitutt Uiversitetet i Oslo 1 Politisk meigsmålig Spør et tilfeldig utvalg på 1000 persoer hva de ville ha stemt hvis

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 ÅMA Sasylighetsregig med statistikk, våre 27 Kp. 6 (kp. 6) Tre deler av faget/kurset:. Beskrivede statistikk 2. Sasylighetsteori, sasylighetsregig 3. Statistisk iferes estimerig kofidesitervall hypotesetestig

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-aturviteskapelige fakultet Eksame i: STK11 Sasylighetsregig og statistisk modellerig. LØSNINGSFORSLAG Eksamesdag: Fredag 9. jui 217. Tid for eksame: 9. 13.. Oppgavesettet

Detaljer

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010. Noen viktige sannsynlighetsmodeller. Binomisk modell. Kp. 3 Diskrete tilfeldige variable

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010. Noen viktige sannsynlighetsmodeller. Binomisk modell. Kp. 3 Diskrete tilfeldige variable ÅMA Saslighetsregig med statistikk, våre K. 3 Diskrete tilfeldige variable Noe viktige saslighetsmodeller Noe viktige saslighetsmodeller ( Sas.modell : å betr det klasse/te sas.fordelig.) Biomisk modell

Detaljer

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk MAT0100V Sasylighetsregig og kombiatorikk Forvetigsverdi Sasylighetsfordelige til e tilfeldig variabel X gir sasylighete for de ulike verdiee X ka ata Forvetig, varias og stadardavvik Tilærmig av biomiske

Detaljer

Oversikt over konfidensintervall i Econ 2130

Oversikt over konfidensintervall i Econ 2130 1 HG Revidert april 014 Oversikt over kofidesitervall i Eco 130 Merk at dee oversikte ikke er met å leses istedefor framstillige i Løvås, me som et supplemet. De ieholder tabeller med formler for kofidesitervaller

Detaljer

Populasjon, utvalg og estimering

Populasjon, utvalg og estimering Populasjo, utvalg og estimerig (Notat til forelesig i estimerig, Kap. 6.) Populasjo og utvalg Med basalkuskap i sasylighetsregig og sasylighetsfordeliger er vi å i stad til å gå videre med statistisk iferes

Detaljer