Feilrettingsmetoder Ikke-separable problemer Feilrettingsmetodene konvergerer under gitte betingelser til løsningsvektorer for lineært separable problemer, men kan også gi gode resultater på ikke-separable problemer. Muligheter å prøve ut: Stopp etter et maksimalt antall iterasjoner, Stopp etter et gitt antall iterasjoner uten noen forbedring av resultatet, Bruke middelet av de siste vektvektorene før algoritmen stopper som endelig vektvektor (med håp om mer robust løsning), Pocket-algoritmen (ta vare på beste vektvektor så langt i iterasjonsprosessen), Forskjellige valg av inkrement r k og startvektor a 1 (kjøre algoritmen flere ganger med forskjellig utgangspunkt i håp om å finne et globalt minimum av kriteriefunksjonen).
Feilrettingsmetoder Perceptron-algoritmen på ikke-separabelt datasett med to klasser Desisjonsgrenser etter 10 og 30 iterasjoner (sammensatt oppdatering).
Ønsker vektvektor a som tilfredsstiller likningssystemet: a t y i = b i der b i > 0, i =,1,...,n slik at samplene y i er riktig klassifisert av a. Definerer: 2 3 y1 t 6 7 Y = 4. 5 (n ˆd) og b =[b 1,...,b n ] t y t n slik at likningssystemet Y a = b skal løses med hensyn på a. Søker minste kvadraters løsning der kriteriefunksjonen: J s (a)=ky a bk 2 = n  i=1 Løsningsmetoder: Direkte løsning Pseudoinvers metode, Gradientsøk (f.eks. Widrow-Hoff algoritmen). (a t y i b i ) 2 skal minimaliseres.
Pseudoinvers løsningsmetode En nødvendig betingelse for minimum av kriteriefunksjonen J s (a) er at gradienten er null: J s (a)=2 n  i=1 (a t y i b i )y i = 2Y t (Y a b)=0 slik at: Y t Y a = Y t b der Y t Y er kvadratisk ( ˆd ˆd). Antar nå Y t Y 6= 0(somoftesttilfelle).Dettegirløsningen: a =(Y t Y ) 1 Y t b = Y b der er den pseudoinverse til Y. Y =(Y t Y ) 1 Y t
Løsning ved gradientsøk Gradienten til kriteriefunksjonen er: J s (a)=2y t (Y a b). Dette gir algoritmen: ) a 1 = vilkårlig startvektor a k+1 = a k r k Y t (Y a k b), k = 1,2,... (oppdatering for hele treningssettet). Algoritmen kan vises å konvergere til en vektor a som tilfredsstiller Y t (Y a dersom: r k = r 1 /k med r 1 > 0. Dette gir en minste kvadraters løsning selv om matrisen Y t Y er singulær. b)=0
Enkeltsample oppdatering En tilsvarende enkeltsampleregel (Widrow-Hoff algoritmen) er gitt ved: ) a 1 = vilkårlig startvektor a k+1 = a k + r k (b k ak t y k )y k (oppdatering for hvert sample), k = 1,2,... der samplene i treningssettet behandles syklisk, som i de tilsvarende feilrettingsalgoritmene. Her fører alle sampler til en justering av vektvektoren så lenge a t k y k 6= b k. Avtagende r k gir generelt konvergens til en vektvektor der gradienten til J s er null, f.eks. r k = r 1 /k.
- generelt En minste kvadraters løsning eksistere alltid, selv om Y t Y er singulær. Løsningen avhenger av b (mulig valg b =[1,...,1] t ). Ikke garantert separerende vektor på lineært separabelt datasett. Håp om god løsning både på separable og ikke-separable sett. Kan generaliseres til mange klasser.
på ikke-separabelt datasett med to klasser Desisjonsgrense med Pseudoinvers metode.