Automatisk korreksjon av røde øyne i digitale bilder

Transkript

1 Automatisk korreksjon av røde øyne i digitale bilder ØYVIND BJERKVIK Examensarbete Stockholm, Sverige 2004 TRITA-NA-E04142

2 Numerisk analys och datalogi Department of Numerical Analysis KTH and Computer Science Stockholm Royal Institute of Technology SE Stockholm, Sweden Automatisk korreksjon av røde øyne i digitale bilder ØYVIND BJERKVIK TRITA-NA-E04142 Examensarbete i medieteknik om 20 poäng vid Programmet för medieteknik, Kungliga Tekniska Högskolan år 2004 Handledare var Ivar Farup, Högskolan i Gjøvik Examinator var Nils Enlund

3 Sammendrag Når det sterke lyset fra blitsen på et fotoapparat treffer retina bakerst i øyet, reflekteres noe av lyset. Lyset som reflekteres farges rødt av blodkarene i retina synes på bildet som ofte intense røde flekker i ansiktet. Dette er en veldig vanelig og ganske sjenerende effekt når det gjelder amatørfotografier. Målet for prosjektet er å lokalisere øyne og fjerne den sjenerende effekten av røde øyne automatisk, uten noen brukerinteraksjon på store mengder bilder uten noen forkunnskaper om bildets kvalitet eller innhold. For å detektere røde øyne letes det først etter ansikter. Ved å se på fargeegenskapene til hud, og metoder beskrevet i forskningslitteratur, kan man til en viss grad segmentere ut hudområder. Innenfor disse antatte hudområdene søkes det etter områder som har høy konsentrasjon av rødt for å lokalisere røde øyne i bildet. Mye av vanskelighetene ligger i å skille ut røde øyne fra resten av bildet. I likhet med hud, har røde øyne varierende fargeegenskaper. Når de røde øynene er lokalisert blir de røde områdene erstattet med akromatiske (fargeløse) piksler for å få øyet til å se så naturlig ut som mulig. Denne prosjektrapporten beskriver testing og evaluering av metoder for deteksjon og korreksjon av røde øyne, og forsøk på kombinering av metoder for å forbedre teknologien. Forsøkene viste at metodene ikke ga tilfredsstillende resultater og at algoritmens svakheter ligger i kantdeteksjon for å detektere potensielle røde øyne. 1

4 Abstract When the bright light from a camera flash bulb hits the retina in the back of the eye, some of the light reflects and is colored red from the blodwessels. The red light can be seen as a glaring red dot in the face of the subject. This is a very common effect in amateur photography. The aim of this project is to locate and correct this effect, without user interaction on large sets of pictures without any knowledge of the image quality or composition. To locate red eyes one first looks for faces in the image. By looking at the color properties of skin, and methods described in reasearch litterature, one can to a certain degree segment out skin regions. Within these presumed skin regions, we search for areas with a high consentration of red, to locate the red eyes in the picture. Much of the difficullties lies in segmentation of red eyes from the rest of the picture. Like skin, red eyes has vaying color properties. When a red eye in located, the pixels in the located area are replaced with achromatic pixels, to give the pupil an as natural as posible look. This project report describes testing and evaluation of methods for detection and correction of red eyes, and combinations of methods to improve the tecnology. Tests showed that my methods did not produce satisfactory results. Much of the problems lays in edge detection to locate potential red eyes. 2

5 Forord Denne masteroppgaverapporten i medieteknikk er utført ved Institutt for informatikk og medieteknikk ved Høgskolen i Gjøvik. Mastergradsstudiet i medieteknikk tilbys i samarbeid med Kungliga Tekniska Högskolen i Stockholm, og denne rapporten er derfor også å betrakte som en KTHeksamensrapport i Medieteknik och grafisk produktion. Jeg vil gjerne få takke min veileder ved Høgskolen i Gjøvik, Ivar Farup, og ressursperson Jon Yngve Hardeberg for alle tips og råd under arbeidet, samt bildedatabasen gjort tilgjengelig for testing av Hardeberg. Store deler av arbeidet i dette prosjektet har for min del omandlet læring. Anskaffelse av kunnskap og innsikt har vært en sentral del av å utføre et prosjekt innenfor områder jeg tidligere hadde liten erfaring med. Dette gjaldt både emneområdet bildebehandling, og området forskningsprosjekter. Følelsen av at størsteparten av arbeidet ble nedlagt mot slutten av prosjektperioden kommer ikke av disponering av tiden, men av at forståelsen for emnet kom mot slutten og gjorde at det var her store deler av selve utviklingen fant sted. Gjøvik, 26. oktober Øyvind Halewijn Bjerkvik 3

6 Innhold 1. Innledning Mål og metoder Forskningsspørsmål Litteraturstudie Evaluering og testing Mål Relatert arbeid Deteksjon av ansikter Konvertering til gråtonebilder Deteksjon av røde øyne Korreksjon av røde øyne Tilgjengelig teknologi Eksperimentelle tester og utvikling Ansiktsdeteksjon Fjerning av uønskede detaljer Konvertering til gråtonbilder Deteksjon av røde øyne Prosessering av binært bilde Fjerning av falske treff Templatematching Korreksjon av røde øyne Prototyp Konklusjon og diskusjon Diskusjon Konklusjon Referanser Vedlegg Konvertering mellom fargerom Eksempler på korrigerte bilder

7 1. Innledning Når det sterke lyset fra blitsen på et fotoapparat treffer retina bakerst i øyet, reflekteres noe av lyset. Lyset som reflekteres farges rødt av blodkarene i retina, synes på bildet som ofte intense røde flekker i ansiktet. Dette er en veldig vanlig og ganske sjenerende effekt når det gjelder amatørfotografier. Effekten kan motvirkes ved å styre lysforholdene før bildet taes. Mange nyere kameraer har en funksjon som sender ut lysblink før bildet taes for å få pupillene til å trekke seg sammen. Denne funksjonen minsker effekten med røde øyne, men fjerner den ikke helt. Det er upraktisk for fotografen og objektet, siden det blir en forsinkelse fra fotografen trykker til bildet taes og objektet vil ofte reagere på lysblinkene med å blunke. Funksjonen krever også en del ekstra strøm og gjør at batteriene tappes fortere. Kravene til kompakthet på dagens kameraer gjør at blitsen er nærmere linsen og med på å gjøre effekten sterkere, siden lyset reflekteres mer direkte tilbake i linsen (figur 1.1). Figur 1.1: Hvordan røde øyne effekten oppstår (Hardeberg 2002) Flere kommersielle bildebehandlingsprogrammer har mulighet for å fjerne denne effekten fra digitale bilder. Graden av brukerinteraksjon og prestasjonsnivået til disse funksjonene varierer. Skal røde øynene fjernes automatisk i digitale bilder må øynene lokaliseres i bildet, noe som er ikke trivielt. Målet for mye av arbeidet på området er å utvikle metoder som kan utføre en feilfri korrigering av røde øyne på hele bildedatabaser uten noen forhåndskunnskaper om bildenes sammensetning eller innhold. Algoritmen beskrevet i oppgaven henter metoder og inspirasjon fra de få tilgjengelige artiklene som er blitt publisert. Publiserte artikler på temaet korreksjon av røde øyne er relativt få utenom patentlitteraturen, og metodene er til tider vagt beskrevet, med liten informasjon om testdata, framgang og resultater. Dette kan ha sammenheng med at arbeidet på området ofte blir finansiert og utført av bedrifter som vil ha teknologien for seg selv. 5

8 Det har i senere år blitt testet og forsket mye på biometriske systemer. Systemer som søker etter personlige trekk ved mennesker i digitale og analoge data. Ansiktsgjenkjenning er et av de vanskeligere områdene innenfor feltet biometri. Ikke bare er det vanskelig å skille personer fra hverandre, men det kan by på problemer å gjenfinne ansikter i digitale bilder. Noe av de samme problemene støter vi på ved når vi forsøker å automatisk fjerne røde øyne i bilder. Vi må være sikre på at den røde flekken er øyne i et ansikt, og ikke et annet objekt. Bildene som skal behandles for røde øyne kan være vanskeligere å prosessere siden de ikke er tilrettelagt for å finne ansikter eller øyne, men er amatørfotografier av veldig varierende kvalitet og sammensetning. Sikkerhetssystemer som er laget for å gjenfinne ansikter eller øyne kan ofte tilrettelegge bakgrunnen og vinkelen til kameraet for bedre ytelse. Artikler og forskning på området ansiktsgjenkjenning er omfattende og variert. 6

9 2. Mål og metoder 2.1 Forskningsspørsmål Forskningsspørsmålene formuleres for å ha et mål for prosjektet og arbeidet skal søke å gi svar på spørsmålene. Ved å studere og teste publisert litteratur og kommersiell programvare kan man finne ut noe om prestasjonsnivået og modenheten til teknologien. Hvor godt presterer eksisterende teknologi for automatisk korreksjon av røde øyne? Bildeprosessering er et mye studert og brukt fagfelt i mange sammenhenger. Hvordan kan eksisterende teknologi innen områdene bildebehandling, fargeteori, mønstergjenkjenning og biometri utnyttes for å designe en bedre algoritme for korreksjon av røde øyne? Det er publisert forskningsartikler som beskriver metoder for deteksjon av hud, deteksjon av ansikter og korreksjon av røde øyne. Hvordan kan kombinering av metoder fra tilgjengelig litteratur forbedre deteksjon og korreksjon av røde øyne? 2.2 Litteraturstudie Søkene etter litteratur har innebefattet temaer rundt ansiktsdeteksjon, øye deteksjon og korrigering av røde øyne. Via referanser fra innhentede artikler har også teori rundt bildeprosessering og fargebehandling blitt innhentet og studert. Innledende periode av prosjektet innebefattet også studier av MATLAB for å kunne implementere og teste metoder og teorier i dette programmet. Utvalgte artikler ble studert og testet, mens andre fungerte som inspirasjon og veivisere. Grunnet noen artiklers noe overfladiske beskrivelse og begrenset tid ble ikke alle metoder implementert. Litteraturstudien hadde også som formål å skape forutsetninger for en teoretisk diskusjon rundt forenklende og forbedrende metoder som ikke ble testet. Teori rundt fargebalansering og biometriske metoder for ansikts- og øyedeteksjon krevde mer tid og ressurser enn det som var til rådighet, og ble begrenset til teoretiske forslag som kan forbedre metodene ved videre arbeid. 7

10 2.3 Evaluering og testing Evaluering og testing av foreslåtte metoder ble foretatt i MATLAB, som er et program for utføring av komplekse matematiske operasjoner ( Foreslåtte metoder fra innhentet litteratur ble forsøkt implementert og testet i MATLAB på bildedatabasen gjort tilgjengelig av Hardeberg. Evaluering og testing av egne teorier ble utført på et utvalg av bilder, og på hele databasen hvis resultatene så lovende ut. Teoriene ble inspirert av metoder fra innhentet litteratur, basert på metodenes prestasjoner beskrevet i testresultatene og konklusjonene. Kombinasjoner av metoder fra ulike deler av prosessen fra innhentet litteratur ble evaluert og testet i et forsøk på å finne en bedre fremgangsmåte. 2.4 Mål Målene for oppgaven var å få en forståelse av metodene rundt korreksjon av røde øyne, og gjennom testing og vurdering finne styrker og svakheter i metoder. Erfaringene og kunnskapen skulle så brukes i et forsøk på å finne alternative fremgangsmåter for å gjøre deteksjon og korreksjon av røde øyne. Målet for prototypen var å finne en framgangsmåte som kunne tilby en bedre prestasjonsstatistikk enn studerte metoder. 8

11 3. Relatert arbeid Deteksjon av områder med hud er et av områdene som belyses i flere artikler. Denne deteksjonen foregår i forskjellige fargerom, med forskjellige forutsetninger. Det blir også forslått preprosessering av bilder for å lette deteksjon av hud. Bruk av ansiktsdeteksjon med neural metode nettverk (Hjelmås og Low, 2001) er beskrevet i flere artikler, og det foreslåes å kombinere denne med deteksjon av hud. De fleste artiklene konverterer bildet til gråtoner hvor områder med dominans av rødt fremheves. Dette gjøres på forskjellige måter, som gir bildene forskjellig karakter. Hvordan røde øyne detekteres ut ifra dette gråtonebildet varierer. Hardeberg (2002) gjør korreksjon av røde øyne hvor områder med røde øyne markeres av brukeren. Her belyses korreksjonsproblematikken mer enn deteksjonsproblematikken. Smolka et al. (2003) beskriver en fremgangsmåte hvor områder med hud identifiseres ved å se på fargeegenskaper. Områder med dominans av rødt og med tilnærmet sirkelform detekteres med konvolusjon på et gråtonebilde med fremheving av områder dominert av rødt. Schettini et al. (2003) kombinerer deteksjon av hud med ansiktsdeteksjon basert på neural nettverk metode. Røde øyne detekteres også her ved å fremheve områder hvor rødt dominerer. Held (2001) benytter også neural nettverk metode for ansiktsdeteksjon, men uten å detektere områder med hudfarger. For å detektere røde øyne brukes Hough-transform på gråtonebilder med fremheving av rødt. 3.1 Deteksjon av ansikter Deteksjon av hud i digitale bilder har fått en del oppmerksomhet i senere tid siden det kan brukes i flere sammenhenger. På tross av en del forskning på området, er deteksjon av hud i bilder med kompleks sammensetning en utfordring. Fargeegenskaper er en viktig nøkkel til å finne ansikter i et bilder, siden det ikke sees etter mønstre som påvirkes av endringer i personers vinkel eller avstand til kameraet. Studier viser at hudfarger er samlet i kromatisk fargerom. Hudfargen til et individ opptar en relativt liten del av fargerommet (figur 3.1). Variasjon i hudfarger kan reduseres ved intensitetsnormalisering (figur 3.1). 9

12 Intensitetsnormalisert RGB fargerom: (Plataniotis og Venetsanopoulos, 2000). r = cr / I g = cg / I (formel 3.1) b = cb / I Her representerer I = R + G + B intensiteten (brightness) og c er en konstant, her lik 100. Hudfarger varierer mer i tone enn i kromatisitet. (Smolka et al. 2003), og variasjoner i lysforhold gjør deteksjon av hud vanskelig. Smolka et al.(2003) benytter intensitetsnormalisert rgb fargerom og HSV fargerom. RGB fargerommet er det mest brukte fargerommet, hvor farger er representert som en blanding av rødt grønt og blått. Siden variasjoner i hudfarger mye skyldes varierende lysforhold, konverteres RGB verdiene til deres korresponderende kromatiske verdier (formel 3.1), for å redusere lysforholdenes påvirkning. Distribusjonen av piksler som representerer hudfarger kan modelleres som en todimensjonal gaussisk fordeling med r og g (Sirohey, et. al, 2002). (a) (b) Figur 3.1: (a) r og g verdiene til områder med hud fra to ulike bilder av en og samme person tatt med blits. Forskjellige farger i figuren er verdier fra områder fra forskjellige bilder. (b) R og G verdiene fra samme områdene. Studier av hudfargers forandring under varierende lysforhold (Störring, et al., 2003), viser at endringer i CCT (Correlated Color Temprature) har mye større innvirkning på r enn på g. Bilder tatt av et rødt og et grønt objekt under varierende lysforhold vil derfor gi større variasjoner i r enn i g. Som vi ser av figur 3.1 vil endringer i lysforhold gi endringer i fargeegenskaper til hud, og endringene er større i r enn i g. Variasjoner kan også sees i HSV og CIELAB fargerom. 10

13 For å gjøre segmenteringen av hudfarger mer presis kombinerer Smolka, et al. (2003) terskling i rgb fargerommet med terskling i HSV fargerommet. Fargerommet egner seg godt for å segmentere ut hud, og de setter de optimale tersklingsverdiene til: r [38,55] g [25,38] H [ 0,50] U[340,360] (formel 3.2) S > 0.2 V > 0.35 Disse verdiene valgte de ut og testet etter litteraturstudier av publisert litteratur hvor terskingsverdier var blitt funnet. H verdiene skal er med på å segmentere ut rødlige farger, mens S verdiene skal ekskludere rene, og mørke rødfarger. I algoritmen til Schettini et al. (2003) gjøres segmentering av hudfarger enklere ved at fargene i bildet korrigeres uten kunnskaper om bildet. Dette gjøres ved å identifisere dominerende farger (fargestikk) og balansere dem (Gasparini og Schettini, 2004). Det korrigerte bildet konverteres fra RGB til CIELAB fargerom (formel 7.1 og 7.2), hvor følgende variable analyseres; a * hue = tan 1 ( ) b * 2 2 1/ 2 ( a * + b * ) C * K = = L * L * (formel 3.3) C * hvor, forholdet mellom kromatisk radius og lyshet (lightness), er L * relatert til metningen (saturation). Ut ifra disse verdiene beregnes sannsynligheten for at området er hud og det lages en skin probability map, hvor områder gis en sannsynlighet for at det er et område med hud. Videre brukes det en ansiktsgjenkjennings algoritme basert på neural nettverk metode, for å lage en face probability map. Disse kombineres for å finne områder med kombinert høye sannsynligheter for ansikter. 11

14 Held (2001) bruker også ansiktsdeteksjon med en neural nettverk metode, men uten å se på farger. Metoden oppdaget kun 76 % av ansiktene, til tross for at Shettini et al. (2003) viste til langt bedre statistikk med denne typen ansiktsdeteksjon, noe grunnet at de også detekterer ansikter ved å lete etter hudfarger. Vergados et al. (2002), forsøker å segmentere i RGB fargerom uten intensitetsnormalisering. Statistikken de la fram i artikkelen virket svært lovende. Innledende tester med problembilder ga ikke tilfredsstillende resultater, og så derfor ikke ut til å kunne forbedre andre metoder. Hjelmås og Low (2001) viser til forskjellige metoder for ansiktsdeteksjon. Metodene gir fra 70 til 95 % treff for sine databaser, og er et alternativ for å fjerne falske treff, eller forbedre deteksjonsraten for faktiske røde øyne. 3.2 Konvertering til gråtonebilder Etter å ha detektert hud eller ansikter er neste skritt i prosessen for de fleste prosessene beskrevet i litteraturen, å lete etter områder med fargeegenskaper tilsvarende røde øyne. En mulighet er å konvertere fargebildet til et gråtonebilde, med framheving av røde områder. Formålet er å gjøre områder hvor rødt dominerer over grønt og blått lysere enn resten av bildet, for å kunne skille ut disse områdene. En metode er å beregne verdier som best beskriver røde øyne, og beregne fargeavstanden til piksler i interesseområdet. For å finne aktuelle piksler innenfor området hvor øyet ligger, lager Hardeberg (2002) en maske ved å beregne fargeforskjellen mellom det originale pikselet ( r ( i, j) ), og den forhåndsdefinerte verdien for et typisk rødt øye( rtypical Re deye, satt til R=150, G,B=50) for hvert piksel i interesseområdet; x i, j) = d( r( i, j), ) (formel 3.4) ( r Typical Re deye Her er d( ) en funksjon som kvantifiserer fargeforskjellen mellom to piksler. Formelen som artikkelen beskrev ga best resultater var kromatisk distanse i CIELAB (formel 7.1 og 7.2) fargerommet: 2, r1 ) * * 2 * * [( a ) ( ) ] a1 + b2 1 d( r = b (formel 3.5) Verdien blir så normalisert slik at verdien til masken ( m ( i, j) )blir lysere hvor det er mest sannsynlig at det er et rødt øye; max( x) x( i, j) m( i, j) = round 255 max( x) min( x) (formel 3.6) 12

15 Patti et al. (1998) benyttet YCbCr fargerom som de konverterte til med gammakorrigerte (γ=3) RGB verdier (formel 7.3). Så brukes Cr kanalen som grunnlag for deteksjon av røde øyne. Smolka et. al (2003) konvertete til gråtoner med hensyn til hvor rødt dominerer over grønt og blått. T ( i, j) = R( i, j) max{ G( i, j), B( i, j)} Formelen framhever områder hvor rødt dominerer over grønt og blått, og verdiene normaliseres med hensyn på R: 2 [ R( i, j) max{ G( i, j), B( i, j)}] T ( i, j) = (formel 3.7) R( i, j) hvor (i,j) betegner piksel posisjonen i bildet. Schettini et al. (2003) bruker formlene: 4R ( G + B) min( G, B) max( G, B) redness = R 2 redness = redness ( redness > 0) (formel 3.8) Disse formlene kan tolkes på flere måter, siden de kan virke noe ulogisk. Hvis max(g,b) og min(g,b) representerer høyeste og laveste verdi innenfor området, forutsetter dette at lite av forstyrrende elementer fra bakgrunnen har kommet med. Held (2001) bruker formelen; T ( i, j) = R( i, j) min( G( i, j), B( i, j)) (formel 3.9) Her får områder hvor rødt dominerer over grønt eller blått positive verdier. 13

16 3.3 Deteksjon av røde øyne Det konverterte gråtonebildet prosesseres så videre for å detektere røde øyne innen områder som tidligere har blitt identifisert som sannsynlige ansikter. Hardeberg (2002) binæriserer masken (formel 3.6) med en terskelverdi på 175. Deretter brukes matematisk morfologi (open og close operatorer, se kapittel 4.2) for å fylle hull og glatte ut kantene. For å få en mykere overgang mellom pupillen og irisen blir kantene gjort uklare ( smoothed eller fyzzyfied ). Områdets sirkelegenskaper evalueres for å sikre at det er et rødt øye som korrigeres. Smolka et al. (2003) bruker et sett masker (figur 3.2) som skal detektere tilnærmet sirkelformede områder ved å utføre konvolusjon på gråtonebildet (formel 3.7). Masken gir høyest respons når den plassers direkte over et sirkelformet område med lik radius som masken. Det brukes masker med størrelser {r=2,3,4 25} Bildene terskles så på bakgrunn av filterresponsen. Det foreslås å gi piksler med gråtoneverdi større enn gjennomsnittet for bildet verdi 1, og resten Figur 3.2: Eksempel på konvolusjons maske med radius r=4. Schettini et al. (2003) velger ut kandidater for røde øyne på bakgrunn av størrelsen i forhold til området som representerer ansikt, og rundhet. Hvordan kandidatområdene skilles ut fra bakgrunnen beskrives ikke konkret. Held (2001) benytter Hough transform på gradient bildet funnet med en sobel operator. Falske treff elimineres så ved å se på kandidatenes størrelse og plassering i forhold ansiktet som ble funnet med biometrisk ansiktsdeteksjon. 14

17 3.4 Korreksjon av røde øyne Målet ved korrigering av røde øyne for å få ansiktet til å se mest mulig naturlig ut. De røde pikslene må få en svart farge med en naturlig overgang mellom pupill og iris eller øyelokk. Samtidig vil vi bevare den hvite flekken som oppstår når lyset reflekteres i overflaten til øyet. Når Hardeberg (2002) har identifisert røde områder blir L*, a* og b* verdiene korrigert: max L * L* L max L * min L * a * 0 ( L * min *) (formel 3.10) b * 0 Verdiene blir så vektet i forhold til masken (formel 3.6) etter formelen: r( i, j) = t( i, j) m( i, j) + r( i, j)(1 m( i, j)) (formel 3.11) Hvor t(i,j) betegner verdiene fra formel Bildet konverteres så tilbake til RGB fargerom. Smolka et al. (2003) erstatter identifiserte piksler i røde øyne med akromatiske (fargeløse) piksler med intensitet mean{g,b}, siden G og B verdiene ikke blir påvirket av røde øyne. Dette gir en naturlig korreksjon av røde øyne. Schettini et al. (2003) erstatter pikslene som er identifiserte som røde øyne med stort sett monokrome (ensfargede) piksler etter formelen (for R,G og B kanalene): new old ( Masksmooth ) + Masksmooth Rmch R = R 1 (formel 3.12) Koordinatene til det monokrome pikslet er R mch, G mch og B mch, som blir evaluert med hensyn til intensiteten lik mean{g,b}, og fargekorreksjonen er vektet av smoothing mask ( Mask smooth ) for å få en naturlig overgang mellom iris og korrigert rødt øye. Denne forklaringen er åpen for tolkninger med hensyn til hvilke verdier R mch, G mch og B mch representerer. 15

18 Ved å se på gjennomsnittlige verdier for Cr (i YCbCr fargerom) kan røde øyne skilles ut i det aktuelle området (Patti et al., 1998); Th = +.2(max min ) (formel 3.13) S Cr 0 Cr Cr hvor S Cr er gjennomsnittlig Cr for området, og max Cr min Cr er høyeste minus laveste Cr verdi for området. Områder som ligger over terskelverdien (Th) korrigeres ved å gi dem en gråtone tilsvarende 80 % av original luminans. 3.5 Tilgjengelig teknologi Hewlett Packard (HP) har kommet med et digitalkamera (Photosmart R707) som fjerner røde øyne fra bilder. Etter at et bilde har blitt tatt kan brukeren velge å fjerne røde øyne i bildet. Kameraet leter etter røde øyne og korrigerer det den finner. Forandringene merkes og brukeren får valget om å lagre endringer eller ikke. Enkle tester med kameraet viste at funksjonen fungerte bra, men ikke 100 %. Den er utsatt for noen falske treff og noe av svakheten er her at brukeren ikke får muligheten til å velge hvilke endringer som skal beholdes. Korreksjoner av falske treff gir ofte ingen markante endringer, noe som avhenger av objektets opprinnelige farge. Fjerningen gjøres i kameraet, og krever ingen PC. Programvaren som følger med kameraet har også en funksjon for fjerning av røde øyne, men denne funksjonen krever at brukeren merker områder hvor øyet er, og det er ikke tilrettelagt for prosessering av mange bilder. Funksjonen i dette kameraet kan kun brukes på bilder som er tatt med blits. Sammen med adaptive lighting funksjonen kan forholdene i bildet bedres og forutsees i større grad. Dette sammen med høy oppløsning (5MP) gjør forholdene bedre og prosessen lettere enn for forholdene for bildene i testdatabasen brukt i denne rapporten. Microfrontiers digital darkroom er et produkt for bildebehandling som er tilgjengelig fra adressen: Programmet fjerner røde elementer fra områder utvalgt av brukeren. Dette betyr at brukeren må selv markere den røde flekken før han velger å korrigere den. Velges mer enn den røde flekken vil dette også bli korrigert, noe som krever tid og nøyaktighet av brukeren. Photodex CompuPic er et annet produkt for bildebehandling som tilbyr en funksjon for korrigering av røde øyne, tilgjengelig fra adressen: Brukeren kan her klikke på et punkt i det røde øyet, hvor han vil ha korrigert. Programmet forsøker da å korrigere hele den røde flekken. For å få korrigert hele den røde flekken må brukeren ofte klikke flere ganger på forskjellige punkter i øyet for å få effekten korrigert. Korreksjonen ser naturlig ut og det korrigeres ikke utenfor den røde flekken. 16

19 STOIK RedEye AutoFix er et program for automatisk korreksjon av røde øyne, som er tilgjengelig for kjøp. Tester med kun noen få av bildene fra databasen brukt i dette prosjektet, ble det klart at dette programmet ikke på noen måte holder mål når det gjelder automatisk korreksjon. Mange røde øyne (tydelige effekter) ble ikke korrigert, og feiltreff ble korrigert slik at bildekvaliteten ble redusert. Programmet er tilgjengelig fra nettet: På hjemmesidene til Hewlett Packard kan man bruke programmet redbot. Her kan man laste inn et bilde og få det korrigert automatisk via nettsiden. Det er trolig at teknologien brukt på denne nettsiden er lik, hvis ikke den samme teknologien man finner i det overnevnte digitalkameraet fra HP. Enkle tester viste at heller ikke her fungerer teknologien 100 %, selv om bildene sendt inne kommer fra det overnevnte kameraet. Algoritmen som blir brukt ser ikke ut til å slite med falske treff, men korrigerer ikke alle røde øyne i bildet selv om de er visuelt tydelige. ( ). 17

20 4. Eksperimentelle tester og utvikling Tester av metoder beskrevet i innhentet litteratur, og tester på egne teorier og ideer ble utført i MATLAB. Metodene beskrevet i litteraturen ble forsøkt implementert så nøyaktig som mulig, og med færrest mulig egne tolkninger. Endringer ble sene gjort på de metodene hvor det var rom for forbedringer, i forsøk på å finne bedre alternativer. 4.1 Ansiktsdeteksjon Deteksjon av hud i et bilde med kompleks bakgrunn er en vanskelig utfordring. Dette gjelder spesielt i bilder med bakgrunn som består av trehvite farger og andre farger som ligger i samme området i det fargerommet det terskes i, og som vankelig kan skilles fra hudfarger. En del av utfordringen ved å skille hud fra andre objekter, er også de forskjellige lysforholdene i forskjellige bilder, som påvirker hudfargens egenskaper. Jeg benyttet meg av Smolka et al. (2003) sin metode for segmentering i intensitetsnormalisert rgb fargerom og HSV fargerom. (formel 3.2). HSV fargerommet er sett på som velegnet for å segmentere ut hudfarger. Smolka et al. (2003) oppga formlene for konvertering til HSV fargerom (formel 7.5), men i mine forsøk benyttet jeg meg av funksjonen for konvertering i MATLAB. Dette medførte at H verdiene ligger innen for intervallet [0,1] og ikke [0,360]. Jeg dividerte derfor terskelverdiene for H med 360. Jeg antok at konverteringen fra RGB til HSV fargerom gir like verdiforhold for begge metoder. Tester med verdiene (formel 3.2) viste at terskingsverdiene ikke godtok lyse hudfarger. Dette medførte at jeg måtte studere verdiene for å finne ut hvor de lyse hudfargene falt utenfor. Jeg fant at lyse hudfarger har lavere metningsgrad S i HSV fargerommet enn det verdiene godtok, og en lavere verdi for rødt i det normaliserte rgb fargerommet (formel 3.1). Dessverre medfører å justere ned kravene til S og r, at større del av bakgrunnen kommer med, noe som gjorde det vanskelig å skille ut ansikter uten å ta med mye bakgrunn i enkelte bilder (figur 4.1). Justering av grensene medfører større fare for falske treff, noe jeg å løse ved å unngå å utføre tersking på en nedre grense for S i første omgang. Jeg kjørte en ny hud deteksjon på hvert område som inneholdt antatt hud. På bakgrunn av den gjennomsnittlige S verdien for området, satt jeg en terskel for om jeg skulle fjerne piksler med en nedre terskelverdi for S tilsvarende Smolka et al. (2003) sin verdi eller ikke. Det er både vanskelig og risikabelt å sette denne terskelen fordi vi ikke vet hvor stor del av bakgrunnen som har kommet med i hvert område og 18

21 påvirker gjennomsnittlig S verdi. Terskel ble empirisk satt til gjennomsnittlig S<0.5. For å segmentere ut hudfarger brukte jeg følgende verdier; r [34,55] g [25,38] H [ 0,0.14] U[0.94,1] (formel 4.1) S > 0.04 V > 0.35 Shettini et al. (2003) bruker CIELAB fargerom for å undersøke om pikselverdiene representerer hud. Verdiene forutsetter fjerning av fargestikk før deteksjon av områder med hud. Siden fjerning av fargestikk ikke ble implementert for testing i denne rapporten, ble videre testing av denne metoden ikke utført, men står som et alternativ til videre arbeid. (a) (b) (c) (d) (e) (f) Figur 4.1: (a) og (b) er originalbilder. (b) og (e) er bilder tersklet med verdiene for hud fra formel 3.2. (c) og (f) er tersklet med egne verdier (formel 4.1) 19

22 4.2 Fjerning av uønskede detaljer Etter å ha fjernet piksler som antaes å ikke representere hud må bildet renskes for uønskede detaljer. Fjerningen av piksler som antaes å ikke være hud, kan ta med deler av ansiktet og etterlate hull etter øyne, lepper og nesebor, samt etterlate spredte flekker som er en del av bakgrunnen. Ved å bruke open og close operatorer renskes det binære bildet. Close operatoren utvider områder og krymper dem tilsvarende, slik at nærliggende områder kobles sammen og hull fylles. Open operatoren virker motsatt, her krympes områdene og utvides tilsvarende. Er områdene små forsvinner de helt. Operatoren fjerner småstøy som ikke er store nok til å representere ansikter av interesse. Bruk av matematisk morfologi for å renske bildet kan by på flere utfordringer. Bilder har veldig forskjellige sammensetninger, og strenge tersklingsverdier for hudfarger kan fjerne deler av hudfargene i et område med hud. Feil bruk av matematisk morfologi kan føre til at ansiktet blir delt opp, og øynene faller utenfor områdene som sjekkes for røde øyne. Ved å justere morfologien kan man også risikere å ta med for mye av bakgrunnen, som gir flere falske treff. Hvis personen i bildet har vridd hodet litt mot siden kan det røde øyet komme i kanten av hudområdet som er ansiktet, og dermed falle utenfor etter bruk av matematisk morfologi. For å motvirke dette utvides områdene med 4 piksler (figur 4.2). Det er vanskelig å si hvor mye det er nødvendig å utvide området for å sikre at øyet kommer med og minst mulig av forstyrrende elementer rundt. Dette vil avhenge av bildets oppløsning og ansiktets størrelse. Erfaring viser at dette er et problem som for det meste rammer bilder med lav oppløsning. (a) (b) (c) Figur 4.2: (a) er utklipp fra originalbilde. (b) er etter prosessering med matematisk morfologi. (c) er etter utviding av området. 20

23 Jeg stilte krav til størrelsen på potensielle ansikter, basert på den laveste størrelsen av øyne jeg kunne detektere. Områdene måtte minimum være 40x40 piksler store. Størrelsen til røde øyne i bilder av denne størrelsen er ofte for små til å korrigeres hvis detektert, siden det ikke er noen lett detekterbar overgang mellom pupillen og irisen eller huden rundt. Dette medfører ar områder mindre enn 80x80 piksler har reduserte sjanser for å bli detektert og korrigert på en tilfredsstillende måte (figur 4.4). (a) (b) (c) Figur 4.3: (a) er originalbildet, (b) er bildet etter deteksjon av hudfarger og (c) er bildet etter bruk av matematisk morfologi. (b) (a) Figur 4.4: (a) viser et ansikt med røde øyne størrelse ca 50x50 piksler (300% av original størrelse). (b) viser ene øyet fra (a), (700% av original størrelse). 4.3 Konvertering til gråtonbilder For å finne røde øyne i bildet søkes det etter områder med fargeegenskaper som kan representere røde øyne. Røde øyne kan skilles ut ved å se etter røde områder i RGB fargerommet, etter høye Cr verdier i YCbCr fargerommet, eller se på områder med høye metningsverdier i S kanalen i HSV fargerommet. Bildet konverteres til gråtonebilde hvor områder med overvekt av rødt fremheves som lysere toner. Målet er å få røde øyne til å fremstå som lyse flekker i et ellers mørkt bilde. Det er flere metoder for framheving av rødt i bildet med forskjellige resultater avhengig av bildets sammensetning Histogramutjevning for å få frem detaljer i bildet kan i enkelte tilfeller føre til at uønskede detaljer blir tydeligere, mens ønskede blir mer uklare. Dette gjelder både histogramutjevning i fargebilder, og i gråtonebilder. (Histogramutjevning i fargebilder utført ved å histogramutjevne V kanalen i HSV fargerommet). Enkle tester og forsøk ble utført med histogramutjevning og forskjellige måter å fremheve rødt i bildet, og ingen av metodene ga tilfredsstillende resultater for alle bilder. 21

24 Enkle tester viste at formel 3.7 ga et mørkere bilde, hvor røde områder var mindre tydelige. Avstanden mellom røde øyne og om omliggende områder var derimot store nok til å kunne skilles ut, og bakgrunnen ble ofte mindre forstyrrende enn med formel 3.9 (figur 4.5). (a) (b) (c) Figur 4.5: (a) er originalbilde, (b) er gråtonebilde konvertert med formel 3.7, (c) er konvertert med formel 3.9. Ved å studere S kanalen i HSV fargerommet kan man se at røde øyne effekten ofte gir en høy metning i forhold til omliggende områder, og kan skilles ut ved å finne passende terskingsverdi for bildet, eller passende verdi for kantdeteksjonsoperatoren. Vanskeligheten med å skille ut røde øyne i denne kanalen er at det blir en overgang mellom det hvite området i glasslegemet og huden rundt øyet. Det blir vanskelig å finne terskelverdier for å skille ut det røde øyet uten å detektere denne overgangen. De samme erfaringene ble gjort for Cr kanalen fra YCbCr fargerommet (formel 7.3 og 7.4, figur 4.6). Jeg benyttet jeg meg av funksjonen for konvertering til YCbCr som fantes i MATLAB, og forutsetter at verdiene blir like de som formel 7.3 og 7.4 gir. (a) (b) Figur 4.6: (a) er Cr kanalen fra YCbCr fargerommet av figur 4.5(a), (b) er S kanalen fra HSV fargerommet. 22

25 For å jevne ut forskjellene i fargeegenskaper til røde øyne, brukte jeg S kanalen, Cr kanalen, formel 3.7 og formel 3.9 for å lage fire forskjellige bilder. Jeg justerte verdiene til å ligge i intervallet [0,1] for å gjøre dem sammenliknbare. Så lagde jeg et enkelt gråtonebilde ut ifra snittet av de fire bildene (figur 4.7). Dette ble gjort for å redusere påvirkningen til forskjellene i fargeegenskaper til røde øynene på terskelverdier. Figur 4.7: Bildet inneholder gjennomsnittlige verdier fra fire gråtonebilder. 4.4 Deteksjon av røde øyne Deteksjon av røde øyne er den vanskeligste oppgaven. Å finne metoder for å skille ut røde øyne med minst mulig forstyrrelser fra andre elementer kan ofte vise seg vanskelig. Fargeegenskapene til røde øyne kan variere mye, og påvirke hvor mye de skiller seg ut i forhold til resten av ansiktet. Dette kan gjøre det vanskelig å finne grense for hvor mye detaljer og hvor mye endringer vi skal se etter i et gråtonebilde. Flere kantdeteksjonsoperatorer ble evaluert med varierende resultater, men en canny operator så ut til å gi mest ønskelige resultater. Canny operatoren en flertrinns prosess (Hypermedia Image Processing Reference). Første steg er å bruke gaussisk konvolusjon, som er en 2 dimensjonal konvolusjons -operator som glatter ut forstyrrende detaljer i bildet. Operasjonen gjør at små detaljer og støy blir mer uklare. Så benyttes en enkel 2 dimensjonal førstederivert-operator som fremhever regioner med høye spatielle førstederiverte, som indikerer kanter. Kanter gir variasjoner i gradientbildet og algoritmen følger toppene av disse variasjonene for å sette piksler til 0 som ikke er en del av denne forhøyningen, noe som gir en tynn linje i resultatbildet. Prosessen bruker to terskelverdier T1 og T2, hvor TI>T2. Prosessen starter søket etter kanter i et punkt med verdi>t1. Forhøyningen følges i begge retninger til den faller under T2. Dette er med på å forhindre at støyfulle kanter brytes opp i mange deler hvis verdiene varierer over og under T1. 23

26 Forskjellige metoder for konvertering til gråtonebilde gir forskjellig sammensetning i bildet og stiller forskjellige krav til terskelverdier for kantdetektoroperatoren(t1 og T2). Problemer med å skille ut pupillene kan oppstå fordi terskelverdiene til operatoren for kantdeteksjon settes feil, og detekterer en del kanter rundt øynene som gjør at pupillen glir over i samme området som resten av øyet eller gjør at pupillen ikke blir tydelig nok. For å finne terskingsverdiene til kantdeteksjonsoperatoren fant jeg manuelt koordinatene til samtlige røde øyne i databasen. Jeg testet på hele databasen med forskjellige terskingsverdier i et forsøk på å finne flest mulig øyne. At terskingsverdiene i algoritmen settes slik at flest mulig av røde øyne detekteres, medfører flere falske treff. Testene ble utført med forskjellige metoder for konvertering til gråtonebilde. Under testingen stilte jeg lave krav til kandidatområdenes rundhet, for ikke å forkaste riktige treff. Dette for å kunne avgjøre om kantdeteksjonen fungerte uten at resultatene skulle påvirkes av andre krav. Testene ble utført på hele bilder hvor piksler i områder som ikke representerte antatt hud var satt til 0. Ved å sammenlikne de kantdetekterte bildene med forskjellige metoder for konvertering til gråtonebilde og forskjellige kantdeteksjonsinnstillinger, kan felles kanter trekkes ut, og slik utfylle hverandre. Dette kan være med på å fjerne uønskede detaljer og sikre at øynene detekteres. I mange bilder er dette unødig, siden pupillen er tydelig, men for bilder med lav oppløsning eller med andre forstyrrende elementer, kan dette hjelpe med å detektere øyne. Dette forutsetter også at terskelverdiene for kantdetektoren blir satt mest mulig optimalt. Kantene som forstyrrer deteksjon av røde øyne er vanskelig å fjerne uten å fjerne de som er røde øyne, siden de begge ofte er sammenfallende. Tester viste at forsøk på å finne felles kanter for de forskjellige bildene ikke ga forbedrende resultater. Delvis lukkede øyne, briller og sminke kan være med på å skape kanter i bildet som kan vanskeliggjøre deteksjonen av røde øyne. Testene viste at et felles sett med terskelverdier for hver type gråtonebilde ikke ga tilfredsstillende resultater. Dette på grunn av variasjonen i røde øynes fargeegenskaper som gir varierende tydelighet i forhold til resten av bildet (figur 4.8). Jeg forsøkte å finne en felles faktor for alle bilder som kunne multipliseres med en verdi som ble kalkulert for hvert enkelt bilde, for slik å finne optimale terskelverdier. Jeg forsøkte med Otsus metode, som finner en terskelverdi for bildet som forsøker å balansere slik at mengden piksler av hver verdi (0 og 1) blir mest mulig like. Med Smolka et al. (2003) sin metode for gråtonekonvertering (formel 3.7), fungerte dette dårlig. Otsus metode påvirkes i for stor grad av andre elementer som kommer med i bildet, og hvor stor del av bildet som representerte antatt hud. Metoden kan derimot fungere der ansiktet er segmentert ut uten bakgrunn. Det vil da kunne være mulig å sette faktoren i forhold til hvor stor del av ansiktet som representerer øyne. Forsøk på å finne en terskelverdi på bakgrunn av høyeste verdi eller gjennomsnittlig verdi i gåtonebildet ga heller ikke tilfredsstillende resultater. Terskling av bildene gjør det enda vanskeligere å skille røde øyne fra områder rundt. Ikke bare er det vanskelig å finne riktig 24

27 terskelverdi, men det er større sjanse for at pupillen glir over i samme området som resten av ansiktet (figur 4.9). (a) (c) (e) (b) (d) (f) Figur 4.8: (a),(c) og (e) er originalbilder. (b),(d) og (f) er kantdetekterte av bildene over. Kantdeteksjon ble utført på gråtonebilde beskrevet i siste avsnitt av kapittel 4.3, med samme terskelverdier. (a) (b) (c) Figur 4.9: (a) er et øye fra originalbilde, (b) er S kanalen tersklet med verdi 0.6, og (c) er tersklet med 0.4. Tester med Smolka et. al (2003) sine metoder for deteksjon av tilnærmede sirkler i gråtonebildet ble utført. Jeg utførte konvolusjon på gråtonebildene konvertert med deres formel (formel 3.7) og med deres beskrivelse av maskene (figur 3.2). Testene viste at ved å terskle det konvoluterte gråtonebidet ved snittverdien, som foreslått, klarte jeg ikke å gjenskape statistikken lagt fram i deres rapport. På denne databasen klarte metoden kun å finne 61 % av på forhånd merkede øyne. Grunnene til dette kan være flere. Hovedgrunnen så ut til å skyldes terskelverdiene, som så ut til å være noe høye. Videre tester med lavere terskelverdier ga ikke bedre resultater. Det er brukt forskjellige bildedatabaser under testing, som sammen med forskjellige tolkninger av hva som er røde øyne som bør korrigeres, kan være med på å gi avvik. Det er også mulig at unøyaktighet ved innhenting av koordinater til røde øyne kan påvirke resultatene. Kantdeteksjon på et gråtonebilde som bestod av gjennomsnittlige verdier fra fire gråtonebilder, som beskrevet i kapittel 4.3, ga først positive resultater, men det så ut til at deteksjon av røde øyne med en dyp rødfarge ble problematisk med enkelte terskelverdier for kantdetektoren, og mange falske treff. 25

28 For å finne flest mulig røde øyne kjørte jeg kantdeteksjon på gråtonebildet med to forskjellige sett med teskelverdier. Verdiene til canny operatoren ble satt til: T 1 = 0.28, T2 = og (Formel 4.2) T =.35, T = 4.5 Prosessering av binært bilde Feil terskelverdi for kantoperatoren kombinert med ugunstig bruk av matematisk morfologi kan føre til at røde øyne ikke detekteres eller flere uønskede områder kommer med Vanskeligheter med å gjenkjenne røde øyne kan forårsakes av sminke rundt øynene, at øynene er delvis lukket eller variasjon i fargeegenskaper. Bildets oppløsning kan også medføre vanskeligheter, da pupillene kan bli for små, og bli fjernet i opprenskingen av bildet. Det er en utfordring å sette terskler for hva som er interessante områder og hva som skal forkastes. For kantdetekterte bilder, blir sammenhengende linjer ble fylt. Dette forutsatte at røde øyne hadde en sammenhengende sirkel. Kanter ble glattet ut med open og close operatorer. (a) (b) (c) (d) (e) (f) Figur 4.10: (a), (b), og (c) er kantdetekterte bilder (figur4.7), (d), (e) og (f) er etter prosessering med matematisk morfologi. 4.6 Fjerning av falske treff Områdene som skilles ut sjekkes for rundhet og størrelse i forhold til det potensielle ansiktet, for å kunne forkaste det som tydelig ikke representerer røde øyne. For å sjekke rundhet ble en funksjon (regionprops) i MATLAB benyttet. Funksjonen regner ut eksentrisitet (engelsk: eccentricity), som er avviket fra en sirkelformet bane. Verdiene ligger mellom 0 og 1, hvor 0 er en sirkel. Testing viste at for å beholde alle detekterte røde øyne, ble kravet til denne verdien for et kandidatområde satt til 0.7. Størrelsen til potensielle ansikter kan variere mye avhengig av bakgrunnen. Ved å se på størrelsen kan man derfor ikke eliminere alle treff, men det er en enkel måte å fjerne noen. Kravene til størrelse ble også satt noe snille i tilfellet deler av ansiktet ikke kom med grunnet at delen var tildekt eller andre faktorer. Potensielle øyne måtte være minst 15 % av høyden og minst 15 % av bredden til området som representerte ansikt. 26

29 Ved å studere fargeegenskaper til røde øyne i rgb og HSV fargerom på samme måte som for deteksjon av hudfarger, kan man eliminere noen falske treff. Problemet er at røde øyne ligger i samme område i fargerommene som hudfarger, slik at områder som er godkjent som hud, også vil bli godkjent som røde øyne. Forsøkene med å fjerne falske treff ut ifra fargeegenskaper har ikke gitt resultater, men videre studier kan vise at dette er en metode som kan gi resultater. Figur 4.11: Verdier hentet fra røde øyne fra databasen benyttet for denne rapporten. Som vi kan se av figur 4.11, varierer verdiene for røde øyne vel så mye hvis ikke med enn verdiene for hud (formel 4.1). Dette gjør det vanskelig å skille dem ut på bakgrunn av disse verdiene. 4.7 Templatematching Templatematching er en metode for å finne mønstre i et bilde. Templaten er her et lite bilde av et ansikt som representerer utseende til et gjennomsnittlig ansikt. Templaten sammenliknes med et like stort område i et bilde, og det beregnes et tall for likhetsgrad i forhold til templaten. Jeg testet algoritmen til Erik Hjelmås ( for templatematching på egen database. Algoritmen er laget for å finne et ansikt i et bilde hvor personen ser mer eller mindre rett fram mot kameraet, noe som forøvrig også er en forutsetning for at røde øyne skal oppstå. Algoritmen antar at beste match er det eneste ansiktet i bildet. For å tilpasse meg til flere ansikter i hvert bilde, forsøkte jeg å finne en terskel for likhetsgrad ved matching. Jeg klarte ikke produsere tilfredsstillende resultater med denne metoden på denne databasen. Algoritmen ga flere falske positiver enn den gjorde treff ved lavere terskel, og ingen treff ved høyere terskel. Metoden er dessuten ressurskrevende. Gode prestasjonsnivåer er bevist med template matching, og noe av grunnen til at metoden ikke fungerte for databasen kan ha sammenheng med modifikasjonene gjort for å gjøre prosessen raskere. Konstanter for antall piksler templaten skulle flyttes i hvert steg, og hvor mye bildet skulle skaleres ned hvor hver sekvens med matching, ble justert. Dette vil medføre 27

30 større unøyaktighet og lavere prosesseringstid. Ansiktenes vinkler i forhold til kameraet kan ha variert mer enn det som var mulig for templaten å oppdage. Vurderinger gjort med hensyn til forholdene mellom hastighet og nøyaktighet, gjorde at jeg valgte å ikke bruke denne metoden i løsningen. Muligheten for bruk av andre metoder for ansiktsgjenkjenning kan gi andre resultater, som kan brukers til å eliminere falske positiver. Ved å matche kun på øyne, blir templaten for liten. Færre detaljer å matche med fører til mye falske treff. 4.8 Korreksjon av røde øyne Metoden til Hardeberg (2002) ser ut til å ha vanskeligheter med tersklingsverdiene (figur 4.12 ). Det er mulig at verdien for typisk rødøye ikke gir optimale resultater uten en bildeavhengig tilpassning, eller tersklingsverdien for binærisering av masken må settes bildeavhengig (formler 3.4, 3.5 og 3.6). Selve effekten av en vellykket korreksjon gir stort sett bildet et naturlig utseende. Her er det mulig graden av filtrering for å skape glatte overganger varierer fra graden brukt av Hardeberg. (a) (b) (c) (d) (e) (f) Figur 4.12: (a) og (d) viser utklipp av originalbilder. (b) og (e) viser bildene behandlet med Hardeberg sin metode med tersklingsverdi 175, uten å vurdere rundhet. (c) og (f) er tersklet med verdi 95. Metoden til Patti et. al (1998) for å skille ut piksler som skal korrigeres (formel 3.13) ga en lysende rød sirkel igjen i kanten av det røde øyet når korrigert med metoden til Smolka et al. (2003) for fargekorreksjon. Ved å justere ned konstanten fra 0.2 til 0.01 ble den røde kanten mindre (figur 4.13). Ved å justere konstanten lavere enn dette kan korreksjonen påvirke områder rundt. Justert formel (fra formel 3.13) for å detektere piksler for korreksjon: Th = +.01(max min ) (formel 4.3) S Cr 0 Cr Cr 28

31 (a) (b) (c) (d) (e) (f) Figur 4.13: (a) og (d) er bildene som skal korrigeres. (d) og (e) er korrigert med formel 3.13 og Smolka et.al.(2003) sin fargekorrigering. I (c) og (f) er konstanten 0.2 justert ned til 0.01 (formel 4.3). Metoden til Schettini et al. (2003) er åpen for tolkninger (formel 3.12). Jeg forstod forklaringen slik at R mch, G mch og B mch er gjennomsnittlige verdier av R,G og B for området som skal korrigeres. Det kan også tolkes som et de betegner gjennomsnittlig verdi av G og B, hvor alle tre kanaler får lik verdi i likhet med Smolka et al. (2003) sin metode. Visuelt ser begge forutsetninger ut til å gi visuelt like resultater (figur 4.14). (a) (b) (c) (d) (e) (f) Figur 4.14: (a) og (b) er originalene. (b) og (e) er korrigert med gjennomsnitt av hver kanal. (c) og (f) er korrigert med gjennomsnittet av R og G. En vanskelighet med korreksjon er vinkelen det røde lyst får ut av øyet. Når personen står et stykke fra kameraet vil den røde flekken bli større enn hvis personen hadde stått tett inntil. Dette er fordi det røde lyset ikke har parallelle stråler. Dette medfører at korreksjonen kan se noe unaturlig ut, siden det korrigerte området ofte blir større enn en pupill normalt ville være og overgangen til huden rundt øyet kan gjøre deteksjon og korreksjon vanskeligere (figur 4.15). 29

32 (a) (b) (c) Figur 4.15: (a) utklipp av ansiktet til en person som står et stykke unna kameraet. (b) er korrigert etter samme metode som figur 4.12 (c) og (f), men med terskelverdi lik 60. (c) er korrigert med samme metode som figur 4.11 (c) og (f). 4.9 Prototyp Etter å ha evaluert og testet metoder og fremgangsmåter forsøkte jeg å sette sammen en algoritme for deteksjon og korreksjon av røde øyne. Terskelverdier ble satt ut ifra resultater gitt under testing beskrevet tidligere i dette kapittelet. Første steg i prosessen består i å segmentere ut potensielle hudområder ved å se på fargeegenskaper (formel 4.1). Etter prosessering med matematisk morfologi står jeg igjen med et binært bilde, hvor verdien 1 representerer mulig hud. Områder som ikke representerer hud får R,G,B=0 i originalbildet. Dette ble gjort for å begrense bakgrunnens innvirkning på resten av prosessen. Neste steg i prosessen er å konvertere det prosesserte originalbildet til et gråtonebilde hvor røde øyne er fremhevet. Her benytter jeg meg av formlene 3.7 og 3.9, kombinert med S kanalen fra HSV fargerommet og Cr kanalen fra YCbCr fargerommet. Verdiene i bildene blir justert slik at de ligger i intervallet [0,1]. Jeg utfører så kantdeteksjon med to sett terskler (formel 4.2) på et bilde som er gjennomsnittlig verdi av disse fire gråtonebildene. Dette binære bildet blir så prosessert med matematisk morfologi for å skille ut pupillen og potensielle røde øyne sjekkes for størrelse og rundhet. Så brukes formel 4.3 for å skille ut piksler som skal korrigeres. Utvalgte piksler korrigeres med Smolka et al. (2003) sin metode for korreksjon, som gir R,G,B=mean{G,B}. Algoritmen ser ut til å ha problemer med å skille ut røde øyne som har en mørk farge. De visuelt tydelige røde øynene blir oftere detektert og korrigert. Dette kommer av at de i forhold til resten av ansiktet får høyere verdier enn mørkere rødfarger i gråtonebildet, og kan lettere skilles ut. Algoritmen sliter også med veldig mange falske treff, hvor det ser ut til at mange av treffene oppstår i enkelte utsatte bilder. Av 287 markerte røde øyne, detekterte algoritmen bare 185 (64.5 %), mens antall falske treff steg over

33 (a) (b) (c) (d) (e) Figur 4.16: (a) er originalbildet som skal prosesseres. (b) er etter at områder utenfor definerte hudfarger er satt til 0. (c) er bilde (b) etter gråtonekonvertering. (d) er bilde (c) etter kantdeteksjon og prosessering med matematisk morfologi. (e) er korrigert bilde, hvor korrigerte områder er merket med en hvit firkant. 31

34 5 Konklusjon og diskusjon 5.1 Diskusjon Balansering av farger (fjerning av fargestikk) er et alternativ som det bør testes videre på for å kunne forbedre deteksjon av hud (Gasparini og Schettini, 2004), dette for å kunne detektere lyse hudfarger uten å ta med mye av bakgrunnen. Spørsmålet er om fjerning av fargestikk vil justere hudfarger uten å justere bakgrunnen tilsvarende, slik at områder med hud kan skilles fra en bakgrunn med like fargeegenskaper. Fjerning av fargestikk kan være med å forbedre algoritmen med hensyn til falske treff. Det er uvisst hvordan røde øyne påvirkes ved fjerning av fargestikk. Det er mulig en slik operasjon vil jevne ut forskjeller i fargeegenskaper til røde øyne. Dette kan medføre at fargeegenskapene til røde øyne ligger bedre samlet i forskjellige fargerom, og slik gjøre det enklere å skille dem ut i bildet. På den andre siden kan dette medføre at fargeegenskapene blir likere de til hud, og slik gjøre prosessen vanskeligere. Verdiene som skal representere hudfarger er testet og forsket frem ved å se på fargeegenskapene til hud i mange forskjellige bilder. Ved fjerning av røde øyne vet vi at bildet er tatt med blits. Vil blitsen gi hudfargene en eller bakgrunnen egenskaper som gjør det mulig å sette andre verdier som medfører at det blir enklere å segmentere ut hud i bilder hvor det faktisk er røde øyne? Kan kartlegging av blitsens påvirkning på fargeegenskapene til andre objekter i bildet lette fjerningen av falske treff? Template matching så ut til å bli en noe enkel metode siden ansiktene i bildene har veldig varierte vinkler i forhold til kameraet. Det finnes derimot andre metoder som kan tilby bedre resultater og gi tilfredsstillende prestasjoner. Flere av artiklene benyttet seg av en neural nettverk metode for ansiktsdeteksjon, med gode statistikker. Kombinert med deteksjon av hud som begrenser søkeområdet er dette en metode som kan forbedre statistikken. Private bilder i en bildedatabase vil ikke nødvendigvis være vendt rett. Er bildet tatt med kameraet på høykant, vil bildet som skal prosesseres gi ansikter som er dreiet 90º. Dette kan medføre yterligere vanskeligheter ved ansiktsdeteksjon. 32

35 Deteksjon av øyne i et ansikt beskrives ofte som den vaskeligste delen av prosessen. Hough-transform er et alternativ for å finne sirkelformede områder. Metoden krever store ressurser av datamaskinen og er ikke høyt prioritert i litteraturen. Smolka et al. (2003) sin metode med konvolusjon med et sett masker ser ut til å gi statistisk bedre resultater. Til tross for at jeg ikke klarte å gjenskape resultatene kan dette være et bedre alternativ enn kantdeteksjon med canny operator. Forskjeller i statistiske resultater kan ofte skyldes bruk av forskjellige testdata. Bilder i en database kan ha forkjellige sammensetninger og kvalitet enn bildene i en annen. Når et system for automatisk korreksjon av røde øyne skal evalueres må øynene plukkes ut for å telle antall treff. Hvilke øyne som her plukkes ut kan variere fra person til person ettersom hva personen anser som røde øyne som bør korrigeres. Algoritmen er utarbeidet i et forsøk på å kunne finne røde øyne i et bilde under vanskelige forhold, med varierende bildekvalitet og oppløsning. Utviklingen innen bildeteknologien utvikler seg stadig, og forbrukerne tar i bruk stadig bedre utstyr. Dette vil føre til at prosessen med å fjerne røde øyne blir betydelig lettere. Siden oppløsningen øker, må strengere krav til prosesseringshastighet settes. 5.2 Konklusjon Hvor godt presterer eksisterende teknologi for automatisk korreksjon av røde øyne? Resultatene lagt frem i studerte artikler tilbyr en statistikk for deteksjon og korreksjon av røde øyne på mellom 51 og 95 %. Dette er stor variasjon, og kombinert med problemene i denne rapporten med å gjenskape resultatene fra enkelte rapporter samt varierende prestasjoner for tilgjengelig teknologi, er dette med på å stille spørsmål ved modenheten til teknologien i forhold til å slippes på markedet. Det ser ut til at teknologien for automatisk korreksjon av røde øyne krever noe mer fremgang før den er klar for kommersiell bruk. Hvordan kan eksisterende teknologi innen områdene bildebehandling, fargeteori, mønstergjenkjenning og biometri utnyttes for å designe en bedre algoritme for korreksjon av røde øyne? Evaluering av fargeegenskaper for hud er med på å ekskludere områder som ikke inneholder ansikter. Kombinert med ansiktsdeteksjon med en neural nettverk metode kan samtlige ansikter i et bildedatabase detekteres med stor nøyaktighet. Enkelte metoder for ansiktsdeteksjon vil også kunne lokalisere øyne, som også kan være med på å forbedre teknologiens prestasjoner. 33

36 Hvordan kan kombinering av metoder fra tilgjengelig litteratur forbedre deteksjon og korreksjon av røde øyne? Stegene i forskjellige algoritmer er tilpasset en spesiell fremgangsmåte, noe som gjør det vanskelig å overføre metodene inn i en annen sammenheng. Forskjeller i styrker og svakheter i de forskjellige metodene kan fremdeles være med på å utfylle hverandre. Kombinasjoner av metoder for korreksjon av fargestikk, deteksjon av hud og ansiktsdeteksjon vil kunne forbedre deteksjon av ansikter. Metoder for å fremheve og detektere røde øyne ser ut til å være det største problemområdet. Teori rundt fargeegenskaper til røde øyne lagt frem i forskjellige rapporter kan være med på å forbedre deteksjonen av røde øyne i større grad enn prestert i dette prosjektet. Dette gjelder også for korreksjon av røde øyne, med hensyn til å finne overgangen mellom røde pupiller og omliggende områder, for å gi en naturlig korreksjon. Lavere terskelverdier for segmentering av hudfarger medfører flere falske treff som kunne vært unngått. Ved å justere tilbake verdiene kan antall falske treff reduseres på bekostning av riktige treff. Ved å bruke kun formel 3.7 for gråtonekonvertering, kan flere falske treff elimineres, da den gir mindre forstyrrelser fra områder som ikke er røde øyne. Dette kan også medføre større vanskeligheter med å detektere røde øyne, siden disse også blir noe mindre tydelige. Testresultater viser at kantdeteksjon med en canny operator er vanskelig med hensyn til setting av terskelverdier. Kantdeteksjon har en tendens til å bli påvirket av delvis lukkede øyne og andre forstyrrende faktorer i for stor grad til at det et godt alternativ. Mørke rødfarger i pupillen gjør at det blir mindre fargeforskjell mellom den røde pupillen om områder rundt (iris eller hud). Dette gjør det vanskelig for en kantdetektor å skille ut pupillen uten at forstyrrende elementer blir for store. Databasen inneholdt 141 bilder hvor de fleste lå under 1000x1000 piksler i størrelse, og en større del lå rundt 600x800 piksler. Prestasjonsstatistikken ble produsert ved å hente koordinatene til røde øyne i bildene manuelt. Disse koordinatene ble sjekket mot koordinatene til områdene som var potensielle røde øyne, for å sjekke om de lå innenfor. Røde øyne Korrigerte røde øyne Falske positiver % 34

37 6 Referanser Smolka B., Czubin K., Hardeberg J. Y., Plataniotis K. N., Szczepanski M., and Wojciechowski K. (2003) Towards automatic redeye effect removal Pattern Recognition Letters, Volume 24, Issue 11, July 2003, Pages Schettini R., Gasparini F. and Chazli F. (2003) A modular procedure for automatic red eye correction in digital photos Color imaging conference 9 th : processing, hardcopy, and applications : January 2003, Santa Clara, California, USA Published in: The International Society for optical engineering 2004; Volume 5293 Pages ISBN: Held A. (2001). Model-Based Correction of Red Eye Defects Color imaging conference 10 th, November 2001; Scottsdale, AZ Published in: IS & T/ SID 10 th Color Imaging Conference, 2002 pages ISBN: Hardeberg J. Y. (2002) Digital red eye removal Journal of imaging and technology, Volume 4 July/August 2002 pages Plataniotis, K.N. and Venetsanopoulos A. N. (2000) Color Image Processing and Applications Springer-Verlag Berlin Heidelberg New York. A.N ISBN: Gasparini F. and Schettini R. (2004) Color balancing of digital photos using simple image statistics Pattern Recognition, Volume 37, Issue 6, June 2004, Pages

38 Patti A, Konstantinides K, Tretter D, and Lin Q. (1998) Automatic Digital Redeye Reduction Proceedings of ICIP 98, Chicago, IL, 4-7 October, 1998 Hypermedia Image Processing Reference (Nettsider). The University of Edinburgh. Sirohey S., Rosenfeld A., and Duric Z. (2002) A method of detecting and tracking irises and eyelids in video Pattern Recognition, Volume 35, Issue 6, June 2002, Pages Störring M., Kočka T., Andersen H. J. and Granum E. (2003) Tracking regions of human skin through illumination changes Pattern Recognition Letters, Volume 24, Issue 11, July 2003, Pages Hjelmås E and Low B. K. (2001) Face Detection: A Survey Computer Vision and Image Understanding, Volume 83, Issue 3, September 2001, Pages Vergados D., Anagnostopoulos C., Anagnostopoulos J., Kayiafas E., Theologou M., and Protonotarios E. (2002) A Probabilistic Neural Network for Face detection on Segmented Skin Areas Based on Fuzzy Rules Proceedings of Mediterranean electrotechnical conference; 11 th. May Cairo, Page: ISBN:

39 37 7 Vedlegg 7.1 Konvertering mellom fargerom Fra lineært RGB (RGB verdier i intervallet [0,1]) fargerom til CIELAB (Plataniotis og Venetsanopoulos, 2000). Først beregnes tristmulus verdiene X, Y og Z; = B G R Z Y X (formel 7.1) hvor = B G R gir referanse hvit: n n n Z Y X. L*, a*, og b* verdiene beregnes ut ifra referanse hvit og tristimulus verdiene; * 3 1/ = Y n Y L = 3 1/ 3 1/ 500 * n Y n Y X X a (formel 7.2) = 3 1/ 3 1/ 200 * n Z n Z Y Y b hvor det forutsettes at 01 0.,, > n n n Z Z Y Y X X

40 Konvertering fra RGB til YCbCr (Plataniotis og Venetsanopoulos, 2000): Ved å gammakorrigere RGB verdiene i det lineære fargerommet, får vi ikke-lineært RGB fargerom; F ' k 4.5Fk = 1.099F 1/ k hvis Fk γ (formel 7.3) ellers hvor F k betegner den røde, den grønne og den blå komponenten ( k = R, G, B )og γ er gammakorreksjon. Så beregnes verdiene til YCbCr fargerommet ut ifra verdiene til det ikkelineære RGB fargerommet: Y Cb = Cr F 112 F F ' R ' G ' B (formel 7.4) Konvertering fra RGB til HSV (Plataniotis og Venetsanopoulos, 2000): H1 = cos 1 0.5[( R G) + ( R B)] 2 ( R G) + ( R B)( G B) H H1 = 360 H1 hvis B G hvis B > G (formel 7.5) S = max( R, G, B) min( R, G, B) max( R, G, B) max( R, G, B) V =

41 7.2 Eksempler på korrigerte bilder Bildene til høyre er originalbildene, og til venstre bildene prosessert med algoritmen beskrevet i kapittel 4.9. Detekterte og korrigerte områder er merket med hvit firkant. 39

42 40

43 41

Vise mer