HVA SA ODDVAR BRÅ DA HAN BRAKK STAVEN? THIS IS A LIVING DOCUMENT that will be updated over time. It consist of a set of illustration pictures that you can use in your own presentations. ROBERT ENGELS Tel: +47 99544481 robert.engels@acando.no THIS DOCUMENT IS BASED on presentations on machine learning during the period 2000-2016 1
Robert HP Engels Semantic Technologies Machine Learning Artificial Intelligence Tel: +47-99544481 robert.engels@nrk.no robert.engels@acando.no
Fabian Westerheide NVIDIA DRIVE PX 2 Open AI Car platform
Milepæler trafikk på internett
Milepæler trafikk på internett
Milepæler trafikk på internett
TRENDER
Norges mest kjente sportshendelse? VM - 25.2.1982
(Non-)linear publication channels
1.effektivisering
1. EFFEKTIVISERING Gjenfinning Produksjon: hva har vi tilgjengelig Arkiv: hva har vi fra tidligere «lignende» hendelser? Speech2Text Søk i uttalelser Visualisering (at once, isf seriell «påhør») Enkel markering/utvelgelse Evt: automatiske undertitler
1.effektivisering 2.bilde- og lydgjenkjenning
2. BILDEGJENKJENNING Mål Bedre metadata, gjenfinning, sammenligning Neural networks & «Deep Learning» ANN Convolutional networks Adversial networks
3.semantikk: autoritetsregistere 1.effektivisering 2.bilde- og lydgjenkjenning
kartver kartver ket ket geona geona mes mes!! stadnamn. stadnamn. nrk.no nrk.no Kult.his Kult.his t. t. museu museu m m
kartver kartver ket ket geona geona mes mes!! stadnamn. stadnamn. nrk.no nrk.no authority.nr authority.nr k.no/ k.no/ role role authority.nr authority.nr k.no/ k.no/ datadiction datadiction ary ary Kult.his Kult.his t. t. museu museu m m
kartver kartver ket ket geona geona mes mes!! Kult.his Kult.his t. t. museu museu m m stadnamn. stadnamn. nrk.no nrk.no fotograf fotograf er er klex klex L&P L&P authority.nr authority.nr k.no/ k.no/ role role authority.nr authority.nr k.no/ k.no/ datadiction datadiction ary ary authority.nr authority.nr k.no/ k.no/ agent agent DMA DMA rockipedi rockipedi a a
kartver ket authority.nr k.no/ region authority.nr k.no/ category geona mes Kult.his t. museu m! stadnamn. nrk.no fotograf er klex authority.nr k.no/ editorialfor mat authority.nr k.no/ channel L&P authority.nr k.no/ role authority.nr k.no/ datadiction ary authority.nr k.no/ agent DMA rockipedi a
3.semantikk: autoritetsregistere 1.effektivisering 2.bilde- og lydgjenkjenning 4.autojournalism
3.semantikk: autoritetsregistere 1.effektivisering 2.bilde- og lydgjenkjenning 5.autokategorisation 4.autojournalism
https://nrk-ntb-demo.testwerk.org/
3. semantikk: autoritetsregistere 1. effektivisering 2. bilde- og lydgjenkjenning 5. autokategorisation 4. autojournalism 6. personalisation
3. semantikk: autoritetsregistere 1. effektivisering 2. bilde- og lydgjenkjenning 5. autokategorisation 4. autojournalism 7. arbeidsflyt & prosessoptimering 6. personalisation
LYD- & BILDEANALYSE Machine learning som danner grunnlaget for resonnering og beslutningstaging Et eksempel fra hverdagen
DAGSNYTT ATTEN Både radio og TV-sendinger Mange kjente mennesker deltar Mye metadata allerede tilgjengelig Ganske statiske bilder Brukbar kvalitetet på sendingen.
BESKRIVELSE AV MINIPROSJEKTET Gjenkjenne identitet til gjester i studio og følge personen gjennom TV-sendingen 1. Deteksjon av ansikter: Gjenkjenne alle ansikter fortløpende gjennom TV-sendingen. 2. Optisk bokstavgjenkjenning (OCR): Avlese informasjonsbokser fra TV-grafikk som opptrer på skjermen, og identifisere de delene av teksten som er navn og institusjonell tilknytning. 3. Merking av ansikter (Tagging): Koble navn og institusjonell tilknytning til riktig ansikt i bildet. 4. Gjenkjenne ansikter: Følge samme person med et identifisert navn gjennom TV-sendingen. 36
PREPROSESSERING OMGJØRING TIL STILLBILDER En sending med Dagsnytt atten varer i underkant av 60 minutter. Tilstrekkelig å avspille sending som genererer 1 bilde i sekundet. I overkant av 3000 frames per sending er fullt håndterbart å prosessere relativt raskt. Fullt mulig å kjøre høyere oppløsning. 37
DETEKSJON AV ANSIKTER OG TEKST I BILDE Google Cloud Vision API: Kommersiell tjeneste Utfører deteksjon av ansikter Oppdager tekst i bildet Krever at bildet eksisterer i Google Cloud storage Kan enkelt testes gratis gjennom web-grensesnitt 38
DETEKSJON AV INFOTEKST Konsistent plassering av tekstboks gjør det mulig å hente ut navn og tittel med stor sikkerhet.
GOOGLE CLOUD VISION API: KOBLING MELLOM TEKST OG BILDE Infotekst vises i ca 8 sekunder, ofte flere ganger. Person alltid noenlunde forfra i fokus og stort format Mulig å hente minst 7-8 gode frames av varierende ansikt. 40
DATABASE OVER ANSIKTER Hvis flere ansikter i bildet, velges det største og mest sentrerte ansiktet. Identifiserte ansikter klippes ut av hver frame og kobles med identifisert tekst i infotekst. Hvert ansikt lagres med tilhørende metadata: Navn Tittel Frame Tidspunkt Koordinater for ansikt og tekstbokser 41
TRENING AV MODELL FOR ANSIKTSGJENKJENNING Microsofts Cognitive Services tilbyr en tjeneste for gjenkjenning av ansikter gjennom sitt Face API. Ansikter med kjent identitet lastes opp og registreres med hver sin unike ID. Nye bilder sendes til prediksjon. API returnerer ansikter og mulige ID-er med tilhørende usikkerhet. Vi har satt grensen til 50% sannsynlighet for at en ID skal bli godtatt som «gjenkjent» 42
GJENKJENNING AV ANSIKTER GJENNOM EN HEL SENDING Hver frame i en TV-sending sendes til API-et. Alle ansikter funnet i bildet returneres, sammen med et forslag til personen som eier fjeset. Treffsikkerheten er nær 100% korrekt for gjenkjente fjes 43
OVERSIKT OVER DELTAGELSE I ET PROGRAM Hver deltakers tilstedeværelse gjennom en sending kan oppsummeres på en tidslinje. 44
UTFORDRINGER Deltakere som ikke er i studio (innringere) Ugyldig tekst i bildet Feil i TV-grafikk Personer i bakgrunnen oppfattes som å være i studio (teknikere, gjester på venterommet) Feil i OCR kan føre til at samme person registreres flere ganger Skjulte ansikter Opptrer ofte, men er relativt enkel å fikse Problematisk, men opptrer veldig sjelden 45
UTFORDRING: DETEKSJON AV ELEMENTER PÅ SKJERMEN En spesiell utfordring er å skille innringere til programmet fra gjester i studio Grafikk for innringer: Varierer mye fra sending til sending Forskjellig fjes med forskjellig bakgrunn Forskjellige telefonikoner 46
UTFORDRING: DETEKSJON AV ELEMENTER PÅ SKJERMEN Trener en generell bildegjenkjenner Deep learning LeNet convolutional neural network Arkitektur: 3 lag med 32-32-64 convolution filters og et output-lag med 64 nevroner Nær perfekt klassifisering oppnås Treningssett med 6-7000 bildeuttak
UTFORDRING - UGYLDIG TEKST PÅ SKJERMEN Ugyldige bokstaver i området for tekstboks: Objekter i bildet kan oppfattes som bokstaver Faktiske bokstaver som en del av sendingen Løsning er å la teksten være konsistent over flere bilder, samt å sette nedre grense for lengde på tekstfelt. 48
FEIL I TV-GRAFIKK Manglende grafikk for innringer fører til at feil person blir gjenkjent. Ingen gode løsninger på dette problemet. 49
PERSONER I BAKGRUNNEN 50
FEIL I TEKSTGJENKJENNING 51
TILDEKTE ANSIKTER 52
ACANDO Machine Learning hos NRK
Machine Learning Techniques Machine Learning Techniques Predicitive Descriptive Regression Association Classification Sequential analysis Decision Tree Clustering (hierarchical) K-NN Self Organising Maps Neural Networks Rule Induction (FOL etc) Belief Networks
Machine Learning Process
3D Image generation from multiple 2D images
Object based 3D audio
Og Oddvar??
Robert HP Engels Semantic Technologies Machine Learning Artificial Intelligence Tel: +47-99544481 robert.engels@nrk.no robert.engels@acando.no