Anvendt Maskinlæring MainTech Konferansen - 2017 Anton Eskov, Data Scientist, Inmeta www.inmeta.no
130 Ansatte Oslo & Trondheim Solid og lønnsomt selskap Del av Crayon Group med over 1000 ansatte Portal og samhandling Systemutvikling og integrasjon Big Data / Advanced Analytics / BI E-handel Forretningsrådgivning www.inmeta.no
Maskinlæring kunder 3
Agenda Hva er maskinlæring Kundecaser Arbeidstilsynet DNV-GL Tradesolution www.inmeta.no
www.inmeta.no Hva er Maskinlæring?
Maskinlæring "Field of study that gives computers the ability to learn without being explicitly programmed. (Arthur Samuel, 1959) Er en datadrevet prosess Machine Learning DS Domene kunnskap www.inmeta.no
Typer av Maskinlæringsløsninger
Typer av Maskinlæringsløsninger
Eksplorativ ML Proof of Concept Oppstartsfase Forberedelser Prosjektfase Presentasjon: Hva er ML og hvordan komme i gang! Identifisering av ML Case 2 4 uker Inmeta bistår i workshops ved behov. Innhenting av data 3 6 uker Inmeta kan bistå, men ofte gjør kunden dette selv. Oppstartsmøte 3 timer Prosjektfase Ukentlig statusmøte 1-2 timer Overlevering 3 timer Hypothesis Test the Hypothesis Generate Features Train Model Choose Algorithm Inmeta sitt pådrag: 20% - 40% etter behov Inmeta sitt pådrag i denne perioden er 100%
Arbeidsmodell Hypothesis Test the Hypothesis Generate Features Train Model Choose Algorithm
Kundecase Arbeidstilsynet Prediksjon av risiko www.inmeta.no
Arbeidstilsynet En statlig etat, underlagt Arbeids- og sosialdepartementet. Etatens hovedoppgave er å føre tilsyn med at virksomhetene følger arbeidsmiljølovens krav Kontroll og veiledning om arbeidsmiljø http://www.arbeidstilsynet.no 12
Grunnlag Antall organisasjoner i Brønnøysund register ~ 1,3 mill Potensielle tilsynsobjekter ~ 250 000 Antall tilsyn gjennomført pr. år ~ 17 000 13
Oppdraget Produsere en prioritert liste over sannsynlige virksomheter det bør føres tilsyn på fremover. Gi forklaring til prioriteringer Verifiser om ML-metoder kan brukes for å danne slik liste, og hvilke metodene fungerer best Finn ut hvilke data skal legges til grunn til ML-modell(er) www.inmeta.no
Analyse i fire trinn Logistisk regresjonsanalyse for å identifisere egenskaper ved virksomheter som bør prioriteres fremfor andre Benytte resultatene til å fordele virksomhetene videre inn i fire risikogrupper Sammenligne og teste resultater mellom de fire risikogruppene Ekstrapolere resultatene fra analysematerialet til å omfatte alle registrerte virksomheter i Arbeidstilsynets ansvarsområde
Virksomhetene fordeles i grupper basert på beregnet sannsynlighet for å finne avvik Tilhører gruppen av virksomheter med lavest sannsynlighet for alvorlige avvik Tilhører gruppen av virksomheter lav sannsynlighet for alvorlige avvik Tilhører gruppen av virksomheter høy sannsynlighet for alvorlige avvik Tilhører gruppen av virksomheter høyest sannsynlighet for alvorlige avvik
Foreløpig funn: Det er sannsynlig at Arbeidstilsynet over tid vil rette opp i flere arbeidsmiljøproblemer dersom det gjennomføres tilsyn med virksomheter i de høyeste risikogruppene
Kundecase DNV-GL Maritime e-post kategorisering www.inmeta.no
Problemstilling for tekstklassifiseringspilot DNV-GL har en e-postbasert supportfunksjon som en tjeneste som skal gi kunder og ansatte tilgang til flere hundre domeneeksperter Forespørsler blir klassifisert manuelt av technical helpdesk Hypotese: vi kan bruke maskinlæring til å lære hvilken kategori innkommende forespørsler tilhører basert på innhold i e- post-tekst www.inmeta.no
Hierarki av kategorier Antall e-poster: 175 000 Inneholder forespørsler som er klassifisert feil eller mangler klassifisering Hierarki av kategorier, totalt ca 3000 stier www.inmeta.no
Example Confusion Matrix communicates ML results Confusion matrix is a tool for understanding how well a trained MLmodel performs www.inmeta.no
Kundecase Tradesolution Bildeklassifisering www.inmeta.no
26
Problemstilling TS ønsker å se på automatisk kvalitetssikring av bilder Typiske problemer er 1. Uskarphet 2. Uklare kanter 3. Høy glans 4. Ujevn lyssetting 5. Støv 6. Datostempling 7. Skeive bilder
Uskarphet Sharp Picture No blur Blur part
Skarphet: Features eksempel Sharp image HOG Blur image HOG 29
30 Treningsmetode or? Evaluate results Test Data
31 Uklare kanter: bildeforberedelse discontinued Clear edge Continious Unclear edge
32 Høy glans: eksempler Good picture 1 large area Bad picture Several small area s
Automatisk QA med manuell etterkontroll Fokus? el. Rene kanter Høyglans? Lyssetting Manuell etterkontroll Støv Datostempling Skeive bilder Passert automatiske tester
Takk for meg! For mer info, ta kontakt med bjorn.rosvoll@inmeta.no tlf 99 55 44 19 www.inmeta.no