AI, Big Data, Machine Learning og GDPR. Simen Sommerfeldt til IKT-Norges kurs om GDPR for annonsør- og mediebransjen oktober 2017

AI, Big Data, Machine Learning og GDPR Simen Sommerfeldt til IKT-Norges kurs om GDPR for annonsør- og mediebransjen oktober 2017

Simen Sommerfeldt (@sisomm) Ingeniør fra University of Surrey Pappa til tre Rolle: CTO konsern Spesialitet: Kunstig intelligens, GDPR, tingenes internett Grunnlegger av Lær Kidsa Koding! Grunnlegger av Oslo GDPR Meetup

14 kontorer i Norge og Sverige Skandinavisk konsulentselskap 1200 ansatte Notert på Oslo Børs IT Kommunikasjon Virksomhetsstyring

AI kan effektivisere eksisterende prosesser Ustrukturert input Tolke Evaluere Beslutte Klassifisere (Strukturert) output Historikk Ekspertkunnskap

AI kan gi ny innsikt Store datamengder Korrelasjoner, utliggere, sammenhenger Uttrekk, sammendrag, rapportering

Blir det virkelig massearbeidsløshet?

Any sufficiently advanced technology is indistinguishable from magic Arthur C. Clarke

"We tend to overestimate the effect of a technology in the short run and underestimate the effect in the long run Roy Amara

Personvern har ofte vært elefanten i rommet

Jeg utfordret folk i Oslo GDPR meetup: Hva er hovedproblemene med Big Data? http://www.plurismarketing.com/pluris-blog/modeling-the-technique-perfected

Anonymisering, pseudonymisering, og faren for tilbakesporing http://www.plurismarketing.com/pluris-blog/modeling-the-technique-perfected

Big Data er ofte solgt inn som en metode for å bruke MYE info for å forutsi adferd http://www.indiaresists.com/big-data-connundrum-digital-india/

..samtykke, kontrakt, rettslig forpliktelse, vitale interesser, oppgave i samfunnets interesse eller legitime interesser.

Har dere lov? o Hvor kommer informasjonen fra? Hvilket hjemmel har dere for å bruke den? o Hvem har lov til å se på dataene? Hvorfor? Brukes de til et annet formål? o Hvem deler dere informasjon med? o Jfr artikkel fem om legitimitet for å bruke informasjonen o Dere kan bruke samtykker o Anonymisering er ofte løsningen.

Dere må ha kontroll på hele kjeden http://southworks.com/blog/2015/08/04/using-data-factory-in-a-real-world-scenario/

Anonymisering og pseudonymisering

Tre kategorier Personopplysninger Pseudonymiserte personopplysninger Anoymiserte personopplysninger

Metoder anbefalt av

Tokenization o Vi bytter ut identifikatorer med nye, random verdier tokens o Sammenhengen mellom identifikatoren og tokenet lagres separat o Kan brukes til å linke tilbake til den opprinnelige posten. Pseudonymisering

Hashing o Identifiserende felter blir gruppert i bøtter etter en formel Pseudonymisering o bøttene gjenbrukes Pelle Hansen -> 01 Magda Paulsen > 02 Sverre Jensen -> 03 Simen Sommerfeldt -> 02

Noise addition (støy) o Innfører en viss feilmargin til feltene,.feks vekt 72-> vekt 74,6 Anonymisering

Substitution o Verdier erstatter med helt andre verdier. o F.eks kan høyde 172 byttes med blå, postnummer 3200 med elefant o Kombineres ofte med å tilføre støy Anonymisering

Aggregering: K-anonymity o Sørg for å ha minst K forekomster av en verdi i rader som kan grupperes sammen (tid, sted, etc) o Blank ut verdier i felter der dette ikke kan oppnås o 4-anonymity: Det finnes minst 4 rader med samme forekomst av verdien på laveste nivå o En kan også bruke generalisering: Alder: 23 blir til Alder: 20-30. Anonymisering

Aggregering: L-diversity o Utvidelse: Der K-anonymitykan angripes med interferensangrep o Sørg for at man har minst L forskjellige varianter i utvalget Anonymisering

Differential Privacy o Innfør støy så nærme som mulig innsamlingspunktet o Støyen har en gitt statistisk distribusjon o Statistikk-beregningene tar vekk denne distribusjonen o Brukes av bla. Apple i deres kart- og meldings- apper. Anonymisering

WP 29 s betraktninger rundt tilbakesporing http://www.wsgrdataadvisor.com/2015/09/personal-data-anonymization-and-pseudonymization-in-the-eu/

Companies should keep control of anonymized data. Enough datapoints can lead to de-anonymization Heidi Shey, 6th september 2017 SENIOR ANALYST, FORRESTER RESEARCH

GDPR og Machine Learning/AI o Deep Learning og andre teknikker kan dra med seg fordommer (Bias) o Husk at brukeren skal få mulighet til å se beslutningsgrunnlaget og algoritmen o Vurdér også etikken i vurderingene o Husk å kunnne redegjøre for å hindre tilbakesporoing via anonymisering ift. Working party 29 o Brukeren kan nekte automatiske beslutning hvis utfallet har store konsekvenser o Sporing av hvor dataene kommer fra (Data Lineage).

Spennende prosjekt med SSB og Datatilsynet o Forskere kan kjøre analyse på registerdata uten å se detaljer o Automatiske hindre for å kunne avlede person-identifserende informasjon http://forskning.no/meninger/kroni kk/2017/09/norsk-teknologi-vil-gibedre-personvern-og-mer-effektivforskning-raird-registerdata

Eva Jarbekk og jeg Holder GDPR-kurs hos Bouvet www.bouvet.no/kurs/kategorier/ personvern-og-gdpr

Bli med i Oslo GDPR-meetup! www.meetup.com/oslo-gdpr-meetup/

Spørsmål

Takk for meg! Simen.Sommerfeldt@bouvet.no @sisomm 99 50 77 33