AI, Big Data, Machine Learning og GDPR Simen Sommerfeldt til IKT-Norges kurs om GDPR for annonsør- og mediebransjen oktober 2017
Simen Sommerfeldt (@sisomm) Ingeniør fra University of Surrey Pappa til tre Rolle: CTO konsern Spesialitet: Kunstig intelligens, GDPR, tingenes internett Grunnlegger av Lær Kidsa Koding! Grunnlegger av Oslo GDPR Meetup
14 kontorer i Norge og Sverige Skandinavisk konsulentselskap 1200 ansatte Notert på Oslo Børs IT Kommunikasjon Virksomhetsstyring
AI kan effektivisere eksisterende prosesser Ustrukturert input Tolke Evaluere Beslutte Klassifisere (Strukturert) output Historikk Ekspertkunnskap
AI kan gi ny innsikt Store datamengder Korrelasjoner, utliggere, sammenhenger Uttrekk, sammendrag, rapportering
Blir det virkelig massearbeidsløshet?
Any sufficiently advanced technology is indistinguishable from magic Arthur C. Clarke
"We tend to overestimate the effect of a technology in the short run and underestimate the effect in the long run Roy Amara
Personvern har ofte vært elefanten i rommet
Jeg utfordret folk i Oslo GDPR meetup: Hva er hovedproblemene med Big Data? http://www.plurismarketing.com/pluris-blog/modeling-the-technique-perfected
Anonymisering, pseudonymisering, og faren for tilbakesporing http://www.plurismarketing.com/pluris-blog/modeling-the-technique-perfected
Big Data er ofte solgt inn som en metode for å bruke MYE info for å forutsi adferd http://www.indiaresists.com/big-data-connundrum-digital-india/
..samtykke, kontrakt, rettslig forpliktelse, vitale interesser, oppgave i samfunnets interesse eller legitime interesser.
Har dere lov? o Hvor kommer informasjonen fra? Hvilket hjemmel har dere for å bruke den? o Hvem har lov til å se på dataene? Hvorfor? Brukes de til et annet formål? o Hvem deler dere informasjon med? o Jfr artikkel fem om legitimitet for å bruke informasjonen o Dere kan bruke samtykker o Anonymisering er ofte løsningen.
Dere må ha kontroll på hele kjeden http://southworks.com/blog/2015/08/04/using-data-factory-in-a-real-world-scenario/
Anonymisering og pseudonymisering
Tre kategorier Personopplysninger Pseudonymiserte personopplysninger Anoymiserte personopplysninger
Metoder anbefalt av
Tokenization o Vi bytter ut identifikatorer med nye, random verdier tokens o Sammenhengen mellom identifikatoren og tokenet lagres separat o Kan brukes til å linke tilbake til den opprinnelige posten. Pseudonymisering
Hashing o Identifiserende felter blir gruppert i bøtter etter en formel Pseudonymisering o bøttene gjenbrukes Pelle Hansen -> 01 Magda Paulsen > 02 Sverre Jensen -> 03 Simen Sommerfeldt -> 02
Noise addition (støy) o Innfører en viss feilmargin til feltene,.feks vekt 72-> vekt 74,6 Anonymisering
Substitution o Verdier erstatter med helt andre verdier. o F.eks kan høyde 172 byttes med blå, postnummer 3200 med elefant o Kombineres ofte med å tilføre støy Anonymisering
Aggregering: K-anonymity o Sørg for å ha minst K forekomster av en verdi i rader som kan grupperes sammen (tid, sted, etc) o Blank ut verdier i felter der dette ikke kan oppnås o 4-anonymity: Det finnes minst 4 rader med samme forekomst av verdien på laveste nivå o En kan også bruke generalisering: Alder: 23 blir til Alder: 20-30. Anonymisering
Aggregering: L-diversity o Utvidelse: Der K-anonymitykan angripes med interferensangrep o Sørg for at man har minst L forskjellige varianter i utvalget Anonymisering
Differential Privacy o Innfør støy så nærme som mulig innsamlingspunktet o Støyen har en gitt statistisk distribusjon o Statistikk-beregningene tar vekk denne distribusjonen o Brukes av bla. Apple i deres kart- og meldings- apper. Anonymisering
WP 29 s betraktninger rundt tilbakesporing http://www.wsgrdataadvisor.com/2015/09/personal-data-anonymization-and-pseudonymization-in-the-eu/
Companies should keep control of anonymized data. Enough datapoints can lead to de-anonymization Heidi Shey, 6th september 2017 SENIOR ANALYST, FORRESTER RESEARCH
GDPR og Machine Learning/AI o Deep Learning og andre teknikker kan dra med seg fordommer (Bias) o Husk at brukeren skal få mulighet til å se beslutningsgrunnlaget og algoritmen o Vurdér også etikken i vurderingene o Husk å kunnne redegjøre for å hindre tilbakesporoing via anonymisering ift. Working party 29 o Brukeren kan nekte automatiske beslutning hvis utfallet har store konsekvenser o Sporing av hvor dataene kommer fra (Data Lineage).
Spennende prosjekt med SSB og Datatilsynet o Forskere kan kjøre analyse på registerdata uten å se detaljer o Automatiske hindre for å kunne avlede person-identifserende informasjon http://forskning.no/meninger/kroni kk/2017/09/norsk-teknologi-vil-gibedre-personvern-og-mer-effektivforskning-raird-registerdata
Eva Jarbekk og jeg Holder GDPR-kurs hos Bouvet www.bouvet.no/kurs/kategorier/ personvern-og-gdpr
Bli med i Oslo GDPR-meetup! www.meetup.com/oslo-gdpr-meetup/
Spørsmål
Takk for meg! Simen.Sommerfeldt@bouvet.no @sisomm 99 50 77 33