Om willekeurige of ongestructureerde data van relevante data te
schiften, moet een analytisch instrument worden ingezet. De hoeveelheid data
moet niet alleen worden verkleind, maar ook worden verfijnd om tot een
specifieker resultaat te komen. Daarvoor kan gebruik worden gemaakt van een
zogenaamd ‘Warehouse’, een digitale verzameling data afkomstig uit
diverse bronnen. Om te voorkomen dat voorspellende algoritmen worden getraind
met verouderde data en om het risico op inaccurate voorspellingen (vals-positieven)
te verkleinen, dienen de data te worden ververst en in omvang te worden beperkt,
ofwel: garbage out.[1] Met een dergelijk
‘digitaal warenhuis’ als referentiepunt kunnen correlaties tussen data worden
ontdekt. Over de duur van het bewaren van persoonsgegevens in een Warehouse is niets bekend; op grond van het voormelde zal het waarschijnlijk gaan om een
onbepaalde duur, behoudens de verversing. Het luistert in deze vroege fase van het proces van data-analyse nauw: als inaccurate gegevens worden bewaard en toegepast, wordt de onderzochte persoon onterecht als 'verdachte' of 'mogelijke fraudeur' aangemerkt.
Datamining, Supervised Machine Learning en Kunstmatige Intelligentie
Een
belangrijke stap in het ontdekken van correlaties tussen datasets is ‘Knowledge
Discovery of Databases’, of ‘datamining’.[2] Statistical Analysis
System (SAS) omschrijft datamining als ‘het proces waarbij naar anomalieën,
patronen en correlaties wordt gezocht, om een bepaalde uitkomst te kunnen
voorspellen’.[3]
De voorloper van datamining is ‘machine learning', een techniek die inhoudt dat algoritmen op basis van statistische
gegevens worden getraind.[4] Formules worden ingegeven om
algoritmen te ontwikkelen, trainingsets van data worden als ‘input’
gegeven en het resultaat ervan wordt als ‘output’ verstrekt. Algoritmen krijgen
de opdracht om het verband tussen input en output te leggen en zichzelf
te evalueren. De uitkomst van deze feedback wordt gebruikt om patronen te
herkennen.[5] Deze vorm, ‘supervised
machine learning’ is bij uitstek geschikt om data te classificeren:
algoritmen categoriseren data naar het voorbeeld van vooraf verstrekte, gelabelde
datasets en leren om data te ‘labelen’, ofwel een bepaalde
eigenschap toe te kennen.[6] Als een plaatje van een ploertendoder
als input en een vergelijkbaar plaatje met de titel ‘ploertendoder’ als output
wordt verstrekt, leren de algoritmen om plaatjes van ploertendoders te classificeren.
Profilering en voorspellende algoritmen en het risico op bias-gedreven valse resultaten
Algoritmen zijn de
moleculen van alle vormen van kunstmatige intelligentie. Een algoritme kan
worden omschreven als een formule, een eindige reeks die ingegeven data (bijvoorbeeld
door opdrachten in zoekmachines, muisklikken en het bezoeken van webpagina’s gegenereerd)
omzet in ‘output’, een bepaald resultaat. Om
profilering van bepaalde categorieën van personen of verschijnselen en
van bepaalde groepen van personen mogelijk te maken, dienen algoritmen
te worden getraind met datasets. Het trainen van algoritmen, supervised machine learning, is vooralsnog een menselijke aangelegenheid. De waarde die door de onderzoeker of opdrachtgever wordt toegekend aan de dataset, beïnvloedt de uitkomst van het onderzoek. De uitkomst is, evenals de invoer van de dataset, afhankelijk van vooroordelen. Bij voortzetting van de gebruikelijke wijze van profilering is een bias in de datasets en daarmee in de profielschets of risicotaxatie onvermijdelijk. Bias-gedreven profilering vergroot het risico op valse positieven, dat nog eens wordt versterkt door te trainen met verouderde (persoons)gegevens. Bovendien is een zwakte inherent aan de toepassing van algoritmen in het data-analyseproces: algoritmen zeggen niets over causaliteit, het verband tussen oorzaak en gevolg. Algoritmen worden slechts toegepast om correlaties tussen verschijnselen bloot te leggen. Dat maakt voorspellende algoritmen niet geschikt om verwachtingen te toetsen.
Unsupervised Machine Learning, ongeschikt voor profilering
Bij
een andere vorm van machine learning, ‘unsupervised machine learning’,
ontbreekt het voorbeeld van gelabelde datasets. Algoritmen leggen patronen
tussen ongestructureerde data. Unsupervised machine learning wordt
gebruikt om ongestructureerde data te clusteren, in te delen naar
overeenkomsten zonder een bepaald label te gebruiken.[7] De algoritmen plaatsen
bijvoorbeeld allerlei plaatjes van ploertendoders in één omgeving, maar weten
niet hoe deze wapens heten. Dat maakt unsupervised machine learning ongeschikt
voor profilering, waarbij niet alleen relaties moeten worden gegenereerd, maar
ook namen en classificaties (bijvoorbeeld ‘fraud!’) zullen moeten worden
verbonden aan het resultaat.
Een subvorm van machine learning is deep
learning, het via een gelaagde neurale structuur ontdekken van complexe
patronen in grote hoeveelheden data.[8] Het onderscheidende aan deep
learning is de behoefte aan forse ‘computational power’ voor het
uitvoeren van een complexe taak; één neurale laag kan uit wel vierhonderd
processoren bestaan.[9] Machine
learning en deep learning vallen onder het
onderzoeksgebied van de Kunstmatige Intelligentie (K.I.), met dien verstande
dat K.I. geen synoniem is voor machine learning. Kunstmatige Intelligentie
bestudeert het vermogen van computers om autonoom complexe taken uit te voeren
en probleemoplossend te werk te gaan.[10]
Zijn algoritmen wel geschikt om risico's te taxeren? Correlatie, geen causaliteit
Algoritmen liggen ten
grondslag aan de automatisering van processen, waaronder datamining. Kenmerkend
van door Big Data gedreven algoritmen is dat géén hypotheses worden
ingegeven. Het doel is niet om een bepaalde verwachting te toetsen, maar om
correlaties tussen verschijnselen te ontdekken.[11] Dat maakt dat de
causaliteit van een gebeurtenis in de fase van de datamining buiten
beschouwing blijft.
Conclusie
Profilering in de huidige verschijningsvorm wordt gekenmerkt door 'supervised machine learning', het trainen van algoritmen met vooraf ingegeven datasets. Deze datasets dragen, afhankelijk van de intentie van de opdrachtgever, in de regel menselijke waardeoordelen. Algoritmen die worden ingezet voor profilering zijn in die zin niet intelligent, dat zij zelf patronen kunnen ontdekken. Een zwakte aan profilering is dat (voorspellende) algoritmen niet worden ingezet om hypotheses te toetsen, maar slechts om correlaties te weergeven. Het onderzoeken van de causaliteit van een gebeurtenis blijft een menselijke aangelegenheid. Het 'minen' van grote hoeveelheden data is evenmin een geschikte methode om hypotheses te toetsen. Aan de resultaten van profilering en datamining mag geen betekenis worden toegekend voordat nadere menselijke interventie of interventie door een geschikte methode heeft plaatsgevonden. 'Vals-positieven' moeten uit programma's die werken op voorspellende algoritmen worden getraind. Bovendien kunnen de datasets waarmee voorspellende algoritmen worden getraind, bias bevatten. Daarmee is de bias in de profielschets of risicotaxatie onvermijdelijk.
Conclusie
Profilering in de huidige verschijningsvorm wordt gekenmerkt door 'supervised machine learning', het trainen van algoritmen met vooraf ingegeven datasets. Deze datasets dragen, afhankelijk van de intentie van de opdrachtgever, in de regel menselijke waardeoordelen. Algoritmen die worden ingezet voor profilering zijn in die zin niet intelligent, dat zij zelf patronen kunnen ontdekken. Een zwakte aan profilering is dat (voorspellende) algoritmen niet worden ingezet om hypotheses te toetsen, maar slechts om correlaties te weergeven. Het onderzoeken van de causaliteit van een gebeurtenis blijft een menselijke aangelegenheid. Het 'minen' van grote hoeveelheden data is evenmin een geschikte methode om hypotheses te toetsen. Aan de resultaten van profilering en datamining mag geen betekenis worden toegekend voordat nadere menselijke interventie of interventie door een geschikte methode heeft plaatsgevonden. 'Vals-positieven' moeten uit programma's die werken op voorspellende algoritmen worden getraind. Bovendien kunnen de datasets waarmee voorspellende algoritmen worden getraind, bias bevatten. Daarmee is de bias in de profielschets of risicotaxatie onvermijdelijk.
[1] B. Mali, C.
Bronkhorst-Giesen en M. den Hengst, Predictive
Policing: lessen voor de toekomst. Een evaluatie van de landelijke pilot
(2017), p. 91-92; ‘Machine Learning in
Information Security: Where the Hype Ends’, Cisco White Paper 2018, p. 3.
[3]
https://www.sas.com/nl_nl/insights/analytics/data-mining.html (geraadpleegd op
20 mei 2019).
[4] Vgl.
https://cs.stanford.edu/memoriam/professor-arthur-samuel.
[5] Vgl.
https://www.sas.com/nl_nl/insights/analytics/machine-learning.html (laatstelijk
geraadpleegd op 20 mei 2019).
[6] Cisco Innovation
Labs: How machine learning finds network trouble faster than anyone, via
https://www.cisco.com/c/m/en_us/network-intelligence/service-provider/digital-transformation/get-to-know-machine-learning.html
(laatstelijk geraadpleegd op 26 mei 2019).
[7] ‘Machine Learning
in Information Security: Where the hype ends’, Cisco Whitepaper 2018, via
https://www.cisco.com/c/dam/en/us/products/collateral/security/white-paper-c11-741159.pdf
(geraadpleegd op 24 mei 2019).
[8] Vgl.
https://machinelearningmastery.com/what-is-deep-learning/ (laatstelijk
geraadpleegd op 26 mei 2019).
[9] Expanding deep
learning, via https://www.umass.edu/research-report/expanding-deep-learning
(geraadpleegd op 26 mei 2019).
[10] Definitie ontleend
aan de informatie van de Universiteit van Massachusetts, faculteit Kunstmatige
Intelligentie, via
https://www.cics.umass.edu/research/area/artificial-intelligence (laatstelijk
geraadpleegd op 26 mei 2019).
[11] T. Calders & B.H.M. Custers, ‘What is data mining and
how does it work?’, in: B.H.M.
Custers e.a.
(red.), Discrimination and privacy in the
information society, Heidelberg:
Springer 2013, p. 27-28; G.H.
Evers, ‘In de schaduw van de rechtsstaat: profilering en nudging door de
overheid’, Computerrecht 2016/84-3,
p. 167.