1.1 Inleiding
In
dit hoofdstuk geef ik een nadere, maar niet-uitputtende definitie van Big
Data. Dat doe ik aan de hand van een plaatsbepaling van de verschillende
relevante begrippen die samenhangen met het fenomeen ‘Big Data-analyse’
(1.2). Cruciaal zijn begrippen als algoritmen en datamining (1.2.2). Ik
licht met het instrument ‘iColumbo’ toe hoe datamining vorm krijgt bij
het profileren van personen met behulp van Big Data (1.3.1). Vervolgens leg
ik uit wat predictive policing inhoudt en geef ik specifieke voorbeelden
van de toepassing van Big Data in de strafrechtspraktijk.
1.2 Plaatsbepaling van Big Data-analyse
en voorspellende algoritmen
1.2.1 Big Data: een verkenning
Het
is niet eenvoudig om een definitie te geven van ‘Big Data’. De term doet
vermoeden dat de hoeveelheid data doorslaggevend is om te kunnen spreken van ‘Big’
Data. Deze kwantiteit, het Volume, is weliswaar een belangrijke
factor,[1] maar minstens vier andere te
onderscheiden a variabelen, de ‘V’s’, zijn volgens de IBM datahub[2] en IBM Watson indicatief.[3] Variety duidt op de
verscheidenheid aan gegevens en de verschillende bronnen waaruit deze gegevens
afkomstig zijn. De Variety draagt bij aan het Volume, zo zorgt de
verwevenheid van technologische producten (mobiele telefoons, computers en
huishoudelijke apparaten die via applicaties met het internet en onderling zijn
verbonden) voor een toename van de hoeveelheid data. Die verwevenheid wordt
omschreven als het concept ‘Internet of Things’, ‘IoT’.[4] Velocity heeft
betrekking op de (toenemende) snelheid waarmee nieuwe data worden gecreëerd en de
benodigde snelheid om deze data te verwerken en te analyseren binnen een tijd
die de werkelijke tijd van de creatie van de data zo dicht mogelijk benadert, ‘real-time’.
Een voorbeeld van de wisselwerking van Velocity en Volume is een Unified
Computing System (UCS), waarbij tachtig professionele servers per domein
binnen een netwerk van duizenden servers een zo groot mogelijke hoeveelheid
data in real-time analyseren en opslaan.[5] Met een UCS wordt de kans
op verlies van data, onder andere door overschrijving te voorkomen, tot nihil
gereduceerd.[6]
Veracity verwijst naar de accuraatheid, het waarheidsgehalte, van de
gegevens. Het samenspel van variabelen heeft een doel en dat is om Value,
gebruikswaarde, aan de geanalyseerde data te kunnen ontlenen.[7]
Binnen het strafrecht is de
Value het verkrijgen van betrouwbaar bewijsmateriaal dat kan worden
ingezet in het proces van strafrechtelijke vervolging en (eventuele) berechting
van de betrokkene. De strafrechtelijke Value met betrekking tot predictive
policing is een betrouwbare risicotaxatie op het gebied van delictsincidentie.
Idealiter wordt prescriptive policing mogelijk gemaakt: op basis van een
betrouwbare risicotaxatie kan de meest efficiënte inzet van mankracht en
middelen worden bepaald, om delicten te voorkomen óf om delicten op heterdaad
te ontdekken (artikel 128 Sv).
Opgemerkt
moet worden dat het aan het karakter van Big Data inherent is om geen
sluitende definitie te kunnen geven. De hoeveelheid data blijft immers
toenemen.[8] De Koninklijke Nederlandse
Akademie van Wetenschappen komt met een voor de strafrechtelijke handhaving
relevante verfijning van het begrip ‘Big Data’. Zo omschrijft zij Big
Data niet als gegeven, maar als geconstrueerd, omdat besluitvorming omtrent
observaties maakt dat gegenereerde data het gevolg zijn van een afweging; ook
wijst de KNAW erop dat Big Data in de praktijk uit tot personen herleidbare
gegevens bestaan, waaronder medische gegevens, gegevens over etniciteit,
geografische coördinaten en DNA-gegevens.[9]
1.2.2 Algoritmen en datamining, Machine Learning, Deep Learning en K.I./A.I
De
Wetenschappelijke Raad voor het Regeringsbeleid vat het Big Data-proces
samen in drie fasen: de verzameling, de analyse en het
gebruik van data.[10] Om de verzamelde willekeurige of
ongestructureerde data en relevante data te schiften, moet een analytisch
instrument worden ingezet. De hoeveelheid data moet niet alleen worden
verkleind, maar ook worden verfijnd om tot een specifieker resultaat te komen. Daarvoor
kan gebruik worden gemaakt van een zogenaamd ‘Warehouse’, een digitale verzameling
data afkomstig uit diverse bronnen. Om te voorkomen dat voorspellende
algoritmen worden getraind met verouderde data en om het risico op inaccurate
voorspellingen (vals-positieven) te verkleinen, dienen de data te worden
ververst en in omvang te worden beperkt, ofwel: garbage out.[11] Met een dergelijk
‘digitaal warenhuis’ als referentiepunt kunnen correlaties tussen data worden
ontdekt. Over de duur van het bewaren van persoonsgegevens in een Warehouse
is niets bekend; op grond van het voormelde zal het waarschijnlijk gaan om een
onbepaalde duur, behoudens de verversing.
Een
belangrijke stap in het ontdekken van correlaties tussen datasets is ‘Knowledge
Discovery of Databases’, of ‘datamining’.[12] Statistical Analysis
System (SAS) omschrijft datamining als ‘het proces waarbij naar anomalieën,
patronen en correlaties wordt gezocht, om een bepaalde uitkomst te kunnen
voorspellen’.[13]
De voorloper van datamining is ‘machine learning’, een door Samuel op de
kaart gezette techniek die inhoudt dat algoritmen op basis van statistische
gegevens worden getraind.[14] Formules worden ingegeven
om algoritmen te ontwikkelen, trainingsets van data worden als ‘input’
gegeven en het resultaat ervan wordt als ‘output’ verstrekt. Algoritmen krijgen
de opdracht om het verband tussen input en output te leggen en zichzelf
te evalueren. De uitkomst van deze feedback wordt gebruikt om patronen te
herkennen.[15]
Deze vorm, ‘supervised machine learning’ is bij uitstek geschikt om data
te classificeren: algoritmen categoriseren data naar het voorbeeld van vooraf
verstrekte, gelabelde datasets en leren om data te ‘labelen’,
ofwel een bepaalde eigenschap toe te kennen.[16] Als een plaatje van een ploertendoder
als input en een vergelijkbaar plaatje met de titel ‘ploertendoder’ als output
wordt verstrekt, leren de algoritmen om plaatjes van ploertendoders te classificeren.
Bij
een andere vorm van machine learning, ‘unsupervised machine learning’,
ontbreekt het voorbeeld van gelabelde datasets. Algoritmen leggen patronen
tussen ongestructureerde data. Unsupervised machine learning wordt
gebruikt om ongestructureerde data te clusteren, in te delen naar
overeenkomsten zonder een bepaald label te gebruiken.[17] De algoritmen plaatsen
bijvoorbeeld allerlei plaatjes van ploertendoders in één omgeving, maar weten
niet hoe deze wapens heten. Dat maakt unsupervised machine learning ongeschikt
voor profilering, waarbij niet alleen relaties moeten worden gegenereerd, maar
ook namen en classificaties (bijvoorbeeld ‘fraud!’) zullen moeten worden
verbonden aan het resultaat. Een subvorm van machine learning is deep
learning, het via een gelaagde neurale structuur ontdekken van complexe
patronen in grote hoeveelheden data.[18] Het onderscheidende aan deep
learning is de behoefte aan forse ‘computational power’ voor het
uitvoeren van een complexe taak; één neurale laag kan uit wel vierhonderd
processoren bestaan.[19]
Machine
learning en deep learning vallen onder het
onderzoeksgebied van de Kunstmatige Intelligentie (K.I.), met dien verstande
dat K.I. geen synoniem is voor machine learning. Kunstmatige Intelligentie
bestudeert het vermogen van computers om autonoom complexe taken uit te voeren
en probleemoplossend te werk te gaan.[20]
Algoritmen zijn de
moleculen van alle vormen van kunstmatige intelligentie. Een algoritme kan
worden omschreven als een formule, een eindige reeks die ingegeven data (bijvoorbeeld
door opdrachten in zoekmachines, muisklikken en het bezoeken van webpagina’s gegenereerd)
omzet in ‘output’, een bepaald resultaat. Algoritmen liggen ten
grondslag aan de automatisering van processen, waaronder datamining. Kenmerkend
van door Big Data gedreven algoritmen is dat géén hypotheses worden
ingegeven. Het doel is niet om een bepaalde verwachting te toetsen, maar om
correlaties tussen verschijnselen te ontdekken.[21] Dat maakt dat de
causaliteit van een gebeurtenis in de fase van de datamining buiten
beschouwing blijft. Het verklaren van de oorzaak van een bepaald verschijnsel (een
auto verschijnt volgens een nummerplaatherkenningssysteem bijvoorbeeld iedere
nacht bij een loods op een industrieterrein en blijft daar tot in de vroege
ochtend staan; later wordt een drugslab in de loods ontmanteld, waarvan akte
door de opsporingsambtenaren is opgemaakt) voorbehouden aan de fase van het
gebruik van de data, zoals duidelijk wordt gemaakt op de wervingspagina van de
Politie voor data scientists, onder het kopje ‘Input voor het basisteam’.[22]
[1] F.L. Leeuw,
‘Legal Big Data en wet- en regelgeving: perspectieven en uitdagingen’, RegelMaat 2019/34-1, p. 10.
[2] Een hub is een
verbindingspunt binnen het digitale netwerk. Een voorbeeld is een ‘domme hub’
die alle gegevens die binnenkomen van één apparaat, naar alle punten in een
netwerk doorzendt en insluipers zo op
de wenken bedient.
[3] Vgl. https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data en https://www.ibmbigdatahub.com/infographic/four-vs-big-data,
laatstelijk geraadpleegd op 17 mei 2019.
[4] De term is
afkomstig van Massachusetts Institute for Technology, zie
https://www.technologyreview.com/business-report/the-internet-of-things en
http://web.mit.edu/professional/digital-programs/courses/IoT/phone/index.html. De
ontwikkeling wordt onder meer gestimuleerd door IBM Watson IoT, zie https://internetofthings.ibmcloud.com.
[5] Vgl.
https://www.cisco.com/c/en/us/solutions/data-center-virtualization/big-data/index.html
(laatstelijk geraadpleegd op 20 mei 2019).
[6] Vgl. voor een
commerciële toepassing van UCS door Cisco,
https://www.cisco.com/c/dam/en/us/products/collateral/servers-unified-computing/ucs-c-series-rack-servers/whitepaper-ucs-big-data.pdf
(de informatie heb ik uit de rechterkolom op de tweede pagina van de whitepaper).
[7] Voor een
economische uitleg van de doelstelling ‘Value’ vgl.
https://www.ibmbigdatahub.com/infographic/extracting-business-value-4-vs-big-data,
geraadpleegd op 19 mei 2019.
[8] A. de Vries, ‘Predictive Policing: een overzicht’, 25
april 2016, geraadpleegd via
https://socialmediadna.nl/predictive-policing-overzicht/.
[9] KNAW, Big Data in wetenschappelijk onderzoek met
gegevens over personen, advies 2018, p. 19.
[10] WRR, Big Data in een
vrije en veilige samenleving, Den Haag/Amsterdam 2016, p. 27.
[11] B. Mali, C.
Bronkhorst-Giesen en M. den Hengst, Predictive
Policing: lessen voor de toekomst. Een evaluatie van de landelijke pilot
(2017), p. 91-92; ‘Machine Learning in
Information Security: Where the Hype Ends’, Cisco White Paper 2018, p. 3.
[12] R. Sietsma, Gegevensverwerking
in het kader van de opsporing. Toepassing van datamining ten behoeve van de
opsporingstaak: afweging tussen het opsporingsbelang en het recht op privacy,
(diss. Universiteit Leiden), Leiden (2006), p. 23
[13]
https://www.sas.com/nl_nl/insights/analytics/data-mining.html (geraadpleegd op
20 mei 2019).
[14] Vgl.
https://cs.stanford.edu/memoriam/professor-arthur-samuel.
[15] Vgl.
https://www.sas.com/nl_nl/insights/analytics/machine-learning.html (laatstelijk
geraadpleegd op 20 mei 2019).
[16] Cisco Innovation
Labs: How machine learning finds network trouble faster than anyone, via
https://www.cisco.com/c/m/en_us/network-intelligence/service-provider/digital-transformation/get-to-know-machine-learning.html
(laatstelijk geraadpleegd op 26 mei 2019).
[17] ‘Machine Learning
in Information Security: Where the hype ends’, Cisco Whitepaper 2018, via
https://www.cisco.com/c/dam/en/us/products/collateral/security/white-paper-c11-741159.pdf
(geraadpleegd op 24 mei 2019).
[18] Vgl.
https://machinelearningmastery.com/what-is-deep-learning/ (laatstelijk
geraadpleegd op 26 mei 2019).
[19] Expanding deep
learning, via https://www.umass.edu/research-report/expanding-deep-learning
(geraadpleegd op 26 mei 2019).
[20] Definitie
ontleend aan de informatie van de Universiteit van Massachusetts, faculteit
Kunstmatige Intelligentie, via https://www.cics.umass.edu/research/area/artificial-intelligence
(laatstelijk geraadpleegd op 26 mei 2019).
[21] T. Calders & B.H.M. Custers, ‘What is data mining and
how does it work?’, in: B.H.M.
Custers e.a.
(red.), Discrimination and privacy in the
information society, Heidelberg:
Springer 2013, p. 27-28; G.H.
Evers, ‘In de schaduw van de rechtsstaat: profilering en nudging door de
overheid’, Computerrecht 2016/84-3,
p. 167.
[22] Vgl.
https://it.kombijdepolitie.nl/predictive-policing (laatstelijk geraadpleegd op
21 mei 2019).