woensdag 10 juli 2019

1 Big Data-analyse: voorspellende algoritmen, datamining, Machine Learning en Deep Learning


1.1 Inleiding
In dit hoofdstuk geef ik een nadere, maar niet-uitputtende definitie van Big Data. Dat doe ik aan de hand van een plaatsbepaling van de verschillende relevante begrippen die samenhangen met het fenomeen ‘Big Data-analyse’ (1.2). Cruciaal zijn begrippen als algoritmen en datamining (1.2.2). Ik licht met het instrument ‘iColumbo’ toe hoe datamining vorm krijgt bij het profileren van personen met behulp van Big Data (1.3.1). Vervolgens leg ik uit wat predictive policing inhoudt en geef ik specifieke voorbeelden van de toepassing van Big Data in de strafrechtspraktijk.

1.2 Plaatsbepaling van Big Data-analyse en voorspellende algoritmen
1.2.1 Big Data: een verkenning
Het is niet eenvoudig om een definitie te geven van ‘Big Data’. De term doet vermoeden dat de hoeveelheid data doorslaggevend is om te kunnen spreken van ‘Big’ Data. Deze kwantiteit, het Volume, is weliswaar een belangrijke factor,[1] maar minstens vier andere te onderscheiden a variabelen, de ‘V’s’, zijn volgens de IBM datahub[2] en IBM Watson indicatief.[3] Variety duidt op de verscheidenheid aan gegevens en de verschillende bronnen waaruit deze gegevens afkomstig zijn. De Variety draagt bij aan het Volume, zo zorgt de verwevenheid van technologische producten (mobiele telefoons, computers en huishoudelijke apparaten die via applicaties met het internet en onderling zijn verbonden) voor een toename van de hoeveelheid data. Die verwevenheid wordt omschreven als het concept ‘Internet of Things’, ‘IoT’.[4] Velocity heeft betrekking op de (toenemende) snelheid waarmee nieuwe data worden gecreëerd en de benodigde snelheid om deze data te verwerken en te analyseren binnen een tijd die de werkelijke tijd van de creatie van de data zo dicht mogelijk benadert, ‘real-time’. Een voorbeeld van de wisselwerking van Velocity en Volume is een Unified Computing System (UCS), waarbij tachtig professionele servers per domein binnen een netwerk van duizenden servers een zo groot mogelijke hoeveelheid data in real-time analyseren en opslaan.[5] Met een UCS wordt de kans op verlies van data, onder andere door overschrijving te voorkomen, tot nihil gereduceerd.[6] Veracity verwijst naar de accuraatheid, het waarheidsgehalte, van de gegevens. Het samenspel van variabelen heeft een doel en dat is om Value, gebruikswaarde, aan de geanalyseerde data te kunnen ontlenen.[7] 

Binnen het strafrecht is de Value het verkrijgen van betrouwbaar bewijsmateriaal dat kan worden ingezet in het proces van strafrechtelijke vervolging en (eventuele) berechting van de betrokkene. De strafrechtelijke Value met betrekking tot predictive policing is een betrouwbare risicotaxatie op het gebied van delictsincidentie. Idealiter wordt prescriptive policing mogelijk gemaakt: op basis van een betrouwbare risicotaxatie kan de meest efficiënte inzet van mankracht en middelen worden bepaald, om delicten te voorkomen óf om delicten op heterdaad te ontdekken (artikel 128 Sv).
Opgemerkt moet worden dat het aan het karakter van Big Data inherent is om geen sluitende definitie te kunnen geven. De hoeveelheid data blijft immers toenemen.[8] De Koninklijke Nederlandse Akademie van Wetenschappen komt met een voor de strafrechtelijke handhaving relevante verfijning van het begrip ‘Big Data’. Zo omschrijft zij Big Data niet als gegeven, maar als geconstrueerd, omdat besluitvorming omtrent observaties maakt dat gegenereerde data het gevolg zijn van een afweging; ook wijst de KNAW erop dat Big Data in de praktijk uit tot personen herleidbare gegevens bestaan, waaronder medische gegevens, gegevens over etniciteit, geografische coördinaten en DNA-gegevens.[9]

1.2.2 Algoritmen en datamining, Machine Learning, Deep Learning en K.I./A.I
De Wetenschappelijke Raad voor het Regeringsbeleid vat het Big Data-proces samen in drie fasen: de verzameling, de analyse en het gebruik van data.[10] Om de verzamelde willekeurige of ongestructureerde data en relevante data te schiften, moet een analytisch instrument worden ingezet. De hoeveelheid data moet niet alleen worden verkleind, maar ook worden verfijnd om tot een specifieker resultaat te komen. Daarvoor kan gebruik worden gemaakt van een zogenaamd ‘Warehouse’, een digitale verzameling data afkomstig uit diverse bronnen. Om te voorkomen dat voorspellende algoritmen worden getraind met verouderde data en om het risico op inaccurate voorspellingen (vals-positieven) te verkleinen, dienen de data te worden ververst en in omvang te worden beperkt, ofwel: garbage out.[11] Met een dergelijk ‘digitaal warenhuis’ als referentiepunt kunnen correlaties tussen data worden ontdekt. Over de duur van het bewaren van persoonsgegevens in een Warehouse is niets bekend; op grond van het voormelde zal het waarschijnlijk gaan om een onbepaalde duur, behoudens de verversing. 

Een belangrijke stap in het ontdekken van correlaties tussen datasets is ‘Knowledge Discovery of Databases’, of ‘datamining’.[12] Statistical Analysis System (SAS) omschrijft datamining als ‘het proces waarbij naar anomalieën, patronen en correlaties wordt gezocht, om een bepaalde uitkomst te kunnen voorspellen’.[13] De voorloper van datamining is ‘machine learning’, een door Samuel op de kaart gezette techniek die inhoudt dat algoritmen op basis van statistische gegevens worden getraind.[14] Formules worden ingegeven om algoritmen te ontwikkelen, trainingsets van data worden als ‘input’ gegeven en het resultaat ervan wordt als ‘output’ verstrekt. Algoritmen krijgen de opdracht om het verband tussen input en output te leggen en zichzelf te evalueren. De uitkomst van deze feedback wordt gebruikt om patronen te herkennen.[15] Deze vorm, ‘supervised machine learning’ is bij uitstek geschikt om data te classificeren: algoritmen categoriseren data naar het voorbeeld van vooraf verstrekte, gelabelde datasets en leren om data te ‘labelen’, ofwel een bepaalde eigenschap toe te kennen.[16] Als een plaatje van een ploertendoder als input en een vergelijkbaar plaatje met de titel ‘ploertendoder’ als output wordt verstrekt, leren de algoritmen om plaatjes van ploertendoders te classificeren. 

Bij een andere vorm van machine learning, ‘unsupervised machine learning’, ontbreekt het voorbeeld van gelabelde datasets. Algoritmen leggen patronen tussen ongestructureerde data. Unsupervised machine learning wordt gebruikt om ongestructureerde data te clusteren, in te delen naar overeenkomsten zonder een bepaald label te gebruiken.[17] De algoritmen plaatsen bijvoorbeeld allerlei plaatjes van ploertendoders in één omgeving, maar weten niet hoe deze wapens heten. Dat maakt unsupervised machine learning ongeschikt voor profilering, waarbij niet alleen relaties moeten worden gegenereerd, maar ook namen en classificaties (bijvoorbeeld ‘fraud!’) zullen moeten worden verbonden aan het resultaat. Een subvorm van machine learning is deep learning, het via een gelaagde neurale structuur ontdekken van complexe patronen in grote hoeveelheden data.[18] Het onderscheidende aan deep learning is de behoefte aan forse ‘computational power’ voor het uitvoeren van een complexe taak; één neurale laag kan uit wel vierhonderd processoren bestaan.[19] 
Machine learning en deep learning vallen onder het onderzoeksgebied van de Kunstmatige Intelligentie (K.I.), met dien verstande dat K.I. geen synoniem is voor machine learning. Kunstmatige Intelligentie bestudeert het vermogen van computers om autonoom complexe taken uit te voeren en probleemoplossend te werk te gaan.[20] 

Algoritmen zijn de moleculen van alle vormen van kunstmatige intelligentie. Een algoritme kan worden omschreven als een formule, een eindige reeks die ingegeven data (bijvoorbeeld door opdrachten in zoekmachines, muisklikken en het bezoeken van webpagina’s gegenereerd) omzet in ‘output’, een bepaald resultaat. Algoritmen liggen ten grondslag aan de automatisering van processen, waaronder datamining. Kenmerkend van door Big Data gedreven algoritmen is dat géén hypotheses worden ingegeven. Het doel is niet om een bepaalde verwachting te toetsen, maar om correlaties tussen verschijnselen te ontdekken.[21] Dat maakt dat de causaliteit van een gebeurtenis in de fase van de datamining buiten beschouwing blijft. Het verklaren van de oorzaak van een bepaald verschijnsel (een auto verschijnt volgens een nummerplaatherkenningssysteem bijvoorbeeld iedere nacht bij een loods op een industrieterrein en blijft daar tot in de vroege ochtend staan; later wordt een drugslab in de loods ontmanteld, waarvan akte door de opsporingsambtenaren is opgemaakt) voorbehouden aan de fase van het gebruik van de data, zoals duidelijk wordt gemaakt op de wervingspagina van de Politie voor data scientists, onder het kopje ‘Input voor het basisteam’.[22]


[1] F.L. Leeuw, ‘Legal Big Data en wet- en regelgeving: perspectieven en uitdagingen’, RegelMaat 2019/34-1, p. 10.
[2] Een hub is een verbindingspunt binnen het digitale netwerk. Een voorbeeld is een ‘domme hub’ die alle gegevens die binnenkomen van één apparaat, naar alle punten in een netwerk doorzendt en   insluipers zo op de wenken bedient.
[3] Vgl. https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data  en https://www.ibmbigdatahub.com/infographic/four-vs-big-data, laatstelijk geraadpleegd op 17 mei 2019.
[4] De term is afkomstig van Massachusetts Institute for Technology, zie https://www.technologyreview.com/business-report/the-internet-of-things en http://web.mit.edu/professional/digital-programs/courses/IoT/phone/index.html. De ontwikkeling wordt onder meer gestimuleerd door IBM Watson IoT, zie https://internetofthings.ibmcloud.com.
[5] Vgl. https://www.cisco.com/c/en/us/solutions/data-center-virtualization/big-data/index.html (laatstelijk geraadpleegd op 20 mei 2019).
[6] Vgl. voor een commerciële toepassing van UCS door Cisco, https://www.cisco.com/c/dam/en/us/products/collateral/servers-unified-computing/ucs-c-series-rack-servers/whitepaper-ucs-big-data.pdf (de informatie heb ik uit de rechterkolom op de tweede pagina van de whitepaper).
[7] Voor een economische uitleg van de doelstelling ‘Value’ vgl. https://www.ibmbigdatahub.com/infographic/extracting-business-value-4-vs-big-data, geraadpleegd op 19 mei 2019.
[8] A. de Vries, ‘Predictive Policing: een overzicht’, 25 april 2016, geraadpleegd via https://socialmediadna.nl/predictive-policing-overzicht/.
[9] KNAW, Big Data in wetenschappelijk onderzoek met gegevens over personen, advies 2018, p. 19.
[10] WRR, Big Data in een vrije en veilige samenleving, Den Haag/Amsterdam 2016, p. 27.
[11] B. Mali, C. Bronkhorst-Giesen en M. den Hengst, Predictive Policing: lessen voor de toekomst. Een evaluatie van de landelijke pilot (2017), p. 91-92; ‘Machine Learning in Information Security: Where the Hype Ends’, Cisco White Paper 2018, p. 3.
[12] R. Sietsma, Gegevensverwerking in het kader van de opsporing. Toepassing van datamining ten behoeve van de opsporingstaak: afweging tussen het opsporingsbelang en het recht op privacy, (diss. Universiteit Leiden), Leiden (2006), p. 23
[13] https://www.sas.com/nl_nl/insights/analytics/data-mining.html (geraadpleegd op 20 mei 2019).
[14] Vgl. https://cs.stanford.edu/memoriam/professor-arthur-samuel.
[15] Vgl. https://www.sas.com/nl_nl/insights/analytics/machine-learning.html (laatstelijk geraadpleegd op 20 mei 2019).
[16] Cisco Innovation Labs: How machine learning finds network trouble faster than anyone, via https://www.cisco.com/c/m/en_us/network-intelligence/service-provider/digital-transformation/get-to-know-machine-learning.html (laatstelijk geraadpleegd op 26 mei 2019).
[17] ‘Machine Learning in Information Security: Where the hype ends’, Cisco Whitepaper 2018, via https://www.cisco.com/c/dam/en/us/products/collateral/security/white-paper-c11-741159.pdf (geraadpleegd op 24 mei 2019).
[18] Vgl. https://machinelearningmastery.com/what-is-deep-learning/ (laatstelijk geraadpleegd op 26 mei 2019).
[19] Expanding deep learning, via https://www.umass.edu/research-report/expanding-deep-learning (geraadpleegd op 26 mei 2019).
[20] Definitie ontleend aan de informatie van de Universiteit van Massachusetts, faculteit Kunstmatige Intelligentie, via https://www.cics.umass.edu/research/area/artificial-intelligence (laatstelijk geraadpleegd op 26 mei 2019).
[21] T. Calders & B.H.M. Custers, ‘What is data mining and how does it work?’, in: B.H.M.
Custers e.a. (red.), Discrimination and privacy in the information society, Heidelberg:
Springer 2013, p. 27-28; G.H. Evers, ‘In de schaduw van de rechtsstaat: profilering en nudging door de overheid’, Computerrecht 2016/84-3, p. 167.
[22] Vgl. https://it.kombijdepolitie.nl/predictive-policing (laatstelijk geraadpleegd op 21 mei 2019).