maandag 11 november 2019

Datamining, Machine Learning en voorspellende algoritmen: hoe geschikt zijn deze methoden voor risicotaxatie?

(Big) Data-analyse: 'garbage out' is noodzakelijk om te voorkomen dat algoritmen verkeerd worden getraind
Om willekeurige of ongestructureerde data van relevante data te schiften, moet een analytisch instrument worden ingezet. De hoeveelheid data moet niet alleen worden verkleind, maar ook worden verfijnd om tot een specifieker resultaat te komen. Daarvoor kan gebruik worden gemaakt van een zogenaamd ‘Warehouse’, een digitale verzameling data afkomstig uit diverse bronnen. Om te voorkomen dat voorspellende algoritmen worden getraind met verouderde data en om het risico op inaccurate voorspellingen (vals-positieven) te verkleinen, dienen de data te worden ververst en in omvang te worden beperkt, ofwel: garbage out.[1] Met een dergelijk ‘digitaal warenhuis’ als referentiepunt kunnen correlaties tussen data worden ontdekt. Over de duur van het bewaren van persoonsgegevens in een Warehouse is niets bekend; op grond van het voormelde zal het waarschijnlijk gaan om een onbepaalde duur, behoudens de verversing. Het luistert in deze vroege fase van het proces van data-analyse nauw: als inaccurate gegevens worden bewaard en toegepast, wordt de onderzochte persoon onterecht als 'verdachte' of 'mogelijke fraudeur' aangemerkt.

Datamining, Supervised Machine Learning en Kunstmatige Intelligentie
Een belangrijke stap in het ontdekken van correlaties tussen datasets is ‘Knowledge Discovery of Databases’, of ‘datamining’.[2] Statistical Analysis System (SAS) omschrijft datamining als ‘het proces waarbij naar anomalieën, patronen en correlaties wordt gezocht, om een bepaalde uitkomst te kunnen voorspellen’.[3] De voorloper van datamining is ‘machine learning', een techniek die inhoudt dat algoritmen op basis van statistische gegevens worden getraind.[4] Formules worden ingegeven om algoritmen te ontwikkelen, trainingsets van data worden als ‘input’ gegeven en het resultaat ervan wordt als ‘output’ verstrekt. Algoritmen krijgen de opdracht om het verband tussen input en output te leggen en zichzelf te evalueren. De uitkomst van deze feedback wordt gebruikt om patronen te herkennen.[5] Deze vorm, ‘supervised machine learning’ is bij uitstek geschikt om data te classificeren: algoritmen categoriseren data naar het voorbeeld van vooraf verstrekte, gelabelde datasets en leren om data te ‘labelen’, ofwel een bepaalde eigenschap toe te kennen.[6] Als een plaatje van een ploertendoder als input en een vergelijkbaar plaatje met de titel ‘ploertendoder’ als output wordt verstrekt, leren de algoritmen om plaatjes van ploertendoders te classificeren. 

Profilering en voorspellende algoritmen en het risico op bias-gedreven valse resultaten
Algoritmen zijn de moleculen van alle vormen van kunstmatige intelligentie. Een algoritme kan worden omschreven als een formule, een eindige reeks die ingegeven data (bijvoorbeeld door opdrachten in zoekmachines, muisklikken en het bezoeken van webpagina’s gegenereerd) omzet in ‘output’, een bepaald resultaat. Om profilering van bepaalde categorieën van personen of verschijnselen en van bepaalde groepen van personen mogelijk te maken, dienen algoritmen te worden getraind met datasets. Het trainen van algoritmen, supervised machine learning, is vooralsnog een menselijke aangelegenheid. De waarde die door de onderzoeker of opdrachtgever wordt toegekend aan de dataset, beïnvloedt de uitkomst van het onderzoek. De uitkomst is, evenals de invoer van de dataset, afhankelijk van vooroordelen. Bij voortzetting van de gebruikelijke wijze van profilering is een bias in de datasets en daarmee in de profielschets of risicotaxatie onvermijdelijk. Bias-gedreven profilering vergroot het risico op valse positieven, dat nog eens wordt versterkt door te trainen met verouderde (persoons)gegevens. Bovendien is een zwakte inherent aan de toepassing van algoritmen in het data-analyseproces: algoritmen zeggen niets over causaliteit, het verband tussen oorzaak en gevolg. Algoritmen worden slechts toegepast om correlaties tussen verschijnselen bloot te leggen. Dat maakt voorspellende algoritmen niet geschikt om verwachtingen te toetsen.

Unsupervised Machine Learning, ongeschikt voor profilering
Bij een andere vorm van machine learning, ‘unsupervised machine learning’, ontbreekt het voorbeeld van gelabelde datasets. Algoritmen leggen patronen tussen ongestructureerde data. Unsupervised machine learning wordt gebruikt om ongestructureerde data te clusteren, in te delen naar overeenkomsten zonder een bepaald label te gebruiken.[7] De algoritmen plaatsen bijvoorbeeld allerlei plaatjes van ploertendoders in één omgeving, maar weten niet hoe deze wapens heten. Dat maakt unsupervised machine learning ongeschikt voor profilering, waarbij niet alleen relaties moeten worden gegenereerd, maar ook namen en classificaties (bijvoorbeeld ‘fraud!’) zullen moeten worden verbonden aan het resultaat. 

Een subvorm van machine learning is deep learning, het via een gelaagde neurale structuur ontdekken van complexe patronen in grote hoeveelheden data.[8] Het onderscheidende aan deep learning is de behoefte aan forse ‘computational power’ voor het uitvoeren van een complexe taak; één neurale laag kan uit wel vierhonderd processoren bestaan.[9]  Machine learning en deep learning vallen onder het onderzoeksgebied van de Kunstmatige Intelligentie (K.I.), met dien verstande dat K.I. geen synoniem is voor machine learning. Kunstmatige Intelligentie bestudeert het vermogen van computers om autonoom complexe taken uit te voeren en probleemoplossend te werk te gaan.[10] 

Zijn algoritmen wel geschikt om risico's te taxeren? Correlatie, geen causaliteit
Algoritmen liggen ten grondslag aan de automatisering van processen, waaronder datamining. Kenmerkend van door Big Data gedreven algoritmen is dat géén hypotheses worden ingegeven. Het doel is niet om een bepaalde verwachting te toetsen, maar om correlaties tussen verschijnselen te ontdekken.[11] Dat maakt dat de causaliteit van een gebeurtenis in de fase van de datamining buiten beschouwing blijft.

Conclusie
Profilering in de huidige verschijningsvorm wordt gekenmerkt door 'supervised machine learning', het trainen van algoritmen met vooraf ingegeven datasets. Deze datasets dragen, afhankelijk van de intentie van de opdrachtgever, in de regel menselijke waardeoordelen. Algoritmen die worden ingezet voor profilering zijn in die zin niet intelligent, dat zij zelf patronen kunnen ontdekken. Een zwakte aan profilering is dat (voorspellende) algoritmen niet worden ingezet om hypotheses te toetsen, maar slechts om correlaties te weergeven. Het onderzoeken van de causaliteit van een gebeurtenis blijft een menselijke aangelegenheid. Het 'minen' van grote hoeveelheden data is evenmin een geschikte methode om hypotheses te toetsen. Aan de resultaten van profilering en datamining mag geen betekenis worden toegekend voordat nadere menselijke interventie of interventie door een geschikte methode heeft plaatsgevonden. 'Vals-positieven' moeten uit programma's die werken op voorspellende algoritmen worden getraind. Bovendien kunnen de datasets waarmee voorspellende algoritmen worden getraind, bias bevatten. Daarmee is de bias in de profielschets of risicotaxatie onvermijdelijk. 


[1] B. Mali, C. Bronkhorst-Giesen en M. den Hengst, Predictive Policing: lessen voor de toekomst. Een evaluatie van de landelijke pilot (2017), p. 91-92; ‘Machine Learning in Information Security: Where the Hype Ends’, Cisco White Paper 2018, p. 3.
[3] https://www.sas.com/nl_nl/insights/analytics/data-mining.html (geraadpleegd op 20 mei 2019).
[4] Vgl. https://cs.stanford.edu/memoriam/professor-arthur-samuel.
[5] Vgl. https://www.sas.com/nl_nl/insights/analytics/machine-learning.html (laatstelijk geraadpleegd op 20 mei 2019).
[6] Cisco Innovation Labs: How machine learning finds network trouble faster than anyone, via https://www.cisco.com/c/m/en_us/network-intelligence/service-provider/digital-transformation/get-to-know-machine-learning.html (laatstelijk geraadpleegd op 26 mei 2019).
[7] ‘Machine Learning in Information Security: Where the hype ends’, Cisco Whitepaper 2018, via https://www.cisco.com/c/dam/en/us/products/collateral/security/white-paper-c11-741159.pdf (geraadpleegd op 24 mei 2019).
[8] Vgl. https://machinelearningmastery.com/what-is-deep-learning/ (laatstelijk geraadpleegd op 26 mei 2019).
[9] Expanding deep learning, via https://www.umass.edu/research-report/expanding-deep-learning (geraadpleegd op 26 mei 2019).
[10] Definitie ontleend aan de informatie van de Universiteit van Massachusetts, faculteit Kunstmatige Intelligentie, via https://www.cics.umass.edu/research/area/artificial-intelligence (laatstelijk geraadpleegd op 26 mei 2019).
[11] T. Calders & B.H.M. Custers, ‘What is data mining and how does it work?’, in: B.H.M.
Custers e.a. (red.), Discrimination and privacy in the information society, Heidelberg:
Springer 2013, p. 27-28; G.H. Evers, ‘In de schaduw van de rechtsstaat: profilering en nudging door de overheid’, Computerrecht 2016/84-3, p. 167.