vrijdag 29 januari 2021

De rechtmatigheid en grondslag van dataveillance/Big Data-analyse/predictive policing-methoden/SyRI's, uitgevoerd door Data Labs

De rechtbank oordeelde in februari 2020 dat de grondslag voor de uitvoering van het Systeem Risico Indicatie, die is neergelegd in de wet SUWI, niet volstond. Anders dan diverse media abusievelijk beweren, heeft de rechter nooit geoordeeld dat de SyRI's die in Nederland worden toegepast, onrechtmatig zijn en buiten werking gesteld moesten worden. Laat er geen misverstand over bestaan: de rechtsgrondslag in de wet SUWI moest slechts worden aangepast.

Buiten kijf staat dat de wettelijke grondslag en proportionaliteit en subsidiariteit van systemen voor het opsporen van fraude zoals SyRI, maar ook methoden voor predictive policing door private Data Labs ter beoordeling moeten worden gesteld. De rechter is in de SyRI-zaak namelijk niet toegekomen aan de inhoudelijke toetsing van de proportionaliteit en subsidiariteit van de inzet van dergelijke systemen voor dataveillance.

Een voorbeeld van de inzet van een systeem voor het voorspellen van fraude, in praktijk gebracht door een privaat Data Lab, volgt hieronder. Ik beoordeel de juridische houdbaarheid van de toepassing van data-analyse/dataveillance/Machine Learning zoals deze wordt gepresenteerd door het Data Lab.


Volgens dit Data Lab is het doel van de inzet van Machine Learning bij het taxeren van mogelijke fraudegevallen (er is immers geen verdenking), het genereren van fraudesignalen om fraude die de gegevensverzamelaars en gegevensverwerkers (de gemeenten en het Data Lab) niet zelf in beeld hebben, in kaart te brengen.


Volgens het Data Lab is de grondslag voor de dataveillance (gegevensverzameling, -verwerking en data-analyse om Machine Learning gestalte te geven) gegeven met de algemene wettelijke bepaling in de Participatiewet: het verlenen van bijstand is opgedragen aan het college (art. 7 lid 1 onder b Participatiewet). Is deze uitleg juridisch houdbaar?



Zeer opmerkelijk is één van de beweegredenen van het Data Lab: het is aan dit project begonnen bij wijze van "Happy accident".

De definitie van fraude wordt door dit Data Lab verruimd door "een vermoeden, zonder dat er bewijs is voor fraude" onder fraude te scharen. Zowel het opzetelement als het vereiste van bewijs ontbreekt in deze opvatting van fraude.
Onder "Beoogd resultaat" wordt duidelijk dat het doel van de gemeente(n) is om even goed als of beter te zijn dan andere gemeenten. Het gaat dus om een kwestie van presteren: fraude-opsporing als een wedloop tussen gemeenten.

Tijd voor een evaluatie van de werkzaamheden van het Data Lab. Een evaluatie bestaat normaal gesproken uit het beoordelen van de wijze waarop de doelstelling is behaald. In deze evaluatie gaat het niet om zelfinzicht, maar wordt betreurd dat er media-ophef is ontstaan over de wijze waarop de persoonsgegevens van de betrokkenen werden verzameld en verwerkt: "Wat viel tegen? Ophef in de media".


De presentatie van het resultaat: na 60-90 uur dossieronderzoek is één fraudegeval opgespoord. Er is per dossier 3 uur besteed aan het onderzoek.

Big Data en privacy zijn enkele van mijn specialismen. Ik heb mijn onderzoek naar de toepassing van Big Data-analyses en predictive policing-methoden in 2019 online gepubliceerd.

Wat is Machine Learning?
Het Data Lab presenteert Machine Learning als "de ontwikkeling van algoritmes die leren van structuren in data. De bijbehorende technieken en een steeds grotere beschikbaarheid van big data en rekencapaciteit maken het mogelijk om adaptieve modellen te ontwikkelen. Adaptieve modellen die zelflerend zijn, worden steeds nauwkeuriger in het voorspellen, doordat de uitkomsten worden meegenomen bij het optimaliseren van het algoritme".

Datamining, Supervised Machine Learning en Unsupervised Machine Learning

Machine Learning is een voorloper van datamining (zie mijn bericht "Big Data-analyse voor predictive policing: voorspellende algoritmen, datamining, Machine Learning en Deep Learning", 10 juli 2019). Datamining is het proces waarbij patronen en correlaties tussen datasets worden gezocht, om een bepaalde uitkomst te kunnen voorspellen. Machine Learning houdt in dat algoritmen, rekenformules, worden getraind op basis van statistische gegevens. Formules worden ingevoerd om algoritmen te kunnen ontwikkelen en sets van persoonsgegevens (datasets) worden als "input" gegeven. Het resultaat van dit proces wordt als "output" weergegeven. Algoritmen krijgen de instructie om het verband tussen input en output te leggen en hiervan te leren door zelfevaluatie. Deze vorm van Machine Learning, "Supervised Machine Learning", is geschikt om gegevens te classificeren. Algoritmen leren om (persoons)gegevens naar het voorbeeld van vooraf gelabelde datasets te categoriseren. Bij "Unsupervised Machine Learning" leert het algoritme om patronen te leggen tussen ongestructureerde gegevens. Unsupervised Machine Learning kan clusteren, maar is niet geschikt om mee te classificeren/profileren.

Kenmerkend van door Big Data gedreven algoritmen is dat géén hypotheses worden getoetst. Het doel is niet om na te gaan of een bepaalde verwachting juist is (verdenking van fraude), maar om correlaties tussen verschijnselen te ontdekken. Machine Learning kan dus géén uitspraak opleveren over een gedragspatroon, omdat het instrument daarvoor ongeschikt is.

Hoe moet de rechtmatigheid van de data-analyse door gemeenten en Data Labs worden beoordeeld?

In berichten die de media hebben gehaald, wordt gemeld dat betrokkenen géén inzage hebben gekregen in de hen betreffende persoonsgegevens die door een Data Lab zijn verzameld en geanalyseerd.

Of de handelswijzen van Data Labs betreffende data-analyse/Machine Learning/de toepassing van voorspellende algoritmen rechtmatig zijn, moet worden beoordeeld aan de hand van de volgende aspecten:

1. De bevoegdheid voor het uitvoeren van data-analyse moet een specifieke wettelijke grondslag hebben;
2. Het doelbindingsprincipe: data-analyse dient te voldoen aan een vooraf duidelijk omschreven doel;
3. De uitoefening van de bevoegdheid en het doel mogen niet worden overschreden;
4. Gesteld dat de data-analyse/toepassing van Machine Learning/datamining door een Data Lab een inmenging in het privéleven van de betrokkene oplevert, moet deze inmenging voldoen aan de eisen van legitimiteit, proportionaliteit en subsidiariteit;
5. De data-analyse dient transparant te zijn: de verwerker biedt inzicht in de totstandkoming van de door hem toegepaste algoritmen en dient de privacy van de geanalyseerde burgers te waarborgen.

Ad. 1: De bevoegdheid voor het uitvoeren van data-analyse/Machine Learning moet een specifieke wettelijke grondslag hebben

De verwerking van uw persoonsgegevens in het kader van dataveillance, data-analyse of profilering is slechts rechtmatig, indien de verwerking noodzakelijk is voor de vervulling van een taak van algemeen belang of van een taak in het kader van de uitoefening van het openbaar gezag dat aan de verwerkingsverantwoordelijke is opgedragen (art. 6 lid 1 onder e AVG). De wettelijke grondslag moet specifiek zijn. Een beroep op de ‘publieke taak’ is onvoldoende specifiek voor de rechtmatigheid van de gegevensverwerking in het kader van data-analyse en profilering. De wettelijke grondslag voor gegevensverwerking kan niet gelijkgesteld worden met de wettelijke grondslag voor het uitvoeren van de publieke taak (Kamerstukken II 2017/18, 34 851, nr. 4, p. 34).

Met de ‘wettelijke verplichting’ op grond van de Participatiewet is géén specifieke grondslag voor de rechtmatigheid van de gegevensverwerking gegeven. Wat het Data Lab in bovenstaande slides aanvoert, is dus onjuist, omdat de door hen vermelde bepaling géén specifieke wettelijke grondslag betreft. Het uitvoeren van een wettelijke verplichting moet redelijkerwijs bovendien niet goed mogelijk zijn zonder verwerking van de persoonsgegevens. Met andere woorden: de eisen van proportionaliteit en subsidiariteit (zie ad. 4) brengen mee, dat de wettelijke grondslag voor de uitvoering van de publieke taak slechts als grondslag voor de gegevensverwerking kan gelden, indien de gegevensverwerking noodzakelijk is (lees: een voorwaarde) voor de uitvoering van de 'publieke taak'. Die noodzaak wordt onderschreven in het Model GEB Rijksdienst (Privacy Impact Assessment), zie onderdeel B,  'Beoordeling rechtmatigheid gegevensverwerkingen', p. 15.


Ad. 2: Doelbinding: de data-analyse dient te voldoen aan een vooraf duidelijk omschreven doel
Persoonsgegevens moeten voor welbepaalde, uitdrukkelijk omschreven en gerechtvaardigde doeleinden worden verzameld en mogen niet op een met die doeleinden onverenigbare wijze worden verwerkt (art. 5 lid 1 onder b AVG). Het zonder vooraf bepaalde doeleinden ‘minen’ van persoonsgegevens, het ongericht verzamelen en analyseren van data om aanwijzingen te verkrijgen dat sprake is van een verhoogde kans op fraude, is niet verenigbaar met het doelbindingsprincipe (E.M.L. Moerel & J.E.J. Prins, Privacy voor de homo digitalis, in: Homo digitalis, Handelingen Nederlandse Juristen Vereniging 2016/146-1, p. 19). Het doelbindingsprincipe is onderdeel van de proportionaliteits- en subsidiariteitseis. Het beginsel van dataminimalisatie (art. 5 lid 1 onder c AVG) houdt in dat de verzameling en verwerking van persoonsgegevens blijft beperkt tot wat noodzakelijk is voor het bereiken van specifiek bepaalde, uitdrukkelijk omschreven doeleinden. Gegevens dienen zo selectief mogelijk te worden verzameld en verwerkt én alleen voor zover noodzakelijk. De verwerking dient noodzakelijk te zijn voor de vervulling van een van de voorwaarden in art. 6 lid 1 AVG. 

Ad. 3: De uitoefening van de bevoegdheid en het doel mogen niet worden overschreden
Bevoegdheidsoverschrijding: function creep is inherent aan Big Data-analyse en zelflerende algoritmen
Bij de inzet van Big Data-analyse in het kader van predictive policing, Machine Learning en Systemen voor Risicoindicatie (SyRI's) bestaat het risico dat een autoriteit die de methode inzet, de oorspronkelijke bevoegdheid overschrijdt, bijvoorbeeld door meer of andersoortige data te verzamelen, verwerken of opslaan dan de bevoegdheidsverlening toelaat. Daarmee vergelijkbaar is de situatie dat geautomatiseerde instrumenten data verzamelen, verwerken en opslaan die het oorspronkelijke doel van de inzet van het instrument te buiten gaan, waardoor deze data kunnen worden beschouwd als ‘bijvangst’. Het gebruik van data voor andere doeleinden is bekend als ‘function creep’. De WRR merkt op dat het secundaire gebruik van data inherent is aan Big Data en op gespannen voet staat met doelbinding, als kernprincipe van gegevensbescherming. Onder meer door de koppeling van databases van verschillende overheidsinstanties en hergebruik van opgeslagen data neemt de druk op het doelbindingsprincipe toe.

Ad. 4: Gesteld dat de data-analyse/toepassing van Machine Learning/datamining door een Data Lab een inmenging in het privéleven van de betrokkene oplevert, moet deze inmenging voldoen aan de eisen van legitimiteit, proportionaliteit en subsidiariteit

Dataveillance levert een inmenging in het privéleven van betrokkenen op

Het EHRM heeft zich specifiek uitgelaten over de vraag, in hoeverre de verzameling, opslag en het gebruik van persoonsgegevens een inmenging in het recht op eerbiediging van het privéleven oplevert. Het onderwerpen van de communicatie van een persoon aan geheime dataverzameling levert een inmenging op. Dat geldt ook voor het systematisch verzamelen van gegevens van de betrokkene, ook wel aangeduid als ‘datasurveillance’ of ‘dataveillance’. De toepassing van moderne technologieën op dataveillance en de mogelijkheid om daarbij een gedetailleerd beeld van de meest intieme aspecten van het leven van de burger te verkrijgen, vergroten de kans op een inmenging in het privéleven van de betrokkene. Het opslaan van gegevens die tot een bepaalde persoon zijn te herleiden vormt een inmenging in het recht op eerbiediging van het privéleven van de burger. 

De status van metadata
Als methoden voor Big Data-analyse in verband met de duur, intensiteit en frequentie geschikt zijn om een min of meer compleet beeld te krijgen van bepaalde aspecten van het persoonlijke leven van een betrokkene, dient een specifieke wettelijke grondslag te bestaan om de bevoegdheid tot data-analyse aan te kunnen ontlenen. Metadata die achter Big Data schuilgaan (locatiegegevens en tijdstippen) zijn fragmenten van data die informatie over een persoon nader definiëren. Ook metadata kunnen door combinatie een gedetailleerd beeld geven over een persoon ( EHRM 13 september 2018, ECLI:EC:ECHR:2018:0913JUD005817013, Computerrecht 2018/252, m.nt. J.J. Oerlemans (Big Brother Watch/Verenigd Koninkrijk).

De door het EHRM ontwikkelde proportionaliteitseis houdt in, dat de inmenging in de persoonlijke levenssfeer strikt genomen noodzakelijk moet zijn vanwege een dringende maatschappelijke behoefte (‘pressing social need’) en dat die inmenging door dataverzameling en -verwerking proportioneel is om de gerechtvaardigde doeleinden te bereiken (EHRM 2 september 2010, 35623 (Uzun/Duitsland), r.o. 78; EHRM 26 maart 1978, 9248/81 (Leander/Zweden), r.o. 58). De inbreuk op de eerbiediging van de persoonlijke levenssfeer moet evenredig zijn in verhouding tot het doeleinde van de gegevensverwerking/profilering/datamining. Wanneer het om geheime surveillance gaat, is de discretionaire bevoegdheid van de nationale overheid ten aanzien van de invulling van de noodzakelijkheid beperkt (EHRM 12 januari 2016, 37138/14 (Szabó en Vissy/Hongarije), r.o. 54).

De ‘fair balance’-test van het EHRM in S. en Marper/Verenigd Koninkrijk bevat meerdere belangrijke vingerwijzingen voor het beoordelen van de proportionaliteit van de inmenging in het privéleven van de burger. De aard en ernst van de overtreding of misdrijf waarvan de betrokkene wordt verdacht, de duur van de bewaring van de persoonsgegevens, de mogelijkheden voor de betrokkene om zijn persoonsgegevens te laten verwijderen en de mogelijkheid tot onafhankelijk toezicht op de opslag van de persoonsgegevens zijn factoren die concreet worden gewogen in de proportionaliteitsbeoordeling door het EHRM. 

Of een instrument met een ‘black box’-karakter de proportionaliteitstoets van het EHRM zal doorstaan, is afhankelijk van de volgende vragen:
- Is er een dringende maatschappelijke behoefte waarvoor de dataveillance/profilering wordt toegepast?
- Van welke overtreding wordt de burger verdacht en hoe ernstig is deze overtreding?
- Heeft de burger de mogelijkheid om zijn persoonsgegevens te laten verwijderen?
- Kan de burger effectief zijn recht op het inschakelen van onafhankelijk toezicht uitoefenen? 

De subsidiariteitseis houdt in, dat alleen de minst ingrijpende methode mag worden ingezet om met de inbreuk op de rechten van de burger proportionele doeleinden te bereiken (EHRM 4 december 2015, 47143/06 (Zakharov/Rusland), r.o. 232). De verwerkingsverantwoordelijke die stelt dat het gekozen instrument voor dataveillance/analyse/profilering adequater is dan andere instrumenten, voldoet niet aan de subsidiariteitseis. Concreet moet worden getoetst of het doel waarvoor de persoonsgegevens worden verwerkt, in redelijkheid niet op een andere, voor de burger minder nadelige wijze kan worden bereikt (Advies SyRI, Autoriteit Persoonsgegevens 18 februari 2014, p. 4).

Uw rechten bij onderwerping aan SyRI's en/of een Data Lab

Uw rechten, wanneer u wordt onderworpen aan SyRI's en/of een Data Lab