Deze vraag komt steeds vaker voor. Toch kunnen organisaties daar niet altijd een goed antwoord op geven. Laat staan dat er altijd een oplossing beschikbaar is voor het onderliggende probleem: het verwijderen van data uit IT-systemen die je niet meer mag of wilt bewaren. In de volksmond ook wel het ‘schonen van data’ genoemd.
Wanneer is dataschoning relevant?
De aanleidingen om met dataschoning te beginnen zijn divers. De meest voorkomende reden is om te kunnen voldoen aan wet- en regelgeving, zoals de AVG en GDPR. Sommige data mogen simpelweg niet meer bewaard en moeten verwijderd worden. De Autoriteit Persoonsgegevens noemt dat “Recht op vergetelheid”. Er kunnen ook andere redenen zijn om data te schonen. Denk bijvoorbeeld aan de archiefwet, vernietigingstermijnen, de splitsing van bedrijfsactiviteiten of bijvoorbeeld een BPO (zoals een pensioenuitvoerder) die een klant ziet vertrekken en de bijbehorende data aantoonbaar dient te verwijderen. Tot slot geldt natuurlijk de algemene stelregel: minder data betekent minder risico’s bij een data-lek, lagere kosten door minder gebruik van storage en veelal een betere performance.
Data purging, data cleanup of gewoon dataschoning?
In dit artikel wordt de term dataschoning gebruikt voor het verwijderen van data uit applicaties en onderliggende databases. In het engels wordt hier de termen data purging en data cleanup voor ingezet. De term dataschoning wordt ook gebruikt in het domein van de gegevenskwaliteit. Het gaat in dat geval over het opsporen en corrigeren van 'vieze' data. In het engels wordt in deze context de term data cleansing of data cleaning gebruikt.
Welk soort data komen in aanmerking?
Het ligt natuurlijk voor de hand dat privacygevoelige data, zoals persoonsgegevens en bijbehorende transactionele gegevens, in aanmerking komen om te verwijderen. Denk hierbij aan financiële transacties, medische gegevens of bijvoorbeeld een orderhistorie. En wat te denken van alle detailgegevens van gediplomeerde studenten en leerlingen? Het vraagstuk komt in iedere sector voor.
Daarnaast is ook het verwijderen van concurrentiegevoelige informatie een voorbeeld van dataschoning. Of het schonen van verouderde en niet meer bruikbare data.
Recht op vergetelheid
De Autoriteit Persoonsgegevens beschrijft het "Recht op vergetelheid". Is er geen goede reden (meer) voor een organisatie om persoonsgegevens nog langer te verwerken? Dan is de organisatie in sommige gevallen verplicht om deze gegevens te wissen. Bijvoorbeeld als de organisatie de persoonsgegevens niet meer nodig heeft voor het doel waarvoor de organisatie ze heeft verzameld of waarvoor de organisatie ze verwerkt. Of de wettelijk bepaalde bewaartermijn verlopen. Er bestaan een aantal uitzonderingen op het recht op vergetelheid. Bijvoorbeeld als een organisatie wettelijk verplicht is om de gegevens te gebruiken of een bepaalde tijd te bewaren. Dan mag de organisatie de gegevens niet wissen.
Dataschoning, hoe doe je dat?
Idealiter bieden bedrijfsapplicaties en pakketsoftware geïntegreerde functionaliteit om data te kunnen verwijderen op basis van specifieke criteria. Dit is helaas niet altijd het geval. Gelukkig zijn er alternatieven beschikbaar.
Indien er in één keer grote hoeveelheden data verwijderd dient te worden, is offline schonen een mogelijkheid. De applicatie wordt bijvoorbeeld tijdens een onderhoudsmoment uitgezet, waarbij met behulp van data-integratie tools de data aantoonbaar juist en volledig worden verwijderd. Na validatie en acceptatie van het resultaat komt de ‘geschoonde’ applicatie weer beschikbaar. Voordeel van deze oplossing is dat er geen rekening gehouden hoeft te worden met andere gelijktijdige gebruikers. Door maximaal gebruik te maken van de resources en technische mogelijkheden is performance veelal geen issue. Een nadeel is uiteraard dat deze optie downtime van de applicatie tot gevolg heeft.
Is downtime niet mogelijk of niet acceptabel? Dan kan ervoor gekozen worden om online te schonen. Met gespecialiseerde tools worden de data op een gecontroleerde wijze verwijderd uit een operationele productieomgeving. Uiteraard wordt hierbij rekening gehouden met relaties, volgordelijkheid en afhankelijkheden. Omdat rekening gehouden dient te worden met gelijktijdig gebruik van de applicatie door andere gebruikers en processen, is aandacht voor performance een belangrijk aspect. Om de integriteit van de data te kunnen waarborgen bij gelijktijdig schonen en gebruiken van de applicatie zijn extra validatiemaatregelen noodzakelijk.
Voor beide opties geldt dat de gebruikelijke principes worden gehanteerd voor de QA borging. Na de configuratie van de oplossing en het uitvoeren van (acceptatie)testen vindt een ‘pre-controle’ plaats, voordat de daadwerkelijke schoning wordt uitgevoerd. Na acceptatie kan het proces periodiek worden uitgevoerd om blijvend te voldoen aan de schoningscriteria.
Is het verwijderen van data helemaal onmogelijk of onwenselijk? Dan is anonimiseren mogelijk een alternatief. De data worden in dat geval niet fysiek verwijderd, maar op dusdanige wijze gemaskeerd zodat aan de gestelde criteria wordt voldaan.
Gecontroleerde uitvoering
Het verwijderen van gegevens uit productiesystemen is natuurlijk niet zonder risico’s. Kies daarom een oplossing die past bij jouw situatie en zorg voor een gecontroleerde uitvoering van dit proces.
Het begint met de inventarisatie van de te verwijderen data. Waar in het landschap bevinden deze data zich? Denk ook aan de minder voor de hand liggende plaatsen in het landschap. Data die geschoond dienen te worden kan zich in de gehele keten bevinden. En wat te denken van back-ups, het datawarehouse of replicatie-omgevingen? In sommige situaties kan een procedurele oplossing een uitkomst bieden.
Ook het vaststellen van de juiste en eenduidige selectiecriteria is een belangrijk uitgangspunt: Welke data dienen exact verwijderd te worden? Het resultaat van de selectie (de te verwijderen dataset) vormt de basis voor de dataschoning.
Daarnaast speelt de bewijsvoering een belangrijke rol: de vergelijking van de selectie, de situatie voor het verwijderen en het resultaat. Het opleveren van (audit)rapportages waarmee wordt aangetoond dat de data correct en volledig is verwijderd is essentieel.
Tot slot is tijdens de uitvoering van de dataschoning een robuuste oplossing noodzakelijk. Helemaal als er online en langdurig geschoond wordt. Van belang zijn:
- De herstartbaarheid bij foutsituaties
- De borging van de integriteit van de data
- Faciliteiten om de performance te beïnvloeden
Data eXcellence & dataschoning
DX heeft uitgebreide ervaring met het schonen van gegevens in productiesystemen, zowel offline als online. Middels een doelgerichte aanpak en gespecialiseerde tools ondersteunt DX organisaties met (de daadwerkelijke uitvoering van) het schonen van data.