Inleiding

Iedereen kan zich voorstellen wat er bedoeld wordt met het begrip datakwaliteit, maar het is lastig om precies aan te geven wanneer die kwaliteit hoog of laag is. Een bruikbare definitie geeft Thomas Redman in zijn boek Data Driven  (http://www.dataversity.net/contributors/thomas-redman/): de datakwaliteit is hoog als de betreffende gegevens geschikt zijn voor het beoogde gebruik in bedrijfsactiviteiten, besluitvorming en planning. En John Morris van Data Quality Pro probeert uit te leggen wat “geschikt voor het beoogde gebruik” inhoudt: bij datakwaliteit is perfectie onhaalbaar, maar zorg voor voldoende niveau op het juiste moment op de juiste plaats (https://www.dataqualitypro.com/data-quality-for-data-migration-techniques/).

Data eXcellence bekijkt datakwaliteit door een datamigratie-bril. Wat zijn de eisen aan data bij een migratie? Hoe zorg ik ervoor dat mijn gegevens aan die eisen voldoen? En hoe krijg ik daar inzicht in? Kortom, wanneer zijn mijn gegevens “geschikt voor het beoogde gebruik”? Dit artikel helpt je bij het beantwoorden van deze vragen.

Datakwaliteit: een bepalende factor

Datakwaliteit is een van de bepalende factoren voor het succes van een datamigratie. Een beroerde datakwaliteit kan een migratie veranderen in een hoofdpijndossier. Verplichte gegevens ontbreken of voldoen niet aan de eisen: een IBAN of BSN is niet 11-proef. Belangrijke gegevens zijn niet geschikt voor automatische verwerking: ze zijn ongestructureerd of alleen op papier beschikbaar. Of een database is niet consistent, waardoor gegevens met kunst- en vliegwerk aan elkaar geknoopt moeten worden. Allemaal zaken die veel inspanning en doorlooptijd kosten.

Hoge datakwaliteit daarentegen levert op veel vlakken winst op. Als alle verplichte velden correct gevuld zijn, hoeft het migratieteam daaraan geen tijd te besteden. Als alle gegevens voldoen aan strikte regels, verloopt de migratie eenvoudiger, omdat de migratiesoftware geen rekening hoeft te houden met talloze uitzonderingen.

Daarom is het van belang dat een migratieproject zo vroeg mogelijk zicht krijgt op de datakwaliteit. Er bestaan veel tools die de inhoud van databases kunnen analyseren. Met de eenvoudigste uitvoeringen zie je hoe gevarieerd de inhoud is en hoe het met de referentiële integriteit is gesteld. Dit geeft wel een indicatie van de algehele kwaliteit, maar zegt nog niet zo veel over de bruikbaarheid van data in een doelsysteem. In uitgebreidere tools kun je aangeven aan welke specifieke regels de gegevens moeten voldoen. En in sommige tools is het ook nog mogelijk om de aangetroffen datavervuiling op een gecontroleerde manier te repareren. Gartner heeft een goed overzicht samengesteld op https://www.gartner.com/reviews/market/data-quality-tools.

Data eXcellence heeft zelf datakwaliteitstechnologie ontwikkeld, helemaal gericht op datakwaliteit vanuit migratieperspectief. Deze tooling is geïntegreerd in DXF: de Data eXcellence datamigratiefabriek.

Doelsysteem is leidend bij een migratie

Bij een datamigratie dicteert het doelsysteem de eisen aan datakwaliteit. Dit gaat verder dan alleen maar het vullen van verplichte velden. De werking van een systeem kan sterk worden beïnvloed door het wel of niet aanwezig zijn van bepaalde gegevens. Als bijvoorbeeld de historie van boekingen in een hypotheekadministratie incompleet is, kan een doelsysteem per abuis achterstanden in rekening brengen. Eerst moet het migratieteam dus vaststellen onder welke condities het doelsysteem correct zal werken. Vervolgens zet het team deze condities om in eisen aan de datakwaliteit.

  • Gegevens die niet perfect zijn, maar waarmee het doelsysteem wel correct zal werken, blijven onveranderd. Denk aan de definitie van Redman: geschikt voor het beoogde gebruik.
  • Beschouw alleen gegevens die daadwerkelijk naar het doelsysteem gaan. Hiervoor is het van belang de scope van de data precies vast te stellen. Dit heeft betrekking op de breedte (welk soort gegevens) en de diepte (hoeveel historie van de gegevens).
  • Probeer de historie te beperken tot gegevens die echt nodig zijn voor de werking van het doelsysteem. Historische gegevens zijn vaak afkomstig uit voorgaande migraties, of stammen uit een tijd dat het bronsysteem andere eisen stelde. Meer historie betekent meer variatie – en dus meer datakwaliteitsregels, meer uitzonderingen en meer inspanning bij het wegwerken van datakwaliteitsproblemen.

Hou alle datakwaliteitseisen die niet door het doelsysteem worden opgelegd, buiten de scope van de datamigratie. De focus moet volledig liggen op de correcte werking van het doelsysteem. Hooguit mag je de deur op een kier zetten voor plausibiliteitscontroles: een onwaarschijnlijke leeftijd van een hypotheeknemer (jonger dan 18 of ouder dan 110 jaar), of een onwaarschijnlijk hypotheekbedrag – het doelsysteem zal er goed mee functioneren, maar het is duidelijk dat er iets vreemds aan de hand is. De algemene eis voor datakwaliteit moet echter blijven: het doelsysteem moet correct werken. Niet minder, maar ook niet meer.

De aanpak van Data eXcellence

Binnen de datamigratieprojecten van Data eXcellence heeft datakwaliteit een belangrijke plaats. Al vanaf de start van een project worden de eisen van het doelsysteem in kaart gebracht. Deze eisen zet het migratieteam om in datakwaliteitsregels, waarbij het team een beroep doet op deskundigen van bron- en doelsystemen.

Enkele voorbeelden van datakwaliteitsregels:

  • BSN voldoet niet aan 11-proef
  • De beëindigde lening heeft geen beëindigingsdatum
  • Nationaliteit kan niet gevonden worden in Landcode-tabel
  • De ingangsdatum van de hypotheek is ouder dan 01-01-1980
  • De datum van de eerste betaling ligt voor de ingangsdatum van de lening
  • De bestuurder van de auto is jonger dan 18 jaar
  • Vervolgens controleert het team of de brongegevens voldoen aan deze regels. Alle uitzonderingen komen terecht in een rapport, dat periodiek (bijvoorbeeld wekelijks) met de klant wordt besproken. Tijdens dat zogenoemde schoningsoverleg krijgt iedere gerapporteerde “overtreding” een actiehouder toegewezen, die verantwoordelijk is voor de aanpak van het dataprobleem. Op deze manier blijft iedere kwestie bij de betrokkenen in beeld totdat alles opgelost is.

    Er zijn verschillende manieren om datakwaliteitsproblemen op te lossen. De meest voorkomende zijn:

    • Opstellen van conversieregels. Vaak is het mogelijk een ontbrekend gegeven af te leiden uit andere brondata. In dat geval kan een conversieregel deze afleiding geautomatiseerd uitvoeren. In andere gevallen is het voldoende een standaardwaarde te gebruiken. Een ontbrekende landcode wordt bijvoorbeeld steeds gevuld met “Nederland”.
    • Schoning van data in het bronsysteem.Door gegevens aan te passen in brondata, pak je een probleem letterlijk bij de bron aan. Dit is de meest tijdrovende manier van dataschoning, maar in situaties waarin individuele gegevens ontbreken, is dit vaak de enige mogelijkheid. De meeste doorlooptijd van het oplossen van dataproblemen gaat zitten in deze aanpak.
    • Aanpassen van het doelsysteem.Meestal is dit een noodoplossing, maar als de voorgaande twee manieren niet mogelijk zijn – of te veel tijd kosten – kan de keuze vallen op het aanpassen van het doelsysteem. Vaak is dit een kortdurende maatregel om tijd te winnen, zodat gebruikers na migratie alsnog ontbrekende gegevens in kunnen voeren.

    De ervaring van Data eXcellence is dat 80% van de datakwaliteitsproblemen snel te lokaliseren en op te lossen is – mede door goede ondersteuning van de tooling. De meeste inspanning is nodig voor de resterende 20%. Vaak betreft het handmatig uitzoekwerk van specifieke uitzonderingen.

    CONCLUSIE

    Binnen datamigratieprojecten verdient (en krijgt) datakwaliteit veel aandacht. De focus ligt hierbij op een correcte werking van het doelsysteem en niet op algemene kwaliteitsverbetering. In de aanpak van Data eXcellence neemt het zogenoemde schoningsoverleg een centrale plaats in. Het oplossen van kwaliteitsproblemen volgt de 80/20-regel. Het is belangrijk dat het project voldoende tijd en middelen hiervoor beschikbaar heeft.

    Want to know more?