Garbage in - garbage out is een informele uitdrukking dat een slechte input leidt tot slechte output. Als u iets wat niet klopt in een systeem stopt dan komt er ook iets uit wat niet klopt. Een lage datakwaliteit levert in het algemeen problemen op zoals onbetrouwbare analyses, inefficiënte bedrijfsprocessen en imagoschade. Wanneer een nieuw systeem wordt geïmplementeerd en de bestaande data naar het nieuwe systeem gemigreerd, wordt de kwaliteit van de brondata - de garbage - opeens wel heel belangrijk!

Wat zijn nu de specifieke risico’s die door een lage datakwaliteit worden geïntroduceerd? En hoe kunt u hier mee omgaan? Dit artikel geeft antwoorden en concrete tips!

Definitie datakwaliteit

Datakwaliteit is een beoordeling van de geschiktheid van de gegevens om hun doel in een bepaalde context te bereiken. De kwaliteit van de gegevens wordt bepaald door factoren als nauwkeurigheid, volledigheid, betrouwbaarheid, relevantie en actualiteit.

Datakwaliteit tijdens een datamigratie

De geschiktheid van de gegevens om hun doel te bereiken staat centraal. In de context van een datamigratie staan dan ook drie vragen centraal:

Is de data bruikbaar om te migreren naar het nieuwe systeem?
Data moet voldoen aan eisen ten aanzien van datatypes, al dan niet verplichte data, onderlinge afhankelijkheden etc. Dit zijn technische eisen die een doelsysteem stelt aan de te ontvangen data. Dat het bronsysteem functioneert met de huidige data is geen garantie dat het doelsysteem dat ook doet en dat de data wordt geaccepteerd door dit  systeem.

Is de data bruikbaar in het nieuwe systeem om de uitvoering van de bedrijfsprocessen te ondersteunen?
Data moet voldoen aan actualiteit, compleetheid en correctheid van gegevens. Functionaliteiten in het nieuwe systeem kunnen andere - vaak hogere - eisen stellen om goed te werken. Dit is de functionele eis die een doelsysteem stelt aan de te ontvangen data.

Is de data juist?
Data kan door het bronsysteem worden geaccepteerd en zelfs de processen in het bronsysteem ondersteunen. Maar de data zelf kan nog altijd onjuist zijn, wat tot allerhande problemen leidt. Dit is niet zozeer een risico voor de datamigratie, maar wel voor de bedrijfsvoering na de ingebruikname.

Kortom, onder het schonen van de data kom je bij een datamigratie niet uit. Hoe ver je daarin gaat is een keuze. Lees hier meer over in Grip op datakwaliteit.

De risico’s van lage datakwaliteit

Een lage datakwaliteit introduceert risico’s voor de datamigratie en de gehele implementatie.

Acceptatierisico
Het meest elementaire acceptatiecriterium is een correct werkend systeem met de bestaande data volledig en correct gemigreerd. Een lage datakwaliteit introduceert risico’s op zowel de correcte werking als op de volledige en correcte migratie. Dat problemen ‘in de oude situatie’ ook al voorkwamen is vaak het geval, maar dat brengt de acceptatie van het nieuwe systeem niet dichterbij. De impliciete verwachting is vaak dat de datamigratie de datakwaliteit automatisch oppoetst. Als dit niet zo blijkt te zijn gedurende acceptatietesten is het rijkelijk laat om hier adequaat op te acteren.

Het accepteren van een nieuw systeem op basis van werkelijke, gemigreerde data is een goed gebruik. Maar al te vaak wordt namelijk geaccepteerd op basis van door een leverancier aangeleverde data of testdata. Deze data vormt geen substituut voor de weerbarstige werkelijkheid. Decharge verlenen aan een pakketleverancier of implementatiepartner op basis van de echte data is dus ook geboden!

Planning- en budgetrisico
Deze risico’s ontstaan meestal vanuit een slechte inschatting van de datakwaliteit: ‘onze datakwaliteit is goed’. Deze inschatting wordt zelden onderbouwd met een concrete meting en analyse. Het gevolg: het project wordt gedurende de uitvoering geconfronteerd met een te lage datakwaliteit en moet activiteiten uitvoeren om hiermee om te gaan.

Reduceer de risico’s

De verhoogde risico’s voor acceptatie, planning en budget kunnen als volgt gereduceerd worden:

  • Normeer datakwaliteit met bijbehorende acceptatiecriteria. Aan welke realistische eisen moet de data voldoen? En trap daarbij niet in de valkuil dat alles 100% moet zijn.
  • Meet de datakwaliteit en maak het periodiek inzichtelijk. Op basis van deze informatie kan de implementatie- en migratiestrategie (mede) worden bepaald. Als de kwaliteit van historische data onder de maat is, willen we dit dan überhaupt wel migreren? En hoe gaan we zorgen voor het verhogen van de datakwaliteit naar de gestelde normen, wat moet handmatig en wat kan geautomatiseerd?
  • Verhoog de datakwaliteit tot het noodzakelijke niveau: schoon, verrijk, uniformeer, ontdubbel etc. Hoewel dit vaak onbegonnen werk lijkt, blijkt dat een groot deel geautomatiseerd uitgevoerd kan worden. Met gebruikmaking van externe bronnen en referentiedata kan mogelijk een groot deel van de issues al opgelost worden.

Drie tips

Het omgaan met een datakwaliteitsproblemen is een gegeven bij het uitvoeren van een implementatie en migratie. Hieronder geven we een aantal specifieke tips die ingezet kunnen worden gedurende de uitvoering van een migratieproject:

Ga uit van datakwaliteitissues in de migratiespecificatie en -implementatie. Het specificeren en bouwen van alleen de ‘happy-flow’ is dus niet afdoende!

Neem validaties van het nieuwe systeem op in de migratie. Hierdoor worden deze validaties getoetst gedurende de testmigraties en inzichtelijk gemaakt als uitval van de migratie. Dit punt is vooral van belang als de migratie op databaseniveau wordt uitgevoerd. Hierbij worden namelijk de validatieregels niet toegepast met alle mogelijke gevolgen van dien.

Maak geautomatiseerde correctie (zoals hiervoor genoemd) onderdeel van de migratieprogrammatuur. Schonen, verrijken, uniformeren en ontdubbelen zijn allemaal zaken die standaard in onze data migration factory aanwezig zijn en prima ingezet kunnen worden om de datakwaliteit direct te verhogen!

Ook na de implementatie blijft datakwaliteit van belang: laat de datakwaliteit niet weer ‘afglijden’. Binnen het project zijn allerlei instrumenten en processen ingericht om datakwaliteit te monitoren en te verbeteren. Een mooi startpunt voor of onderdeel van Data Quality Management (DQM).

Data Quality Management (DQM) is de organisatie die de rollen, het beleid, de verantwoordelijkheden en de processen met betrekking tot het verzamelen, onderhouden en verspreiden van gegevens omvat.

Samengevat

Onze boodschap is duidelijk: onderschat de impact en risico’s als gevolg van een lage datakwaliteit niet. Besteed er vroegtijdig aandacht aan - laat je niet verrassen tijdens een implementatieproject. Neem concrete stappen om de datakwaliteit op het noodzakelijke niveau te brengen en maak niet de fout om tijdens een datamigratie de datakwaliteit structureel te willen verbeteren zonder dat dit voor de datamigratie noodzakelijk is. En laat je inspireren door de tips in dit artikel!

Onze Data Migration Factory heeft alles in huis om gedurende de datamigratie de datakwaliteit geautomatiseerd te controleren en te verbeteren.

Want to know more?