Bedrijven transformeren van data-genererende naar data-gedreven organisaties. Steeds meer data is beschikbaar en de technologie om deze data om te vormen tot bruikbare inzichten is breed toegankelijk. Data is toenemend belangrijk en daarmee ook de kwaliteit van data. Data biedt je organisatie enorme kansen, omdat je besluiten wilt nemen op basis van betrouwbare informatie. Maar je moet er wel wat voor doen!
Dit artikel beschrijft hoe je de kwaliteit van data beoordeelt en hoe je de datakwaliteit structureel verbetert.
Bruikbare Data
Thomas C. Redman beschrijft in het standaardwerk ‘Data Driven’ dat het beschikken over betrouwbare en correcte data één van de belangrijkste bedrijfsmiddelen is. De data die een organisatie over haar klanten en producten bezit, is uniek en stelt haar in staat om het juiste beleid op te stellen en beslissingen te nemen die de prestatie van het bedrijf verbeteren. Die gegevens moeten dan wel correct zijn en op een juiste manier worden omgezet naar informatie. Alleen op basis van correcte data kan kennis worden opgebouwd en wijze besluiten worden genomen (zie hiernaast de DIKW pyramide).
DIKW pyramide
Datakwaliteit is afhankelijk van de vraag
De kwaliteit van data is - volgens Redman - volledig afhankelijk van de vraag die de gebruiker stelt. Een met de voeten gemeten afstand is bij een spelletje afdoende. Om een keukenkastje te monteren is deze afstand echter niet van afdoende kwaliteit.
De 4 B’s van Datakwaliteit
De Bruikbaarheid van data wordt niet alleen bepaald door de precisie (accuraatheid) van de waarde, maar er zijn ook andere belangrijke deelaspecten die een rol spelen bij de vraag of data geschikt is om uw businessvraag te beantwoorden.
De Betrouwbaarheid van een gegeven is de mate waarin de waarde de werkelijkheid weergeeft. Als voor een persoon bij het geslacht ‘Man’ is aangegeven, kan dat correct zijn, maar de waarde ‘Peer’ is dubieus.
Daarmee komen we op het deelaspect Bestendigheid. Als binnen een organisatie afgesproken is wat de mogelijke waarden van het kenmerk Geslacht (Man/Vrouw/Onbekend) zijn en welke data-eigenaar middels welk inwinproces dat gegeven heeft geregistreerd, dan zijn we een stap verder. We kunnen het gegeven toetsen en navraag doen.
Ten slotte is er dan ook nog het deelaspect Beschikbaarheid, dat bepaalt of een gegeven vindbaar is voor de gebruiker en of hij/zij het gegeven kan en mag gebruiken.
Is één van deze deelaspecten onder de maat, dan heeft de Bruikbaarheid daaronder te leiden. Besteed dus voldoende aandacht aan de drie deelaspecten.
De 4 B's
Bestendig
Hoe ga je nu de datakwaliteit structureel verbeteren? In veel gevallen wordt gestart met de inhoud van de data. Het is echter verstandiger om te beginnen bij het fundament: bestendig de rol van data binnen het bedrijf door aandacht te besteden aan de volgende onderdelen:
- Datadefinities - welke gegevens gebruiken we binnen de organisatie? Wat zijn de beschrijvingen en aan welke technische en functionele eisen moet het voldoen. De datadefinities leg je vast in een bedrijfsgegevensmodel.
- Eigenaar. Wie is de eigenaar van een gegeven? Wie stelt de datadefinities vast? De rol van data steward is hier van belang. Een data steward is een rol die verantwoordelijk is voor het gebruik van de data governance processen om ervoor te zorgen dat de data - zowel de inhoud als de metadata - aan de eisen voldoet.
- Bepaal middels welk proces gegevens worden geregistreerd, geactualiseerd, gecontroleerd en uiteindelijk ook weer worden verwijderd.
Dit fundament is de basis om data goed toe te kunnen passen binnen de organisatie.
Betrouwbaar
Het correct vastleggen van de kenmerken van een object in de systemen blijft vaak mensenwerk. De afspraken die onder het kopje Bestendig zijn gemaakt, zijn erg nuttig bij het valideren van de geregistreerde data. Op basis van definities en eisen kan de ACCU-toets worden uitgevoerd. Deze toets controleert data op de volgende aspecten:
- Actualiteit: is de data goed bijgewerkt en geeft het de huidige situatie weer?
- Correctheid: voldoet de data aan de gestelde eisen, zoals domeinwaarden, formaat en business-rules?
- Compleetheid: zijn alle gegevens ingevuld en zijn er valide verwijzing naar referentiewaarden?
- Uniciteit: zijn gegevens niet dubbel geregistreerd (binnen applicaties en over applicaties heen)?
Er zijn uiteenlopende modellen die aangeven wat de karakteristieken van datakwaliteit zijn. De gedetailleerdheid loopt sterk uiteen. Zo onderkent de standaard ISO/IEC 25012 wel 15 verschillende karakteristieken (zie hiernaast).
15 karakteristieken van ISO/IEC 25012
Beschikbaar
U kunt uw data nog zo goed op orde hebben, maar als het niet benaderbaar is of niet tijdig te gebruiken is, dan wordt het uiteindelijke doel, betere bedrijfsprestaties, niet bereikt. De IT-afdeling faciliteert gebruikers door data beschikbaar te stellen en de gebruikers de juiste tools aan te bieden om data om te zetten in informatie.
De gebruiker stelt doorgaans de vraag: ‘Hebben we die gegevens in huis en zo ja, waar kan ik ze dan vinden?’. Een bedrijfsgegevensmodel en data stewards bieden hier uitkomst. Vervolgens kan de gebruiker terecht in een Datawarehouse of Data Lake om de data te verkrijgen en ermee aan de slag te gaan.
Datamigratie is impuls voor datakwaliteit
Datakwaliteit speelt een belangrijke rol bij de datamigraties die Data eXcellence uitvoert. De implementatie van een nieuw systeem en de bijbehorende datamigratie is een uitgelezen moment om het Beleid (daar is de vijfde B) van data vast te leggen en extra aandacht te besteden aan het verbeteren van de datakwaliteit.
Data eXcellence adviseert en biedt ondersteuning bij de structurele verbetering van de datakwaliteit. Met een hogere datakwaliteit haal je meer waarde uit je data.