Inleiding
Dubbele registraties van klanten, artikelen of andere objecten in IT-systemen is een bekend probleem. Dubbele registraties vraagt niet alleen extra onderhoudsinspanning, maar geeft ook problemen bij het leveren van managementinformatie en het correct uitvoeren van bedrijfsprocessen.
Data eXcellence wordt bij het uitvoeren van datamigratieprojecten uitgedaagd deze problemen op te lossen en heeft daarvoor een werkwijze en tooling ontwikkeld. Een datamigratie is een uitgelezen moment om doublures te corrigeren en een verse start te maken met het nieuwe systeem.
Dit artikel beschrijft hoe DX doublures detecteert en corrigeert waarmee de bruikbaarheid en betrouwbaarheid van de bedrijfsgegevens worden verbeterd.
Spelregels basisregistraties van de Nederlandse overheid: Eenmalig uitvragen, verplicht gebruiken en terugmelden bij twijfel over juistheid.
Eenduidig en eenmalig registreren; meervoudig gebruik
Het principe ‘eenduidig en eenmalig registreren voor meervoudig gebruik’ is algemeen geaccepteerd. Door gegevens op één plek, op basis van duidelijke definities vast te leggen, wordt het mogelijk om die gegevens te delen met andere gebruikers.
De praktijk is helaas vaak anders. Zo worden gegevens van één object, laten we als voorbeeld een ‘klant’ nemen, in meerdere systemen vastgelegd. Wanneer de kenmerken van deze klant in de verschillende systemen worden vergeleken, blijkt maar al te vaak dat deze elkaar tegenspreken!
Voorbeeld: Een verhuizing van een klant is in het CRM-registratie doorgevoerd, maar in registratiesysteem van de storingen (nog) niet. Het gevolg: de monteur staat met zijn gereedschapskist op de verkeerde locatie.
Doublures komen ook voor binnen één gegevensverzameling, bijvoorbeeld omdat een klant niet gevonden werd en opnieuw is opgevoerd.
Doublures herkennen
Om doublures te kunnen herkennen is het nodig om criteria te benoemen die een mogelijke doublure aanduiden. In bepaalde situaties is dat eenvoudig mogelijk op basis van een gedeelde identificator, zoals een BSN-nummer of een KVK-nummer. Hierbij geldt dat een overeenkomstige waarde van de identificator hetzelfde object aanduidt. Let op: het is verstandig om een extra controle uit te voeren, want door het verwisselen van 2 cijfers in de identificator wordt een compleet ander object geïdentificeerd. Valideer daarom bijvoorbeeld naast het identieke BSN-nummer ook of de geboortedatum overeen komt.
Het is belangrijk om vast te stellen dat de identificator op het juiste niveau wordt toegepast. De Kamer van Koophandel hanteert naast het dossiernummer ook het vestigingsnummer. Het dossiernummer is identiek voor alle vestigingen van een bedrijf en bij meerdere registraties bekend. Het vestigingsnummer is uniek en identificeert daadwerkelijk één specifieke registratie. Wie een concern wil identificeren kan gebruik maken van het dossiernummer, maar wie een unieke locatie wil identificeren moet zich baseren op het unieke vestigingsnummer.
Bij een functionele identificator worden duidelijke afspraken gemaakt omtrent de ‘voorwaarden’ waaraan voldaan moet worden om een ‘match’ vast te stellen. Bij een pand kan bijvoorbeeld worden afgesproken dat registraties identiek zijn als postcode en huisnummer overeenkomstig zijn.
Bij personen en bedrijven speelt doorgaans de naam een grote rol, waarbij gebruik kan worden gemaakt van fuzzy-matching, zodat ook ‘Thyssen’ en ‘Thijssen’ als identiek worden aangeduid. Het resultaat van een fuzzy-match kan een ‘handmatige’ beoordeling vereisen omdat deze matches niet perfect zijn.
In onderstaand geval zijn twee matchregels toegepast:
- Technisch identificator: Indien VestigingNr is gelijk en (Bankrekening is gelijk of TelefoonNr is gelijk) dan Match.
- Indien VestigingNr is ongelijk en indien DossierNr is gelijk en (Postcode-Huisnr is gelijk of Bankrekening is gelijk) dan Match.
1
2
3
4
5
6
7
Firmeks
FirmX
Firmex-Grn
Firmex-ASD
Firmex-Groningen
The firm
Newfirm
12345678
12345678
12345678
98765432
08765430
9876598765
9876598765
5678956789
5678956789
8765432100
6665000100
1012 QX
1021 XQ
9743 XX
1012 QX
9743
4444 QQ
3333 XX
1
99
10
1
2
3
454545676767
454545676767
767675645454
899897676756
010-98980000
010-98980000
020-89855566
040-55669900
01/01/21
01/01/19
01/02/20
01/02/20
01/01/19
01/01/20
01/04/21
2,4
1,4
5
1,2
3
Match & Selectie
Op basis van de gevonden matches kunnen groepen van registraties worden bepaald. Op basis van bovenstaand voorbeeld worden 4 groepen vestigingen samengesteld.
Groep A: Firmeks, FirmX en Firmeks-ASD
Groep B: Firmex-GRN en Firmex-Groningen
Groep C: The Firm
Groep D: Newfirm
Om concerns te bepalen zou de toevoeging van één extra match-regel volstaan:
3. Indien Dossiernr is gelijk en bankrekening of TelefoonNr is gelijk dan Match
Groep A: Firmeks, FirmX en Firmeks-ASD
Groep B: Firmex-GRN en Firmex-Groningen
In dit specifieke voorbeeld worden hiermee de groepen A en B samengevoegd.
Door het toepassen van de criteria worden doublures dus in groepen ingedeeld. De ‘leden van de groepen’ zijn nu weliswaar bepaald, maar het is nog niet duidelijk welke registratie leidend moet zijn. Daarvoor wordt eveneens een set criteria opgesteld - bijvoorbeeld:
- De registratie met de jongste datum
- De registratie met de meeste gevulde attributen
- De registratie met de meeste 1-1 matches
Vervolgens kan ervoor worden gekozen om een zogenaamd Golden Record samen te stellen, waarbij gegevens uit diverse registraties worden samengevoegd tot één nieuw object. Op basis van beide bepaalde groepen uit het voorbeeld zijn onderstaande records samengesteld. Daarbij is als uitgangspunt genomen dat het record met de jongste datum leidend is en wordt aangevuld met gegevens vanuit de overige registraties.
9
10
Firmeks
Firmex-Grn
12345678
12345678
9876598765
5678956789
1012 QX
9743 XX
1
10
454545676767
767675645454
010-98980000
010-98980000
01/06/21
01/06/21
De impact op datamigraties
Bij een datamigratie worden gegevens uit meerdere bronsystemen samengebracht naar een nieuw doelsysteem, waarbij het niet wenselijk is om het doelsysteem te ‘vervuilen’ met doublures. Daarom maakt DX bij datamigraties gebruik van de hierboven beschreven technieken om gegevens correct en uniek op te voeren.
Tijdens de datamigratie wordt een tabel opgebouwd, waarin iedere bronregistratie wordt gekoppeld aan een nieuw op te voeren Masterdata-record. Hierbij kunnen ook de samengestelde Golden Records worden opgevoerd.
1 Firmeks
2 FirmX
3 Firmex-Grn
4 Firmex-ASD
5 Firmex-Groningen
6 The firm
7 Newfirm
A
A
B
A
B
C
D
9 Firmeks
9 Firmeks
10 Firmex-Grn
9 Firmeks
10 Firmex-Grn
6 The firm
7 Newfirm
In dit voorbeeld worden in het doelsysteem vier objecten opgevoerd, het leidend groepslid, in dit geval de twee golden records en de twee oorspronkelijk bronregistraties.
Vervolgens moet de transactiedata, die gerelateerd was aan een bronregistratie, opnieuw gekoppeld wordt op basis van de vertaaltabel. In onderstaand voorbeeld zijn alle oorspronkelijk orders gekoppeld aan de nieuwe klanten.
Het ontdubbelen van klanten en het opnieuw relateren van de orders betekent dat de controle van de datamigratie meer complex word. Ook als er fuzzy-matching wordt ingezet kan menselijke tussenkomst noodzakelijk zijn. In dit laatste geval is een volledig geautomatiseerde migratie niet mogelijk.
Een absolute telling en vergelijking van bron- en doelobject volstaat niet. Niet alleen omdat er door uitval en filtering bronobjecten ontbreken, maar ook omdat er bij het ontdubbelen bronregistraties worden samengevoegd. Een telling die de volledigheid van een datamigratie kan aantonen vraagt extra aandacht en kennis van het ontdubbelproces.
In de praktijk kiezen klanten er dan ook vaak voor om het ontdubbelen voor de migratie uit te voeren.
Extra aandacht voor controle: Het ontdubbelen van brongegevens maakt de controle van de compleetheid van een datamigratie meer complex.
Datakwaliteit bij datamigraties
Als ontdubbelen van gegevens bij een datamigratie correct wordt uitgevoerd, geeft dat een enorme meerwaarde. Het resultaat is een consistente doeldatabase, waarbij ieder object uniek is opgevoerd. Vanzelfsprekend is het vervolgens belangrijk dat bij het werken met het nieuwe systeem de juiste invoercontroles worden uitgevoerd. Goed valideren of de ‘op te voeren’ klant al in de gegevensverzameling aanwezig is, blijft de beste maatregel om vervuiling van gegevens te voorkomen.
Data eXcellence is specialist in het uitvoeren van datamigraties en geeft daarbij veel aandacht aan de kwaliteit van de data van het doelsysteem. De werkwijze en toolkit van DX bevat specifieke, configureerbare componenten die ingezet kunnen worden om doublures te bepalen en samen te voegen tot unieke registraties.