Inleiding

Dubbele registraties van klanten, artikelen of andere objecten in IT-systemen is een bekend probleem. Dubbele registraties vraagt niet alleen extra onderhoudsinspanning, maar geeft ook problemen bij het leveren van managementinformatie en het correct uitvoeren van bedrijfsprocessen. 

Data eXcellence wordt bij het uitvoeren van datamigratieprojecten uitgedaagd deze problemen op te lossen en heeft daarvoor een werkwijze en tooling ontwikkeld. Een datamigratie is een uitgelezen moment om doublures te corrigeren en een verse start te maken met het nieuwe systeem.

Dit artikel beschrijft hoe DX doublures detecteert en corrigeert waarmee de bruikbaarheid en betrouwbaarheid van de bedrijfsgegevens worden verbeterd.

Spelregels basisregistraties van de Nederlandse overheid: Eenmalig uitvragen, verplicht gebruiken en terugmelden bij twijfel over juistheid. 

 

Eenduidig en eenmalig registreren; meervoudig gebruik

Het principe ‘eenduidig en eenmalig registreren voor meervoudig gebruik’ is algemeen geaccepteerd. Door gegevens op één plek, op basis van duidelijke definities vast te leggen, wordt het mogelijk om die gegevens te delen met andere gebruikers.

De praktijk is helaas vaak anders. Zo worden gegevens van één object, laten we als voorbeeld een ‘klant’ nemen, in meerdere systemen vastgelegd. Wanneer de kenmerken van deze klant in de verschillende systemen worden vergeleken, blijkt maar al te vaak dat deze elkaar tegenspreken! 

Voorbeeld: Een verhuizing van een klant is in het CRM-registratie doorgevoerd, maar in registratiesysteem van de storingen (nog) niet. Het gevolg: de monteur staat met zijn gereedschapskist op de verkeerde locatie.

Doublures komen ook voor binnen één gegevensverzameling, bijvoorbeeld omdat een klant niet gevonden werd en opnieuw is opgevoerd.

Doublures herkennen

Om doublures te kunnen herkennen is het nodig om criteria te benoemen die een mogelijke  doublure aanduiden. In bepaalde situaties is dat eenvoudig mogelijk op basis van een gedeelde identificator, zoals een BSN-nummer of een KVK-nummer. Hierbij geldt dat een overeenkomstige waarde van de identificator hetzelfde object aanduidt. Let op: het is verstandig om een extra controle uit te voeren, want door het verwisselen van 2 cijfers in de identificator wordt een compleet ander object geïdentificeerd. Valideer daarom bijvoorbeeld naast het identieke BSN-nummer ook of de geboortedatum overeen komt.

Het is belangrijk om vast te stellen dat de identificator op het juiste niveau wordt toegepast. De Kamer van Koophandel hanteert naast het dossiernummer ook het vestigingsnummer. Het dossiernummer is identiek voor alle vestigingen van een bedrijf en bij meerdere registraties bekend. Het vestigingsnummer is uniek en identificeert daadwerkelijk één specifieke registratie. Wie een concern wil identificeren kan gebruik maken van het dossiernummer, maar wie een unieke locatie wil identificeren moet zich baseren op het unieke vestigingsnummer.

Bij een functionele identificator worden duidelijke afspraken gemaakt omtrent de ‘voorwaarden’ waaraan voldaan moet worden om een ‘match’ vast te stellen. Bij een pand kan bijvoorbeeld worden afgesproken dat registraties identiek zijn als postcode en huisnummer overeenkomstig zijn.

Bij personen en bedrijven speelt doorgaans de naam een grote rol, waarbij gebruik kan worden gemaakt van fuzzy-matching, zodat ook ‘Thyssen’ en ‘Thijssen’ als identiek worden aangeduid. Het resultaat van een fuzzy-match kan een ‘handmatige’ beoordeling vereisen omdat deze matches niet perfect zijn.

In onderstaand geval zijn twee matchregels toegepast:

  1. Technisch identificator: Indien VestigingNr is gelijk en (Bankrekening is gelijk of TelefoonNr is gelijk) dan Match.
  2. Indien VestigingNr is ongelijk en indien DossierNr is gelijk en (Postcode-Huisnr is gelijk of Bankrekening is gelijk) dan Match.
Nr.
Nr.

1

2

3

4

5

6

7

Naam
Naam

Firmeks

FirmX

Firmex-Grn

Firmex-ASD

Firmex-Groningen

The firm

Newfirm

DossierNr
DossierNr

12345678

12345678

12345678

98765432

08765430

VestigingNr
VestigingNr

9876598765

9876598765

5678956789

5678956789

8765432100

6665000100

Postcode
Postcode

1012 QX

1021 XQ

9743 XX

1012 QX

9743

4444 QQ

3333 XX

Huisnr
Huisnr

1

99

10

1

2

3

Bank- rekening
Bank- rekening

454545676767

454545676767

767675645454

899897676756

TelefoonNr
TelefoonNr

010-98980000

010-98980000

020-89855566

040-55669900

Datum
Datum

01/01/21

01/01/19

01/02/20

01/02/20

01/01/19

01/01/20

01/04/21

Matched
Matched

2,4

1,4

5

1,2

3

Match & Selectie

Op basis van de gevonden matches kunnen groepen van registraties worden bepaald. Op basis van bovenstaand voorbeeld worden 4 groepen vestigingen samengesteld.

Groep A: Firmeks, FirmX en Firmeks-ASD

Groep B: Firmex-GRN en Firmex-Groningen

Groep C: The Firm

Groep D: Newfirm

Om concerns te bepalen zou de toevoeging van één extra match-regel volstaan:

3. Indien Dossiernr is gelijk en bankrekening of TelefoonNr is gelijk dan Match

Groep A: Firmeks, FirmX en Firmeks-ASD

Groep B: Firmex-GRN en Firmex-Groningen

In dit specifieke voorbeeld worden hiermee de groepen A en B samengevoegd.

Door het toepassen van de criteria worden doublures dus in groepen ingedeeld. De ‘leden van de groepen’ zijn nu weliswaar bepaald, maar het is nog niet duidelijk welke registratie leidend moet zijn. Daarvoor wordt eveneens een set criteria opgesteld - bijvoorbeeld:

  • De registratie met de jongste datum
  • De registratie met de meeste gevulde attributen
  • De registratie met de meeste 1-1 matches 

Vervolgens kan ervoor worden gekozen om een zogenaamd Golden Record samen te stellen, waarbij gegevens uit diverse registraties worden samengevoegd tot één nieuw object. Op basis van beide bepaalde groepen uit het voorbeeld zijn onderstaande records samengesteld. Daarbij is als uitgangspunt genomen dat het record met de jongste datum leidend is en wordt aangevuld met gegevens vanuit de overige registraties.  

Nr.
Nr.

9

10

Naam
Naam

Firmeks

Firmex-Grn

DossierNr
DossierNr

12345678

12345678

VestigingNr
VestigingNr

9876598765

5678956789

Postcode
Postcode

1012 QX

9743 XX

Huisnr
Huisnr

1

10

Bank- rekening
Bank- rekening

454545676767

767675645454

TelefoonNr
TelefoonNr

010-98980000

010-98980000

Datum
Datum

01/06/21

01/06/21

De impact op datamigraties

Bij een datamigratie worden gegevens uit meerdere bronsystemen samengebracht naar een nieuw doelsysteem, waarbij het niet wenselijk is om het doelsysteem te ‘vervuilen’ met doublures. Daarom maakt DX bij datamigraties gebruik van de hierboven beschreven technieken om gegevens correct en uniek op te voeren.  

Tijdens de datamigratie wordt een tabel opgebouwd, waarin iedere bronregistratie wordt gekoppeld aan een nieuw op te voeren Masterdata-record. Hierbij kunnen ook de samengestelde Golden Records worden opgevoerd.

Bron
Bron

1 Firmeks

2 FirmX

3 Firmex-Grn

4 Firmex-ASD

5 Firmex-Groningen

6 The firm

7 Newfirm

Groep
Groep

A

A

B

A

B

C

D

Leidend
Leidend

9 Firmeks

9 Firmeks

10 Firmex-Grn

9 Firmeks

10 Firmex-Grn

6 The firm

7 Newfirm

In dit voorbeeld worden in het doelsysteem vier objecten opgevoerd, het leidend groepslid, in dit geval de twee golden records en de twee oorspronkelijk bronregistraties.

Vervolgens moet de transactiedata, die gerelateerd was aan een bronregistratie, opnieuw gekoppeld wordt op basis van de vertaaltabel. In onderstaand voorbeeld zijn alle oorspronkelijk orders gekoppeld aan de nieuwe klanten.

vertaaltabel klantnummers

Het ontdubbelen van klanten en het opnieuw relateren van de orders betekent dat de controle van de datamigratie meer complex word. Ook als er fuzzy-matching wordt ingezet kan menselijke tussenkomst noodzakelijk zijn. In dit laatste geval is een volledig geautomatiseerde migratie niet mogelijk. 

Een absolute telling en vergelijking van bron- en doelobject volstaat niet. Niet alleen omdat er door uitval en filtering bronobjecten ontbreken, maar ook omdat er bij het ontdubbelen bronregistraties worden samengevoegd. Een telling die de volledigheid van een datamigratie kan aantonen vraagt extra aandacht en kennis van het ontdubbelproces.

In de praktijk kiezen klanten er dan ook vaak voor om het ontdubbelen voor de migratie uit te voeren.

Extra aandacht voor controle: Het ontdubbelen van brongegevens maakt de controle van de compleetheid van een datamigratie meer complex.

Datakwaliteit bij datamigraties

Als ontdubbelen van gegevens bij een datamigratie correct wordt uitgevoerd, geeft dat een enorme meerwaarde. Het resultaat is een consistente doeldatabase, waarbij ieder object uniek is opgevoerd. Vanzelfsprekend is het vervolgens belangrijk dat bij het werken met het nieuwe systeem de juiste invoercontroles worden uitgevoerd. Goed valideren of de ‘op te voeren’ klant al in de gegevensverzameling aanwezig is, blijft de beste maatregel om vervuiling van gegevens te voorkomen.

Data eXcellence is specialist in het uitvoeren van datamigraties en geeft daarbij veel aandacht aan de kwaliteit van de data van het doelsysteem. De werkwijze en toolkit van DX bevat specifieke, configureerbare componenten die ingezet kunnen worden om doublures te bepalen en samen te voegen tot unieke registraties. 

Meer weten?