Einleitung
Doppelte Einträge von Kunden, Produkten oder anderen Objekten in IT-Systeme stellen ein bekanntes Problem dar. Doppeleinträge erfordern nicht nur zusätzlichen Wartungsaufwand, sondern verursachen auch Probleme bei der Bereitstellung von Managementinformationen und der korrekten Ausführung von Geschäftsprozessen.
Data eXcellence stellt sich der Herausforderung, diese Probleme während der Durchführung von Datenmigrationsprojekten zu lösen. Dafür wurde eine eigene Arbeitsmethode und ein eigenes Tooling entwickelt. Eine Datenmigration ist ein hervorragender Zeitpunkt, um Dubletten zu korrigieren und mit dem neuen System einen Neuanfang zu machen.
In diesem Artikel wird beschrieben, wie diese Dubletten von DX erkannt und korrigiert werden, wodurch eine Verbesserung der Benutzerfreundlichkeit und der Zuverlässigkeit der Geschäftsdaten erzielt wird.
Regelung der niederländischen Regierung für die Erfassung der Basisdaten: Einmalige Abfrage, obligatorischer Gebrauch und Meldung bei Zweifel an der Richtigkeit.
Eindeutige und einmalige Einträge für die mehrfache Nutzung
Der Grundsatz der „eindeutigen und einmaligen Eintragung zur Mehrfachnutzung“ ist allgemein anerkannt. Indem Daten auf Basis klarer Definitionen an einem Ort erfasst werden, wird es möglich, diese Daten mit anderen Benutzern zu teilen.
Leider sieht es in der Praxis oft ganz anders aus. So werden etwa Daten von einem Objekt - beispielsweise die eines Kunden - in mehreren Systemen aufgezeichnet. Wenn man die Parameter dieses Kunden in den verschiedenen Systemen vergleicht, stellt sich allzu oft heraus, dass sie widersprüchlich sind!
Beispiel: Der Umzug eines Kunden wurde im CRM-System eingetragen, jedoch noch nicht im System für Störungseinträge. Folge: Der Monteur steht mit seinem Werkzeugkasten vor der falschen Tür.
Dubletten können auch innerhalb einer einzigen Datenerhebung auftreten, z. B. weil ein Kunde nicht gefunden und erneut eingetragen wurde.
Dubletten erkennen
Damit Dubletten erkannt werden können, ist es nötig, Kriterien anzugeben, die auf einen möglichen Doppeleintrag hinweisen. In bestimmten Situationen ist dies aufgrund eines gemeinsamen Identifikators, wie eine Sozialversicherungs- oder eine Handelskammernummer, leicht möglich. Hierbei gilt, dass ein übereinstimmender Wert des Identifikators dasselbe Objekt bezeichnet. Bitte beachten Sie: Es ist ratsam, eine zusätzliche Kontrolle durchzuführen. Werden nämlich beim Identifikator nur zwei Ziffern vertauscht, wird ein völlig anderes Objekt identifiziert. Überprüfen Sie daher zusätzlich zu den identischen Sozialversicherungsnummern, ob beispielsweise auch das Geburtsdatum übereinstimmt.
Es ist wichtig sicherzustellen, dass der Identifikator auf der richtigen Ebene angewendet wird. Neben dem Aktenzeichen verwendet die Handelskammer auch eine Niederlassungsnummer. Das Aktenzeichen ist für alle Niederlassungen eines Unternehmens identisch und scheint bei mehreren Einträgen auf. Die Niederlassungsnummer ist einmalig und identifiziert tatsächlich nur eine bestimmte Registrierung. Wer einen Konzern identifizieren möchte, kann dies anhand des Aktenzeichens tun, wer aber einen einmaligen Standort identifizieren möchte, muss sich auf die einmalige Niederlassungsnummer stützen.
Bei einem funktionalen Identifikator werden klare Vereinbarungen über die „Bedingungen“ getroffen, die erfüllt sein müssen, damit ein „Match“ bestimmt werden kann. Beispielsweise kann bei einer Immobilie vereinbart werden, dass Einträge dann identisch sind, wenn Postleitzahl und Hausnummer übereinstimmen.
Für Einzelpersonen und Unternehmen spielt meist der Name eine große Rolle. Hierbei kann Gebrauch von „Fuzzy-Matching“ gemacht werden, damit werden auch „Rainer“ und „Rainer“als identisch bezeichnet. Da die Ergebnisse des „Fuzzy-Matchings“ nicht perfekt sind, erfordern dessen Ergebnisse einer „manuellen“ Überprüfung.
Im folgenden Fall wurden zwei Match-Regeln angewendet:
- Technischer Identifikator: Wenn Niederlassungsnummer gleich ist und (Kontonummer ist gleich oder Telefonnummer ist gleich), dann folgt ein Match.
- Wenn Niederlassungsnummer ungleich ist und wenn Aktenzeichen gleich ist und (Postleitzahl ist gleich oder Kontonummer ist gleich), dann folgt ein Match.
1
2
3
4
5
6
7
Firmeks
FirmX
Firmex-Grn
Firmex-ASD
Firmex-Groningen
The firm
Newfirm
12345678
12345678
12345678
98765432
08765430
9876598765
9876598765
5678956789
5678956789
8765432100
6665000100
1012 QX
1021 XQ
9743 XX
1012 QX
9743
4444 QQ
3333 XX
1
99
10
1
2
3
454545676767
454545676767
767675645454
899897676756
010-98980000
010-98980000
020-89855566
040-55669900
01/01/21
01/01/19
01/02/20
01/02/20
01/01/19
01/01/20
01/04/21
2,4
1,4
5
1,2
3
Match & Selektion
Gefundene Übereinstimmungen (Matches) ermöglichen die Bestimmung von Eintragsgruppen. Auf Grundlage des obigen Beispiels werden 4 Gruppen von Niederlassungen zusammengestellt.
Gruppe A: Firmiks, FirmX und Firmiks-ASD
Gruppe B: Firmix-GRN und Firmix-Groningen
Gruppe C: The Firm
Gruppe D: Newfirm
Für die Bestimmung von Konzernen würde das Hinzufügen einer einzigen Match-Regel ausreichen.
3. Wenn Aktenzeichen gleich ist und Kontonummer oder Telefonnummer gleich ist, dann folgt ein Match.
Gruppe A: Firmeks, FirmX und Firmeks-ASD
Gruppe B: Firmex-GRN und Firmex-Groningen
In diesem speziellen Beispiel werden die Gruppen A und B zusammengeführt.
Durch das Anwenden der Kriterien werden also die Dubletten in Gruppen eingeteilt. Jetzt sind zwar die „Gruppenmitglieder“ bestimmt, jedoch ist es noch nicht deutlich, welcher Eintrag der maßgebende ist. Auch hierfür wird ein Kriterienkatalog erstellt - zum Beispiel:
- Der Eintrag mit dem jüngsten Datum
- Der Eintrag mit den meisten Attributen
- Der Eintrag mit den meisten Eins-zu-eins-Übereinstimmungen
Danach hat man die Möglichkeit, eine sogenannte „Golden Record“ zusammenzustellen, wobei Daten aus verschiedenen Einträgen zu einem einzigen neuen Objekt zusammengefügt werden. Die unten aufgeführten Records wurden auf Grundlage von beiden bestimmenden Gruppen des Beispiels zusammengestellt. Dabei wurde als Ausgangspunkt gewählt, dass die Record mit dem jüngsten Datum maßgebend ist und mit Daten aus den übrigen Einträgen ergänzt wird.
9
10
Firmeks
Firmex-Grn
12345678
12345678
9876598765
5678956789
1012 QX
9743 XX
1
10
454545676767
767675645454
010-98980000
010-98980000
01/06/21
01/06/21
Die Auswirkung auf Datenmigrationen
Bei einer Datenmigration werden Daten aus mehreren Quellsystemen in ein neues Zielsystem zusammengetragen. Dabei ist es nicht wünschenswert, das Zielsystem mit Dubletten zu „verunreinigen“. Aus diesem Grund macht DX bei Datenmigrationen Gebrauch von den oben beschriebenen Techniken, damit die Eingabe der Daten korrekt und einmalig erfolgt.
Während der Datenmigration wird eine Tabelle erstellt, in der jeder Quelleintrag an eine neu zu erstellende Masterdata-Record gekoppelt wird. Hierbei können auch die zusammengestellten Golden Records angeführt werden.
1 Firmeks
2 FirmX
3 Firmex-Grn
4 Firmex-ASD
5 Firmex-Groningen
6 The firm
7 Newfirm
A
A
B
A
B
C
D
9 Firmeks
9 Firmeks
10 Firmex-Grn
9 Firmeks
10 Firmex-Grn
6 The firm
7 Newfirm
In diesem Beispiel werden im Zielsystem vier Objekte angeführt. Das maßgebende Gruppenmitglied, in diesem Fall die zwei Golden Records sowie die zwei ursprünglichen Quelleinträge.
Als Nächstes müssen die Transaktionsdaten, die sich auf einen Quelleintrag bezogen, anhand einer Übertragungstabelle erneut verknüpft werden. In unten angeführtem Beispiel wurden alle ursprünglichen Aufträge mit dem neuen Kunden verknüpft.
Das Deduplizieren von Kunden und das erneute Verknüpfen der Aufträge führt zu einer komplexer werdenden Kontrolle der Datenmigration. Auch wenn das Fuzzy-Matching zum Einsatz kommt, kann ein Eingreifen durch den Menschen notwendig werden. Im letzteren Fall ist eine vollautomatische Migration nicht möglich.
Eine absolute Zählung sowie ein Vergleich von Quell- und Zielobjekt sind unzureichend. Nicht nur, weil Quellobjekte aufgrund von Ausfällen und Filterung fehlen, sondern auch, weil Quelleinträge während der Deduplizierung zusammengeführt werden. Eine Zählung, die die Vollständigkeit einer Datenmigration nachweisen kann, erfordert zusätzliche Aufmerksamkeit und eingehende Kenntnisse über den Prozess des Deduplizierens.
In der Praxis entscheiden sich Kunden häufig dafür, das Deduplizieren vor der Migration durchzuführen.
Besondere Aufmerksamkeit wird auf die Kontrolle gelegt: Durch die Deduplizierung von Quelldaten wird die Überprüfung auf Vollständigkeit einer Datenmigration komplexer.
Datenqualität bei Datenmigrationen
Wird die Deduplizierung von Daten während einer Datenmigration korrekt durchgeführt, entsteht ein enormer Mehrwert. Das Resultat ist eine konsistente Zieldatenbank, wobei jedes Objekt eindeutig angeführt wird. Selbstverständlich ist es dann wichtig, dass bei der Arbeit mit dem neuen System die richtigen Eingangskontrollen durchgeführt werden. Die beste Maßnahme, um eine Verunreinigung der Daten zu verhindern, liegt in der genauen Kontrolle, ob der anzuführende Kunde bereits in der Datenerhebung erfasst wurde.
Data eXcellence ist auf die Durchführung von Datenmigrationen spezialisiert, wobei besonders auf die Qualität der Daten im Zielsystem geachtet wird. Die Arbeitsmethode und das Toolkit von DX enthalten spezifische, konfigurierbare Komponenten, die eingesetzt werden können, um Dubletten zu ermitteln und zu eindeutigen Einträgen zusammen zu fügen.