Einleitung

Doppelte Einträge von Kunden, Produkten oder anderen Objekten in IT-Systeme stellen ein bekanntes Problem dar. Doppeleinträge erfordern nicht nur zusätzlichen Wartungsaufwand, sondern verursachen auch Probleme bei der Bereitstellung von Managementinformationen und der korrekten Ausführung von Geschäftsprozessen.

Data eXcellence stellt sich der Herausforderung, diese Probleme während der Durchführung von Datenmigrationsprojekten zu lösen. Dafür wurde eine eigene Arbeitsmethode und ein eigenes Tooling entwickelt. Eine Datenmigration ist ein hervorragender Zeitpunkt, um Dubletten zu korrigieren und mit dem neuen System einen Neuanfang zu machen.

In diesem Artikel wird beschrieben, wie diese Dubletten von DX erkannt und korrigiert werden, wodurch eine Verbesserung der Benutzerfreundlichkeit und der Zuverlässigkeit der Geschäftsdaten erzielt wird.

Regelung der niederländischen Regierung für die Erfassung der Basisdaten: Einmalige Abfrage, obligatorischer Gebrauch und Meldung bei Zweifel an der Richtigkeit.

 

Eindeutige und einmalige Einträge für die mehrfache Nutzung

Der Grundsatz der „eindeutigen und einmaligen Eintragung zur Mehrfachnutzung“ ist allgemein anerkannt. Indem Daten auf Basis klarer Definitionen an einem Ort erfasst werden, wird es möglich, diese Daten mit anderen Benutzern zu teilen.

Leider sieht es in der Praxis oft ganz anders aus. So werden etwa Daten von einem Objekt - beispielsweise die eines Kunden - in mehreren Systemen aufgezeichnet. Wenn man die Parameter dieses Kunden in den verschiedenen Systemen vergleicht, stellt sich allzu oft heraus, dass sie widersprüchlich sind!

Beispiel: Der Umzug eines Kunden wurde im CRM-System eingetragen, jedoch noch nicht im System für Störungseinträge. Folge: Der Monteur steht mit seinem Werkzeugkasten vor der falschen Tür.

Dubletten können auch innerhalb einer einzigen Datenerhebung auftreten, z. B. weil ein Kunde nicht gefunden und erneut eingetragen wurde.

Dubletten erkennen

Damit Dubletten erkannt werden können, ist es nötig, Kriterien anzugeben, die auf einen möglichen Doppeleintrag hinweisen. In bestimmten Situationen ist dies aufgrund eines gemeinsamen Identifikators, wie eine Sozialversicherungs- oder eine Handelskammernummer, leicht möglich. Hierbei gilt, dass ein übereinstimmender Wert des Identifikators dasselbe Objekt bezeichnet. Bitte beachten Sie: Es ist ratsam, eine zusätzliche Kontrolle durchzuführen. Werden nämlich beim Identifikator nur zwei Ziffern vertauscht, wird ein völlig anderes Objekt identifiziert. Überprüfen Sie daher zusätzlich zu den identischen Sozialversicherungsnummern, ob beispielsweise auch das Geburtsdatum übereinstimmt.

Es ist wichtig sicherzustellen, dass der Identifikator auf der richtigen Ebene angewendet wird. Neben dem Aktenzeichen verwendet die Handelskammer auch eine Niederlassungsnummer. Das Aktenzeichen ist für alle Niederlassungen eines Unternehmens identisch und scheint bei mehreren Einträgen auf. Die Niederlassungsnummer ist einmalig und identifiziert tatsächlich nur eine bestimmte Registrierung. Wer einen Konzern identifizieren möchte, kann dies anhand des Aktenzeichens tun, wer aber einen einmaligen Standort identifizieren möchte, muss sich auf die einmalige Niederlassungsnummer stützen.

Bei einem funktionalen Identifikator werden klare Vereinbarungen über die „Bedingungen“ getroffen, die erfüllt sein müssen, damit ein „Match“ bestimmt werden kann. Beispielsweise kann bei einer Immobilie vereinbart werden, dass Einträge dann identisch sind, wenn Postleitzahl und Hausnummer übereinstimmen.

Für Einzelpersonen und Unternehmen spielt meist der Name eine große Rolle. Hierbei kann Gebrauch von „Fuzzy-Matching“ gemacht werden, damit werden auch Rainer“ und Rainer“als identisch bezeichnet. Da die Ergebnisse des „Fuzzy-Matchings“ nicht perfekt sind, erfordern dessen Ergebnisse einer „manuellen“ Überprüfung.

Im folgenden Fall wurden zwei Match-Regeln angewendet:

  1. Technischer Identifikator: Wenn Niederlassungsnummer gleich ist und (Kontonummer ist gleich oder Telefonnummer ist gleich), dann folgt ein Match.
  2. Wenn Niederlassungsnummer ungleich ist und wenn Aktenzeichen gleich ist und (Postleitzahl ist gleich oder Kontonummer ist gleich), dann folgt ein Match.
Nr.
Nr.

1

2

3

4

5

6

7

Name
Name

Firmeks

FirmX

Firmex-Grn

Firmex-ASD

Firmex-Groningen

The firm

Newfirm

Akten zeichen
Aktenzeichen

12345678

12345678

12345678

98765432

08765430

Nieder lassungsnr.
Nieder lassungsnr.

9876598765

9876598765

5678956789

5678956789

8765432100

6665000100

Post leitzahl
Post leitzahl

1012 QX

1021 XQ

9743 XX

1012 QX

9743

4444 QQ

3333 XX

Haus nummer
Haus nummer

1

99

10

1

2

3

Konto nummer
Konto nummer

454545676767

454545676767

767675645454

899897676756

Telefon nummer
Telefon nummer

010-98980000

010-98980000

020-89855566

040-55669900

Datum
Datum

01/01/21

01/01/19

01/02/20

01/02/20

01/01/19

01/01/20

01/04/21

Matched
Matched

2,4

1,4

5

1,2

3

Match & Selektion

Gefundene Übereinstimmungen (Matches) ermöglichen die Bestimmung von Eintragsgruppen. Auf Grundlage des obigen Beispiels werden 4 Gruppen von Niederlassungen zusammengestellt.

Gruppe A: Firmiks, FirmX und Firmiks-ASD

Gruppe B: Firmix-GRN und Firmix-Groningen

Gruppe C: The Firm

Gruppe D: Newfirm

Für die Bestimmung von Konzernen würde das Hinzufügen einer einzigen Match-Regel ausreichen.

3. Wenn Aktenzeichen gleich ist und Kontonummer oder Telefonnummer gleich ist, dann folgt ein Match.

Gruppe A: Firmeks, FirmX und Firmeks-ASD

Gruppe B: Firmex-GRN und Firmex-Groningen

In diesem speziellen Beispiel werden die Gruppen A und B zusammengeführt.

Durch das Anwenden der Kriterien werden also die Dubletten in Gruppen eingeteilt. Jetzt sind zwar die „Gruppenmitglieder“ bestimmt, jedoch ist es noch nicht deutlich, welcher Eintrag der maßgebende ist. Auch hierfür wird ein Kriterienkatalog erstellt - zum Beispiel:

  • Der Eintrag mit dem jüngsten Datum
  • Der Eintrag mit den meisten Attributen
  • Der Eintrag mit den meisten Eins-zu-eins-Übereinstimmungen

Danach hat man die Möglichkeit, eine sogenannte „Golden Record“ zusammenzustellen, wobei Daten aus verschiedenen Einträgen zu einem einzigen neuen Objekt zusammengefügt werden. Die unten aufgeführten Records wurden auf Grundlage von beiden bestimmenden Gruppen des Beispiels zusammengestellt. Dabei wurde als Ausgangspunkt gewählt, dass die Record mit dem jüngsten Datum maßgebend ist und mit Daten aus den übrigen Einträgen ergänzt wird.

Nr.
Nr.

9

10

Name
Name

Firmeks

Firmex-Grn

Akten zeichen
Akten zeichen

12345678

12345678

Nieder lassungsnr.
Nieder lassungsnr.

9876598765

5678956789

Post leitzahl
Post leitzahl

1012 QX

9743 XX

Haus nummer
Haus nummer

1

10

Konto nummer
Konto nummer

454545676767

767675645454

Telefon nummer
Telefon nummer

010-98980000

010-98980000

Datum
Datum

01/06/21

01/06/21

Die Auswirkung auf Datenmigrationen

Bei einer Datenmigration werden Daten aus mehreren Quellsystemen in ein neues Zielsystem zusammengetragen. Dabei ist es nicht wünschenswert, das Zielsystem mit Dubletten zu „verunreinigen“. Aus diesem Grund macht DX bei Datenmigrationen Gebrauch von den oben beschriebenen Techniken, damit die Eingabe der Daten korrekt und einmalig erfolgt.

Während der Datenmigration wird eine Tabelle erstellt, in der jeder Quelleintrag an eine neu zu erstellende Masterdata-Record gekoppelt wird. Hierbei können auch die zusammengestellten Golden Records angeführt werden.

Quelle
Quelle

1 Firmeks

2 FirmX

3 Firmex-Grn

4 Firmex-ASD

5 Firmex-Groningen

6 The firm

7 Newfirm

Gruppe
Gruppe

A

A

B

A

B

C

D

Maßgebend
Maßgebend

9 Firmeks

9 Firmeks

10 Firmex-Grn

9 Firmeks

10 Firmex-Grn

6 The firm

7 Newfirm

In diesem Beispiel werden im Zielsystem vier Objekte angeführt. Das maßgebende Gruppenmitglied, in diesem Fall die zwei Golden Records sowie die zwei ursprünglichen Quelleinträge.

Als Nächstes müssen die Transaktionsdaten, die sich auf einen Quelleintrag bezogen, anhand einer Übertragungstabelle erneut verknüpft werden. In unten angeführtem Beispiel wurden alle ursprünglichen Aufträge mit dem neuen Kunden verknüpft.

vertaaltabel klantnummers

Das Deduplizieren von Kunden und das erneute Verknüpfen der Aufträge führt zu einer komplexer werdenden Kontrolle der Datenmigration. Auch wenn das Fuzzy-Matching zum Einsatz kommt, kann ein Eingreifen durch den Menschen notwendig werden. Im letzteren Fall ist eine vollautomatische Migration nicht möglich.

Eine absolute Zählung sowie ein Vergleich von Quell- und Zielobjekt sind unzureichend. Nicht nur, weil Quellobjekte aufgrund von Ausfällen und Filterung fehlen, sondern auch, weil Quelleinträge während der Deduplizierung zusammengeführt werden. Eine Zählung, die die Vollständigkeit einer Datenmigration nachweisen kann, erfordert zusätzliche Aufmerksamkeit und eingehende Kenntnisse über den Prozess des Deduplizierens.

In der Praxis entscheiden sich Kunden häufig dafür, das Deduplizieren vor der Migration durchzuführen.

Besondere Aufmerksamkeit wird auf die Kontrolle gelegt: Durch die Deduplizierung von Quelldaten wird die Überprüfung auf Vollständigkeit einer Datenmigration komplexer.

Datenqualität bei Datenmigrationen

Wird die Deduplizierung von Daten während einer Datenmigration korrekt durchgeführt, entsteht ein enormer Mehrwert. Das Resultat ist eine konsistente Zieldatenbank, wobei jedes Objekt eindeutig angeführt wird. Selbstverständlich ist es dann wichtig, dass bei der Arbeit mit dem neuen System die richtigen Eingangskontrollen durchgeführt werden. Die beste Maßnahme, um eine Verunreinigung der Daten zu verhindern, liegt in der genauen Kontrolle, ob der anzuführende Kunde bereits in der Datenerhebung erfasst wurde.

Data eXcellence ist auf die Durchführung von Datenmigrationen spezialisiert, wobei besonders auf die Qualität der Daten im Zielsystem geachtet wird. Die Arbeitsmethode und das Toolkit von DX enthalten spezifische, konfigurierbare Komponenten, die eingesetzt werden können, um Dubletten zu ermitteln und zu eindeutigen Einträgen zusammen zu fügen.

Möchten Sie mehr erfahren?