Einleitung
Jeder kann sich etwas unter dem Begriff Datenqualität vorstellen, allerdings ist es schwierig, genau anzugeben, wann die Qualität hoch oder niedrig ist. Thomas Redman hat in seinem Buch Data Driven (http://www.dataversity.net/contributors/thomas-redman/ eine nützliche Definition dafür: die Datenqualität ist hoch, wenn die betreffenden Daten für den zweckmäßigen Einsatz bei Geschäftsaktivitäten, Entscheidungsfindung und Planung geeignet sind. John Morris von Data Quality Pro versucht zu erklären, was eine „Eignung zum zweckmäßigen Einsatz” beinhaltet: Datenqualität ist niemals perfekt, achten Sie jedoch im richtigen Moment und am richtigen Ort auf ein ausreichendes Niveau https://www.dataqualitypro.com/data-quality-for-data-migration-techniques/)!
Data eXcellence sieht die Datenqualität durch die Brille der Datenmigration. Welchen Anforderungen müssen Daten bei einer Migration entsprechen? Wie sorge ich dafür, dass meine Daten die Anforderungen erfüllen? Und wie kann ich dies erkennen? Kurz gesagt: wann weisen meine Daten eine „Eignung zum zweckmäßigen Einsatz” auf? Dieser Artikel hilft Ihnen, Antworten auf diese Fragen zu finden.
Datenqualität: ein entscheidender Faktor
Die Datenqualität stellt einen der entscheidenden Faktoren für eine erfolgreiche Datenmigration dar. Eine lausige Datenqualität führt bei der Migration zu Kopfzerbrechen. Verpflichtete Daten fehlen oder entsprechen nicht den Anforderungen: eine IBAN oder BSN ist nicht nach dem Modulus 11-Verfahren geprüft. Wichtige Daten eignen sich nicht dafür, um auf automatischem Weg verarbeitet zu werden, denn sie sind unstrukturiert oder nur auf Papier verfügbar. Oder eine Datenbank ist nicht konsistent, wodurch Daten mit allen möglichen Tricks miteinander verknüpft werden müssen. Alles Dinge, die viel Aufwand und Durchlaufzeit kosten.
Eine hohe Datenqualität dagegen erzielt in vielen Bereichen Gewinne. Wenn alle verpflichteten Felder korrekt ausgefüllt sind, muss das Migrationsteam dafür keine Zeit aufwenden. Wenn alle Daten strengen Regeln entsprechen, verläuft die Migration einfacher, da die Migrationssoftware die zahllosen Ausnahmen nicht berücksichtigen muss.
Darum ist es wichtig, dass bei einem Migrationsprojekt die Datenqualität so früh wie möglich erkannt werden kann. Es gibt viele Tools, die den Inhalt von Datenbanken analysieren können. Mit den einfachsten Versionen ist man in der Lage zu sehen, wie sehr der Inhalt variiert und wie es mit der referentiellen Integrität aussieht. Dies gibt einen Hinweis auf die Gesamtqualität, sagt aber nicht viel über die Nutzbarkeit von Daten in einem Zielsystem aus. In umfassenderen Tools kann festgelegt werden, welche konkreten Regeln die Daten einhalten müssen. Und in einigen Tools ist es auch möglich, die Datenverschmutzung auf kontrollierte Weise zu reparieren. Gartner hat hier einen guten Überblick zusammengestellt: https://www.gartner.com/reviews/market/data-quality-tools.
Data eXcellence hat selbst eine Datenqualitätstechnologie entwickelt, die sich, aus der Perspektive der Migration aus gesehen, ganz auf die Datenqualität konzentriert. Dieses Tool ist integrierender Bestandteil der DXF, der Data eXcellence Datenmigrationsfabrik.
Zielsystem ist bei Migration bestimmend
Bei einer Datenmigration werden die Anforderungen an die Datenqualität durch das Zielsystem diktiert. Dies geht über das bloße Ausfüllen der verpflichteten Felder hinaus. Ob ein System funktioniert oder nicht kann stark durch die Anwesenheit oder das Fehlen von gewissen Daten beeinflusst werden. Wenn z. B. der Buchungsverlauf in einer Hypothekenverwaltung unvollständig ist, kann ein Zielsystem irrtümlich Rückstände in Rechnung stellen. Also muss zunächst das Migrationsteam bestimmen, unter welchen Bedingungen das Zielsystem korrekt funktioniert. Das Team wandelt diese Bedingungen dann in Anforderungen an die Datenqualität um.
- Daten, die nicht perfekt sind, womit jedoch das Zielsystem korrekt arbeiten würde, bleiben unverändert. Denken Sie an Redmans Definition: Eignung zum zweckmäßigen Einsatz.
- Betrachten Sie nur jene Daten, die tatsächlich ins Zielsystem wandern. Zu diesem Zweck ist es wichtig, den Umfang der Daten genau zu bestimmen. Dies bezieht sich auf die Breite (welche Art von Daten) und die Tiefe (wie groß ist der Datenverlauf).
- Versuchen Sie, den Verlauf auf Daten zu beschränken, die für das Funktionieren des Zielsystems wirklich notwendig sind. Historische Daten stammen oft aus früheren Migrationen, oder stammen aus einer Zeit, in der das Quellsystem andere Anforderungen stellte. Eine größere Historie bedeutet mehr Variation – und darum auch mehr Datenqualitätsregeln, mehr Ausnahmen und mehr Anstrengungen, um die Datenqualitätsprobleme loszuwerden.
Halten Sie alle Datenqualitätsanforderungen, die nicht durch das Zielsystem auferlegt werden, außerhalb des Bereichs der Datenmigration. Der Fokus muss völlig auf dem korrekten Funktionieren des Zielsystems liegen. Höchstens für Plausibilitätsprüfungen dürfen Sie die Türe einen Spalt breit öffnen: ein unwahrscheinliches Alter für einen Hypothekarkreditnehmer (unter 18 oder über 110 Jahren), oder ein unwahrscheinlicher Hypothekenbetrag – das Zielsystem wird damit gut funktionieren, es ist aber deutlich, dass hier etwas nicht stimmt. „Das Zielsystem muss korrekt arbeiten“ - so muss auch weiterhin die allgemeine Anforderung für Datenqualität lauten - nicht mehr und nicht weniger!
Der Ansatz von Data eXcellence
Die Datenqualität nimmt innerhalb der Datenmigrationsprojekte von Data eXcellence einen wichtigen Platz ein. Schon zu Beginn eines Projekts werden die Anforderungen des Zielsystems herausgearbeitet. Diese Anforderungen werden durch das Migrationsteam in Datenqualitätsregeln umgesetzt, wobei sich das Team auf die Experten der Quell- und Zielsysteme beruft.
Einige Beispiele der Datenqualitätsregeln:
- BSN entspricht nicht dem Modulus 11-Verfahren
- Das beendete Darlehen hat kein Enddatum
- Nationalität kann in der Ländercodeliste nicht gefunden werden
- Das Datum des Inkrafttretens der Hypothek ist älter als 01-01-1980
- Das Datum der ersten Zahlung liegt vor dem Datum des Inkrafttretens des Darlehens
- Der Lenker des Autos ist jünger als 18 Jahre
Dann kontrolliert das Team, ob die Quelldaten diesen Regeln entsprechen. Alle Ausnahmen kommen in einen Bericht, der periodisch (z. B. wöchentlich) mit dem Kunden besprochen wird. Während dieser sogenannten Bereinigungsüberlegungen erhält jede gemeldete „Übertretung” einen Verantwortlichen, der für die Lösung des Datenproblems zuständig ist. Auf diese Weise haben alle Beteiligten jedes Problem so lange im Blick, bis alles gelöst ist.
Es gibt mehrere Möglichkeiten, um Datenqualitätsprobleme zu lösen. Die häufigsten sind:
- Erstellen der Konvertierungsregeln. Es ist oft möglich, fehlende Daten aus anderen Quelldaten abzuleiten. In diesem Fall kann diese Ableitung von einer Konvertierungsregel automatisch ausgeführt werden. In anderen Fällen reicht es aus, einen Standardwert zu gebrauchen. Beispielsweise wird ein fehlender Ländercode immer mit „Niederlande" ausgefüllt.
- Bereinigen von Daten im Quellsystem. Indem Daten in der Quelldatei angepasst werden, wird ein Problem sprichwörtlich an der Quelle gelöst. Diese Art der Datenbereinigung ist zwar die, die am meisten Zeit raubt, in Situationen jedoch, in denen vereinzelte Daten fehlen, ist dies oft die einzige Möglichkeit. In diesem Ansatz steckt die meiste Durchlaufzeit bei Datenproblemlösungen.
- Anpassen des Zielsystems. Meistens ist dies eine Notlösung, wenn aber die zwei vorangegangenen Vorgehensweisen nicht möglich sind - oder zu viel Zeit in Anspruch nehmen - kann die Wahl auf ein Anpassen im Zielsystem fallen. Oft handelt es sich hierbei um eine kurzfristige Maßnahme, um Zeit zu gewinnen, damit Benutzer auch nach der Migration noch fehlende Daten eingeben können.
Data eXcellence hat die Erfahrung gemacht, dass 80% der Datenqualitätsprobleme schnell zu lokalisieren und zu lösen ist – zum Teil dank der guten Unterstützung durch die Tools. Für die restlichen 20% wird die größte Anstrengung benötigt. Oft betrifft dies eine manuelle Suche von spezifischen Ausnahmen.
SCHLUSSFOLGERUNG
Im Zuge von Datenmigrationsprojekten bekommt die Datenqualität verdient viel Aufmerksamkeit. Der Fokus wird hierbei auf ein korrektes Funktionieren des Zielsystems und nicht auf eine allgemeine Qualitätsverbesserung gelegt. Im Ansatz von Data eXcellence nimmt die sogenannte Bereinigungsüberlegung eine zentrale Stelle ein. Die Lösung von Qualitätsproblemen folgt der 80/20-Regel. Es ist wichtig, dass das Projekt dafür über genügend Zeit und Ressourcen verfügt.