biX Consulting hat für einen Anbieter von Tank- und Mautabrechnungen Stammdaten auf Qualität und Verteilung untersucht. Im dargestellten Fall sollten 30.000 deutsche Kfz-Kennzeichen, die direkt im SAP BW vorlagen, auf Qualität geprüft werden, da sie händisch im Quellsystem erfasst wurden. Da eine manuelle Prüfung zu aufwendig ist, wurde die Qualität durch eine Untersuchung der Ähnlichkeit der Kennzeichen zueinander bewertet.
Dafür wurden die Kennzeichen in einem Feature Engineering abstrahiert, um nur die Abfolgen von Zahlen, Buchstaben, Sonderzeichen zu betrachten. So wurde z.B. aus „ME AB 123“ „AA AA 111“. Dadurch ließen sich die Kennzeichen in Gruppen gleicher Zeichenabfolgen zusammenlegen. Die Größe dieser Kennzeichengruppen und die Ähnlichkeit zueinander wurden dann mit einem Machine Learning Algorithmus visualisiert. Dabei lagen ähnliche Kennzeichengruppen in der Visualisierung nah beieinander.
Verteilung aller Kennzeichengruppen und ihre Größe (Darstellung in Tableau Desktop)
Die Visualisierung zeigte, dass es mehrere hundert Kennzeichengruppen gab, die in ihren Ausprägungen stark variierten und von denen viele Kombinationen, wie bspw. A!!A-111A oder A-AAAAA-AAA ungültig waren.
Hervorhebung einiger Kennzeichengruppen mit ihren Zeichenabfolgen (Darstellung in Tableau Desktop)
Die direkte weitere Verwendung der Stammdaten konnte daher nach einer schnellen Analyse zunächst aufgrund der mangelnden Qualität ausgeschlossen werden.
Für anschließende Use Cases bietet die Gruppierung und Visualisierung zudem aber gute Voraussetzungen. So lassen sich die Daten z.B. für Trainingsszenarien im Machine Learning Umfeld deutlich schneller gruppenweise als richtig oder falsch labeln.
Ansprechpartner