Automatisierte Datenqualitätssicherung mit der RapidRep Test Suite

Daten bilden die Grundlage von Geschäftsentscheidungen. Daher kommt der Datenqualität (DQ), sei es von Kundendaten, Finanzdaten, Produktdaten oder jeglichen anderen Geschäftsdaten, eine zentrale Bedeutung in betrieblichen Prozessen zu.

Im Folgenden wird deshalb die Möglichkeit der automatisierten Datenqualitätssicherung mit der RapidRep Test Suite vorgestellt, wobei der Fokus auf der software-internen Lösung liegt: dem Datenqualitätsassistenten.

Grundlage des Datenqualitätstests

Damit man die Qualität vorhandener und neu gewonnener Daten überhaupt feststellen kann, muss zunächst festgelegt werden, was im jeweiligen Kontext gute und schlechte Datenqualität ausmacht.
Kriterien zur Bestimmung der Datenqualität können Aspekte wie Vollständigkeit, Eindeutigkeit, Aktualität oder Relevanz sein. Auf Basis dieser Kriterien bildet man eine Metrik zur Messung der
Datenqualität, welche Messreihen vergleichbar und die Auswertung der DQ möglichst objektiv macht.

Ausgehend von dieser Metrik kann der Prozess zur Analyse und Verbesserung der bestehenden Datenqualität beginnen. Da alle Daten grundsätzlich sowohl technische als auch inhaltliche Anforderungen erfüllen müssen, sollte ein solcher Prozess Mitarbeiter sowohl aus Fach- als auch IT-Abteilungen einbinden. Durch die Nutzung von Excel Arbeitsmappen ist das im RapidRep Vorgehensmodell zur Datenqualitätsverbesserung/-sicherung auf einfache und übersichtliche Art möglich. Die Excel Mappen ermöglichen allen Beteiligten die eindeutige Kommunikation über die benötigten Elemente (Kriterien, Regeln, Ergebnisse etc.) während der einzelnen Prozessschritte.

Der Prozess unterteilt sich insgesamt in vier Phasen:

  1. Definieren (Regeln und Ausnahmen festlegen)
  2. Messen (Messreihen erzeugen)
  3. Analysieren (Messreihen auswerten) und
  4. Verbessern (Ursachen beheben)

Eine ausführliche Darstellung findet sich auf der RapidRep Homepage.

Den aufwendigsten Schritt stellt erfahrungsgemäß das Definieren der Regeln zur Datenqualitätsmessung und ihrer Ausnahmen dar. Sind diese jedoch einmal, zumindest grundlegend, bestimmt, bietet RapidRep mit dem Datenqualitätsassistenten eine integrierte Lösung, die es ermöglicht, Daten in Tabellenform oder strukturierten Textdateien schnell und effizient auf ihre Qualität zu überprüfen.

Der RapidRep Datenqualitätsassistent

Die Anwendung Designer stellt die Entwicklungsumgebung der RapidRep Test Suite dar. Hier werden die Reportdefinitionen erstellt und bearbeitet, welche die Basis für Testläufe bilden. Legt man im Designer eine Reportdefinition des vordefinierten Typs Datenqualitätsauswertung an oder öffnet eine solche, steht der Datenqualitätsassistent in Menü und Kontextmenü zur Verfügung. Nach Erstellung und Auswahl eines Skripts, das die gewünschten Daten referenziert, kann der Assistent gestartet werden. Auch bestehende Datenqualitätsdefinitionen können bearbeitet werden. Der Assistent führt durch drei Schritte, an derem Ende die gewünschte DQ-Auswertung definiert und ausführbar ist.

Bearbeitung einer bestehenden Datenqualitätsdefinition – Schritt 1 des Datenqualitätsassistenten nach Aufruf aus dem Kontextmenü der Aufgabe „Check_Sample_DQ“ im Designer

Bearbeitung einer bestehenden Datenqualitätsdefinition – Schritt 1 des Datenqualitätsassistenten nach Aufruf aus dem Kontextmenü der Aufgabe „Check_Sample_DQ“ im Designer

Zunächst wählt man das als Datenquelle fungierende Skript und vergibt einen Alias. Daraufhin liest der Assistent die Metadaten aus dieser Datenquelle ein und listet vorhandene Spalten auf. Im zweiten Schritt wählt man die Spalten aus, die als Primärschlüssel dienen sollen. Daraufhin wird im letzten Schritt das zu verwendende Excel-Regelwerk selektiert. Dabei kann es sich sowohl um ein bereits vorhandenes Regelwerk handeln, das ausgewählt oder importiert wird, als auch um ein völlig neues Regelwerk, welches anhand einer mitgelieferten Vorlage direkt aus dem Dialog heraus erstellt wird. In jedem Fall enthält dieses Excel-Regelwerk alle Regeln, welche bisher im oben beschriebenen Prozess zur Verbesserung der Datenqualität bestimmt wurden.

Mit Fertigstellung des Datenqualitätsassistenten legt RapidRep eine Aufgabe zur Qualitätsauswertung mit allen benötigten Skripten an. Das Ausführen der Aufgabe resultiert in einem Excel-Report, welcher die Ergebnisse der Auswertung samt Fehlern übersichtlich darstellt. Im Report finden sich die Datensätze im Original, die definierten Regeln, Änderungen zwischen verschiedenen Läufen, und natürlich die Regelverstöße, wenn gegeben. Mißstände und Fehlerquellen können schnell lokalisiert und verbessert werden bzw zur Prozessoptimierung dienen. Ein ausführliches Beispiel der Anwendung des Datenqualitätsassistenten gibt es als Video-Tutorial auf dem RapidRep YouTube Kanal.

Zusammenfassung: Datenqualitätssicherung mit RapidRep

Einmal freigegeben, lässt sich die erstellte Reportdefinition in der Test Suite Anwendung Test Runner beliebig oft ausführen. Dabei werden die Ergebnisse in benutzerdefinierbaren Excel-Reports Kontextmenü der Aufgabe „Check_Sample_DQ“ im Designer ausgegeben und können optional auch an ein Test- und Fehlermanagementsystem übertragen werden. Das gesamte Vorgehen ist revisionssicher. Da RapidRep über eine Stapelverarbeitung verfügt, kann die Datenqualitätsauswertung (samt optionaler Ergebnisübertragung) auch automatisiert ablaufen. Zusätzlich bietet RapidRep über den ebenfalls integrierten Datenvergleichsassistenten die Möglichkeit, Datenbestände in verschiedenen Formaten auf Vollständigkeit und Unterschiede zu prüfen. Natürlich erfordern Ergebnisanalyse und Verbesserung weiterhin Interaktion der Anwender, doch lässt sich so eine in hohem Maße automatisierte Datenqualitätssicherung mit RapidRep erzielen.

0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert