Fragen, die in diesem Beitrag beantwortet werden
Welches Umfeld benötigen Datenanalysten für die produktive Arbeit mit Daten?
Warum und wie wird die Qualität von Daten bestimmt?
Vor dem Hintergrund von Digitalisierung und Datafizierung erkennen immer mehr Unternehmensvorstände in verschiedensten Branchen, dass Daten der zentrale Rohstoff für zukünftige Wettbewerbsvorteile sind. Eindrucksvoll beweisen die nach Marktkapitalisierung zu den weltweit größten Unternehmen zählenden US-amerikanischen und chinesischen Plattformkonzerne die gestiegene Bedeutung von Geschäftsmodellen, die entweder auf der Sammlung und Verwertung von Daten basieren, oder zumindest erhebliche Datenmengen generieren. Diese Geschichte ist mittlerweile hinlänglich bekannt, in vielen Magazinen wird sie seit Jahren thematisiert.
Auf dem Weg zum datengetriebenen Unternehmen?
Die Voraussetzungen für viele, gerade kleine und mittelgroße Unternehmen, endlich „data driven“ zu werden, sind keineswegs trivial. Zunächst muss sich die Top-Management-Ebene von der Vorstellung lösen, dass der Umgang mit Daten und eine entsprechende Datenstrategie lediglich Unterbereiche der häufig in Linienfunktion agierenden IT-Abteilung sind – die Datenstrategie hat als Teil der Digitalstrategie Auswirkungen auf alle Abteilungen eines Unternehmens.
Dann muss verstanden werden, dass es mit der reinen Ausschreibung von Stellen für Datenanalysten als Mitarbeitende nicht getan ist. „Data driven“ lässt sich nicht damit erreichen, dass lediglich spezifische Positionen eingekauft werden, die die vagen Digitalisierungs-Vorstellungen dann realisieren sollen. Im Gegenteil: Die Gefahr ist hoch, dass Datenanalysten nach kurzer Zeit wieder kündigen, wenn sie in Unternehmen einsteigen, in denen sie keine aufbereiteten Daten und kein Konzept für die interne Kuration von Daten wahrnehmen können. Nur, was bedeutet es Daten aufzubereiten und inwiefern hilft es dabei, Datenanalysten ein produktives Arbeiten zu ermöglichen?
Im Kern geht es bei der Datenaufbereitung immer darum, Daten zu sammeln und nutz- bzw. „analysierbar“ zu machen. Neben der Quantität spielt die Qualität der Daten eine zentrale Rolle. Die Beurteilung des Datensatzes hinsichtlich der Qualität ist immer auch vom Ziel der Analyse abhängig – der gleiche Datensatz kann für zwei unterschiedliche Aufgaben unterschiedlich geeignet sein.
Datenqualität als zentrale Grundlage für Datenanalyse
Eine gute Datenqualität hat mehrere Dimensionen: Vollständigkeit, Aktualität, Validität, Konsistenz und Integrität.
Vollständig ist ein Datensatz dann, wenn er alle nötigen Attribute in der Breite umfasst – so könnte z. B. ein Online-Versandhändler nicht sinnvoll analysieren, in welches Bundesland er besonders wenig Waren verkauft, wenn ihm die Anzahl der Haushalte pro Bundesland nicht bekannt ist. In der Tiefe muss der Datensatz die angestrebte Anzahl an Daten enthalten, um statistisch signifikante Ergebnisse liefern zu können und repräsentativ ausgewählt werden, um eine systematische Verzerrung der Analyseergebnisse zu verhindern. Andernfalls muss die systematische Verzerrung bei der Interpretation der Ergebnisse entsprechend berücksichtigt werden. Die Attribute müssen zudem zum angestrebten Grad gefüllt sein, also eine ausreichend hohe Dichte aufweisen. So ist z. B. eine Analyse der Umsatzentwicklung eines Marktsegments nicht möglich, wenn für eine Vielzahl der Marktteilnehmer kein Umsatz bekannt ist, also der Füllgrad zu niedrig ist.
Die Aktualität beschreibt den Grad, zu dem die Daten die Realität an einem benötigten Zeitpunkt so aktuell wie möglich abbilden, was durch mehrere Einflussfaktoren der Datenaufbereitung bestimmt wird. Einerseits durch einen Meldeverzug, der die Dauer zwischen einem Update der Daten in der Quelle und der Bereitstellung dieses Updates beschreibt, zum anderen durch den Informationsfluss, der die Dauer zwischen dem Zeitpunkt bestimmt, an dem ein Fakt bekannt wird und an dem er zur Nutzung bereitsteht. Zudem ist bei bestimmten Datenquellen und Datenarten auf die Volatilität, also auf die Wahrscheinlichkeit einer Datenänderung über die Zeit zu achten.
Valide ist ein Datensatz, wenn er einer Anzahl an definierten Regeln entspricht bzw. die Daten theoretisch-konzeptionell „wahr“ sind. So ist z. B. eine Postleitzahl immer fünfstellig; Angaben zur Postleitzahl, die vier- oder sechsstellig sind, sind für Deutschland nicht valide. Auch Maßeinheiten wie Temperaturen oder Währungen müssen standardisiert und normiert werden.
Konsistenz bedeutet, dass die Daten nicht in sich widersprüchlich sind und sich etwa mit Erfahrungswerten aus früheren Beobachtungen oder mit anderen Datenquellen vereinbaren lassen. Es sollten sich zwei Datenpunkte nicht gegenseitig widersprechen, z. B. bei Kindern, die älter sind als ihre Eltern.
Schließlich ist die Integrität von Daten wichtig. Dies beschreibt den Grad, zu dem die Daten den Daten-Relationen-Regeln (wie in einem Datenmodell definiert) entsprechen. Dazu gehört die Unteilbarkeit der Daten: Einzelne Datenpunkte sollten nicht ohne Beziehung zu anderen Daten sein. Es sollte also z. B. in der Datenbank eines Online-Versandhändlers keine Produzenten geben, für die keinerlei Verbindung zu einem Produkt besteht. Zusätzlich müssen Datenredundanzen beim Aufbau der Datenbank und die doppelte Erfassung einzelner Daten (Dubletten) vermieden werden.
Nur, wer ist dafür zuständig?
Zu wissen, was eine gute Datenqualität ausmacht, ist zwar notwendig, kann aber nicht zur Umsetzung gelangen, wenn es keine bestimmten organisationalen Prozesse und definierten Rollen gibt, die die Daten auch wirklich „managen“. Welche Rollen es im Unternehmen zusätzlich rund um die Herstellung von Datenverfügbarkeit, -quantität und -qualität benötigt, damit Datenanalysten glücklich sind, werden wir aus einer stärker strategischen Sicht in einem der nächsten Blog-Beiträge thematisieren.