Datenanalyse erfordert eine neue Denkweise. Wir zeigen den Weg dorthin auf.

Der Erfolgsfaktor Nummer eins für jedes Datenprojekt ist der nachhaltige Umsetzungswille.

Traey Hatch / Rackspace Technology 30 Dezember, 2020

Die Infrastruktur, die Fähigkeiten und die Prozesse, die für die Analyse von Daten erforderlich sind, unterscheiden sich stark von denen für das einfache Sammeln und Organisieren von Daten. Hier erfahren Sie, was IT-Führungskräfte in Unternehmen wissen müssen, um die Grundlagen für eine datengetriebene Entscheidungsfindung zu schaffen.

Unternehmen verfügen über eine erhebliche Fülle an Daten. Die meisten davon sind Transaktionsdaten, die von Anwendungen wie Web-Apps, ERPs oder CRM-Systemen aufgeschnappt werden. Die Sammlung dieser Daten hilft dabei, tägliche Prozesse zu automatisieren und sie nachverfolgbar bzw. prüfbar zu machen. Des Weiteren unterstützt sie Unternehmen dabei, höhere Umsätze zu erzielen oder schrittweise Verbesserungen an ihren Systemen vorzunehmen. Außerdem liefert sie eine historische Aufzeichnung von Handlungen und gelieferten Services.

Während das Volumen dieser Transaktionsdaten enorm angewachsen ist, haben viele Unternehmen erkannt, dass dieser Fundus auch Einblicke in Trends und Muster enthält, die bei der Entscheidungsfindung und Innovation helfen können. Dies gilt allerdings nur, sofern sie zwei Dinge tun können: Sicherstellen, dass die Daten von ausreichender Qualität sind und an die richtige Stelle zur weiteren Analyse gelangen.

Dazu müssen wir von einer transaktionsbezogenen Denkweise bei der Datenerfassung und -organisation – ein Bereich, in dem die meisten Unternehmen, die ich treffe, bereits sehr versiert sind – zu einer analytischen Denkweise übergehen. Auf dem Weg dorthin müssen wir sicherstellen, dass diejenigen, die die Daten nutzen, Vertrauen in sie haben und mit Zuversicht bei ihren Entscheidungen darauf bauen können.

Diese Reise kann schwierig sein. Die Fähigkeiten, Prozesse und Infrastrukturen, die mit der Datenanalyse verbunden sind, unterscheiden sich stark von denen, die mit der Datenerfassung und -organisation verbunden sind. Zudem muss die Architektur dafür in der Regel speziell entwickelt werden.

Gehören Sie auch zu den Unternehmen, die wissen, dass sie mehr aus ihren Daten machen könnten? Dann sollten wir vor dem Startschuss einen Blick auf einige der Entscheidungen werfen, die Sie auf Ihrem Weg zu datengesteuerten Prozessen treffen müssen.

Entscheidung 1: Untersuchung Ihrer Daten

An erster Stelle sollten Sie herausfinden, welche Daten Ihnen aktuell vorliegen.

Das ist nicht so offensichtlich, wie es klingt. Es geht nicht nur darum zu verstehen, was diese Daten sind, sondern auch wo sie sich befinden und wie man am besten an sie herankommt. Außerdem müssen Sie die Herkunft verstehen: Wie sind die Daten dorthin gekommen, und welche Entscheidungen und Prozesse auf dem Weg dorthin könnten sich auf deren Qualität ausgewirkt haben?

Die Qualität kann bei transaktionsbasierten Systemen eine besondere Herausforderung darstellen, da sich menschliche Fehler, Abkürzungen und Auslassungen am Eingabepunkt über die Jahre hinweg ansammeln und erhebliche Auswirkungen haben können. Wenn dann noch Data Lakes, erstellt von verschiedenen Teams, zu diesen Transaktionsflüssen hinzugefügt werden, können nur Vermutungen über die Absichten der ursprünglichen Ersteller angestellt werden – was Qualitätsprobleme verursachen kann.

Sie müssen auch wissen, ob Sie Ihre Analyse auf dem System ausführen können, in dem sich die Daten derzeit befinden. Normalerweise können oder sollten Sie das nicht; denn die Ausführung dieser Berechnungen auf Datenbanksystemen, die Front-End-Anwendungen bedienen, birgt Risiken für den täglichen Betrieb.

Daher werden einige der ersten Entscheidungen auf den Antworten der folgenden beiden Fragen basieren: Wo müssen oder wollen Sie diese Daten unterbringen? Und welche betrieblichen Faktoren und regulatorischen Bedingungen könnten dies beeinflussen?

Entscheidung 2: Erkennung der besten Chance

Unternehmen haben wahrscheinlich mindestens ein Dutzend Anwendungsfälle, bei denen sie vermuten, dass ihre Daten besser genutzt werden könnten. Allerdings ist es kostspielig und organisatorisch sehr schwierig, zu viele Projekte auf einmal anzugehen.

Dementsprechend ist die Identifizierung des am besten realisierbaren Anwendungsfalls mit der größten Wirkung eine wichtige frühe Entscheidung. Zentrale Fragen, die Sie sich stellen sollten: Wie sieht Ihr gewünschtes Endergebnis aus? Geht es um bessere Dashboards und Visualisierungen, um die Automatisierung der Berichterstellung für die Monatsabschlüsse oder um die Nutzung von vorausschauenden Analysen zur Unterstützung von Management und Führungskräften bei der Entscheidungsfindung?

Wie auch immer Ihr spezifischer Anwendungsfall aussieht, er wird wahrscheinlich in eine der drei großen Kategorien mit einem zugehörigen Benutzerprofil fallen. Und dies wird auch einige der Entscheidungen beeinflussen, die Sie später in Bezug auf die Infrastruktur treffen werden. Diese Kategorien sind:

BI/Visualisierung: Dieser Anwendungsfall konzentriert sich auf die Ermöglichung einer besseren Berichterstellung und Entscheidungsfindung, wobei die Benutzer in der Regel technisch nicht versiert sind. Sie werden keine Funktionen für den Data Lake entwickeln oder Ihre IT-Infrastruktur erweitern.
Automatisierung und Machine Learning: In diesem Anwendungsfall haben Sie Ihre Betriebs- und Berichtsdaten vielleicht bereits an einem anderen Ort. Sie möchten diese jedoch für maschinelle Lernprozesse verfügbar machen, um präskriptive und vorausschauende Erkenntnisse zu gewinnen. Hierfür müssen große, historische und oft sehr spezifische Datensätze Datenwissenschaftlern schnell zur Verfügung gestellt werden.
Einspeisung in andere transaktionsbasierte Systeme: Bei diesem letzten Anwendungsfall geht es darum, Daten aus System A für System B verfügbar zu machen, um zusätzliche Geschäftsprozesse und -ergebnisse zu ermöglichen. Ein solches System wird kleine Datenmengen aus dem Data Lake verpacken, aufbereiten und an das Zielsystem weitergeben.

Entscheidung 3: Ermitteln des aktuellen und zukünftigen Infrastrukturbedarfs

Der Anwendungsfall, den Sie lösen möchten, beeinflusst Ihre unmittelbaren Technologieentscheidungen in Bezug auf den Zugriff auf die Daten aus Ihrem Data Lake und den Aufbau der Pipelines zur Bereitstellung dieser Daten an die relevanten Systeme und Benutzer.

Doch bei solchen Entscheidungen bezüglich der Infrastruktur ist es wichtig, dass Sie die Anpassungsfähigkeit nicht außer Acht lassen. Es ist sehr wahrscheinlich, dass Sie in Zukunft einen der anderen Anwendungsfälle bedienen möchten. Unternehmen, die nach und nach Gewinne mit Datenanalysen erzielen, entwickeln rasch ein Verlangen nach weiteren und breiteren Anwendungen. So haben wir zum Beispiel einem Kunden aus der Öl- und Gasindustrie geholfen, Daten aus einem bestehenden Finanzprognosesystem zu übernehmen und über seinen Data Lake einem breiteren Publikum zur Verfügung zu stellen. Der Erfolg dieses Anwendungsfalls bewirkte schnell, dass die gleichen Daten in ein bestimmtes Finanzmodellierungssystem für die Führungsplanung einfließen sollten.

Ihre nächste wichtige Entscheidung ist also, ob Sie eine Infrastruktur um Ihren Data Lake herum aufbauen, die nur für Ihr spezifisches System oder Ihren Anwendungsfall verwendet wird (was unwahrscheinlich ist), oder ob Sie eine Grundlage schaffen, die auch zukünftige Anwendungsfälle berücksichtigt. Zu den wichtigsten Fragen, die man sich zu Beginn stellen sollte und die dabei helfen, diese Anpassungsfähigkeit zu etablieren, gehören: Können dieselben Daten auch dazu beitragen, Vorhersagemodelle zu erstellen oder die Automatisierung an anderer Stelle im Unternehmen voranzutreiben? Wenn ja, welche zusätzlichen Systeme sind zu berücksichtigen?

Wofür Sie sich letztendlich entscheiden, hängt von den Feinheiten dessen ab, was Sie jetzt erreichen wollen – und von Ihren Bemühungen, die zukünftige Verwendung dieser Daten vorauszusehen.

Typische Fehltritte, die es zu vermeiden gilt

Zuerst sollten Sie sicherstellen, dass Ihre Daten von guter Qualität sind und einen klaren Anwendungsfall haben – und zwar bevor Sie mit dem Aufbau Ihrer Datenpipelines beginnen. Stellen Sie außerdem sicher, dass Ihre Pipelines nach den Best Practices der Softwareentwicklung erstellt werden.

Die Bewertung der Datenqualität ist schwierig, da es sich um ein subjektives Maß handeln kann. Der Mindestmaßstab ist jedoch, dass die Benutzer den Daten genug Vertrauen schenken können, um auf der Grundlage der gewonnenen Erkenntnisse mit Zuversicht Entscheidungen zu treffen. Die Übernahme von Best Practices aus der Softwareentwicklung wird immer dringlicher, da sich die Disziplinen des Datenanalysten und des Entwicklers immer mehr annähern. So übersehen beispielsweise Entwickler, die vorher Analysten waren, allzu oft grundlegende CI/CD-Prozesse, führen Code in Produktionssystemen von Hand aus oder gestalten ihre Projekte so, dass sie nur schwer zu warten und weiterzuentwickeln sind.

Aber die goldene Regel, die mir einer unserer Strategic Account Principals mit auf den Weg gegeben hat, ist diese: Der wichtigste Erfolgsfaktor für jedes Datenprojekt ist ein nachhaltiger Umsetzungswille.

Der Erfolgsfaktor Nummer eins für jedes Datenprojekt ist der nachhaltige Umsetzungswille.

Dies sind Projekte mit langem Zeithorizont. Um das erforderliche Interesse zur Umsetzung zu schaffen und langfristig aufrechtzuerhalten, müssen Sie Ihren Anwendern schnell den Wert aufzeigen. Außerdem müssen Sie eine Führungskraft einbinden, die bereit ist, die Investition zum Erfolg zu führen.

Join the Conversation: Find Solve on Twitter and LinkedIn, or follow along via RSS.