Vier neue Trends für Daten im Jahr 2021

Was hält 2021 für die Datenlandschaft bereit?

Juan Riojas / Rackspace, Narendra Chennamsetty / Rackspace Technology 22 Dezember, 2020

Anmerkung der Redaktion: 2021 wird für Organisationen die Anpassung an die „neue Normalität“ weitergehen. Bei Empfehlungsmaschinen und Vertriebs- und Marketing-Analytics, in der Verwaltung von Gesundheitsdatensätzen und Impfstoffforschung im Gesundheitswesen sowie in der Industrie 4.0 und der Fertigungslogistik stehen Daten im Mittelpunkt. Datenpraktiken und Anwendungsfälle werden ständig weiterentwickelt, was zu Fortschritten im gesamten IT-Betrieb führt.

Was hält 2021 für die Datenlandschaft bereit? Wir haben Juan Riojas, unseren Chief Data Officer, und Narendra Chennamsetty, Principal Architect, gebeten, von ihren fünf wichtigsten Datentrends und Prognosen für das kommende Jahr zu erzählen.

Daten werden zum wichtigsten Faktor bei der Gestaltung des Kundenerlebnisses

Daten treiben die Entwicklung des Kundenerlebnisses voran. Unternehmen nutzen bereits KI, Tests und Optimierungen sowie Echtzeit-Personalisierung, um das Kundenerlebnis zu verbessern. Für das bestmögliche Kundenerlebnis brauchen Sie schnell verfügbare Informationen. Der Business Case könnte Personalisierung für ein besseres Kundenerlebnis sein, aber der eigentliche Wegbereiter dafür sind Daten, Machine Learning und die alles unterstützende Datenwissenschaft. Kunden wünschen sich präzise personalisierte Erlebnisse, also müssen Unternehmen mit den richtigen Datenpunkten genau an der richtigen Stelle ansetzen, um das Erlebnis im Moment zu gestalten. Und das kann nur mit den richtigen Technologien, Injection Frameworks und KI/Machine-Learning-Funktionen erreicht werden.

Prognose

Die Erfassung, Analyse und Reaktion von Daten in Echtzeit, auch als kontinuierliche Intelligenz bezeichnet, wird zur Norm. Empfehlungsmaschinen wie die von Netflix werden immer mehr zum Mainstream. Insbesondere nach COVID‑19 verstehen Unternehmen besser, wieso es von Vorteil ist, schnell auf das sich ändernde Benutzerverhalten einzugehen. Da immer mehr Benutzer Online-Funktionen nutzen, haben sich die Bedürfnisse der gesamten Zielgruppe von Freizeit (Einkaufen, Nachrichten, Social Media) zu Notwendigkeit (Arbeit, Gesundheitswesen, Schule) verschoben. Dieser Wandel wird zu mehr Tools führen, die über die Datenanalyse hinausgehen. Sie sollen verständlich machen, was die Daten für das Unternehmen bedeuten, wie darauf reagiert werden soll und welche Erkenntnisse sie bieten.

Datentechnische Fortschritte fördern die Implementierung

Qualifikations- und Ressourcenlücken beschränken nicht länger den Zugang zu fortgeschrittenen Datenerkenntnissen. Cloud-Anbieter wie Amazon haben vorgefertigte Lösungen für KI/Machine Learning entwickelt, damit Sie nicht selbst alle Puzzleteile richtig zusammenfügen müssen. Dasselbe leisten Produktionsautomatisierungstools für den manuellen und Engineering-abhängigen Prozess der Operationalisierung von Datenmodellen. KubeFlow wurde entwickelt, um Softwarebereitstellungsprozesse durch die Organisation von ML-Workflows auf Kubernetes zu automatisieren. Mit AIOps-Tools können Unternehmen operative Erkenntnisse zu Pipelines für Machine Learning und Data Science hinzufügen, um schneller von der Modellphase zur Produktionsphase zu gelangen.

Der Tempodruck verändert auch das traditionelle Data Warehouse von Batch-orientierten zu Streaming-Daten. Es gibt keine Batch-Jobs mehr – jetzt ist alles Streaming-Architektur. Die Verarbeitung großer Datenmengen, vor allem mit Stapelverarbeitung, hat sich von den Anfangsstadien der mapReduce-Algorithmen über Hadoop-Technologien zum Aufkommen von Apache Spark, einem beliebten Framework für Distributed Computing, entwickelt. Spark erzielte nicht nur massive Leistungssteigerungen aufgrund seiner In-Memory-Pipeline-Berechnungen, sondern brachte auch Machine-Learning- und Streaming-Funktionen mit. In Kombination mit Cloud-Anbietern, die Spark-Dienste um Funktionen wie Serverlosigkeit und automatische Skalierung erweitern, ist es zu einem unverzichtbaren Werkzeug in der Toolchain von Dateningenieuren geworden.

Es scheint jedoch insbesondere im Bereich der Stream-Analytics jetzt ein weiterer Wandel in der Landschaft stattzufinden. Im Gegensatz zum Streaming-Ansatz von Spark, bei dem Streams (unbegrenzte Datensätze) als eine Reihe von Mikro-Batches verarbeitet werden, verwenden neuere Stream-Verarbeitungs-Engines wie Cloud Dataflow, Beam und Flink einen echten Streaming-Ansatz. Dabei werden Daten durch eine Reihe von Betreibern in verteilten Datenpipelines geschickt und fortlaufend verarbeitet. Diese Verarbeitungs-Engines haben nicht nur einen geringeren Betriebsaufwand, sondern bieten auch interessante neue Funktionen.

Im Gegensatz zu Spark-Anwendungen, in denen Daten in der Reihenfolge ihrer Ankunft verarbeitet werden, ermöglichen die neuen Engines fortgeschrittene und flexible Windowing-Funktionen für die Zeitstempelattribute im Datensatz.

Nehmen wir ein Beispiel aus der Clickstream-Datenanalyse in Echtzeit: Ein Benutzer kann über einen unbestimmten Zeitraum hinweg kurzzeitig eine große Menge an Klickaktivitäten auf einer Webseite ausführen. Mithilfe eines Sitzungsfensters können Sie alle diese Aktivitäten auf einmal erfassen und anschließend genaue Analysen durchführen, anstatt die Aktivität in feste Fenster von arbiträrer Größe zu unterteilen, wie Spark es tut.

Vor kurzem kündigte die Google Cloud Platform (GCP) Cloud Dataflow und Apache Beam an, die einen einheitlichen Ansatz für Batch- und Streaming-Anwendungen bereitstellen. Diese Kombination bietet eine stärkere Konsistenz und eine bessere Semantik bei der Datenverarbeitung. Wenn beispielsweise Protokolldaten von Servern in ein Kafka-Cluster übergehen und Sie ein Ereignis, das in der Anwendung nur einmal aufgetreten ist, auch nur einmal verarbeiten möchten, wird dies als „Exactly-Once“-Semantik bezeichnet. In einer stapelorientierten Umgebung bräuchte man dazu Ad-hoc-Codierung und zusätzliche Software. Mit Dataflow und Beam wird diese Funktion in das Framework integriert. Das moderne Data Warehouse basiert generell auf völlig anderen Technologien als zuvor. Organisationen wechseln nun von MS SQL Server zu Redshift und Snowflake, um die Vorteile von Datenstrukturen im Spaltenformat zu nutzen.

Prognose:

Wir prognostizieren einen Anstieg der Akzeptanz von Stream-Verarbeitungs-Engines im Jahr 2021. Damit Unternehmen Weiterentwicklungen wie NLP-, Graphen- oder Zeitreihenanalysen anwenden können, wird das moderne Data Warehouse beginnen, KI und andere fortschrittliche Analysetechnologien zu nutzen. Wir werden nicht mehr nur einen Monolithen haben, in dem Sie Ihre Berichte und Analysen abfragen und abrufen können. Das Data Warehouse wird sich zu einer Reihe von Tools mit sehr unterschiedlichen Funktionen entwickeln, z. B. Verarbeitung natürlicher Sprache, Suche, Diagrammanalyse oder sogar überlappende Funktionen.

Als Datenwissenschaftler müssen Sie sich nicht schnell eine Menge neuer Technologien aneignen. Konzentrieren Sie sich stattdessen auf Ihr Modell, und alles andere wird für Sie abstrahiert. Durch die Streaming-Architektur wird die (technische und prozessbezogene) Latenz zwischen Datenproduktion und verwertbaren Daten erheblich reduziert, sodass Informationen schneller für die Entscheidungsfindung verfügbar sind.

Datensicherheit hält Schritt – in einem neuen Rennen

Aufgrund der Zunahme schadhafter Angriffe im Zusammenhang mit der Pandemie verschärfen viele Unternehmen ihre Security. Bei so vielen Menschen im Homeoffice ist für Sicherheit, Zugriffsmöglichkeiten und Datenschutz an mehreren Endpunkten ein anderer Ansatz notwendig. IT-Teams und Datenexperten arbeiten zusammen, um die erhöhte Gefährdung und das Risiko aufgrund der wachsenden Anzahl von Endpunkten auf BYOD- und IoT-Geräten zu bewältigen.

Herkömmliche isolierte Ansätze, die lediglich den Zugriff auf das Data Warehouse einschränken, reichen nicht mehr aus. Daten werden nicht mehr nur in einem System empfangen, sondern sind auf mehrere Systeme verteilt: Ein Team möchte sie für den Betrieb verwenden, ein anderes für das Reporting, und ein drittes Team für die Datenwissenschaft. Unternehmen benötigen eine separate Security-Architektur, die systemübergreifend funktioniert und typische Aktivitäten wie Authentifizierung, Schlüssel- und Zugriffsverwaltung zentralisiert.

Einheitliche Prüfungsverfahren bieten ein serviceorientiertes, zentralisiertes und konvergiertes System für die Data Governance. Benutzer können Daten von oder zu jeder Systemart konsumieren, unabhängig davon, wo die Daten verarbeitet werden, da die Dienste abstrakter und nicht auf ein bestimmtes System beschränkt sind. Ein SQL-Server hat beispielsweise eigene Benutzer, Authentifizierung und Modi. Wenn er jedoch von Datenwissenschaftlern und Betriebsteams an 50 verschiedenen Standorten benutzt wird, wird er schnell unhandlich.

Prognose:

Anstatt nur eine Sicherheitsrichtlinie zu haben, wird sich die Verantwortung für die Sicherheit nach links zu einem gemeinsamen Verantwortlichkeitsmodell für alle verlagern.

Anstatt dedizierte Security-Ressourcen hinzuzufügen, werden Datenteams mehr Security-orientierte Datenexperten einstellen, um so die Security auf jeder Entwicklungsstufe zu berücksichtigen. Standards wie SOX, PCI DSS und HIPAA werden von Branchen-exklusiven Standards zu wichtigen geschäftlichen Vorteilen für Unternehmen. Sie sind vielleicht kein Gesundheitsdienstleister, aber nachweisen zu können, dass Ihre Datenschutzrichtlinie den HIPAA-Standards entspricht, erhöht möglicherweise Ihre Glaubwürdigkeit.

Das Mantra für 2021 lautet „Vertrauen“

Da Daten immer mehr zu einem Unterscheidungsmerkmal werden, beginnen Unternehmen, Daten als wertvolles unternehmerisches Asset zu betrachten. Diese Daten sind jedoch nur dann ein wertvolles Asset, wenn sie sauber und vertrauenswürdig sind. Um Vertrauen aufzubauen, müssen Sie Compliance, Datenschutzrichtlinien und Security-Protokolle festlegen und in Ihrer gesamten Umgebung alles mit Informationen und Automatisierung versehen.

Um innovative Kundenerlebnisse zu gestalten, müssen Unternehmen zunächst das Vertrauen der Kunden gewinnen.

Um innovative Kundenerlebnisse zu gestalten, müssen Unternehmen zunächst das Vertrauen der Kunden gewinnen. Missbrauch oder falsche Handhabung von Verbraucherdaten sorgen für den Verlust eines Vertrauens, das – falls überhaupt – nur schwierig zurückgewonnen werden kann. Geschmackvolle, nicht-invasive Personalisierung soll Sie unterstützen. Wenn Benutzer jedoch keine Transparenz hinsichtlich der digitalen Wertschöpfungskette haben, werden sie wahrscheinlich nicht die Daten teilen, die Sie benötigen, um die richtigen Erfahrungen für sie zu erstellen. Unternehmen benötigen mehr Transparenz bei der Erfassung, Verwendung, Speicherung und Entsorgung von Daten sowie klare Möglichkeiten für Kunden, ihre eigenen Daten zu kontrollieren.

Um organisatorisches Vertrauen aufzubauen, müssen Datenteams intern ein vertrauenswürdiger Enabler werden. Dies bedeutet, eng mit Geschäftsteams zusammenzuarbeiten, um besser zu verstehen, was sie benötigen, und diese Feedback-Schleife zu nutzen, um schnelle und genaue Erkenntnisse zu gewinnen, die Entscheidungsfindung, Produktinnovation und Marktanteilsgewinne ermöglichen. Wenn KI und Machine Learning an Bedeutung gewinnen, hängt es letztendlich vom Vertrauen in die Daten ab, wie wir die Implementierung dieser Funktionen unterstützen und sie für Dienste ermöglichen. Fehlerhafte Daten führen zu fehlerhaften Ergebnissen. Datenexperten können Dateneigentümer dabei unterstützen zu verstehen, wie sie saubere Daten fördern können, auf die sich das Unternehmen beim Treffen wichtiger Entscheidungen verlassen kann.

Prognose

Kunden, die über Dokumentarfilme wie „The Social Dilemma“ und „The Great Hack“ auf Datenschutzprobleme aufmerksam gemacht wurden, achten auf Datenschutz und Datennutzung. Regierungen erlassen immer mehr Datenschutzbestimmungen, die in den nächsten Jahren in Kraft treten werden. Wenn die öffentliche Ordnung versagt, erwarten Kunden, dass Unternehmen die Führung übernehmen, indem sie sich mit Datenschutz und Datenvertrauen vom Rest abheben. Stellen Sie sich eine Art Fair-Trade-Logo für Ihre Daten vor, das strenge Protokolle für Datenverarbeitung während ihres gesamten Lebenszyklus in Ihrem Unternehmen erstellt und zertifiziert.

Join the Conversation: Find Solve on Twitter and LinkedIn, or follow along via RSS.

Stay on top of what's next in technology

Learn about tech trends, innovations and how technologists are working today.

Cut Straight to the Tech Trends That Matter

Wir kommen direkt zu den wichtigsten technischen Trends

About the Authors

Chief Information Officer

Juan Riojas

As Chief Information Officer at Rackspace Technology, Juan Riojas is responsible for enterprise-wide data strategy, management, and analytics to meet the need of the business to answer critical questions through time to insight. He has more than 20 years of industry experience successfully migrating data ecosystem across all public clouds, leading to significant business transformation outcomes. Prior to Rackspace, Juan worked for Informatica building their inaugural Data Office and has held various executive leadership roles at Gogo, Dell, Accenture, and Expeditors. A native of Texas, Juan attended Texas A&M International University, where he studied business administration and holds a post graduate degree from Said Business School, Oxford University

Daten werden zum wichtigsten Faktor bei der Gestaltung des Kundenerlebnisses

Prognose

Datentechnische Fortschritte fördern die Implementierung

Prognose:

Datensicherheit hält Schritt – in einem neuen Rennen

Prognose:

Das Mantra für 2021 lautet „Vertrauen“

Prognose

Stay on top of what's next in technology

Wir kommen direkt zu den wichtigsten technischen Trends

About the Authors

Juan Riojas

Narendra Chennamsetty

Related Topics