Beschleunigung des Machine-Learning-Zyklus, um mehr aus Ihren Daten herauszuholen

Mark McQuade, Daniel Quach

iconography showing machine learning brain inside a spinning circle

 

Unternehmen erkennen den Wert von Machine-Learning-Modellen für das Erzielen besserer Ergebnisse. Die Nutzung der Prognoseleistung Ihrer Daten mithilfe von Machine-Learning-Modellen ist für den Geschäftsbetrieb von zunehmender Bedeutung; trotzdem schaffen es 60 % der Machine-Learning-Modelle nie in die Produktion. Aber wo liegt das Problem?

 

Weitverbreitete Schwierigkeiten bei KI und Machine Learning

Im Dezember 2020 und Januar 2021 führten wir eine globale Studie zur Einführung von KI- und Machine-Learning-Lösungen sowie deren Nutzen, Vorteilen, Auswirkungen und den zukünftigen Plänen durch. Im Rahmen der Studie wurden 1.870 IT-Führungskräfte in diversen Branchen in ganz Amerika, Europa, Asien und dem Nahen Osten befragt. Wie die Ergebnisse zeigen, erkundet die Mehrheit der Befragten (82 %) immer noch ihre Möglichkeiten im Bereich der Implementierung von KI oder hat Schwierigkeiten damit, geplante KI- und Machine-Learning-Modelle umzusetzen.

Zudem zeigt die Forschung, dass Unternehmen im Durchschnitt über vier KI- und Machine-Learning-Projekte im Bereich F&E verfügen. Dabei wissen wir aus Gesprächen mit unseren Kunden, dass die meisten Organisationen in Forschung und Entwicklung in den Bereich der Modellentwicklung investieren. Jedoch führt das fehlende Glied zwischen den Betriebs- bzw. DataOps-Teams und den Machine-Learning-Engineers bzw. Data-Science-Teams dazu, dass viele der Modelle es nie in die Produktion schaffen. Dabei bestehen häufig Probleme in Bezug auf die Bereitstellung, Automatisierung und Skalierbarkeit von Machine-Learning-Modellen.

 

Die Herausforderungen bei der Umsetzung von Machine-Learning-Modellen

Data-Science-Teams stehen häufig vor Herausforderungen in Bezug auf die Verwaltung der Modelle in verschiedenen Phasen des Machine-Learning-Workflows. Machine-Learning-Modelle schnell von einer Entwicklungsumgebung in die Produktion zu bringen, ist keines der Spezialgebiete von Datenforschern. Ein DevOps- oder Infrastruktur-Team wäre eher in der Lage, die Reproduzierbarkeit von Modellen und Prognosen zu gewährleisten. Die Reproduktion einer Ausgabe eines Modells kann mitunter schwierig sein, wenn es von einer Umgebung in eine andere übernommen wird, da dafür eine sorgfältige Nachverfolgung von Bibliotheksversionen, Datensätzen, Diagnosen, Leistungsüberwachung und Modelldrift erforderlich ist.

Ein weiteres übliches Problem besteht darin, dass sich Modelle nicht selten in verschiedenen Umgebungen vervielfältigen. So wird es zur Herausforderung, den Überblick zu behalten. Datenforscher erstellen domänenspezifische Modelle und führen eine Vielzahl von Experimenten durch, wobei sie zunächst in einer Entwicklungsumgebung beginnen und dann entlang der Kette zu einer Testumgebung übergehen. Dies führt dazu, dass mehrere Modelle mit verschiedenen Datensätzen und unterschiedlichen Hyperparametern gleichzeitig in verschiedenen Umgebungen ausgeführt werden. Dadurch wird es nahezu unmöglich, die Abstammung eines Modells zu verfolgen. Zwei der wichtigsten Aspekte in Bezug auf Governance und die Einhaltung gesetzlicher Vorschriften (v. a. im Rahmen von Audits) sind die Nachverfolgung und Beschreibung sämtlicher Prozesse Ihres Modells.

 

DevOps ist nicht genug

Die DevOps-Kultur und das Application-Lifecycle-Management haben sich im vergangenen Jahrzehnt zu einem Standard in der IT-Branche entwickelt. Damit konnte man die Lücke schließen, die zuvor zwischen der Fähigkeit eines Unternehmens zur Entwicklung von Anwendungscode und der Möglichkeit bestand, Workloads effizient bereitzustellen, zu testen, zu skalieren, zu überwachen und zu aktualisieren. Die Anforderungen an eine ausgereifte CI/CD-Pipeline werden in der Anwendungsentwicklung weitgehend durch bereits vorhandene standardisierte Tools und Best Practices erfüllt.

Im Gegensatz zur Anwendungsentwicklung, wo sich die Qualität aus dem Code selbst ergibt, stammt die Qualität eines Machine-Learning-Modells größtenteils aus den für das Training des Modells verwendeten Datenmerkmalen. Die Bedeutung dieser Datenmerkmale darf keinesfalls unterschätzt werden, da deren Qualität für die Leistung Ihres Machine-Learning-Modells ausschlaggebend ist. Außerdem sollte nicht unerwähnt bleiben, dass Machine-Learning-Modelle immer noch in den Kinderschuhen stecken.

Zudem können sich die Daten von Tag zu Tag ändern. Daten, die Sie für Prognosen von heute verwenden, können sich erheblich von Daten unterscheiden, die vor einem Monat für das Modelltraining verwendet wurden. In diesem Fall muss das Produktionsmodell neu trainiert werden und die Entwicklungsphase erneut durchlaufen. Folglich unterscheidet sich der Lebenszyklus eines Machine-Learning-Modells erheblich von jenem einer Anwendung. Einer unserer Kunden im Bereich der Betrugsbekämpfung sah vor, die Produktionsmodelle alle 24 Stunden zu aktualisieren, um auch neue Bedrohungen zu berücksichtigen. Der Kunde trainierte sein Modell jeden Tag neu und stellte es neu bereit, um jede neue Datendrift berücksichtigen zu können. Ohne eine ausgereifte Lösung ist das nicht möglich.

 

Wir stellen vor: das Model Factory Framework

Der Machine-Learning-Zyklus ist komplex. Der gesamte Machine-Learning-Prozess umfasst eine Vielzahl von Schritten, etwa Dateneingabe, Datenanalyse, Datentransformation, Datenvalidierung, Datenaufteilung, Modellerstellung, Modelltraining und Modellvalidierung. Und all diese Schritte bringen ihre ganz eigenen Herausforderungen mit. Aus diesem Grund haben wir das Model Factory Framework von Rackspace Technology entwickelt.

Das Model Factory Framework basiert auf AWS und Open-Source-Tools, die schnelle Entwicklungs-, Schulungs-, Bewertungs- und Bereitstellungsmodelle ermöglichen. Das Model Factory Framework wurde entwickelt, um sämtlichen potenziellen Herausforderungen bei der Übertragung von Machine-Leaning-Modellen aus der Entwicklungs- in die Produktionsphase begegnen zu können.

Das Model Factory Framework vereinfacht den gesamten Machine-Learning-Zyklus – der in der Regel über 25 Schritte umfasst und Monate dauern kann – auf rund 10 Schritte, die innerhalb weniger Wochen abgeschlossen werden können.

 

Erfahren Sie mehr über das Model Factory Framework

Wenn Sie mehr über das Model Factory Framework von Rackspace Technology erfahren wollen und erkunden möchten, wie es von der Modellentwicklung bis hin zur Bereitstellung, Überwachung und Governance Prozesse verbessert, sehen Sie sich unser Webinar „Automating Production Level ML Operations on AWS“ (Automatisieren der ML-Operations auf Produktionsebene in AWS) an. In diesem Webinar geht es um folgende Themen:

  • Einführung in MLOps Foundations powered by Model Factory
  • Das fehlende Glied zwischen Datenforschern und Machine-Learning-Operations
  • Den Unterschied zwischen MLOps und DevOps
  • Erforderliche Architekturmuster für Elemente effektiver MLOps
  • Der ganzheitliche Ansatz für CI/CD für ML in „Model Factory“-Architekturen

 

Automating Production Level ML Operations on AWS (Automatisieren der ML-Operations auf Produktionsebene in AWS)