Zum Hauptinhalt springen

Von Zukunftstechnologie zum Projekterfolg: Vorgehensmodelle für Machine Learning

Autor: Prof. Dr. Falko Kötter

Was muss passieren, um Machine Learning vom Labor in die Praxis zu bringen? Dabei helfen Vorgehensmodelle für Machine-Learning-Projekte. Was genau beinhalten diese und welche gibt es?

Abbildung 1: Darstellung Softwareentwicklung im Vergleich zu Machine Learning

Wer im Machine Learning (ML) arbeitet, hat wohl des Öfteren schon den ersten Hauptsatz der Datenverarbeitung gehört: „Garbage In, Garbage Out.“ Das heißt so viel, wie, dass ein Programm mit schlechten Daten auch keine guten Ergebnisse liefern kann. Im ML hat dieses Sprichwort noch eine weitere Dimension: Wenn das trainierte Modell „Garbage“ ist, sind die Ergebnisse auch mit guten Eingabedaten schlecht. 

Eine Sichtweise auf ML ist wie in Abb. 1 gezeigt eine Teilautomatisierung der Softwareentwicklung. Anstatt manueller Programmierung erstellt der Computer ein Modell mithilfe von Algorithmen. Dies eignet sich insbesondere für Problemstellungen, die mit klassischen Algorithmen nicht oder nur mit unwirtschaftlichem Aufwand lösbar sind. 

Bei der Einführung von ML-Lösungen handelt es sich gewissermaßen also um Entwicklungsprojekte. Während es in der klassischen Softwareentwicklung zahlreiche langbewährte und gut erforschte Vorgehensmodelle wie Wasserfall und SCRUM gibt, sind diese nur begrenzt auf ML anwendbar. 
Der Bedarf für neue Vorgehensmodelle im ML zeigt sich nicht zuletzt an der geringen Erfolgsquote von ML-Projekten, die je nach Studie zwischen 47% und 87% liegt [1]. Gründe für das Scheitern sind vielfältig, von überzogenen Erwartungen an die Technologie über mangelnde Datenqualität bis hin zu ungewisser Ergebnisqualität, die ein inhärentes Risiko der ML-Technologie darstellt.

In den letzten Jahren wurden zahlreiche neue Vorgehensmodelle für ML-Projekte entwickelt, um Projekte erfolgreicher und planbarer zu machen. Gemeinsam mit dem Fraunhofer Institut für Arbeitswirtschaft und Organisation IAO hat die DHBW Stuttgart eine Untersuchung bestehender Vorgehensmodelle durchgeführt, deren Ergebnisse im Folgenden vorgestellt werden.

Vorgehensmodelle für Machine Learning im Vergleich

Sieben Vorgehensmodelle für ML-Projekte wurden in eine qualitativen Inhaltsanalyse ausgewertet, und anhand mittels Experteninterviews ermittelter Kriterien bewertet. In den Experteninterviews stellte sich heraus, dass es eine Vielzahl von Herausforderungen gibt, z. B.:

  • Technik: Datenbereinigung, Technologieauswahl, Erklärbarkeit der Ergebnisse
  • Organisation: Datenbeschaffung und Datenschutz, Teamzusammensetzung, Methodik
  • Mensch: Kommunikation von Potenzialen und Grenzen von ML-Lösungen, menschengerechte Lösungsgestaltung, Tätigkeitsprofile

Insgesamt wurden 21 relevante Arbeitsschritte für Vorgehensmodelle abgeleitet und in vier idealtypischen Projektphasen strukturiert:

  • Ziele und Anforderungen: Ausgehend von den Zielen des Projekts wird in diesem Schritt im Rahmen der Anforderungsanalyse „Ist ML als Lösungsansatz geeignet?“ beantwortet. Dazu gehört eine Ist- und Sollplanung der betroffenen Prozesse und Nutzungschnittstellen, insbesondere der zukünftigen Arbeitsteilung zwischen Mensch und Maschine. Ebenso müssen rechtliche Fragestellungen bezüglich der Datennutzung geklärt werden.
  • Strukturiertes Projekt-Setup: Diese Phase dient der Vorbereitung der Umsetzung und umfasst u. a. die Herstellung des Datenzugriffs, das Aufstellen des Projektteams sowie die Technologieauswahl.
  • Konzepte und Umsetzung: Hier geschieht das eigentliche Machine Learning mit den bekannten Schritten wie Datenvorbereitung, -exploration, Modellauswahl und Training. Darüber hinaus muss für einen Produktiveinsatz eine System- und Datenarchitektur entwickelt sowie Aspekte wie Robustheit, Sicherheit, und Qualitätssicherung betrachtet werden.
  • Verwendung der Ergebnisse: In diesem Schritt wird das Entwicklungsergebnis in den Produktivbetreib überführt, was das technische Deployment sowie Prozessänderungen und -integration umfasst. Auf Arbeitsebene ist eine Schulung, Änderung der Tätigkeitsprofile und ggfs. auch Schaffung neuer Jobprofile notwendig.

Fast alle untersuchten Vorgehensmodelle haben hier ihren Schwerpunkt im Projekt-Setup und in der Implementierung, also den technischen Schwerpunkten der Projekte, die typischerweise in der Prototypenentwicklung dominieren.

Entwickelt man allerdings Lösungen für den Produktivbetrieb werden menschliche und organisatorische Aspekte ebenso wichtig. Auf ML basierende Lösungen müssen in Unternehmensprozesse und tägliche Arbeitsabläufe integrierbar sein, und ihre fachlichen Anforderungen zuverlässig genug erfüllen.
Bei klassischer Software entsteht der Hauptaufwand nicht in der Entwicklung, sondern in der Wartung [2], eine Phase, die die untersuchten Vorgehensmodelle ebenfalls nur teilweise betrachten, aber mit steigender Reife von ML an Bedeutung gewinnen wird.

Alle Details der Untersuchung finden sich in der Veröffentlichung „Comparative Analysis of Process Models for Data Science Projects“ [3].

Tabelle 1: Die Ergebnisse der vergleichenden Analyse

Leere Kreise bedeuten, dass ein Inhalt nicht adressiert wurde, halbe Kreise stehen für Randerscheinungen und volle Kreise für explizites Thematisieren. Weiße Felder bedeuten, dass das »Wie« nicht adressiert wurde, hellgrün heißt, dass es adressiert wurde und bei dunkelgrün gibt es konkrete Werkzeugempfehlungen.

Quelle: „Comparative Analysis of Process Models for Data Science Projects

Vorgehensmodelle: Unverzichtbar im Unternehmenseinsatz von KI

Genauso wenig, wie man heutzutage Software nach dem Code&Fix-Prinzip entwickeln sollte, sollte man ein Machine-Learning-Projekt ohne strukturierte Entwicklungsprozesse beginnen. Je mehr die Technologie aus der explorativen in die produktive Phase übergeht, desto wichtiger werden Vorgehensmodelle. Sie helfen, die Potentiale von ML realistisch einzuschätzen, Lösungen erfolgreich im Unternehmen einzuführen, Projekte besser zu planen und strukturieren, und Risiken zu minimieren.

Die vorliegende Analyse unterstützt Unternehmen bei der Auswahl des richtigen Vorgehensmodells. Zwar weist jedes der Modelle Lücken auf, aber mit Kenntnis der notwendigen Aktivitäten lassen sich diese durch Ergänzungen schließen. Dabei ist die integrierte Betrachtung von Mensch-Technik-Organisation wie in jedem Technologie-Einführungsprozess entscheidend.

Basierend auf den Erkenntnissen des Vergleichs entwickeln die Koautoren Claudia Dukino und Damian Kutzias vom Fraunhofer IAO gemeinsam mit zahlreichen Unternehmen ein integriertes Vorgehensmodell im Rahmen des vom Bundesministerium für Arbeit und Soziales (BMAS) geförderten Projekts KI-ULTRA.

Literaturverzeichnis

[1] Gupta, S. (2022). 5 Reasons Why 78% Machine Learning Projects Fail. ML4Devs Newsletter Issue 8. [Online]. Verfügbar: https://www.ml4devs.com/newsletter/008-why-machine-learning-projects-fail/ [Zugriff am 07.03.2023]. 

[2] Hanby, J. (2022). Software Maintenance: Understanding and Estimating Costs. LOOKFAR LABES. [Online]. Available: https://www.lookfar.com/blog/2022/01/12/software-maintenance-understanding-and-estimating-costs/ [Zugriff am 07.03.2023].

[3] Kutzias, D.; Dukino, C.; Kötter, F. and Kett, H. (2023). Comparative Analysis of Process Models for Data Science Projects. In Proceedings of the 15th International Conference on Agents and Artificial Intelligence - Volume 3: ICAART, ISBN 978-989-758-623-1; ISSN 2184-433X, pages 1052-1062.

Blog von Prof. Dr. Falko Kötter