Wie man mit Data-Science-Workshops zum konkreten Projekt kommt

Um Projekte rund um Machine Learning und KI voranzubringen, gilt es einige Hürden zu nehmen. Erste Ideen müssen entwickelt und auf ihre Tauglichkeit für KI-Technologien geprüft, die vorhandene Datenlage ausgelotet werden. Ideation und Scoping Workshops helfen dabei, konkrete Proofs of Concept zu definieren und tragfähige Minimum Viable Products zu gewährleisten.

 „Oft gibt es in Unternehmen viele Ideen mit Blick auf Machine Learning und KI – aber wenig Klarheit darüber, ob die unterliegenden Technologien wirklich dafür passen und welche Methode sich im speziellen Fall jeweils eignet“, berichtet Dr. Olivia Lewis, Head of Data Science bei The unbelievable Machine Company. Häufig wird für KI- und Machine-Learning-Projekte sehr spezielles Know-how der Data Scientists benötigt. Die *um Spezialisten haben bereits Lösungen für führende Unternehmen unter anderem aus der Autoindustrie, Chemie, Finance und Logistik entwickelt. „Abhängig von der Komplexität dauern Proof-of-Concept-Vorhaben zwischen drei Monaten und einem Jahr“, ergänzt die Data-Science-Expertin. Oft sei ein schrittweises Vorgehen sinnvoll. Durch die Umsetzung auf Basis von agilen Prozessen bleibt der Weg transparent und nachvollziehbar. 

Doch zunächst geht es darum, überhaupt einen tragfähigen Use Case zu finden. Hier lohnt es sich meist, an Stellen anzusetzen, an denen der Schuh besonders drückt: Zum Beispiel bei Problemen oder Schwachstellen, die immer wieder stören. Dabei kann der Fokus je nach Herausforderung auf unterschiedlichen Bereichen liegen, wie Predictive Maintenance, Bilderkennung, Natural Language Processing (NLP) oder Optical Character Recognition (OCR).

Ideation Workshop: Use Cases finden und in einer Roadmap priorisieren

Wenn noch Unklarheit besteht, was sich mit neuen Methoden der Datenanalyse überhaupt erreichen lassen könnte, hilft der zweitägige Ideation Workshop. Zwei Data Scientists von *um helfen vor Ort beim Kunden dabei, Ideen zu generieren und Use Cases auf ihre Machbarkeit, ihre Komplexität und ihr Wertschöpfungspotenzial aus Business-Sicht hin zu bewerten. „Dafür gehen wir im Brainstorming durch verschiedene Phasen, um uns von allen vorgefassten Annahmen zu lösen und auch scheinbar erst einmal verrückte Ideen zuzulassen“, berichtet die Datenwissenschaftlerin.  Im Vordergrund steht beim Workshop, eine ganz konkrete Fragestellung zu formulieren, die zeitnah angegangen werden kann. Dafür werden die Ideen in Use-Case-Pakete zusammengefasst und priorisiert. 

Die Datenexperten analysieren, wie schwierig deren Umsetzung wäre, welche problematischen Punkte es geben könnte, welche sensiblen Daten involviert sind und welche Ansprechpartner im Team dabei sein sollten. So entsteht eine Matrix von Use Cases mit ersten Informationen zu den erwarteten Inputs und Outputs, Daten und Variablen. Auf dieser Basis wird dann ein Ranking erstellt, um den besten Use Case für den Einstieg zu finden. Die erfahrenen Data Scientists zeigen neben den nötigen Vorarbeiten auch die Abhängigkeiten zwischen den Einsatzszenarien auf, die für eine Festlegung der Reihenfolge relevant sind. 

Es geht aber auch um ein besseres Verständnis, wie KI-Methoden funktionieren. „Oft haben die Ansprechpartner in Unternehmen die Vorstellung, dass man eine Formel entwickelt, um eine bestimmte Output-Variable zu beschreiben. Es ist allerdings wichtiger, sich von Formel- und regelgetriebenen Ideen zu lösen und eine statistische Herangehensweise zu wählen“, stellt Olivia Lewis fest. Anstatt also eine Formel zu ersinnen, würde man die Daten labeln und den Algorithmus darauf trainieren, dass er beispielsweise selbst zu unterscheiden lernt, wann ein Gerät funktionstüchtig oder kaputt ist. 

Scoping Workshop: Startklar für einen konkreten PoC

Um konkret ein Projekt oder einen Proof of Concept anzustoßen, gehen zwei *um Data Scientists vor Ort mit Workshop-Teilnehmern einem Use Case einen Tag lang auf den Grund. Es ist zunächst zu verstehen, was anhand der vorhandenen Daten umsetzbar ist. Auch hier gilt es, die Offenheit für weitere neue Anregungen zu bewahren. Sinnvollerweise werden die Daten, um die es geht, den Experten schon im Vorfeld für eine Prüfung zur Verfügung gestellt. Ganz wichtig dabei: Die Daten sollten nicht nur Nischeneffekte zeigen, sondern Beispiele für unterschiedliche Zustände wie „gut“, „medium“, „funktionsunfähig“. Dafür ist ein sogenannter „repräsentativer Beispieldatensatz“ notwendig. Er sollte – wenn möglich – alle existierenden Datenphänomene in der relativen Menge beinhalten, genau so, wie sie auch im Originaldatensatz auftreten. Damit will man vermeiden, dass nur ein Auszug fehlerfreier Daten als Beispiel geliefert wird, obwohl vielleicht der Großteil der Originaldaten fehlerhaft ist. Auf einer solchen Basis ließe sich die mögliche Umsetzung von Use Cases nicht korrekt einschätzen.

Die Praxis zeigt, dass häufig Daten fehlen oder dass sie ungleich gewichtet sind: Beispielsweise ist manchmal zu anonymisierten User-Daten nur die Clickrate vorhanden, über andere User hingegen liegen mehr Daten vor. Sie würden sich dann im Use Case nicht auf die gleiche Art nutzen lassen. Zudem können die Data Scientists gegebenenfalls in einer Outlier-Analyse untersuchen, wie stark die Streuung in den Daten und wie verlässlich die zugrunde liegende Datenbasis ist. Im Workshop entsteht dann ein erstes Konzept der Machbarkeitsstudie (PoC), verbunden mit einer konkreten Vorgehensweise und der Einschätzung, wie komplex das Projekt wird und welcher Zeitrahmen nötig ist. 

Für grobe Ideen lohnt sich ein kombinierter Workshop

Häufig jedoch haben Unternehmen bereits von Anfang an eine grobe Umsetzungsidee. In diesem Fall lassen sich Ideation und Scoping auch in einem kombinierten zweitägigen Workshop verbinden. Dennoch sollten auch hier die Daten schon für eine Vorprüfung vorliegen. Im Hybrid-Workshop wird nicht von Null mit der Ideation-Phase anfangen, sondern die Idee nach einer kurzen Brainstorming-Phase konkretisiert. „Auch hier kommt es darauf an, noch einmal offen in die Ideenfindung zu gehen. Häufig kommen so doch noch wichtige Anregungen zusammen“, stellt Olivia Lewis fest. Mit einer bereits vorhandenen Idee lässt sich der Use Case schneller identifizieren und ausarbeiten – so kann schon am zweiten Tag in die Scoping-Phase übergegangen werden. Ergebnis des kombinierten Workshops sind dann ebenfalls eine Roadmap und eine Abschätzung, wie komplex und zeitaufwendig sich der Proof of Concept gestalten wird.

Dr. Olivia Lewis, Head of Data Science bei The unbelievable Machine Company

This post is also available in: Englisch