Künstliche Intelligenz + menschliches Know-how = ein Tag im Leben eines Data Scientists

von Björn Heinen
Headerbild: spainter_vfx/shutterstock.com

Ein Interview mit Björn Heinen, Senior Data Scientist bei INFORM.

Die Bedeutung von Künstlicher Intelligenz und die damit verbundene Datenmenge nimmt rasant zu. Dementsprechend werden auch einige Berufe in Zukunft zunehmend an Bedeutung gewinnen. Dazu gehört auch der Job „Data Scientist“, seine Fähigkeiten werden zurzeit in nahezu allen Branchen gesucht. In den vergangenen zwei Jahren gab es laut der Jobplattform Joblift 64.173 offene Stellen. Verglichen mit dem Vorjahreszeitraum stieg die Nachfrage nach Data Scientists innerhalb der letzten zwölf Monate um 23 Prozent an.

Wir haben einen Data Scientist bei INFORM gefragt, was seinen Beruf und seine tägliche Arbeit für ihn besonders macht.

Wer bist Du? Kannst Du Dich kurz vorstellen?

Mein Name ist Björn Heinen. Ich bin Belgier, wohne aber schon seit 10 Jahren in Deutschland. Ich habe in Aachen Informatik studiert und bevor ich bei der INFORM angefangen habe, habe ich in einem Unternehmen gearbeitet, das Lösungen für automatisierte Sprachanalyse mittels Machine Learning anbietet - übrigens auch ein rasant wachsender Markt.

Welche Ausbildung hast du gemacht?

Ich habe einen Master in Informatik an der RWTH gemacht und mich komplett auf das Thema Data Science spezialisiert. Damals hieß es noch Data Mining.

Ganz ohne Denglisch – was ist die Aufgabe eines Data Scientists?

Es sind viele verschiedene Aufgaben. Die vielleicht wichtigste Aufgabe ist es, Fälle zu erkennen und auszuarbeiten, in denen man mit datengetriebenen Vorhersagen bestehende Probleme lösen kann. Sprich: Gibt es beispielsweise in meinem Planungssystem unpräzise Schätzwerte, die zu einer ungenauen Planung führen? Wenn ja, haben wir eine Historie, welche die tatsächlichen Werte, die IST-Werte beinhaltet?

Nachdem der Data Scientist zusammen mit dem Kunden das Konzept ausgearbeitet hat, geht es an die Datenaufbereitung. Das heißt, dass zum Beispiel Daten aus unterschiedlichen Systemen konsolidieret, bereinigt und mit weiteren Informationen angereichert werden. Viele Menschen unterschätzen den Aufwand, den dieser Schritt kostet. Je nachdem wie kompliziert die bestehende Datenbasis ist, kostet dieser Prozess gerne 50%-80% der gesamten Projektzeit. Und diesen Aufwand ist dieser Schritt auch wert. Algorithmen können nur dann gut mit Daten arbeiten, wenn diese sozusagen perfekt für sie „vorgekaut“ wurden. Berücksichtigt man beispielsweise fehlerhafte Daten nicht in der Vorbereitung, können auch die Algorithmen nicht erfolgreich arbeiten.

Anschließend geht es erst an den eigentlichen Data Science-Teil. Vereinfacht gesprochen wird hier mittels Algorithmen verstecktes Wissen aus den Daten extrahiert. Je nachdem, welche Form von Projekt durchgeführt wird, wird entweder Wissen extrahiert, das direkt für den Menschen verständlich ist, oder es werden mathematische Modelle berechnet, die später in ein bestehendes System eingebettet werden und dann Vorhersagen generieren.

Zwei Beispiele helfen hier zur Veranschaulichung. Ein Projekt, in dem verständliches Wissen generiert wird, ist ein Analyse-Projekt für einen großen Modehändler. Diesen interessiert, welchen Einfluss Faktoren wie Marken, Produkteigenschaften, saisonale Effekte, Kundeneigenschaften zum Beispiel auf Rückgabe- oder Wiederkehrraten haben.

Für die mathematischen Modelle ist unsere Produktionsplanungssoftware FELIOS ein Beispiel. Mittels eines auf Historiendaten basierenden mathematischen Modells prognostiziert man für diese Software für jede offene Bestellung eine Lieferzeit, die präziser ist, als die Schätzung beziehungsweise Bestätigung, die der Lieferant gibt. Diese Beispiele geben natürlich nur einen kurzen Überblick über die Aufgaben eines Data Scientists. Wichtig sind natürlich auch die korrekte Evaluation der Resultate, das Verfügbarmachen der Ergebnisse, und vieles mehr.

Woran arbeitest du gerade?

Zurzeit arbeite ich an vergleichsweise vielen Proof-of-Concept-Projekten. Solche Projekte führt man durch, wenn man für ein komplexes Machine Learning-Projekt ein Konzept ausgearbeitet hat und prüfen möchte, ob die bestehende Datenbasis gut genug ist, um das angegangene Problem zur Zufriedenheit aller Beteiligten lösen zu können. Man führt einen Teil der Schritte wie zum Beispiel die Datenkonsolidierung durch, lässt aber spätere Schritte, wie die Einbettung ins Kundensystem erstmal außen vor. So kann man mit überschaubarem Aufwand prüfen, ob die Daten auch wirklich den Mehrwert hergeben, den man sich von ihnen verspricht.

Konkret arbeite ich gerade an einer Anomalieerkennung für einen Chemiepark. In diesem Chemiepark stehen über mehrere Quadratkilometer dutzende Gebäude, die alle teils toxisches Abwasser produzieren, das in eine gemeinsame Kanalisation läuft und anschließend geklärt wird. Das Problem ist, dass in Unternehmen ein Prozess hin und wieder anders ablaufen kann als vorgesehen und es bis dato keinen automatisierten Weg gibt, solche Besonderheiten zu entdecken. Pumpt beispielsweise ein Unternehmen gerade deutlich mehr Abwasser ab als gewöhnlich, weil es stark nachspülen muss? Kommt gerade viel mehr Abwasser mit einem hohen pH-Wert an als gewöhnlich, so dass die Kläranlage einen Schaden nehmen könnte? Diese Überwachungsprozesse gibt es natürlich schon, aber sie geschehen noch manuell. Daher gibt es zum einen nur wenige Wissensträger im Unternehmen, die sie ausführen können. Zum anderen besteht das Risiko, dass man eine Anomalie später bemerkt, als die Daten es eigentlich verraten könnten. Diese Überwachung zu automatisieren, erleichtert also nicht nur die Arbeit aller Beteiligten, sondern erlaubt auch früher Gegenmaßnahmen einzuleiten.

Der Mitarbeiter wird also überflüssig?

Überhaupt nicht, ihre Arbeit wird nur leichter, beziehungsweise haben sie jetzt Zeit, sich auf wichtigere Probleme zu konzentrieren. Nehmen wir nochmal das Beispiel des Industrieparks: Das System erkennt zwar die Anomalie, aber interpretieren und beurteilen muss sie immer noch ein Mensch. Letzten Endes weiß nur der Mitarbeiter, ob ein Problem aufgetreten ist oder ob das Unternehmen an diesem Tag einfach nur einen neuen Prozess für ein neues Produkt testet. Und nur ein Mensch kann dann mit seinem Wissen beurteilen, ob und welche Gegenmaßnahmen ergriffen werden müssen. Das System erspart jedoch dem Mitarbeiter, konstant auf die Visualisierung aller möglichen Messwerte schauen zu müssen.

Was macht dir an deinem Aufgabenfeld besonders Spaß?

Die Abwechslung und die Tatsache, dass ich hier echte Probleme lösen kann. Meine aktuellen Projekte kommen aus dem Anlagen- und Maschinenbau, dem Banken- und Versicherungsbereich, der Bodenplanung von Flughäfen, dem Onlinehandel und an einem Forschungsprojekt in der Biomedizin bin ich auch beteiligt. Einen vielfältigeren Beruf kann ich mir kaum vorstellen.

Was schätzt du besonders an deiner Arbeit bei INFORM?

Ich hatte nie Interesse daran, für einen Konzern zu arbeiten. Da entscheidet die Politik meist mehr als die Idee, die auf dem Tisch liegt. Außerdem arbeitet man da oft jahrelang am selben Datensatz. Gleichzeitig produzieren kleinere Unternehmen oft zu wenig Daten, als dass sich eine Data Science-Abteilung lohnen würde. Die INFORM ist aber von Natur her ein datengetriebenes Unternehmen, da für alle INFORM-Produkte Daten die Grundlage sind. Das heißt, dass es meist große Datenschätze aus ganz unterschiedlichen Branchen gibt. Hinzukommt, dass die lange Kundenliste der INFORM mich in die Lage versetzt, auch spannende externe Projekte zu beraten. Diese Kombination ist sehr selten und für mich perfekt. Davon abgesehen sind das Arbeitsklima und die Gestaltungsfreiheit hier sehr angenehm.

Wie hast du das erste Mal von INFORM gehört und warum hast du dich für INFORM entschieden?

Gehört habe ich den Firmennamen mehrfach während des Studiums, aber richtig auf dem Schirm hatte ich das Unternehmen erst, nachdem der Sohn eines INFORM-Mitarbeiters in meinem vorherigen Unternehmen ein Praktikum absolviert hat. Bei seinen Erzählungen hörte ich heraus, dass ich dort viel Abwechslung und Gestaltungsfreiheit haben würde. Diese Faktoren hatten und haben bei mir eine hohe Priorität.

Was war einer deiner besten Arbeitsmomente?

Es bereitet mir immer viel Freude, wenn ich eine Präsentation zum Thema Machine Learning gebe, sei es eine Ergebnispräsentation beim Kunden oder eine Übersichtspräsentation bei einem unserer Partner, und im Anschluss Zuhörer auf mich zukommen und glücklich erzählen, dass sie jetzt endlich verstehen, worum es eigentlich bei dem Thema geht. Das passiert erschreckend häufig, da viele zwar die Buzzwords wie Artificial Intelligence oder Machine Learning aus den Medien kennen, aber sie in keinen Bezug zu ihrem Arbeitsalltag setzen können. Ob Googles Deepmind im nächsten Brettspiel einen Großmeister besiegt hat, interessiert den Produktionsleiter meist nicht, wenn seine Produktion im Verzug ist. Versteht er hingegen, dass das ein Problem ist, das man mit Machine Learning zumindest lindern kann, dann wird das Thema plötzlich greifbar. Diesen Prozess anzutreiben, macht immer sehr viel Spaß.



Diese Beiträge könnten Sie auch interessieren

MINT-Ausbildung - Die Freude am Entdecken zum Beruf machen

Lesen

Klausurtagung in der Eifel: Arbeiten abseits des Büroalltags

Lesen

MATSE – Wer ist das eigentlich?

Lesen

Über den Autor

  • Björn Heinen

    Björn Heinen arbeitet seit 2017 als Senior Data Scientist bei INFORM. Er beschäftigt sich sowohl mit internen Projekten, bei denen bestehende INFORM-Produkte um Machine-Learning-Funktionalitäten erweitert werden, als auch mit externen Projekten, die er von der Ausarbeitung über die Implementierung bis zur Integration begleitet.

    Alle Beiträge dieses Autors

    Mehr über diesen Autor unter:

Unsere Autoren

Finden Sie alle unsere Autoren auf einen Blick!

Alle Autoren

Nach oben