inform blog

COMPUTER VISION: USE CASES SOWEIT DAS ELEKTRONISCHE AUGE REICHT

09.05.2022 // Max Uppenkamp

Wer wünscht sich nicht manchmal ein drittes Auge, das den 3D-Drucker, den Hund im Garten, oder vielleicht auch nur den Kuchen im Ofen im Auge behält? Ein Kollege fragte mich vor einiger Zeit sogar, ob eine Künstliche Intelligenz (KI) nicht sogar automatisch seine Katzenklappe verriegeln könnte, wenn seine Katze eine Maus anschleppt. Damals musste ich ihn leider enttäuschen, mittlerweile bin ich aber deutlich optimistischer, was die Fähigkeiten, und vor allem die Praxistauglichkeit von Computer-Vision-Modellen betrifft.
Die beeindruckenden Fortschritte der letzten Jahre erlauben nicht nur den Einsatz stärkerer Modelle auf schwächerer Hardware, sondern reduzieren außerdem stark den mit dem Trainingsvorgang verbundenen Aufwand. Dementsprechend hat das Thema Bildverarbeitung, und im speziellen die Objekterkennung, für unser INFORM DataLab erheblich an Bedeutung gewonnen. Im Rahmen der Machine-Learning-Studie vom INFORM DataLab zusammen mit der Computerwoche, IDG Research Services und Lufthansa Industry Solutions spiegelt sich dieser Trend sehr deutlich wider. Daher möchte ich einige dieser Ergebnisse aufzeigen und in Kontext setzen.

STUDIENERGEBNISSE: INTELLIGENTE BILDVERARBEITUNG GEWINNT AN BEDEUTUNG

Schauen wir uns beispielsweise die Top 5 für umgesetzte Machine-Learning- und KI-Projekte an, bieten alle genannten Use Cases – abgesehen von Supply-Chain-Optimierung großes Potential für Computer-Vision-Applikationen (53.8% Qualitätssicherung in Produktion, 43.8% Fehlerreduzierung, 40.2% Prozessautomatisierung, 36.7% Automatisierte Vorgangsbearbeitung).

Hier ein paar Ideen:

Qualitätssicherung: Defekterkennung auf Röntgenaufnahmen von Schweißnähten
Fehlerreduzierung: Detektion von fehlerhaft durchgeführten Arbeitsgängen
Prozessautomatisierung: Lokalisierung von Früchten für Ernte-Robotik
Vorgangsbearbeitung: Automatisierte Klassifikation von Schadensbildern im Versicherungswesen

Wenn es also nicht an Anwendungsfällen mangelt, und noch dazu ca. 37% der Studienteilnehmer angeben, die automatisierte Bildanalyse bereits in KI- und ML-Projekten einsetzen und 22% deren Einsatz bei zukünftigen Projekten plant: Was genau verzögert dann die flächendeckende Adoption dieser Technologie?

BILDVERARBEITUNG VS BILDVERARBEITUNG

Die Idee einer automatisierten Erkennung von Objekten in Bildern ist alles andere als neu. Im direkten Kundenkontakt höre ich regelmäßig von persönlichen Erfahrungen mit dem Thema Bildverarbeitung, die oft Jahrzehnte zurückliegen und die meist bestenfalls in durchwachsener Erinnerung geblieben sind. Logischerweise wird dem Thema Computer Vision dadurch oft mit einer gesunden Portion Zurückhaltung begegnet. An dieser Stelle kann ich gar nicht deutlich genug machen, wie wenig moderne Deep-Learning-Methoden mit der klassischen, feature-basierten Objekt-Lokalisierung gemein haben.
Stellen wir einmal die beiden Herangehensweisen am Beispiel der Fahrzeugerkennung gegenüber, die vor allem im Bereich des autonomen Fahrens zur Anwendung kommt: In der klassischen Bildverarbeitung verwendet ein Experte sehr viel Zeit darauf, zu definieren, was ein Fahrzeug ist, bzw. wodurch es sich in seiner wieder erkennbaren Geometrie auszeichnet. Dabei gilt es, die Definition so generisch und robust wie möglich zu halten, um eine möglichst große Vielfalt von Modellen abzudecken. Hierbei ist nie garantiert, dass der resultierende Algorithmus auch bei Störeinflüssen wie zum Beispiel abweichenden Belichtungsverhältnissen korrekt agiert.
Für das Training eines erheblich leistungsfähigeren Deep-Learning-Modells ist es hingegen ausreichend, eine Reihe von Fahrzeug-Bildern mit sogenannten „Bounding Boxes“ zu annotieren. Auf gut Deutsch heißt das, dass mit der Maus ein Kasten um die in den Bildern erkennbaren Fahrzeuge gezeichnet wird – eine Arbeit, die keine besonderen Kenntnisse erfordert. Wie viele Bilder auf diese Weise bearbeitet werden müssen, hängt ganz von der Komplexität des Anwendungsfalls ab. Üblich sind Mengen von 300 bis einigen Tausend Bildern, wobei anzumerken ist, dass die Forschung in der jüngeren Vergangenheit stark an der Verringerung dieser Zahlen arbeitet. Tatsächlich reichen in den jüngsten Modellen oft bereits ein Dutzend Bilder für ein robustes Modell, was den Trainingsaufwand erheblich reduziert.

COMPUTER VISION WIRD AGIL

Dieser Wandel der Technologie bringt auch eine neue Art des Umgangs mit und der Herangehensweise von Computer-Vision-Projekten mit sich.
Ein „durchschnittliches“ Computer-Vision-Projekt kann mittlerweile innerhalb von wenigen Wochen realisiert werden. Hierbei entfällt immer noch ein Großteil der Zeit auf die Erhebung und Vorverarbeitung von Bildmaterial. Denn es gilt ein möglichst repräsentatives Sample der Realität zu generieren. In der Praxis heißt das, dass wiederholt und unter wechselnden Bedingungen Bildmaterial aufgenommen werden muss. Sobald ein zufriedenstellendes Dataset zustande gekommen ist, kommen Supersampling Methoden zum Einsatz, die aus den vorliegenden Bildern intelligent weitere Trainingsbilder generieren, beispielsweise durch Rotation, Projektion oder simple Spiegelung. Auf Basis des dadurch erweiterten Datasets wird schlussendlich ein gezielt ausgewähltes Modell trainiert.
So weit, so gewöhnlich.
Im Unterschied zur klassischen, feature-basierten Objekterkennung bleibt diese Lösung aber weiterhin plastisch. Sollten sich Gegebenheiten ändern oder Randfälle auftun, die das System nicht abdeckt, kann hier durch den Endanwender gezielt nachgearbeitet werden. Dieser DIY-Aspekt wird Unternehmen laut unserer Studie immer wichtiger: über 78% der Befragten geben an, zumindest teilweise bereits inhouse Machine-Learning-Lösungen zu entwickeln.
Ein derart aufgebautes System wächst und lernt kontinuierlich mit und muss nur sehr selten vollständig erneuert werden. Dieser Mechanismus erlaubt es uns außerdem, Lösungen in iterativen und inkrementellen Schritten zu entwickeln, vom Single-Case Proof-of-Concept bis hin zur flächendeckenden Endanwendung.

Dieser Artikel ist im Original auf dem INFORM DataLab Blog erschienen.

ÜBER UNSERE EXPERT:INNEN

Max Uppenkamp

Data Scientist

Max Uppenkamp ist seit 2019 als Data Scientist bei INFORM tätig. Nachdem er zuvor im Bereich Natural Language Processing und Text Mining tätig war, beschäftigt er sich nun mit der Machine-Learning-gestützten Optimierung von Prozessen. Neben der Begleitung von Kundenprojekten setzt er die gewonnenen Erkenntnisse in praxisorientierte Produkte und Lösungen um.

Alle Beiträge

Cookie	Beschreibung	Speicherdauer	Domain
cookieConsent	Technisch notwendig für den Basis-Betrieb des Systems.	1 month	.inform-software.com
cookieConsentAccepted	Technisch notwendig für den Basis-Betrieb des Systems.	1 month	.inform-software.com
Neos_Session	Technisch notwendig für den Basis-Betrieb des Systems.	Session	.inform-software.com
msd365mkttrs	Wiedererkennung von CRM-Kontakten bei der Newsletter-Anmeldung	Session	.inform-software.com
WYSIWYG_AB_TESTING	Cookie für die Speicherung von AB-Tests	1 year	.inform-software.com
__cf_bm	Unterstützung von Cloudflare Bot Management	30 minutes	.vimeo.com
LanguageCode	Speichern von Spracheinstellungen	3 month	.inform-software.com

Cookie	Beschreibung	Speicherdauer	Domain
_ga	Registriert eine eindeutige ID für einen Website-Besucher, die protokolliert, wie der Besucher die Website verwendet (Google LLC)	2 years	.inform-software.com
_ga_*	Registriert eine eindeutige ID für einen Website-Besucher, die protokolliert, wie der Besucher die Website verwendet (Google LLC)	2 years	.inform-software.com
UserMatchHistory	Dieses Cookie wird verwendet, um das Verhalten der Besucher auf der Website aufzuzeichnen	1 month	.linkedin.com
AnalyticsSyncHistory	Speichert und verfolgt Besuche über Websites hinweg.	1 month	.linkedin.com

Cookie	Beschreibung	Speicherdauer	Domain
li_gc	Cookie von LinkedIn zum Speichern der Zustimmung der Besucher zur Verwendung von Cookies für nicht wesentliche Zwecke	6 months	.linkedin.com
VISITOR_INFO1_LIVE	Mit diesem Cookie kann Youtube die Bandbreitennutzung überprüfen	6 months	.youtube.com
vuid	Cookie von Vimeo für den Videoplayer	2 years	.vimeo.com

Cookie	Beschreibung	Speicherdauer	Domain
msd365mkttr	Cookie zur langfristigen Verhaltensanalyse. Das Cookie enthält keine personenbezogenen Daten, identifiziert jedoch einen bestimmten Browser auf einem bestimmten Computer eindeutig, und Dynamics 365 Marketing kann ihn verwenden, um diese ID mit einem tatsächlichen Kontakt in der Dynamics 365 Marketing-Datenbank zu korrelieren.	2 years	.inform-software.com
_fbp	Dieser Cookie wird von Facebook zu Werbezwecken und für das Conversion-Tracking verwendet (Meta Inc).	3 months	.inform-software.com
_gcl_au	Dieses Cookie wird von Google Adsense für Versuche mit websiteübergreifender Werbung gesetzt.	3 months	.inform-software.com
bcookie	Cookies von LinkedIn, die von Teilen-Schaltflächen und Werbetags verwendet werden.	1 year	.linkedin.com
bscookie	Cookie von LinkedIn, das von Share-Buttons und Werbe-Tags verwendet wird	1 year	.linkedin.com
li_sugr	Cookies von LinkedIn, die von Teilen-Schaltflächen und Werbetags verwendet werden.	3 month	.linkedin.com
lidc	Cookies von LinkedIn, die von Teilen-Schaltflächen und Werbetags verwendet werden.	1 day	.linkedin.com
YSC	Registriert eine eindeutige ID, um Statistiken darüber zu speichern, welche Videos von YouTube der Nutzer gesehen hat.	Session	.youtube.com