inform blog

DATEN SAMMELN, UM MEHRWERTE ZU SCHAFFEN – ABER WIE? - TEIL 2

12.08.2019 // Björn Heinen

Teil 1: Die Datenhaltung (was wird gespeichert?)

Im ersten Teil der Blog-Reihe bin ich darauf eingegangen, unter welchen Umständen welche Daten in Unternehmen gespeichert werden. Diese Faktoren haben aber natürlich nicht nur einen Einfluss darauf, was gespeichert wird, sondern auch wie es gespeichert wird. Traditionell werden keine Daten gespeichert und gepflegt, die keinen direkten Nutzen haben. Wenn etwas für einen gewissen Zweck gespeichert wird, dann eben nur genau für diesen. Hier ein Beispiel: Eines unserer Consulting-Projekte hat sich mit der Analyse von Sensordaten eines Kanalsystems beschäftigt. Diese Daten sollten auf Ausreißer hin untersucht werden, um festzustellen, ob Aktionsbedarf besteht, wenn beispielsweise plötzlich viel mehr oder stärker säurehaltiges Abwasser durch einen Kanal fließt als gewöhnlich. Die Daten wurden bereits seit Jahren gespeichert, da die Informationen für Audits und retrospektive Untersuchungen genutzt werden. Als wir jedoch mit der Entwicklung des Algorithmus zur Anomalieerkennung begonnen, fiel schnell auf, dass die Daten fehlerbehaftet waren. Regelmäßig gab es Abwassermengen von Millionen Litern pro Stunde oder Abwassertemperaturen wärmer als die Sonne. Es stellte sich heraus, dass die Datenzuverlässigkeit nur zu Zeiten von Audits gegeben war. Den Rest der Zeit wurden zwar alle Sensorwerte gespeichert, aber es wurde nicht geprüft, ob sie zum Beispiel jenseits des physikalisch Sinnvollen waren, da der instantane Mehrwert einfach nicht gegeben war.

Kriterien für eine hohe Datenqualität

Was sind also Kernkriterien für eine hohe Datenqualität? Neben vielen kleinen Faktoren sind es hauptsächlich folgende drei: Korrektheit, Vollständigkeit und Verarbeitbarkeit der Daten. Fangen wir mit der Verarbeitbarkeit an. Es ist nicht zielführend, alle Informationen in der gesamten Unternehmensgeschichte hunderprozentig korrekt zu speichern, wenn hierfür nur Word-Dokumente und hochkomplexe Excel-Sheets in einer kunterbunten Ordnerstruktur genutzt wurden, die der Ersteller zwei Monate später selbst nicht mehr versteht. Gleiches gilt für die Aufzeichnung von Maschinendaten per Kamera, wie im ersten Beitrag der Reihe beschrieben. Es gilt stattdessen Datenbanken, Data Warehouses, Data Lakes, ERPs, kurz datenführende Systeme, mit Bedacht zu wählen und füllen. Damit kommen wir zur Vollständigkeit und Korrektheit: Wird ein Wert nicht aufgezeichnet, kann er später auch nicht für Analysen und Vorhersagen genutzt werden. Das bedarf keiner großen Erklärung, muss nur frühzeitig bedacht werden. Haben wir den Wert nun, muss er auch zuverlässig sein. Finden wir also einen Wert für eine Abwassermenge im System, müssen wir uns sicher sein können, dass er der Realität entspricht. Hat ein Mitarbeiter eine bestimmte Dauer für einen Arbeitsgang rückgemeldet, muss diese Dauer zuverlässig sein und so weiter.

Hindernisse für eine hohe Datenqualität

Es geht also bei der Korrektheit von Daten weniger um die Frage, was Datenqualität ausmacht als um die Frage, welche Hindernisse sich ihr üblicherweise stellen. Platz eins in dieser Liste nimmt zweifelsfrei die manuelle Bearbeitung ein. Immer, wenn Daten manuell eingegeben werden, werden sie teilweise falsch eingegeben. Das ist weniger eine Faustregel als es ein Naturgesetz. Wo also eine manuelle Eingabe durch eine automatisierte oder wenigstens teilautomatisierte ersetzbar ist, sollte dies um beinahe jeden Preis getan werden. Für diejenigen, die sich hier nicht sicher sind: Jeder Arbeitsschritt, der Excel beinhaltet, ist ohne Zweifel manuell – unabhängig von der Anzahl genutzter Makros. Weitere Faktoren für Datenunreinheiten sind beispielsweise die Verkennung des Mehrwerts der Daten auch außerhalb des eigenen Tätigkeitsbereichs, abweichende Definitionen und Defekte.

Wenn in unserem Beispiel der Abwasseranlage der Sensor Schaden nimmt, dann gibt es für einen gewissen Zeitraum keine korrekten Werte - daran lässt sich nichts ändern. Es lohnt sich aber diesen Zeitraum auf ein Minimum zu reduzieren, indem beispielsweise ein Grenzwert-Monitoring genutzt wird, das auf Sinnhaftigkeit der Werte prüft, oder die Durchführung manueller Stichproben. Hinzu kommt ein Feld in der Datenbank, das invalide Einträge als solche kennzeichnet (wenn man z.B. herausfindet, dass der Sensor gestern kaputtgegangen ist, markiert man den entsprechenden Zeitraum als ungültig) und im Handumdrehen hat man eine korrekte Historie und verlässliche Live-Daten. In Sachen Datenqualität gilt es natürlich einen Trade-Off zu finden, der die Komplexität der korrekten Abbildung der Daten dem Aufwand dafür entgegenstellt. Kostet es jeden Mitarbeiter in der Fertigung jeden Tag 30 Minuten, perfekt zu dokumentieren, was im Laufe des Tages passiert ist, fördert man damit nur die Kreativität der Mitarbeiter diesen Eingabeprozess zu verkürzen – Präzision hin oder her. Um diesen Trade-Off zwischen Korrektheit, Vollständigkeit und Aufwand aber zuverlässig bestimmen zu können, braucht es die bereits erwähnte Datenstrategie, ansonsten ist die Kosten/Nutzen-Rechnung nicht möglich.

Die Datenstrategie ist das Fundament

Eine gute Datenstrategie stellt gewisse Fragen (Welche Daten werden möglicherweise in der Zukunft gebraucht? Welche Datenquellen gibt es? Wie werden die Daten gespeichert? Welche Maßnahmen zur Datenqualität gibt es? Welche Unternehmensbereiche arbeiten mit welchem Teil der Daten? Gibt es abweichende Definitionen/Abbildungen derselben Information?), ist aber hauptsächlich dazu da, künftig anfallende Fragen beantworten zu können. Soll ein neues System zur Betriebsdatenerfassung angeschafft werden? Sollen drei konkurrierende Systeme zur Erfassung von Kundeninformationen konsolidiert werden? Wie? Lohnt es sich, Mitarbeiter eine Datenbank mit Produkteigenschaften pflegen zu lassen?

Die Bestimmung und Festlegung einer Datenstrategie ist ein komplexer Prozess, der von Unternehmen zu Unternehmen unterschiedlich ist, eines aber gilt für alle: Es handelt sich dabei um Entscheidungen, die nicht einfach nur an die IT-Abteilung abgetreten werden können, sondern die auf höchster Ebene unter Berücksichtigung aller Stakeholder getroffen werden müssen. Ansonsten entstehen keine Anreize über Abteilungsgrenzen hinweg. Immerhin: Sie muss nicht in aller Vollständigkeit in einem einzelnen Schritt definiert werden. Eine iterative Entwicklung ist hinreichend und wesentlich einfacher realisierbar.

In den ersten beiden Teilen der Reihe sind wir auf die vollständige und korrekte Speicherung von Unternehmensdaten eingegangen. Es fehlt aber noch ein Baustein für die Nutzbarkeit der Daten: Die Datenverfügbarkeit. Darüber schreibe ich im nächsten und letzten Teil dieser Reihe.

ÜBER UNSERE EXPERT:INNEN

Björn Heinen

Lead Data Scientist

Björn Heinen arbeitet seit 2017 bei INFORM im Bereich Data Science. Als Lead Data Scientist beschäftigt er sich sowohl mit internen Projekten, bei denen bestehende INFORM-Produkte um Machine-Learning-Funktionalitäten erweitert werden, als auch mit externen Projekten, die er von der Ausarbeitung über die Implementierung bis zur Integration begleitet.

Alle Beiträge

Cookie	Beschreibung	Speicherdauer	Domain
cookieConsent	Technisch notwendig für den Basis-Betrieb des Systems.	1 month	.inform-software.com
cookieConsentAccepted	Technisch notwendig für den Basis-Betrieb des Systems.	1 month	.inform-software.com
Neos_Session	Technisch notwendig für den Basis-Betrieb des Systems.	Session	.inform-software.com
msd365mkttrs	Wiedererkennung von CRM-Kontakten bei der Newsletter-Anmeldung	Session	.inform-software.com
WYSIWYG_AB_TESTING	Cookie für die Speicherung von AB-Tests	1 year	.inform-software.com
__cf_bm	Unterstützung von Cloudflare Bot Management	30 minutes	.vimeo.com
LanguageCode	Speichern von Spracheinstellungen	3 month	.inform-software.com

Cookie	Beschreibung	Speicherdauer	Domain
_ga	Registriert eine eindeutige ID für einen Website-Besucher, die protokolliert, wie der Besucher die Website verwendet (Google LLC)	2 years	.inform-software.com
_ga_*	Registriert eine eindeutige ID für einen Website-Besucher, die protokolliert, wie der Besucher die Website verwendet (Google LLC)	2 years	.inform-software.com
UserMatchHistory	Dieses Cookie wird verwendet, um das Verhalten der Besucher auf der Website aufzuzeichnen	1 month	.linkedin.com
AnalyticsSyncHistory	Speichert und verfolgt Besuche über Websites hinweg.	1 month	.linkedin.com

Cookie	Beschreibung	Speicherdauer	Domain
li_gc	Cookie von LinkedIn zum Speichern der Zustimmung der Besucher zur Verwendung von Cookies für nicht wesentliche Zwecke	6 months	.linkedin.com
VISITOR_INFO1_LIVE	Mit diesem Cookie kann Youtube die Bandbreitennutzung überprüfen	6 months	.youtube.com
vuid	Cookie von Vimeo für den Videoplayer	2 years	.vimeo.com

Cookie	Beschreibung	Speicherdauer	Domain
msd365mkttr	Cookie zur langfristigen Verhaltensanalyse. Das Cookie enthält keine personenbezogenen Daten, identifiziert jedoch einen bestimmten Browser auf einem bestimmten Computer eindeutig, und Dynamics 365 Marketing kann ihn verwenden, um diese ID mit einem tatsächlichen Kontakt in der Dynamics 365 Marketing-Datenbank zu korrelieren.	2 years	.inform-software.com
_fbp	Dieser Cookie wird von Facebook zu Werbezwecken und für das Conversion-Tracking verwendet (Meta Inc).	3 months	.inform-software.com
_gcl_au	Dieses Cookie wird von Google Adsense für Versuche mit websiteübergreifender Werbung gesetzt.	3 months	.inform-software.com
bcookie	Cookies von LinkedIn, die von Teilen-Schaltflächen und Werbetags verwendet werden.	1 year	.linkedin.com
bscookie	Cookie von LinkedIn, das von Share-Buttons und Werbe-Tags verwendet wird	1 year	.linkedin.com
li_sugr	Cookies von LinkedIn, die von Teilen-Schaltflächen und Werbetags verwendet werden.	3 month	.linkedin.com
lidc	Cookies von LinkedIn, die von Teilen-Schaltflächen und Werbetags verwendet werden.	1 day	.linkedin.com
YSC	Registriert eine eindeutige ID, um Statistiken darüber zu speichern, welche Videos von YouTube der Nutzer gesehen hat.	Session	.youtube.com