top of page
HP_CDO_755x120_bea.jpg

Quantität bedeutet bei Daten nicht automatisch auch Qualität

  • michaeldvorak30
  • 26. Sept. 2025
  • 3 Min. Lesezeit

Aktualisiert: 15. Nov. 2025

DIO-Präsident Günther Tschabuschnig sieht die Vorstellung, dass in den Unternehmen riesige Datenmengen nur darauf warten, von KI endlich genutzt zu werden, eher Wunsch als Realität.



Foto: DIGBIZ Leader/Lisa Resatz
Foto: DIGBIZ Leader/Lisa Resatz

Während große Tech-Konzerne wie Google, Amazon oder Meta tatsächlich immense Datenpools verwalten und diese gezielt für KI-Modelle aufbereiten, sieht die Situation in Sachen Daten in traditionellen Branchen oft ganz anders aus. Oft verfügen Unternehmen zwar über große Mengen an Daten, sei es aus operativen Systemen, IoT-Sensoren oder Kundeninteraktionen, doch Quantität bedeutet nicht automatisch Qualität. Etliche Unternehmen stehen vor der Herausforderung, dass ihre Datenhistorie entweder unvollständig ist oder dass sie nie mit dem Ziel gesammelt wurde, für KI-Anwendungen genutzt zu werden. Das bedeutet, dass bestehende Daten oft lückenhaft, unstrukturiert oder nicht annotiert sind – was sie für viele Machine-Learning-Modelle zunächst unbrauchbar macht.


Häufig sind diese Daten in unterschiedlichen Formaten gespeichert, es fehlen Metadaten zur Kontextualisierung, oder sie sind schlichtweg inkonsistent, beispielsweise weil unterschiedliche Systeme dieselben Felder unterschiedlich befüllen. In der DIO bieten wir dazu eine eigene Arbeitsgruppe an – schauen Sie doch mal vorbei.


Noch komplexer wird es, wenn Daten über längere Zeiträume gesammelt wurden, aber keine durchgängigen Standards eingehalten wurden. Historische Daten können Lücken, Fehler oder sogar systematische Verzerrungen enthalten. Besonders in Branchen mit komplexen Lieferketten oder stark regulierten Umfeldern – wie der Gesundheitsbranche oder der Auto-mobilindustrie – kann dies dazu führen, dass Daten für analytische oder KI-basierte Anwendungen unbrauchbar werden. 


Datenqualität ist eine übergreifende, organisatorische Herausforderung

Datenqualität ist deshalb nicht nur eine technische Frage, sondern auch eine organisatorische Herausforderung. Es braucht klare Verantwortlichkeiten, abgestimmte Prozesse und intelligente Technologien zur Datenbereinigung. Ohne ein solides Fundament aus qualitativ hochwertigen Daten wird selbst die beste KI keine sinnvollen Ergebnisse liefern.


Es ist zwar nachvollziehbar, dass Fachbereiche als Datenlieferanten in der Verantwortung stehen, aber es wäre zu kurz gedacht, ihnen allein die Schuld für schlechte Datenqualität zu geben. Tatsächlich zeigt sich in vielen Unternehmen, dass die Datenqualität ein organisationsübergreifendes Thema ist, das nicht auf eine einzelne Abteilung abgeschoben werden kann. Fachbereiche nutzen und erzeugen Daten, das stimmt. Sie haben das notwendige Domänenwissen, um Inhalte zu interpretieren und Unstimmigkeiten zu erkennen. Doch sie sind in der Regel nicht für die systematische Datenhaltung oder für komplexe Datenverarbeitungsprozesse verantwortlich. Diese Aufgabe müsste viel stärker von einer unternehmensweiten Data Governance getragen werden..


Hybride Strategie als Lösung


Eine nachhaltige Lösung wäre, die Verantwortung klarer aufzuteilen: Die IT-Abteilung sollte die technischen Rahmenbedingungen und Automatisierungen bereitstellen, während Data Stewards und Governance-Teams sicherstellen, dass Qualitätsstandards eingehalten werden. Unternehmen, die bereits erfolgreich datengetrieben arbeiten, setzen zunehmend auf zentrale Data Offices oder Chief Data Officers, die diese strategische Rolle übernehmen.

Die beste Strategie ist ein hybrider Ansatz: Fachbereiche sollten befähigt werden, Daten in hoher Qualität zu liefern, aber es braucht übergreifende Mechanismen, um Datenqualität langfristig zu sichern. Nur so lassen sich konsistente, verlässliche und nutzbare Datenbestände aufbauen.


Es gibt zudem auch oft rechtliche oder ethische Hürden. Datenschutzbestimmungen wie die DSGVO oder branchenspezifische Compliance-Regeln schränken die Nutzung von Daten stark ein. Selbst wenn Unternehmen über Daten verfügen, dürfen sie diese nicht immer so verarbeiten, wie es für eine KI-Trainingspipeline nötig wäre.


Dennoch gibt es Wege, um auch mit begrenzten Daten KI sinnvoll einzusetzen. Methoden wie Transfer Learning, synthetische Datengenerierung oder föderiertes Lernen ermöglichen es, mit weniger Daten auszukommen oder alternative Wege der Datenverarbeitung zu nutzen. Entscheidend ist, dass Unternehmen realistische Erwartungen an ihre Datenbasis haben und nicht darauf warten, dass „genug“ Daten vorhanden sind, bevor sie mit KI-Experimenten starten.


Ein Gastbeitrag von Günther Tschabuschnig




Kommentare


bottom of page