UKA: Mit Expertise zum erfolgreichen Windparkprojekt.

English: Data Quality / Español: Calidad de Datos / Português: Qualidade de Dados / Français: Qualité des Données / Italiano: Qualità dei Dati

Datenqualität ist ein zentraler Erfolgsfaktor in der digitalen Welt und bezeichnet die Eignung von Daten, spezifische Anforderungen in Bezug auf Genauigkeit, Vollständigkeit, Konsistenz und Aktualität zu erfüllen. Ohne hohe Datenqualität sind fundierte Entscheidungen in Wirtschaft, Wissenschaft und Verwaltung kaum möglich, da fehlerhafte oder unvollständige Informationen zu falschen Schlussfolgerungen führen können.

Allgemeine Beschreibung

Datenqualität bezieht sich auf den Grad, in dem ein Datensatz den Anforderungen einer bestimmten Anwendung oder eines Prozesses gerecht wird. Sie ist kein absolutes Maß, sondern immer kontextabhängig: Was in einem Szenario als ausreichend gilt, kann in einem anderen unzureichend sein. Beispielsweise erfordert eine medizinische Diagnose andere Qualitätsstandards als eine Marktanalyse.

Die Bewertung der Datenqualität erfolgt anhand mehrerer Dimensionen, die international anerkannt sind. Dazu gehören unter anderem Genauigkeit (Korrektheit der Werte), Vollständigkeit (Vorhandensein aller erforderlichen Daten), Konsistenz (Widerspruchsfreiheit über verschiedene Datensätze hinweg), Aktualität (Zeitnähe der Daten) und Einheitlichkeit (Verwendung standardisierter Formate, z. B. SI-Einheiten wie Meter statt Fuß). Diese Dimensionen werden oft durch Metriken quantifiziert, etwa die Fehlerrate oder der Anteil fehlender Werte.

Die Bedeutung der Datenqualität hat mit der Zunahme datengetriebener Entscheidungen (z. B. durch KI oder Business Intelligence) stark zugenommen. Schlechte Datenqualität führt nicht nur zu operativen Ineffizienzen, sondern kann auch rechtliche Konsequenzen haben – etwa bei Verstößen gegen Datenschutzbestimmungen wie die DSGVO (Datenschutz-Grundverordnung der EU). Studien zeigen, dass Unternehmen jährlich Millionen durch fehlerhafte Daten verlieren, sei es durch falsche Lieferungen, ineffiziente Prozesse oder Compliance-Verstöße.

Die Sicherstellung hoher Datenqualität erfordert proaktive Maßnahmen wie Datenbereinigung (Identifikation und Korrektur von Fehlern), Datenintegration (Zusammenführung heterogener Quellen) und DatenGovernance (Rahmenwerke für Verantwortlichkeiten und Standards). Moderne Tools nutzen dabei oft Algorithmen des Machine Learning, um Anomalien automatisch zu erkennen oder fehlende Werte zu imputieren.

Dimensionen der Datenqualität

Die ISO-Norm ISO 8000-61:2021 („Data quality — Part 61: Data quality management: Process reference model") definiert sechs Kern-dimensionen, die international als Standard gelten:

Genauigkeit (Accuracy): Die Übereinstimmung der Daten mit der realen Welt oder einer vertrauenswürdigen Quelle. Beispiel: Ein gemessenes Gewicht von 75 kg sollte nicht als 75,5 kg gespeichert werden, wenn die Messgenauigkeit der Waage bei ±0,1 kg liegt.

Vollständigkeit (Completeness): Der Grad, zu dem alle erforderlichen Daten vorhanden sind. Fehlende Attribute (z. B. eine fehlende Postleitzahl in einer Kundendatenbank) mindern die Nutzbarkeit.

Konsistenz (Consistency): Widerspruchsfreiheit über verschiedene Datensätze oder Systeme hinweg. Inkonsistenzen entstehen oft durch redundante Speicherung (z. B. unterschiedliche Schreibweisen eines Namens in zwei Datenbanken).

Aktualität (Timeliness): Die Zeitnähe der Daten im Verhältnis zu ihrem Verwendungszweck. Echtzeitdaten für Börsenkurse sind kritischer als historische Klimadaten.

Einheitlichkeit (Uniformity): Die Verwendung standardisierter Formate (z. B. Datum im ISO-Format YYYY-MM-DD statt „01.12.2023" oder „Dec 1, 2023").

Glaubwürdigkeit (Credibility): Das Vertrauen in die Datenquelle und die Methoden ihrer Erhebung. Daten aus zertifizierten Messgeräten gelten als glaubwürdiger als manuelle Eingaben ohne Prüfung.

Anwendungsbereiche

  • Unternehmensführung (Business Intelligence): Hochwertige Daten sind die Grundlage für strategische Entscheidungen, z. B. in der Finanzplanung oder Marktanalyse. Fehlende Datenqualität führt hier zu falschen Prognosen und wirtschaftlichen Verlusten.
  • Gesundheitswesen: In der Medizin können fehlerhafte Patientendaten (z. B. falsche Medikamentendosierungen) lebensbedrohliche Folgen haben. Standards wie HL7 FHIR (Health Level Seven International) regeln hier die Datenqualität.
  • Öffentliche Verwaltung: Behörden nutzen Daten für Planungszwecke (z. B. Verkehrsmanagement oder Sozialleistungen). Schlechte Datenqualität führt zu Ineffizienzen oder ungerechter Ressourcenverteilung.
  • Wissenschaft und Forschung: Reproduzierbare Ergebnisse hängen von sauberen, gut dokumentierten Datensätzen ab. Fehlende Metadaten oder Messfehler gefährden die Aussagesicherheit von Studien.
  • Künstliche Intelligenz (KI): KI-Modelle lernen aus Trainingsdaten – wenn diese verzerrt („biased") oder fehlerhaft sind, reproduziert die KI diese Mängel („Garbage in, Garbage out").

Bekannte Beispiele

  • Volkszählung in den USA (2020): Probleme mit der Datenqualität (z. B. Untererfassung bestimmter Bevölkerungsgruppen) führten zu rechtlichen Auseinandersetzungen und Korrekturmaßnahmen, da die Ergebnisse politische und finanzielle Auswirkungen haben.
  • Tesla Autopilot-Unfälle: Fehlende oder falsch gelabelte Sensordaten in den Trainingsdaten der KI trugen zu Fehlfunktionen bei, die Unfälle verursachten (Quelle: Berichte der US-Verkehrsbehörde NHTSA).
  • Deutsche Bahn (2018): Ein Softwarefehler aufgrund inkonsistenter Daten führte zu massiven Zugausfällen, da das Buchungssystem falsche Kapazitäten berechnete.
  • COVID-19-Daten (2020–2022): Unterschiedliche Meldeverfahren und Datenformate zwischen Ländern erschwerten globale Vergleiche der Infektionszahlen (Quelle: WHO-Berichte).

Risiken und Herausforderungen

  • Kosten der Datenbereinigung: Die Nachbesserung schlechter Daten kann bis zu 10–20 % des IT-Budgets eines Unternehmens verschlingen (Studie von Gartner, 2021).
  • Skalierbarkeit: Mit wachsendem Datenvolumen (Big Data) steigt der Aufwand, die Qualität zu gewährleisten. Automatisierte Tools sind oft fehleranfällig oder teuer.
  • Menschliche Fehler: Manuelle Dateneingaben sind eine Hauptquelle für Fehler (z. B. Tippfehler in Excel-Tabellen). Studien zeigen, dass bis zu 88 % aller Datenfehler auf menschliches Versagen zurückgehen.
  • Rechtliche Risiken: Verstöße gegen Datenschutz (z. B. DSGVO) oder Branchenstandards (z. B. Basel III im Bankensektor) können Bußgelder in Millionenhöhe nach sich ziehen.
  • „Dark Data": Unstrukturierte oder ungenutzte Daten (z. B. E-Mails, Logfiles) bergen Potenzial, sind aber schwer auf Qualität zu prüfen.

Ähnliche Begriffe

  • Datenintegrität: Bezieht sich speziell auf die Unversehrtheit und Unveränderlichkeit von Daten während Speicherung oder Übertragung (z. B. durch Prüfsummen oder Hash-Funktionen).
  • DatenGovernance: Umfasst die organisatorischen Rahmenbedingungen (Richtlinien, Verantwortlichkeiten) zur Sicherstellung von Datenqualität, -sicherheit und -compliance.
  • Master Data Management (MDM): Ein Ansatz zur zentralen Verwaltung und Harmonisierung von Stammdaten (z. B. Kundendaten) über verschiedene Systeme hinweg.
  • Data Stewardship: Die Rolle von „Datenverantwortlichen", die für die Pflege und Qualität spezifischer Datensätze zuständig sind.

Zusammenfassung

Datenqualität ist ein mehrdimensionales Konzept, das über die bloße Fehlerfreiheit hinausgeht und Kontext, Zweck sowie technische Standards berücksichtigt. Sie ist entscheidend für die Effizienz von Prozessen, die Validität von Analysen und die Compliance mit rechtlichen Vorgaben. Die Herausforderungen liegen dabei weniger in der Theorie als in der praktischen Umsetzung: Hohe Kosten, menschliche Fehler und die Komplexität moderner Datenlandschaften erfordern kontinuierliche Investitionen in Tools, Schulungen und Governance-Strukturen.

Zugleich bietet gute Datenqualität erhebliche Wettbewerbsvorteile – von präziseren KI-Modellen bis hin zu vertrauenswürdigen Geschäftsberichten. Angesichts der zunehmenden Datenmenge und -vielfalt wird die Disziplin der Datenqualitätsmanagement in Zukunft noch stärker an Bedeutung gewinnen, insbesondere durch den Einsatz von KI-gestützter Automatisierung und standardisierten Frameworks wie ISO 8000.

--



Thüga Erneuerbare Energien GmbH & Co. KG
Großer Burstah 42, 20457 Hamburg
www.ee.thuega.de