Datenqualität

Minimalistisch gesprochen meint Datenqualität die Prüfbarkeit, die prüfbare Güte und die Verlässlichkeit erwünschter Eigenschaften von (praktisch gesprochen) digitalen Artefakten oder aber (technisch gesprochen) von „Datensätzen“. 

Die Konformität von Daten(sätzen) – ggf. einschließlich deren Definition und Erhebung – mit (bzw. die Passung zu) übergreifend geforderten Standards ist ebenso ein Merkmal von Datenqualität wie die Dokumentation (und also: vollständige Dokumentierbarkeit) der relevanten Daten.Auch die Transparenz der Standards und die Transparenz der im Einzelfall für eine methodische Datenerhebung konstitutiven Prozesse sowie Angaben zur Urheberschaft/Provenienz gehören zur Qualität der erhobenen Daten hinzu. Verbleibende Unsicherheit(en) sind ebenfalls ein Aspekt der Datenerhebung. Es erhöht daher die Datenqualität, wenn Unsicherheit mittels Metadaten quantifiziert oder in anderswie geeigneter Weise ausgewiesen wird. 

Datenqualität lässt sich nicht „absolut“ bewerten. Sie richtet sich nach zuvor ausdefinierten, einer jeweiligen Problem- oder Fragestellung entsprechenden Ansprüchen, die ganz unterschiedliche sein können (z.B. Vollständigkeit, Konsistenz, Eindeutigkeit, Aktualität im Sinne der Erhebungskriterien, Impact hinsichtlich bestimmter Messwerte, Konformität zu einer digitalen Umgebung, Zuträglichkeit für einen Produktionsprozess, ein erwünschtes Maß an Nachnutzbarkeit, eine erwartete Relevanz für spezifische Forschungsfragen, das Einlösen rechtlicher oder gesellschaftlicher Legitimitätsbedingungen oder -kriterien u.v.m.). Dennoch weicht die bloße Formel, Daten sollten eben „fit for purpose“ sein, der Anforderung aus, dass Datenqualität von einer Fülle von Merkmalen abhängt, die  Standards gehorchen und aktiv erzeugt werden müssen. 

Die geforderte oder erwartete Qualität von Daten/Datensätzen trägt einiges zur Anforderung an die Ausgestaltung von Dateninfrastrukturen, auch aber von Randbedingungen für Datenmärkte und Datendienste sowie (alltagsmächtige) Datenprodukte bei. Nicht nur in der Wissenschaft sind Vollständigkeit sowie langfristige Verfügbarkeit ein und desselben Datums/Datensatzes, Zitierbarkeit (bzw. Provenienzausweis), langfristige Findbarkeit und auch niedrigschwelliger Zugang und technische Zugriffsmöglichkeit generische Kriterien, die eine „Qualität“ von Daten erhöhen. Für deren ökonomischen Wert kann (aber muss nicht) ähnliches gelten. Die Qualität von Daten erhöht zwar deren (möglichen) Wert, bestimmt aber keineswegs direkt ihren Preis. Letzterer hängt nicht von Gütekriterien, sondern von Marktumständen ab. 

Für Datentreuhandmodelle ist es oft nicht nur essenziell, die Qualität von Daten zu kennen, sondern auch, diese (vergleichend) beschreiben zu können und ggf. auch zu zertifizieren. 

Literatur

Rat für Informationsinfrastrukturen: Herausforderung Datenqualität. Göttingen 2019. https://rfii.de/download/herausforderung-datenqualitaet-november-2019/ [28.01.2025] 

Rohde et al. (2022). Datenqualität und Qualitätsmetriken in der Datenwirtschaft. https://www.digitale-technologien.de/DT/Redaktion/DE/Downloads/Publikation/SDW/2022_11_15_Datenmetriken_Studie.pdf?__blob=publicationFile&v=1 [28.01.2025]