false
15. Oktober 2024
 | 
13 Minuten Lesedauer

Was ist ein Datenwörterbuch? Das Wichtigste im Überblick

Datenwörterbücher sind wertvolle Hilfsmittel für datengesteuerte Unternehmen, auch wenn der Erstellungsaufwand abschreckend wirken mag. Ihr solltet wissen, was ein Datenwörterbuch ist, aus welchen Komponenten es besteht, welche Vorteile es bietet und wie ihr eines erstellen könnt.

In diesem Artikel behandeln wir alle wichtigen Fakten über Datenwörterbücher von A bis Z, um euch ein solides Grundwissen für die Praxis zu vermitteln.

Lest weiter, um mehr zu erfahren!

Was ist ein Datenwörterbuch?

Ein Datenwörterbuch ist ein strukturiertes Metadatenverzeichnis, das die verwendeten Daten ausführlich beschreibt.

Datenwörterbücher entstanden in den 1960er-Jahren als frühe Vorläufer heutiger Datenbank-Management-Systeme. Anfangs waren sie einfache Dateikataloge, entwickelten sich aber im Laufe der Zeit zu allumfassenden Metadatenverzeichnissen oder -Repositorys, die moderne Datenanalysen und Daten-Governance unterstützen. 

Heute sind Datenwörterbücher vor allem dazu da, die Definitionen und das Verständnis folgender Aspekte zu vereinheitlichen:

  • Daten
  • Bedeutung der Daten
  • Beziehungen der Daten zu anderen Datenelementen

Einfacher ausgedrückt enthält ein Datenwörterbuch zusätzliche Kontextinformationen zu jedem Datenpunkt, sodass Analysten die Daten besser verstehen können.

Bevor wir uns näher mit Datenwörterbüchern beschäftigen, sollten wir kurz drei ähnliche Begriffe abgrenzen: Datenwörterbücher, Datenkataloge und Business-Glossare. Alle drei spielen eine wichtige Rolle bei der Verwaltung und Analyse von Daten.


Datenwörterbuch

Datenkatalog

Business-Glossar

Fokus

Beschreibt vor allem technische Details von Daten

Beschreibt das weitere Umfeld der Daten-Assets

Enthält vornehmlich Definitionen und Begriffe aus der Geschäftswelt

Zielgruppe

Hauptsächlich technische Anwender wie Entwickler oder Datenanalysten

Neben technischen Anwendern auch nicht technische Anwender wie Geschäftsanalysten und Data Scientists

Mitarbeiter und geschäftliche Stakeholder

Zweck

Stellt detaillierte Datendefinitionen bereit

Ermöglicht Datenmanagement und -suche

Liefert einheitliche Definitionen für geschäftliche Begriffe


Typen von Datenwörterbüchern

Datenwörterbücher lassen sich grob in zwei Typen untergliedern: aktive und passive.

Aktive Datenwörterbücher

Ein aktives Datenwörterbuch ist ein Dokument, das bei jeder Änderung am Inhalt einer Datenbank aktualisiert werden sollte.

Diese Art von Datenwörterbuch wird in der Regel von der IT-Abteilung gepflegt und enthält aktuelle Definitionen für jedes Datenelement einer Datenbank oder eines Systems. So werden Ungereimtheiten hinsichtlich der Datenintegrität aktiv verhindert.

Passive Datenwörterbücher

Ein passives Datenwörterbuch ist normalerweise ein statisches Dokument, das manuell auf dem Laufenden gehalten wird und nicht mit einem System oder einer Datenbank verbunden ist. Es wird meistens für Referenzzwecke verwendet, beispielsweise in Analytics-Projekten, bei denen Analysten die Bedeutung verschiedener Datenpunkte und deren Beziehungen untereinander verstehen müssen.

Passive Wörterbücher werden nicht automatisch in Datenbanken erstellt, weshalb es bei Änderungen an einer Datenbank schnell zu Abweichungen kommt. Für die schnelle Ad-hoc-Kommunikation sind sie jedoch allemal ausreichend, da sie als statische Dokumente von Analysten nur zum Nachschlagen verwendet werden.

In meiner Zeit als Datenanalyst hatte ich die Aufgabe, für meine Kollegen ein einfaches passives Datenwörterbuch zu erstellen und zu pflegen. Das Resultat war zwar fehleranfällig, sorgte aber bei explorativen Datenanalysen schnell für Klarheit.

Komponenten von Datenwörterbüchern

Datenwörterbücher bestehen im Wesentlichen aus folgenden Komponenten:

  • Name des Datenelements: gewählte Bezeichnung für das Datenelement
  • Datentyp: Typ der Daten, die in einem Feld gespeichert werden können, z. B. als Text oder Zahlen
  • Bereichswert: definiert, welche Werte für ein bestimmtes Datenelement verwendet werden können
  • Definition/Beschreibung: Hintergrundinformationen zum Datenelement, dessen Zweck und Kontext
  • Quelle: Herkunft des Datenelements
  • Erstellt am: Datum, an dem das Datenelement erstellt wurde
  • Zuletzt aktualisiert am: Datum, an dem die letzten Änderungen vorgenommen wurden
  • Genehmigt von: Name der Person, die das Datenelement freigegeben hat
  • Eigentümer: Name der Person, die für die Pflege und Aktualisierung des Datenelements zuständig ist
  • Beziehungen: Beschreibung, in welchem Zusammenhang das Datenelement mit anderen Datenelementen im System oder in der Datenbank steht
  • Validierungsregeln: geschäftliche Regeln, die für das Datenelement gelten

Dies sind nur einige gängige Komponenten, die ein Datenwörterbuch aufweisen sollte. In der Praxis ist natürlich jedes Datenwörterbuch anders, je nachdem, wofür es im Unternehmen eingesetzt wird.

Vorteile von Datenwörterbüchern

Das Erstellen eines detaillierten Datenwörterbuchs kostet einige Mühe, bringt aber auch handfeste Vorteile, die wir uns nun ansehen wollen.

Verbesserte Kommunikation

Ein gutes Datenwörterbuch sorgt dafür, dass alle im Unternehmen einfacher und effektiver kommunizieren können. Es schafft ein einheitliches Verständnis der Daten auf der Grundlage exakter Definitionen. Bei der Besprechung verschiedener Datentypen beziehen sich alle Beteiligten auf dasselbe Dokument, sodass Missverständnisse und Fehlinterpretationen der Daten weitgehend ausgeschlossen sind.

Verbesserte Datenqualität

Ein Datenwörterbuch ist die maßgebliche Quelle für Datendefinitionen. Dies trägt dazu bei, dass die Datenbank genaue und einheitliche Informationen enthält.

Dadurch lässt sich die allgemeine Qualität der Datenbank verbessern, was wiederum zuverlässigere und nützlichere Analyseergebnisse ermöglicht.

Vereinfachte Pflege

Wenn ihr ein gutes Datenwörterbuch habt, könnt ihr eure Datenbank viel leichter pflegen und Änderungen besser im Blick behalten. Dies ist besonders hilfreich, wenn ihr neue Datenelemente hinzufügen oder vorhandene Elemente aktualisieren müsst. In solchen Fällen können alle Beteiligten das Datenwörterbuch als Referenz heranziehen und die Änderungen nachvollziehen.

Einfache Suche

Mit einem gut indizierten Datenwörterbuch könnt ihr gezielt nach bestimmten Datenelementen suchen.

Analysten sparen so wertvolle Zeit bei der Suche nach gewünschten Informationen, da sie sich nicht mehr manuell durch eine ganze Datenbank wühlen müssen.

(Verwandtes Thema: Was ist föderierte Suche?)

So erstellt ihr ein Datenwörterbuch

In diesen fünf Schritten erstellt ihr ein Datenwörterbuch:

Schritt 1: Datenelemente identifizieren

Erstellt zunächst eine Liste aller Datenelemente in eurer Datenbank. Tragt dann zu jedem Element Informationen zusammen, beispielsweise:

  • Name
  • Typ
  • Quelle
  • sonstige relevante Informationen

Schritt 2: Struktur dokumentieren

Als Nächstes dokumentiert ihr die Struktur eurer Datenbank. Dazu listet ihr die Beziehungen zwischen allen darin enthaltenen Datenelementen auf, um euch ein klares Gesamtbild der Datenbank zu verschaffen. (Bei diesem Schritt können euch Configuration Management Databases [CMDBs] unterstützen, auf die wir in diesem Artikel eingehen.)

Schritt 3: Jedes Datenelement definieren

Legt für jedes einzelne Datenelement den Zweck, den Bereichswert und andere relevante Definitionen fest. So stellt ihr sicher, dass alle Beteiligten dieselbe Sprache sprechen.

Schritt 4: Validierungsregeln einrichten

Validierungsregeln helfen, die Datenaufnahme in der Datenbank zu verbessern. Deshalb solltet ihr diese Regeln ebenfalls im Datenwörterbuch festhalten.

Schritt 5: Überwachen und aktualisieren

Damit euer Datenwörterbuch immer auf dem aktuellen Stand ist, solltet ihr jede Änderung an der Datenbank dokumentieren. Am besten bestimmt ihr jemanden, der für die fortlaufende Überwachung und Aktualisierung zuständig ist.

Für die Aktualisierung eines Datenwörterbuchs kommen beispielsweise folgende Nutzer infrage:

  • Datenbankadministrator
  • Data Engineer
  • Datenanalyst
  • Business-Intelligence-Analyst

(Hilfreich in diesem Zusammenhang sind die Konzepte kontinuierliches Monitoring und Monitoring für Observability.)

Anwendungsfälle für Datenwörterbücher

Sehen wir uns nun einige Anwendungsfälle für Datenwörterbücher in verschiedenen Bereichen an.

Gesundheitswesen

  • Patientenakten: Mit einem Datenwörterbuch lässt sich sicherstellen, dass medizinische Begriffe und Patientendaten korrekt und gemäß DSGVO, HIPAA oder ähnlichen Datenschutzvorschriften dokumentiert werden.
  • Forschung: Durch standardisierte Definitionen für verschiedene medizinische Verfahren kann die Zusammenarbeit bei medizinischen Studien verbessert werden.

Einzelhandel

  • Bestandsmanagement: Die einheitliche Dokumentation von Produkteigenschaften wie Preis, Artikelnummer usw. erleichtert die Bestandsüberwachung.
  • Analytics: Sorgfältig definierte Verhaltenskennzahlen und Kundensegmente ermöglichen gezielte Marketingstrategien.

Immobilien

  • Immobilienverwaltung: Um einheitliche Dateneinträge in Immobilienverzeichnissen zu gewährleisten, werden Ausstattungsmerkmale, Fläche und ähnliche Eigenschaften definiert.
  • Marktanalyse: Standardisierte Begrifflichkeiten bezüglich Markttrends ermöglichen genauere Berichte und Vergleiche.

Bildungswesen

  • Studierendendaten: Personenbezogene Daten von Studierenden werden in einem Datenwörterbuch standardisiert, um ein konsistentes Datenmanagement zu ermöglichen.
  • Lehrplanerstellung: Ein Datenwörterbuch sorgt für einheitliche Kursbenennungen und erleichtert so die Erstellung von Lehrplänen.

Finanzwesen

  • Risikomanagement: Standardisierte Daten zu Markt- und Kreditrisiken erleichtern Risikobeurteilungen.
  • Compliance: Ein Datenwörterbuch hilft, Indikatoren und Kennzahlen für die Risikoanalyse zu definieren, damit Vorschriften leichter eingehalten und Warnsignale lückenlos gemeldet werden können.

Beispiele für gute Datenwörterbücher

Wie sollte ein gutes Datenwörterbuch aussehen? Wir haben für euch ein paar Beispiele zusammengetragen, an denen ihr euch orientieren könnt.

MicroStrategy Intelligence Server Statistics Data Dictionary

Dieses Datenwörterbuch von MicroStrategy enthält verschiedene Leistungskennzahlen und Objekte, die mit Intelligence Server zusammenhängen. Zusätzlich zu den Definitionen der einzelnen Kennzahlen sind auch Anmerkungen und Erklärungen vorhanden, die das Datenverständnis erleichtern.

Nehmen wir beispielsweise das Datenwörterbuch „STG_CT_DEVICE_STATS“, in dem Informationen zum mobilen Client und zum Mobilgerät gespeichert sind:

Das Beispiel beinhaltet den Namen, eine Beschreibung und den Datentyp verschiedener Datenelemente.

American Time Use Survey Data Dictionary

Das American Time Use Survey Data Dictionary ist ein Datenwörterbuch des US-amerikanischen Amtes für Erwerbsstatistik und beschreibt die Elemente der Erhebungsdaten. Forscher können so besser nachvollziehen, wie die Variablen codiert sind und welche Bedeutung die einzelnen Elemente haben.

So ist etwa im ATUS Interview Data Dictionary von 2021 die Variable „TRTEC“ als für die Altenbetreuung aufgewendete Gesamtzeit (in Minuten) definiert. Als Validierungsregeln wurden ein Mindestwert („Min Value“) von 0 und ein Höchstwert („Max Value“) von 1.440 festgelegt.

Häufig gestellte Fragen zu Datenwörterbüchern

Ihr wisst nun das Wichtigste rund um Datenwörterbücher. Falls noch Fragen offen sind, werdet ihr sicherlich hier fündig.

Was ist der Unterschied zwischen einer Datenbank und einem Datenwörterbuch?

  • Eine Datenbank ist eine Sammlung abfragbarer, zusammengehöriger Daten.
  • Ein Datenwörterbuch ist ein geordnetes Verzeichnis der Struktur und Eigenschaften der Daten, die in einer Datenbank gespeichert sind.

Das Datenwörterbuch enthält zusätzliche Informationen zu den Datenelementen und ihren Beziehungen innerhalb der Datenbank. Es erleichtert somit das Verständnis und Management der Daten.

(Lest hier weiter, wenn ihr mehr über die Datenbanktypen SQL und NoSQL erfahren wollt.)

Ist ein Datenwörterbuch dasselbe wie ein Schema?

Nein, das sind zwei verschiedene Dinge. Als Schema bezeichnet man die Struktur und Organisation einer Datenbank, während ein Datenwörterbuch Details zu den einzelnen Elementen der Datenbank umfasst.

Das Schema beschreibt die Tabellen und wie diese in Bezug zueinander stehen. Das Datenwörterbuch hingegen erläutert, was die Datenelemente bedeuten und wie Anwender damit umgehen sollten.

Was versteht man im softwaretechnischen Kontext unter einem Datenwörterbuch?

In der Softwaretechnik dienen Datenwörterbücher dazu, Informationen über das System und seine Komponenten zu erfassen, darunter:

  • Datenbanken
  • Programme
  • Dateien
  • Tabellen

Beim Rapid Application Development haben Datenwörterbücher die wichtige Funktion, Datenstrukturen, eindeutige Definitionen und Beziehungen zusammenzufassen, um den Designprozess zu unterstützen. Teammitglieder können auf dieser Grundlage besser zusammenarbeiten und potenzielle Fehler in der Implementierungsphase vermeiden.

Das Datenwörterbuch dokumentiert die Struktur und die Attribute der einzelnen Systemelemente und ermöglicht so ein besseres Verständnis und Management. Außerdem enthält es Regeln für Datenelemente oder Prozesse, die aus Präzisions- oder Konsistenzgründen wichtig sind. Das Datenwörterbuch dient somit als Referenz für Softwareentwickler, Produktmanager, Ingenieure und Datenadministratoren.

Datenwörterbücher verbessern auch die Integration von Cloudlösungen, da sie die Verwaltung von Metadaten erleichtern, standardisierte Datendefinitionen bereithalten, den Datenaustausch optimieren sowie die Zusammenarbeit und Governance in verschiedenen Clouddiensten ermöglichen.

(Hier lernt ihr, worin sich Softwareentwicklungspraktiken wie DevOps, SRE und Platform Engineering unterscheiden.)

Abschließende Bemerkungen

Wenn ihr Daten – insbesondere aus großen Datensätzen oder Datenbanken – verwalten und damit arbeiten wollt, ist ein genaues und jederzeit aktuelles Datenwörterbuch unerlässlich. Es dient als Referenz für alle Beteiligten und schafft Klarheit, welche Änderungen vorgenommen wurden. Darüber hinaus erleichtert es die Suche und verbessert die Genauigkeit.

Kurzum, mit einem umfassenden Datenwörterbuch könnt ihr die Kommunikation und Datenqualität in eurem Unternehmen verbessern und die Datenpflege vereinfachen.

 

Ihr habt einen Fehler entdeckt oder eine Anregung? Bitte lasst es uns wissen und schreibt eine E-Mail an ssg-blogs@splunk.com.

 

Dieser Beitrag spiegelt nicht zwingend die Position, Strategie oder Meinung von Splunk wider.

 

Austin Chia Picture

Austin Chia is a data analyst, analytics consultant, and technology writer. He is the founder of Any Instructor, a data analytics & technology-focused online resource. Austin has written over 200 articles on data science, data engineering, business intelligence, data security, and cybersecurity. His work has been published in various companies like RStudio/Posit, DataCamp, CareerFoundry, n8n, and other tech start-ups. Previously worked on biomedical data science, corporate analytics training, and data analytics in a health tech start-up.

Ähnliche Artikel

Über Splunk

Weltweit führende Unternehmen verlassen sich auf Splunk, ein Cisco-Unternehmen, um mit unserer Plattform für einheitliche Sicherheit und Observability, die auf branchenführender KI basiert, kontinuierlich ihre digitale Resilienz zu stärken.

 

Unsere Kunden vertrauen auf die preisgekrönten Security- und Observability-Lösungen von Splunk, um ihre komplexen digitalen Umgebungen ungeachtet ihrer Größenordnung zuverlässig zu sichern und verbessern.

Erfahrt hier mehr über Splunk