Datenwörterbücher sind wertvolle Hilfsmittel für datengesteuerte Unternehmen, auch wenn der Erstellungsaufwand abschreckend wirken mag. Ihr solltet wissen, was ein Datenwörterbuch ist, aus welchen Komponenten es besteht, welche Vorteile es bietet und wie ihr eines erstellen könnt.
In diesem Artikel behandeln wir alle wichtigen Fakten über Datenwörterbücher von A bis Z, um euch ein solides Grundwissen für die Praxis zu vermitteln.
Lest weiter, um mehr zu erfahren!
Ein Datenwörterbuch ist ein strukturiertes Metadatenverzeichnis, das die verwendeten Daten ausführlich beschreibt.
Datenwörterbücher entstanden in den 1960er-Jahren als frühe Vorläufer heutiger Datenbank-Management-Systeme. Anfangs waren sie einfache Dateikataloge, entwickelten sich aber im Laufe der Zeit zu allumfassenden Metadatenverzeichnissen oder -Repositorys, die moderne Datenanalysen und Daten-Governance unterstützen.
Heute sind Datenwörterbücher vor allem dazu da, die Definitionen und das Verständnis folgender Aspekte zu vereinheitlichen:
Einfacher ausgedrückt enthält ein Datenwörterbuch zusätzliche Kontextinformationen zu jedem Datenpunkt, sodass Analysten die Daten besser verstehen können.
Bevor wir uns näher mit Datenwörterbüchern beschäftigen, sollten wir kurz drei ähnliche Begriffe abgrenzen: Datenwörterbücher, Datenkataloge und Business-Glossare. Alle drei spielen eine wichtige Rolle bei der Verwaltung und Analyse von Daten.
Datenwörterbuch | Datenkatalog | Business-Glossar | |
---|---|---|---|
Fokus | Beschreibt vor allem technische Details von Daten | Beschreibt das weitere Umfeld der Daten-Assets | Enthält vornehmlich Definitionen und Begriffe aus der Geschäftswelt |
Zielgruppe | Hauptsächlich technische Anwender wie Entwickler oder Datenanalysten | Neben technischen Anwendern auch nicht technische Anwender wie Geschäftsanalysten und Data Scientists | Mitarbeiter und geschäftliche Stakeholder |
Zweck | Stellt detaillierte Datendefinitionen bereit | Ermöglicht Datenmanagement und -suche | Liefert einheitliche Definitionen für geschäftliche Begriffe |
Datenwörterbücher lassen sich grob in zwei Typen untergliedern: aktive und passive.
Ein aktives Datenwörterbuch ist ein Dokument, das bei jeder Änderung am Inhalt einer Datenbank aktualisiert werden sollte.
Diese Art von Datenwörterbuch wird in der Regel von der IT-Abteilung gepflegt und enthält aktuelle Definitionen für jedes Datenelement einer Datenbank oder eines Systems. So werden Ungereimtheiten hinsichtlich der Datenintegrität aktiv verhindert.
Ein passives Datenwörterbuch ist normalerweise ein statisches Dokument, das manuell auf dem Laufenden gehalten wird und nicht mit einem System oder einer Datenbank verbunden ist. Es wird meistens für Referenzzwecke verwendet, beispielsweise in Analytics-Projekten, bei denen Analysten die Bedeutung verschiedener Datenpunkte und deren Beziehungen untereinander verstehen müssen.
Passive Wörterbücher werden nicht automatisch in Datenbanken erstellt, weshalb es bei Änderungen an einer Datenbank schnell zu Abweichungen kommt. Für die schnelle Ad-hoc-Kommunikation sind sie jedoch allemal ausreichend, da sie als statische Dokumente von Analysten nur zum Nachschlagen verwendet werden.
In meiner Zeit als Datenanalyst hatte ich die Aufgabe, für meine Kollegen ein einfaches passives Datenwörterbuch zu erstellen und zu pflegen. Das Resultat war zwar fehleranfällig, sorgte aber bei explorativen Datenanalysen schnell für Klarheit.
Datenwörterbücher bestehen im Wesentlichen aus folgenden Komponenten:
Dies sind nur einige gängige Komponenten, die ein Datenwörterbuch aufweisen sollte. In der Praxis ist natürlich jedes Datenwörterbuch anders, je nachdem, wofür es im Unternehmen eingesetzt wird.
Das Erstellen eines detaillierten Datenwörterbuchs kostet einige Mühe, bringt aber auch handfeste Vorteile, die wir uns nun ansehen wollen.
Ein gutes Datenwörterbuch sorgt dafür, dass alle im Unternehmen einfacher und effektiver kommunizieren können. Es schafft ein einheitliches Verständnis der Daten auf der Grundlage exakter Definitionen. Bei der Besprechung verschiedener Datentypen beziehen sich alle Beteiligten auf dasselbe Dokument, sodass Missverständnisse und Fehlinterpretationen der Daten weitgehend ausgeschlossen sind.
Ein Datenwörterbuch ist die maßgebliche Quelle für Datendefinitionen. Dies trägt dazu bei, dass die Datenbank genaue und einheitliche Informationen enthält.
Dadurch lässt sich die allgemeine Qualität der Datenbank verbessern, was wiederum zuverlässigere und nützlichere Analyseergebnisse ermöglicht.
Wenn ihr ein gutes Datenwörterbuch habt, könnt ihr eure Datenbank viel leichter pflegen und Änderungen besser im Blick behalten. Dies ist besonders hilfreich, wenn ihr neue Datenelemente hinzufügen oder vorhandene Elemente aktualisieren müsst. In solchen Fällen können alle Beteiligten das Datenwörterbuch als Referenz heranziehen und die Änderungen nachvollziehen.
Mit einem gut indizierten Datenwörterbuch könnt ihr gezielt nach bestimmten Datenelementen suchen.
Analysten sparen so wertvolle Zeit bei der Suche nach gewünschten Informationen, da sie sich nicht mehr manuell durch eine ganze Datenbank wühlen müssen.
(Verwandtes Thema: Was ist föderierte Suche?)
In diesen fünf Schritten erstellt ihr ein Datenwörterbuch:
Erstellt zunächst eine Liste aller Datenelemente in eurer Datenbank. Tragt dann zu jedem Element Informationen zusammen, beispielsweise:
Als Nächstes dokumentiert ihr die Struktur eurer Datenbank. Dazu listet ihr die Beziehungen zwischen allen darin enthaltenen Datenelementen auf, um euch ein klares Gesamtbild der Datenbank zu verschaffen. (Bei diesem Schritt können euch Configuration Management Databases [CMDBs] unterstützen, auf die wir in diesem Artikel eingehen.)
Legt für jedes einzelne Datenelement den Zweck, den Bereichswert und andere relevante Definitionen fest. So stellt ihr sicher, dass alle Beteiligten dieselbe Sprache sprechen.
Validierungsregeln helfen, die Datenaufnahme in der Datenbank zu verbessern. Deshalb solltet ihr diese Regeln ebenfalls im Datenwörterbuch festhalten.
Damit euer Datenwörterbuch immer auf dem aktuellen Stand ist, solltet ihr jede Änderung an der Datenbank dokumentieren. Am besten bestimmt ihr jemanden, der für die fortlaufende Überwachung und Aktualisierung zuständig ist.
Für die Aktualisierung eines Datenwörterbuchs kommen beispielsweise folgende Nutzer infrage:
(Hilfreich in diesem Zusammenhang sind die Konzepte kontinuierliches Monitoring und Monitoring für Observability.)
Sehen wir uns nun einige Anwendungsfälle für Datenwörterbücher in verschiedenen Bereichen an.
Wie sollte ein gutes Datenwörterbuch aussehen? Wir haben für euch ein paar Beispiele zusammengetragen, an denen ihr euch orientieren könnt.
Dieses Datenwörterbuch von MicroStrategy enthält verschiedene Leistungskennzahlen und Objekte, die mit Intelligence Server zusammenhängen. Zusätzlich zu den Definitionen der einzelnen Kennzahlen sind auch Anmerkungen und Erklärungen vorhanden, die das Datenverständnis erleichtern.
Nehmen wir beispielsweise das Datenwörterbuch „STG_CT_DEVICE_STATS“, in dem Informationen zum mobilen Client und zum Mobilgerät gespeichert sind:
Das Beispiel beinhaltet den Namen, eine Beschreibung und den Datentyp verschiedener Datenelemente.
Das American Time Use Survey Data Dictionary ist ein Datenwörterbuch des US-amerikanischen Amtes für Erwerbsstatistik und beschreibt die Elemente der Erhebungsdaten. Forscher können so besser nachvollziehen, wie die Variablen codiert sind und welche Bedeutung die einzelnen Elemente haben.
So ist etwa im ATUS Interview Data Dictionary von 2021 die Variable „TRTEC“ als für die Altenbetreuung aufgewendete Gesamtzeit (in Minuten) definiert. Als Validierungsregeln wurden ein Mindestwert („Min Value“) von 0 und ein Höchstwert („Max Value“) von 1.440 festgelegt.
Ihr wisst nun das Wichtigste rund um Datenwörterbücher. Falls noch Fragen offen sind, werdet ihr sicherlich hier fündig.
Das Datenwörterbuch enthält zusätzliche Informationen zu den Datenelementen und ihren Beziehungen innerhalb der Datenbank. Es erleichtert somit das Verständnis und Management der Daten.
(Lest hier weiter, wenn ihr mehr über die Datenbanktypen SQL und NoSQL erfahren wollt.)
Nein, das sind zwei verschiedene Dinge. Als Schema bezeichnet man die Struktur und Organisation einer Datenbank, während ein Datenwörterbuch Details zu den einzelnen Elementen der Datenbank umfasst.
Das Schema beschreibt die Tabellen und wie diese in Bezug zueinander stehen. Das Datenwörterbuch hingegen erläutert, was die Datenelemente bedeuten und wie Anwender damit umgehen sollten.
In der Softwaretechnik dienen Datenwörterbücher dazu, Informationen über das System und seine Komponenten zu erfassen, darunter:
Beim Rapid Application Development haben Datenwörterbücher die wichtige Funktion, Datenstrukturen, eindeutige Definitionen und Beziehungen zusammenzufassen, um den Designprozess zu unterstützen. Teammitglieder können auf dieser Grundlage besser zusammenarbeiten und potenzielle Fehler in der Implementierungsphase vermeiden.
Das Datenwörterbuch dokumentiert die Struktur und die Attribute der einzelnen Systemelemente und ermöglicht so ein besseres Verständnis und Management. Außerdem enthält es Regeln für Datenelemente oder Prozesse, die aus Präzisions- oder Konsistenzgründen wichtig sind. Das Datenwörterbuch dient somit als Referenz für Softwareentwickler, Produktmanager, Ingenieure und Datenadministratoren.
Datenwörterbücher verbessern auch die Integration von Cloudlösungen, da sie die Verwaltung von Metadaten erleichtern, standardisierte Datendefinitionen bereithalten, den Datenaustausch optimieren sowie die Zusammenarbeit und Governance in verschiedenen Clouddiensten ermöglichen.
Wenn ihr Daten – insbesondere aus großen Datensätzen oder Datenbanken – verwalten und damit arbeiten wollt, ist ein genaues und jederzeit aktuelles Datenwörterbuch unerlässlich. Es dient als Referenz für alle Beteiligten und schafft Klarheit, welche Änderungen vorgenommen wurden. Darüber hinaus erleichtert es die Suche und verbessert die Genauigkeit.
Kurzum, mit einem umfassenden Datenwörterbuch könnt ihr die Kommunikation und Datenqualität in eurem Unternehmen verbessern und die Datenpflege vereinfachen.
Ihr habt einen Fehler entdeckt oder eine Anregung? Bitte lasst es uns wissen und schreibt eine E-Mail an ssg-blogs@splunk.com.
Dieser Beitrag spiegelt nicht zwingend die Position, Strategie oder Meinung von Splunk wider.
Weltweit führende Unternehmen verlassen sich auf Splunk, ein Cisco-Unternehmen, um mit unserer Plattform für einheitliche Sicherheit und Observability, die auf branchenführender KI basiert, kontinuierlich ihre digitale Resilienz zu stärken.
Unsere Kunden vertrauen auf die preisgekrönten Security- und Observability-Lösungen von Splunk, um ihre komplexen digitalen Umgebungen ungeachtet ihrer Größenordnung zuverlässig zu sichern und verbessern.