Veröffentlichungsdatum: 1. Februar 2021
Das ursprüngliche Konzept der „Big Data“ entstand in den 1990er Jahren als Reaktion auf das massive Wachstum der Größe von Datensets. Ausgelöst durch die zunehmende Verbreitung des Internets und den rapiden Preisverfall für Datenspeicherung. Obwohl man bei „Big Data“ zunächst an Terabytes denken mag, bedeutet dieser Begriff meist mehr als nur „großer Datenumfang“. Big Data unterscheiden sich von herkömmlichen Daten insofern, dass es sich fast immer um eine Kombination aus strukturierten und unstrukturierten Informationen handelt. Riesige Datenmengen, für die es neue Verarbeitungs- und Analysemethoden braucht, um verwertbare Erkenntnisse zu gewinnen. Wertvolle Informationen, die zur strategischen Entscheidungsfindung beitragen können.
Big Data können aus strukturierten, unstrukturierten oder semi-strukturierten Datensets stammen. Doch ihr tatsächlicher Wert zeigt sich erst dann, wenn diese verschiedenen Arten von Daten zusammengeführt werden. Hängt dieser doch sowohl von der Menge als auch von der Vielfalt der auswertbaren Daten ab. Big Data können ihren Ursprung im Prinzip überall haben - von den Vertriebs- und Produktionsdaten eines Unternehmens über öffentliche Datenbanken bis hin zu Feeds aus sozialen Medien. Die Entwicklung innovativer Methoden, um etwaige Muster und Korrelationen zwischen diesen verschiedenen Datenquellen aufzuspüren, zählt zu den wichtigsten Aufgaben eines Data Scientist oder Big Data Analysten.
Die "Big Data Analyse" ist ein komplexes Feld, für das es hochqualifizierte, gut ausgebildete Experten und umfassende Datenmanagement-Plattformen braucht. Tools wie Apache Hadoop, Storm und Spark sind für die Verarbeitung riesiger Datenmengen von unschätzbarem Wert. Da der Markt aktuell jedoch regelrecht nach Erkenntnissen aus der Verwertung von Big Data schreit, kann es schwierig (und vor allem kostspielig) werden, überhaupt Mitarbeiter zu finden, die mit diesen Tools vertraut sind. Und obwohl viele dieser Tools die Nutzung von Big Data demokratisieren, ist es noch ein weiter Weg, bis sie für die Allgemeinheit zugänglich sind. Für Unternehmen mit großen Datenmengen ist daher die Map Reduce Technologie eine wichtige Neuentwicklung. Diese widmet sich diesem Problem, indem sie Unternehmen dabei unterstützt, nahezu in Echtzeit Mehrwert aus ihren Daten zu schöpfen.
In diesem Artikel befassen wir uns mit den Merkmalen von Big Data, einigen der gängigsten Use Cases für Big Data, den für ihre Verwaltung erforderlichen Tools und bewährten Methoden für die Einführung eines Big Data Programms im Unternehmen.
Was bedeutet „Big Data“?
Abhängig von der Branche kann „Big Data“ eine Reihe von Dingen bedeuten: Fertigungsunternehmen verwenden Big Data, die von Sensoren im Rahmen des Industrial Internet of Things (IoT) generiert werden. Mit Hilfe verschiedener Algorithmen werden diese dann ausgewertet, um Anlagenprobleme vorherzusagen, optimale Wartungspläne zu bestimmen und die Leistung mit der Zeit zu verbessern. Im Gesundheitswesen werden Big Data eingesetzt, um die Ausbreitung von Krankheiten nachzuverfolgen, Therapien für Patienten festzulegen und sogar Fälle von Versicherungsbetrug aufzudecken. Möglicherweise setzt Ihre Bank bereits Big Data ein, um Geldwäsche zu bekämpfen. Während Ihr Investment-Berater damit eine optimale Finanzstrategie für Sie entwickelt.
Ohne Kontext besitzt der Begriff „Big Data“ letztendlich keine spezifische Bedeutung und bezeichnet nur in seltenen Fällen ein bestimmtes statisches Datenset. Analysen können sich auf verschiedene Datensets stützen, die als relevant erachtet und in den Big Data-Speicher aufgenommen werden. Mit anderen Worten: „Big Data“ bekommt erst dann eine spezifische Bedeutung, wenn ein Use Case feststeht.
Warum sind Big Data so wichtig?
Big Data sind gerade deshalb so wichtig, weil viele der heutigen Fragen viel zu komplex sind und ohne Big Data einfach nicht beantwortet werden können. Big Data werden in vielen verschiedenen Branchen regelmäßig für Business Intelligence genutzt. Sei es, um Kunden besser zu verstehen, die Qualität zu verbessern oder innovative neue Produkte zu entwickeln. Auch kriminelle Aktivitäten lassen sich mit Hilfe von Big Data aufdecken, Unterbrechungen in einer Lieferkette aufspüren oder lange bestehende wissenschaftliche Rätsel lösen.
Außerdem bieten Big Data konkrete Vorteile, die bisher unbemerkt blieben: Unternehmen können bisher verborgene Erkenntnisse und Zusammenhänge gewinnen. Und zwar meist durch intuitive Dashboards und Visualisierungen. So helfen Big Data zum Beispiel dabei, Möglichkeiten für Kostensenkungen und Produktverbesserungen zu finden. Indem das Unternehmen entsprechende Informationen über die Herstellung dieser Produkte analysiert, die Kundenerfahrung durch Supportanrufe und Social Media-Kanäle besser verstehen lernt. oder durch die Analyse der Verkaufsdaten von Wettbewerbern die Marktergebnisse verbessert. Ohne erfolgreiche Big Data Strategie würden viele solcher Erkenntnisse vermutlich im Verborgenen und ungenutzt bleiben.
Welche Arten von Big Data gibt es?
Grob gesagt, lassen sich Daten einer von drei Kategorien zuordnen:
- Strukturierte Daten: Dies sind die Computing-Bausteine: Datenbanken voller Kundendaten, Kalkulationstabellen zum Dokumentieren von Ausgaben und Spesen in Dateiformaten wie Excel, Google Sheets, SQL und JSON. Analysten können strukturierte Daten verwenden, um Summen und Durchschnittswerte zu ermitteln, Trends zu erkennen und quantifizierbare Entscheidungen zu treffen. Strukturierte Daten sind das A und O jeder Art von Analyse, allerdings sind nur sehr wenige Daten von Natur aus strukturiert.
- Semi-strukturierte Daten: Als Mittelding zwischen unstrukturierten und strukturierten Datentypen handelt es sich hierbei um unstrukturierte Daten, die mit einer Art strukturierter Informationen versehen wurden. Wenn Sie beispielsweise ein Foto machen, kann Ihre Kamera es mit der Uhrzeit und dem Datum und sogar mit dem GPS-Standort versehen. Mit der Analyse solcher Metadaten lassen sich semi-strukturierte Daten leichter auswerten als unstrukturierte Daten, obwohl die Erkenntnisse letztlich meist im unstrukturierten Teil der Dokumente zu finden sind.
- Unstrukturierte Daten: Diese Art von Daten macht bei weitem den größten Teil der Daten aus und liegt in Form von YouTube-Videos, Posts in sozialen Medien, Podcast-Dateien und Fotoalben vor, um nur einige Beispiele zu nennen. Unstrukturierte Daten enthalten zwar jede Menge wertvoller Informationen, es sind jedoch Big Data-Technologien notwendig, um an diese Erkenntnisse zu gelangen. Machine Learning-Technologien können beispielsweise Fotoarchive analysieren, um den spezifischen Inhalt der einzelnen Bilder zu ermitteln. Trotz ihrer Bezeichnung sind unstrukturierte Daten oft in solch enormen Mengen vorhanden, dass schon eine erste Analyse einen immensen geschäftlichen Nutzen haben kann.
Wie werden Big Data verwendet?
Big Data haben den größten Nutzen, wenn Unternehmen vielfältige Daten, darunter strukturierte, unstrukturierte und semi-strukturierte Datensets, gemeinsam auswerten, um Zusammenhänge und Muster aufzudecken, die sonst unentdeckt blieben. Bei richtiger Anwendung kann mit diesen Methoden ein breites Spektrum an Use Cases für Big Data entwickelt werden.
Für Big Data-Analysen können beispielsweise die Verkaufshistorie eines Unternehmens, Posts in sozialen Medien mit Schlüsselwörtern zu seinen Produkten und verschiedene Online-Produktbewertungen erfasst werden, um festzustellen, ob ein bestimmtes Produkt eingestellt, überarbeitet oder abgestoßen werden sollte. Big Data-Lösungen können auch Genomdaten von Tausenden von Patienten und ihre Krankengeschichte erfassen, um die spezifischen, für bestimmte Krankheiten verantwortlichen Gene zu bestimmen und gezielte Behandlungen zu ermöglichen. Auch bei der Ölförderung und der Erforschung anderer natürlicher Ressourcen werden regelmäßig Big Data genutzt, wobei Daten aus geologischen Erhebungen, Maschinen an Bohrstellen in der Nähe und sogar seismische Aufzeichnungen ausgewertet werden, um neue, vielversprechende Bohrstellen zu finden.
Big Data werden auch zur Auswertung seismischer Daten verwendet, die zur Erkennung und Vorhersage von Erdbeben oder zur Lokalisierung vielversprechender Bohrstellen beitragen können.
Welche Vorteile bieten Big Data?
Einfach ausgedrückt, geben Big Data Zugang zu Erkenntnissen, die sonst nicht verfügbar wären. Bei der richtigen Verwendung von Big Data im Bereich Data Science können sie beispielsweise Kosten senken, den Umsatz steigern, die Preisgestaltung optimieren, für eine gezieltere Ausrichtung von Marketing- und Werbekampagnen sorgen und die Kundenzufriedenheit verbessern. Auf der Produktseite können Big Data genutzt werden, um die Produktleistung zu verbessern, Abfall und Gemeinkosten zu reduzieren, die Produktionskosten zu senken und die Uptime von Fertigungsanlagen zu steigern. Durch die Auswertung von Big Data lassen sich Finanzbetrug und kriminelle Aktivitäten aufdecken und neuartige medizinische Therapien finden. Je nach Branche oder Unternehmen sind die Vorteile von Big Data-Technologien praktisch grenzenlos.
Was sind die Herausforderungen der Big Data-Nutzung?
Es ist nicht einfach, Nutzen aus Big Data zu ziehen. Man benötigt dafür hochentwickelte Software, umfangreiches Fachwissen und natürlich jede Menge Daten. Im Folgenden beschreiben wir einige der spezifischen Herausforderungen, denen Sie möglicherweise begegnen, wenn Sie ein Big Data-Projekt ins Leben rufen.
- Probleme mit der Datenqualität: Die alte Weisheit „garbage in, garbage out“ gilt bei Big Data ganz besonders: Wenn Sie Ihre Software hauptsächlich mit Müll „füttern“, erhalten Sie auch hauptsächlich Müll als Ergebnis. Big Data-Spezialisten müssen daher sicherstellen, dass die Datenqualität der zugrunde liegenden Datensets, mit denen sie arbeiten, hoch ist, da sie sonst riskieren, falsche, ungenaue oder irreführende Erkenntnisse zu generieren.
- Bedenken in puncto Datenschutz und Compliance: Mit bestimmten Datensets sind gewisse Risiken verbunden: Für Finanzdaten gelten möglicherweise Vorschriften. Kundeninformationen und Gesundheitsdaten können Compliance-Vorschriften wie die DSGVO oder HIPAA unterliegen. Bei der Arbeit mit großen Datensets kann es schnell kompliziert werden, sich im Dschungel der komplexen Vorschriften zurechtzufinden, und man muss besonderes Augenmerk auf die Einhaltung der relevanten Auflagen legen, damit das Unternehmen nicht gegen geltendes Recht verstößt.
- Verfügbarkeit und Kosten von Rechenleistung: Die Verarbeitung von Big Data erfordert große Computing-Ressourcen, und zwar sowohl in Form von Speicher- als auch Rechenkapazität. Diese Ressourcen sind nicht billig, obwohl Unternehmen leicht verfügbare Cloud Computing-Möglichkeiten nutzungsorientiert bezahlen können. Dennoch können sich die Kosten schnell summieren – besonders für Unternehmen, die erst mit der Big Data-Nutzung beginnen, möglicherweise noch nicht die Erfahrung und das Know-how haben und daher viele Arbeiten mehrmals oder erneut durchführen müssen.
- Mangel an qualifizierten Big Data-Talenten: Big Data ist nach wie vor ein seltenes Fachgebiet, so dass es schwierig ist, qualifizierte Data Scientists zu finden, die eine Big Data-Strategie effektiv entwickeln und umsetzen können. Viele Unternehmen entscheiden sich dafür, eigene Mitarbeiter im Bereich Big Data weiterzubilden, anstatt um die wenigen verfügbaren Talente zu konkurrieren.
Wie werden Big Data gesammelt?
Big Data können aus vielen unterschiedlichen Quellen erfasst werden. Die Zahl der Datenquellen ist theoretisch unendlich, und die folgende Liste enthält nur einige Beispiele:
- Benutzer: Benutzer können Daten direkt zur Verfügung stellen, indem sie ein Formular ausfüllen oder an einer Umfrage teilnehmen, einen Post in sozialen Medien verfassen, bei einem Unternehmen einkaufen, ein persönliches Profil erstellen etc. Manche Benutzerdaten können auch passiv generiert werden, z. B. durch Interaktionen mit einer Website oder durch das An- und Abmelden bei einem Netzwerk.
- Anwendungen: Anwendungen, die im Unternehmen ausgeführt werden, generieren riesige Mengen an Daten. Daten von Schwachstellen-Scannern, Application Performance Management-Systemen, Mail-Servern und allen anderen Anwendungen, die Logs mit Informationen erzeugen, können bei der Analyse der Infrastrukturleistung von großem Nutzen sein.
- Middleware: Die Systeme, die das Herzstück des Unternehmens darstellen, wie Anwendungen und Webserver, können eine Fundgrube für Big Data-Informationen sein.
- Netzwerke: Netzwerkprotokolle sind gespickt mit nützlichen Informationen, die helfen können, Probleme der Netzwerkinfrastruktur zu erkennen. Dazu gehören Informationen, die von Routern und Switches, FTP-Servern und DHCP-Servern protokolliert werden.
- Betriebssysteme: Betriebssysteme protokollieren Performance- und Fehlerdaten, die für Big Data-Analysen zur Optimierung nützlich sind.
- Cloud- und virtuelle Infrastruktur: Durch die Verlagerung von Daten in die Cloud wurden Plattformen wie Google Cloud Platform, Microsoft Azure und Amazon AWS zu wichtigen Big Data-Quellen. Die umfangreichen Logging-Funktionen dieser Services (und der auf ihnen basierenden Infrastruktur) bieten erhebliche Analysemöglichkeiten.
- Physische Infrastruktur: Server-Hardware, Point of Sale-Geräte und Speicher-Arrays können einer Big Data-Analyseplattform tiefe Einblicke bieten. Sensordaten aus Geräten in Produktionsmaschinen gehören heute zu den wertvollsten Formen von Big Data.
Was ist die Big Data-Analyse?
Als „Big Data-Analyse“ bezeichnet man schlicht das Verfahren, bei dem Tools und Technologien, wie etwa künstliche Intelligenz, für die Analyse von Big Data-Speichern verwendet werden, die manchmal Tera- oder Petabyte an Daten beinhalten können, um verwertbare Erkenntnisse zu gewinnen. „Big Data“ bezieht sich also auf die eigentlichen Daten, während „Big Data-Analyse“ sich auf die Verarbeitung dieser Daten bezieht. In der Praxis wird oftmals auch nur von „Big Data“ gesprochen, obwohl „Big Data-Analyse“ gemeint ist, doch ehrlich gesagt hätten Big Data ohne darauf angewandte Analysen ja auch wenig Sinn.
Was sind Big Data-Tools und -Technologien?
Seit das Konzept der Big Data Mitte der 2000er Jahre bekannt wurde, ist die Zahl der Tools und Technologien zur Unterstützung von Big Data-Analysen explosionsartig angestiegen. Im Folgenden finden Sie eine Übersicht über einige der wichtigsten Big Data-Tools und -Technologien auf dem Markt, mit denen Sie große Datenmengen verarbeiten können. Während einige von privaten Anbietern entwickelt wurden, werden die meisten dieser Technologien heute als Open Source-Projekte unter Verwaltung von Apache bereitgestellt.
- Hadoop: Als eines der ursprünglichen und wichtigsten Frameworks für die Big Data-Analyse ist Hadoop nach wie vor eine grundlegende Technologie in Ihrem Daten-Ökosystem, die speziell für die Speicherung und Verarbeitung großer Mengen fast aller Datentypen entwickelt wurde.
- Apache Spark: Spark besticht mit seiner hohen Geschwindigkeit, die dank einer effizienteren API höher ist als die von Hadoop, bietet allerdings keinen Mechanismus für die verteilte Speicherung. Spark ist derzeit eine der am weitesten verbreiteten Big Data-Engines, die mit Dutzenden weiterer Computing-Plattformen integriert werden kann.
- Storm: Storm basiert auf einem anderen Ansatz zur Big Data-Verarbeitung und ist für die Verarbeitung von Echtzeitdaten und nicht von historischen Batch-Metadaten konzipiert, wie dies bei Hadoop und Spark der Fall ist. Storm gilt derzeit als eines der schnellsten Big Data-Systeme auf dem Markt.
- Hive: Ein SQL-basiertes Add-On für Hadoop, das hauptsächlich für die Verarbeitung großer Mengen an strukturierten Daten verwendet wird.
- Kafka: Eine weitere weit verbreitete Plattform für die Analyse von Daten.
- HPCC: HPCC steht für „High Performance Computing Cluster“ und ist eine Plattform, die mit vielen der oben genannten Tools konkurriert und sowohl mit Batch- als auch Echtzeitdaten arbeitet.
- Tableau: Tableau ist ein beliebtes Big Data-Tool (nicht Open Source), das für die breite Masse leichter zugänglich ist und es auch Benutzern, die keine Big Data-Experten sind, ermöglicht, Erkenntnisse aus großen Datensets zu gewinnen. Es bietet allerdings nicht die professionelle Leistung anspruchsvollerer Tools.
Dies sind einige der grundlegenden Technologien im Bereich Big Data, doch es gibt noch viele weitere Tools auf dem inzwischen überraschend gut bestückten Markt.
Welche Best Practices gibt es im Zusammenhang mit Big Data?
Big Data-Analysen sind komplex und können kostspielig werden, wenn sie ohne Berücksichtigung von Best Practices durchgeführt werden. Hier sind einige der wichtigsten Big Data-Prinzipien:
- Entwickeln Sie Ziele für Ihre Big Data-Strategie, bevor Sie loslegen: Welche übergeordneten Ziele möchten Sie erreichen? (Kunden besser verstehen? Produkt neu gestalten? Betrug aufdecken?) Bevor Sie Software installieren und Datenquellen erfassen, sollten Sie festlegen, was Sie erreichen wollen.
- Entwickeln Sie eine Schema- und Informationsarchitektur: Die Entwicklung einer Informationsarchitektur ist enorm wichtig, damit Unternehmen bei der Erfassung, Verarbeitung und Analyse von Daten, die für herkömmliche Datensysteme zu umfangreich oder zu komplex sind, richtig und angemessen vorgehen können. Es gibt viele Tutorials, die Ihnen den Einstieg erleichtern.
- Machen Sie sich ein Bild von Ihren Daten: Eine Bestandsaufnahme Ihrer Daten kann komplex und schwierig sein. Eventuell befinden sich diese Daten zum Großteil in Datenbanken, die nicht mehr aktiv sind, oder in verstaubten Backup-Archiven oder liegen in Formaten vor, die nicht mehr kompatibel sind. Sie werden wahrscheinlich viel Arbeit haben, um genau zu bestimmen, über welche Daten Sie verfügen – und welche Daten Sie noch zusätzlich benötigen.
- Stellen Sie die Datenqualität fest: Sind Daten beschädigt? Müssen die Daten in ein anderes Format mit einer sinnvolleren Struktur gebracht werden? Enthalten die Daten wirklich die Informationen, die Sie erwarten?
- Entwickeln Sie Ihre Big Data-Strategie unter Berücksichtigung der Sicherheit: In Big Data können wahre Minenfelder aus vertraulichen Informationen, Finanzdaten und anderen sensiblen Materialien darstellen. Große Datensets können wie jede andere Art von Daten gehackt und ausgenutzt werden. Sie müssen daher Maßnahmen ergreifen, um sie durch Verschlüsselung, eine robuste Backup-Strategie und andere Datenschutzmaßnahmen zu schützen.
Wie sieht die Zukunft von Big Data aus?
In vielerlei Hinsicht gleicht die Zukunft von Big Data der Zukunft von Daten ganz allgemein: Die Datenmengen werden weiterhin exponentiell ansteigen. In diesem Zusammenhang prognostizierte das IDC im März 2021, dass in den nächsten fünf Jahren mehr als doppelt so viele Daten erzeugt werden wie seit der Erfindung der digitalen Speicherung. Die pandemiebedingte Zunahme von Remote-Arbeitsumgebungen hat diesen Trend zusätzlich verstärkt. Daten werden an mehr Orten und von mehr Menschen als je zuvor erzeugt – mobile Geräte, IoT-Hardware, soziale Medien und mehr eingeschlossen. In absehbarer Zukunft wird es für Unternehmen eine enorme Herausforderung darstellen zu bestimmen, welche Daten nützlich sind, und sie zu erfassen und zu verstehen.
Heutzutage ist für den Erfolg eines Unternehmens ein solides Verständnis seiner Daten notwendig, und das bedeutet immer öfter, Daten in großem Umfang zu analysieren. Als Disziplin wird die Big Data-Analyse im Geschäftsalltag unerlässlich, und nur wenige wichtige Entscheidungen können heute ohne Big Data getroffen werden. Jedes Unternehmen, das in den nächsten zehn Jahren wettbewerbsfähig bleiben will, muss sicherstellen, dass es über ein solides Verständnis der verfügbaren Big Data-Quellen und der für die Analyse dieser Daten erforderlichen Tools sowie über entsprechend qualifizierte Mitarbeiter verfügt.
Basisleitfaden Daten
Holen Sie das Maximum aus Ihren Daten heraus und nutzen Sie sie für jede Frage, Entscheidung und Handlung - mit diesem umfassenden Leitfaden für Daten.