Un data lake, ou lac de données, est un dépôt destiné à accueillir des téraoctets ou des pétaoctets de données brutes stockées dans leur format d’origine.
Les données peuvent provenir de diverses sources : IoT et capteurs, simple fichier ou un objet binaire volumineux (BLOB) tel qu’un fichier vidéo, audio, image ou multimédia. Toute manipulation des données visant à les mettre dans un pipeline et à les rendre utilisables est effectuée au moment où les données sont extraites du data lake.
Avec la croissance rapide des quantités de big data générées, assimilées et utilisées quotidiennement par les entreprises, les data lakes offrent la possibilité de stocker les données au rythme où elles arrivent. Les data scientists qui utilisent des data lakes s’appuient sur des outils de gestion pour rendre les ensembles de données utilisables à la demande. Ils peuvent ainsi être exploités dans des initiatives axées sur la découverte et l’extraction d’informations, la business intelligence, et le nettoyage et l’intégration des données.
Les data lakes sont construits à l’aide de méthodes simples de stockage d’objets pour héberger de nombreux formats et types de données différents. Les organisations construisaient traditionnellement des data lakes sur site, et certaines le font encore. Mais beaucoup les migrent vers des serveurs distants en utilisant les solutions de stockage cloud de grands fournisseurs tels qu’AWS, Azure et GCP.
Les données stockées dans un data lake peuvent être structurées, semi-structurées ou non structurées. Même s’il s’agit de données structurées, les métadonnées et autres informations qui y sont ajoutées ne sont pas utilisables. Les données d’un data lake doivent être nettoyées, balisées et structurées avant d’être exploitées dans différents scénarios d’utilisation. Pour y parvenir, les équipes suivent généralement un processus d’extraction, transformation et chargement (ETL) qui normalise les formats de données afin d’en extraire de précieuses informations.
Dans notre article, nous allons voir les composants d’un data lake, comment ils sont utilisés, quels sont leurs avantages et leurs inconvénients potentiels, et quel est l’avenir des data lakes dans le stockage et la gestion des données d’entreprise.
Les lacs de données contiennent un mélange de données structurées, semi-structurées et non structurées, stockées sans avoir été nettoyées, étiquetées ni manipulées.
Un data warehouse ne contient que des données structurées. Dans la plupart des data warehouses et des data centers, les données ont été importées via un processus d’extraction, de transformation et de chargement (ETL). Elles sont ensuite organisées (préparées), nettoyées, transformées, cataloguées et mises à disposition.
Une base de données (ou un système de gestion de base de données) permet de stocker des données, de les interroger et de produire des rapports. Contrairement aux data lakes, les bases de données nécessitent souvent des schémas et ne peuvent pas contenir de données semi-structurées ou non structurées. D’autre part, un data lake peut stocker des données brutes provenant de tout type de sources, et la structure n’est appliquée aux données que lorsqu’elles sont récupérées. L’utilisation d’un data lake n’offre pas les mêmes capacités de création de rapports qu’une base de données.
On voit émerger depuis peu une nouvelle option : le data lakehouse.
Le data lakehouse est une architecture de données moderne, privilégiée par de nombreuses entreprises qui apprécient cette combinaison des caractéristiques du data lake et du data warehouse. Comme un data lake, le lakehouse stocke les données dans les formats suivants :
... tout en fournissant les outils typiques du data warehouse :
Cette combinaison de fonctionnalités fait du data lakehouse une option très utile dans un large éventail de projets.
Les principaux avantages du data lake sont la vitesse, l’évolutivité et l’efficacité.
Face à l’augmentation constante des données traditionnelles créées, ingérées et stockées par une entreprise moderne, il est essentiel de disposer d’un moyen peu coûteux de stocker rapidement les données en permettant à quiconque d’y accéder sur demande, sans délai. En stockant un maximum de données, les entreprises peuvent ensuite exploiter le machine learning et l’analyse prédictive.
Les data lakes apportent une solution au problème des silos de données qui empêchent traditionnellement les entreprises de concrétiser la valeur de leurs données. Les informations offertes par cette visibilité accrue sur les données peuvent informer les décisions stratégiques.
Pour prendre un exemple, les données historiques des ventes et du marketing peuvent être utilisées pour prédire les performances futures. Avec l’arrivée de données supplémentaires et l’apparition d’outils de machine learning et d’analyse big data plus sophistiqués, ces prévisions deviennent progressivement plus précises.
Les data lakes ne présentent aucun inconvénient réel, car ils ne sont que des accumulations de données en attente d’utilisation et sont souvent couplés à d’autres types de dépôts.
Cela dit, la maintenance des data lakes nécessite l’appui de professionnels ayant une expertise en data science, qui ont également pour mission de rendre les données utiles.
Comparé à une base de données relationnelle structurée, le data lake peut sembler désorganisé, mais la comparaison n’est pas forcément juste ni exacte.
Lorsqu’il n’est pas géré correctement, le data lake est parfois qualifié de « marécage de données ». Dans un marécage de données, la qualité des données se dégrade, tout comme leur utilité et leur valeur pour l’entreprise. La latence augmente et devient un handicap. Il finit alors par présenter les mêmes inconvénients, défis et coûts en opportunités non réalisées que les dark data (qui sont les données en temps réel qu’une entreprise possède mais ne peut pas localiser, identifier, optimiser ni utiliser).
Nous avons bien compris qu’en soi, un data lake est une simple collection de données stockées dans leur format natif sur un serveur, local ou cloud. Le concept paraît simple.
Il est essentiel de comprendre les enjeux et les objectifs que vous poursuivez pour réussir la création d’un data lake dans votre entreprise. Nous allons passer en revue quelques bonnes pratiques, qui sont communes à toute initiative technologique majeure au sein d’une grande entreprise :
Le développement du machine learning offre de nouveaux moyens d’accéder aux données et de les utiliser, et il est désormais bien plus facile d’extraire rapidement des données d’un lac. Grâce au machine learning et à la science des données, les dark data pourraient définitivement sortir de l’ombre, et plus une organisation possède de données, plus ses systèmes d’analyse de données peuvent en tirer des informations. Les données sont l’un des actifs les plus précieux d’une entreprise. Et les data lakes lui offrent la possibilité de capturer, de stocker et d’utiliser ces actifs de la manière la plus efficace qui soit.
Une erreur à signaler ? Une suggestion à faire ? Contactez-nous à l’adresse ssg-blogs@splunk.com.
Cette publication ne représente pas nécessairement la position, les stratégies ou l’opinion de Splunk.
La plateforme Splunk élimine les obstacles qui séparent les données de l'action, pour donner aux équipes d'observabilité, d'IT et de sécurité les moyens de préserver la sécurité, la résilience et le pouvoir d'innovation de leur organisation.
Fondée en 2003, Splunk est une entreprise internationale. Ses plus de 7 500 employés, les Splunkers, ont déjà obtenu plus de 1 020 brevets à ce jour, et ses solutions sont disponibles dans 21 régions du monde. Ouverte et extensible, la plateforme de données Splunk prend en charge les données de tous les environnements pour donner à toutes les équipes d'une entreprise une visibilité complète et contextualisée sur l'ensemble des interactions et des processus métier. Splunk, une base solide pour vos données.