Bienvenue dans l’épisode 9 de Data Talks, la série vidéo de Splunk dans laquelle des experts de la donnée décryptent pour nous les grandes tendances autour de la data. Nous retrouvons aujourd’hui Mick Lévy, qui a choisi de nous parler d’un sujet passionnant : le data mesh, ou maillage de données.
Directeur de l’innovation chez Business & Decision, Mick accompagne des projets data depuis plus de 20 ans. Il est également l’auteur du livre à succès « Sortez vos données du frigo » et anime des conférences sur les thématiques IA et data ainsi que des chroniques pour le podcast Trench Tech, qui interroge sur les impacts éthiques et sociétaux de la tech. À travers toutes ses activités, il milite pour « une exploitation intensive et responsable des données et de l’IA ». Nous aurions donc pu le consulter sur de nombreux sujets, mais notre choix s’est arrêté sur le data mesh.
SOMMAIRE
Définition du data mesh
Les principes fondamentaux du data mesh
Les outils du data mesh
Les bonnes pratiques en matière de data mesh
Les écueils du data mesh
L’avenir de l’approche data mesh
Il faut avant tout comprendre que le data mesh ne désigne pas une technologie spécifique, mais un cadre de travail complet permettant aux entreprises d’adopter une véritable posture data-driven (un thème déjà abordé dans l’épisode précédent). Toutefois, contrairement aux approches précédentes, il ne s’agit pas de faire table rase du passé par une centralisation totale. À la lutte, le data mesh préfère la collaboration, en tirant parti des écosystèmes existants pour construire une organisation plus efficace.
Pour bien saisir le concept, il est peut-être nécessaire de revenir un peu en arrière. Cela fait en effet des décennies que les entreprises bataillent contre ce que j’appelle « la tragédie des silos » et que les équipes IT se débattent pour avoir accès à des données dispersées dans une multitude de services et de systèmes. Et depuis plus de trente ans, on s’acharne à vouloir centraliser toujours plus les informations, à coup de data lakes, de data warehouses, de data hubs et autres solutions de stockage et de traitement.
Le data mesh est une stratégie beaucoup plus pacifique, si l’on peut dire. Au lieu de chercher à détruire ces silos à tout prix, l’idée est plutôt de les utiliser pour construire un cadre de travail plus efficace. C’est aussi une approche transversale mêlant technologies, organisation, compétences, gouvernance et processus afin de guider les entreprises sur la voie du data-driven. Un peu comme si Spiderman, le plus agile des super héros, venait redéfinir les concepts de l’entreprise à l’aide de ses toiles !
Le concept peut en effet être défini à l’aide de quatre piliers fondamentaux.
C’est certainement le point le plus impactant, mais aussi le plus long à mettre en place. Il s’agit de créer des domaines au plus près des réalités métiers (par service, produit, problématique ou direction de l’entreprise, par exemple) et de nommer des responsables (data domain owners) chargés de gérer et de valoriser leur patrimoine de données. Les capacités opérationnelles de l’organisation (data engineers, data analysts, data scientists, data architects) sont ensuite réparties sur les différents périmètres afin de soulager les goulots d’étranglement dont souffrent habituellement les équipes très centralisées. Cette approche ne peut pas toujours être appliquée à tous les domaines, mais elle permet de résoudre un grand nombre de problématiques.
À l’heure actuelle, la data est traitée comme un projet ; l’approche data mesh propose plutôt de l’aborder comme un produit. Pour employer une image concrète, on peut comparer la data à une bouteille. Jusqu’à maintenant, on considérait les données comme des gouttes d’eau, et notre approche consistait uniquement à envoyer nos informations aux utilisateurs pour qu’ils les exploitent à leur gré. Cette démarche n’apporte toutefois que peu de valeur et pose de nombreux problèmes d’exploitation.
La vision data mesh consiste à créer non seulement le contenu (l’eau), mais aussi le contenant (la bouteille, ou le data set) et la documentation (l’étiquette, ou les métadonnées). Il faut ensuite mettre ce produit à disposition des utilisateurs des domaines concernés via des API (les magasins) et en faire la promotion dans des data marketplaces, par exemple.
Les deux premiers piliers se situent du côté de la méthodologie et de la distribution de la responsabilité dans le but d’intensifier l’exploitation des données. Les deux autres visent davantage à fédérer les efforts autour de la data afin de ne pas recréer le data chaos qui régnait il y a une quarantaine d’années.
Pour y parvenir, il faut tout d’abord s’appuyer sur une plateforme de données fédérée et partagée avec l’ensemble des domaines, capable d’offrir toute la souplesse dont les équipes métiers ont besoin pour bien travailler.
Il est également important d’unifier la gouvernance des données au sein d’un catalogue transverse, accessible à l’ensemble des domaines.
Ce modèle basé à la fois sur la distribution (des informations et des responsabilités) et sur l’harmonisation (des technologies et des modalités de gouvernance) apporte ainsi la cohérence dont les entreprises ont besoin pour accélérer leur transformation data et la mettre au service des principaux intéressés : les métiers.
Le data mesh est agnostique d’un point de vue technologique. Il n’existe donc pas de solutions miraculeuses, mais un certain nombre d’outils peuvent aider et accélérer sa mise en œuvre. On peut notamment citer toutes les technologies data autour du cloud, dont Splunk est un éminent représentant d’ailleurs, ainsi que les dispositifs de virtualisation des données. Ces méthodes ne sont toutefois pas exclusives, et l’on peut théoriquement faire du data mesh avec n’importe quel outil.
Il faut déjà adopter la bonne attitude et procéder par étapes. Il peut être intéressant de commencer par un domaine pilote, par exemple, ou d’appliquer tous les éléments méthodologiques à un seul produit, de bout en bout.
Même si l’approche n’est pas nouvelle, il est également important de continuer à travailler sur des plateformes fédérées et d’impliquer au maximum les métiers. Pour ce faire, chez Business & Decision, nous avons mis en place un atelier d’une journée, le Data Mesh Bootcamp, qui nous permet de réunir une quinzaine de collaborateurs de la DSI, du Data Office et des métiers afin d’élaborer un plan d’action priorisé et planifié sur un mois, un an et trois ans. L’idée est de définir une feuille de route pour guider l’entreprise vers le data mesh, en embarquant l’ensemble des acteurs concernés dans l’aventure.
Le data mesh est un concept très récent. Il n’a été inventé qu’en 2018 par Zhamak Dehghani, et son principal ouvrage fondateur n’est sorti qu’en avril 2022. Il faut donc se méfier à tout prix des prédicateurs qui vous promettent monts et merveilles, aucune entreprise ne pouvant aujourd’hui se vanter d’être totalement data mesh. L’adoption de ce modèle est cependant très rapide, car il se révèle extrêmement pertinent pour l'organisation data-driven.
Mais attention ! Comme je le disais précédemment, il ne faut surtout pas se précipiter et se fixer comme cible d’être intégralement data mesh d’un coup de baguette magique. De nombreux spécialistes considèrent d’ailleurs cette approche comme une utopie, et je suis assez d’accord avec eux. C’est davantage une étoile du Nord qu’un objectif concret, d’autant plus que les entreprises (en dehors du monde de la tech) n’ont globalement pas la maturité nécessaire en matière de données pour passer au 100 % data mesh. La démarche reste toutefois un excellent guide pour générer de la valeur, impliquer les métiers et rationaliser les systèmes d’information. C’est de cette manière que l’on parviendra à mettre réellement la data au service de l’organisation, à condition de savoir prendre son temps.
En 22 ans d’expérience, je n’ai jamais vu de modèle aussi complet pour valoriser les data dans l’ensemble de l’entreprise. Le concept qui s’en rapproche le plus est peut-être celui de data warehouse, mais il date de 1991 ! Depuis, c’est la première fois que nous sommes face à une approche globale, capable de mobiliser toute l’organisation.
Je suis donc convaincu que le data mesh va s’imposer dans les années à venir comme le modèle à suivre pour les entreprises data-driven. L’offre technologique devrait également s’étoffer afin de faciliter sa mise en œuvre. On peut notamment s’attendre à voir fleurir les solutions de partage des données et les data marketplaces. On devrait aussi assister à une généralisation des API et à une simplification des modes d’accès aux données.
Enfin, les entreprises vont certainement avoir de plus en plus besoin d’outils leur permettant de superviser le cycle de vie et la qualité des données de bout en bout, de la collecte aux usages analytiques. Les solutions d’observabilité, dont Splunk est un des fers de lance du marché, ont donc de beaux jours devant elles !
Merci, Mick, d’avoir pris le temps de nous initier au data mesh ! Nous ne manquerons pas de lire le tout nouveau livre blanc de Business & Decision, Data Mesh : Spiderman vous guide vers l’entreprise data-driven, pour en savoir plus. N’hésitez pas à commenter et à partager cet article. Merci pour votre fidélité, et rendez-vous sur le blog de Splunk ou sur notre chaîne YouTube pour visionner nos précédentes éditions.
Autres épisodes disponibles :
Data Talks : Tout savoir sur la Dataviz
Data Talks : Tout savoir sur l’Open Data
Data Talks : Tout savoir sur le Chief Data Officer
Data Talks : Tout savoir sur l’IA et la Data
Data Talks : Tout savoir sur le Big Data
Data Talks : Tout savoir sur la gouvernance des données
Data Talks : Tout savoir sur l’observabilité
Data Talks : Tout savoir sur le data-driven
La plateforme Splunk élimine les obstacles qui séparent les données de l'action, pour donner aux équipes d'observabilité, d'IT et de sécurité les moyens de préserver la sécurité, la résilience et le pouvoir d'innovation de leur organisation.
Fondée en 2003, Splunk est une entreprise internationale. Ses plus de 7 500 employés, les Splunkers, ont déjà obtenu plus de 1 020 brevets à ce jour, et ses solutions sont disponibles dans 21 régions du monde. Ouverte et extensible, la plateforme de données Splunk prend en charge les données de tous les environnements pour donner à toutes les équipes d'une entreprise une visibilité complète et contextualisée sur l'ensemble des interactions et des processus métier. Splunk, une base solide pour vos données.