Nous vivons dans une ère des données sans précédent. Mais malgré la profusion d’informations disponibles, seule une poignée d’initiés semble profiter des bienfaits de la data, privant de ses richesses les oubliés du numérique. Les inégalités sont, en effet, parfois criantes. D’après une enquête du cabinet de conseil Datasulting et l’agence Paris&Co, à peine plus d’un tiers des entreprises disposeraient ainsi des compétences nécessaires pour valoriser leurs données, laissant ce marché prometteur aux mains des géants du secteur.
Pourtant, les questions d’éthique, d’accessibilité, de partage et de sécurité peuvent affecter le quotidien de chaque citoyen. Par exemple, en 2020, plus d’un million de Français ont été touchés par une violation de données. Il s’agit donc d’une problématique majeure, qui pourrait bien dessiner les contours de la société du futur. C’est justement un des enjeux soulevés par les invités de notre podcast Étant Données, qui donne la parole aux acteurs et aux actrices de la data.
D'eux de nos invités de la première saison du podcast, Audrey Raveneau, Chief Data Officer de SNCF Voyageurs et Jean-Gabriel Ganascia, président du comité d’éthique du CNRS et professeur à la faculté des sciences de Sorbonne Université, ont accepté de répondre aux questions du journaliste Bertrand Lenotre à ce sujet, lors d’un événement enregistré en public.
Les questionnements autour de l’éthique de la data ne sont pas récents. Dès les années 1980, un groupe dénommé PAPA (Privacy, Accuracy, Property, Accessibility) fait son apparition, et les thèmes qui ont formé ce sympathique acronyme restent d’actualité bien des décennies plus tard.
Avec plus de 3 950 fuites de données détectées en 2020, la confidentialité s’est imposée comme un défi majeur pour de nombreuses entreprises. Mais cette visibilité médiatique ne doit pas occulter les questions de propriété et de data ownership, qui peuvent se révéler très complexes à gérer.
Car l’information n’est pas un bien matériel usuel. Comme l’explique Jean-Gabriel Ganascia, si vous partagez un objet, vous en perdez généralement l’usage, du moins en partie ou de manière temporaire. Or, la data pouvant être dupliquée à un coût totalement nul, il est beaucoup plus simple de la faire circuler… et de faire preuve d’une grande générosité de façade.
Cela n’est toutefois pas un gage d’équité et n’empêche en aucun cas les comportements prédateurs. On peut par exemple penser à des laboratoires de recherche obligés de diffuser leurs données, sans même avoir eu le temps de les exploiter au préalable, au profit d’autres organisations disposant de ressources plus importantes. Et il est essentiel de garder cette nature très particulière de l’information en tête pour bien comprendre les principaux enjeux sociétaux liés à la data.
Pour faire face à la situation, la SNCF a mis en place une stratégie globale de gouvernance, qui incite les acteurs impliqués à s’interroger sur la propriété des données avant tout partage éventuel. Comme l’explique Audrey Raveneau, dans un groupe constitué de différentes entités, le problème ne concerne en effet pas uniquement les tiers externes. C’est ce qui a poussé la SNCF à créer plusieurs niveaux de protection en interne, afin de gérer efficacement les questions de diffusion, de monétisation et de contractualisation.
Pour traiter efficacement des données, il est nécessaire de les cataloguer de manière pertinente et d’en assurer un suivi rigoureux. Pour y parvenir, la SNCF a fait le choix de s’appuyer sur une plateforme commune, favorisant une gouvernance transversale et un monitoring complet des gestions de demandes. Ce système permet à l’entreprise de mettre en commun les connaissances relatives au catalogage et aux métadonnées, tout en limitant l’accès à la data elle-même aux cas d’usages ayant une réelle valeur ajoutée et aux parties prenantes qui y participent.
Ces différents niveaux de sécurité se révèlent indispensables pour protéger les ressources et les savoir-faire de l’organisation. Mais pour tirer tous les bénéfices des données, il faut également que l’ensemble des acteurs comprennent la valeur complémentaire qu’elles apportent. Il est donc important que les processus soient intégrés à l’écosystème et en accord avec les processus déjà en place dans l’entreprise.
La traçabilité est également une question essentielle pour nous prémunir des biais ou du moins les détecter. Car, contrairement à ce que l’on pense, un set de données exhaustif ne constitue en aucun cas un bouclier efficace en la matière. Un exemple : si l’on s’appuie aveuglément sur les renseignements disponibles, on peut montrer qu’il existe une corrélation entre les crèmes solaires et les cancers de la peau. Bien entendu, cela ne signifie pas que les premières engendrent les seconds, mais plutôt que la population qui se protège correspond d’ordinaire à celle qui s’expose le plus.
Comme l’explique Jean-Gabriel Ganascia, pour aboutir à des conclusions valides, il faudrait, dans ce cas, s’appuyer sur des groupes témoins, de la même manière que pour les expérimentations médicales, et effectuer un suivi rigoureux de toutes les informations collectées. Sans cela, les jeux de données bruts sont naturellement biaisés. Il s’agit d’une évidence dans le monde de l’IT, mais il faut maintenant convaincre les dirigeants sur ces questions et combattre les fables de la data si l’on veut s’assurer d’avancer dans le bon sens.
Le partage des données a le vent en poupe. Mais cette ouverture (le fameux Open Data) n’est pas sans poser de problèmes, notamment dans les organisations, qui doivent trouver leurs marques entre obligation de transparence et protection de leurs assets.
La SNCF n’a pas attendu le Data Act pour encadrer et gérer le partage de ses données. Depuis 2019 et l’ouverture du marché à la concurrence, le « décret données » contraint déjà l’entreprise à mettre certaines de ses informations à disposition des autorités organisatrices des transports. Un frein ? Plutôt une opportunité de changement pour Audrey Raveneau, qui préfère se concentrer sur les nouveaux défis qui permettront au groupe d’aller de l’avant. L’ouverture à la concurrence est en effet l’occasion pour l’entreprise de s’interroger sur la pertinence de ses offres et sur la meilleure manière de se démarquer.
Le Data Act se positionne quant à lui du côté du consommateur. En substance, le texte prévoit que tout usager puisse librement accéder aux données générées par ses objets connectés et services connexes. Et, encore une fois, ce nouveau cadre présente un certain nombre d’opportunités pour des organisations comme la SNCF, qui vont pouvoir profiter d’informations fournies par leurs équipementiers pour améliorer leurs analyses.
Toutefois, en tant que propriétaires de données, les entreprises doivent aussi s’interroger sur la manière de protéger leurs assets dans un contexte d’ouverture. Pour trouver le bon équilibre, la SNCF a mis en place un système de classification de la confidentialité, basé sur le niveau de sensibilité de l’information ainsi que sur sa valeur potentielle. Cette méthode de valorisation se révèle particulièrement pertinente pour identifier les ressources essentielles de l’organisation, qui ne peuvent être partagées au risque de générer des pertes conséquentes.
En dehors des questions purement économiques, la législation se doit aussi de protéger la vie privée des utilisateurs. Les techniques qui existent en la matière, comme l’anonymisation, sont en effet loin d’être infaillibles et dégradent par ailleurs la qualité de la data collectée. Cela signifie-t-il que nous devrions « couper les vannes » pour éviter les dérives ? Pour Jean-Gabriel Ganascia, tout dépend du type d'informations dont on parle. Par exemple, il est tout à fait pertinent d’utiliser les données médicales de la population pour faire avancer la recherche, mais cela ne doit pas être fait n’importe comment.
Trouver l’équilibre entre partage des ressources et protection de la propriété n’est pas un défi cantonné au domaine de la data. Pour y répondre, il faut garder à l’esprit que les données ont de la valeur et que, malgré les discours parfois évangélistes en la matière, l’ouverture et le partage ne sont pas toujours souhaitables. Les individus, les entreprises et les gouvernements doivent en effet protéger leurs intérêts, sans pour autant oublier que, dans certains cas, comme dans le secteur médical, les données sont également un bien commun.
À ces questions déjà complexes viennent s’ajouter des éléments tels que l’interopérabilité et la restitution des informations aux usagers. Mais le principal enjeu des années à venir réside peut-être dans notre capacité à convaincre tous les acteurs de la valeur économique, écologique et sociale des données afin de changer nos manières de consommer, d’agir et de penser, tout en ayant conscience des risques.
Pour ne citer qu’un exemple, on peut parler du groupement NumAlim, qui a pour vocation de numériser les données de l’alimentation. Le potentiel de ces informations est colossal, non seulement pour améliorer la transparence vis-à-vis des consommateurs, mais aussi pour les responsabiliser en matière de traçage carbone ou de commerce éthique. Malheureusement, les industriels et les grandes chaînes de distribution ne sont pas suffisamment conscients de l’importance de ces données et ne les diffusent donc que trop rarement. Cette ouverture est pourtant primordiale pour décloisonner l’accès à la data et, à terme, agir différemment au quotidien.
Vous voulez en savoir plus sur l’avenir de la data ? Découvrez la vision de dix acteurs majeurs du secteur dans notre podcast La data du futur et téléchargez notre e-book hors-série dédié à La data responsable.
La plateforme Splunk élimine les obstacles qui séparent les données de l'action, pour donner aux équipes d'observabilité, d'IT et de sécurité les moyens de préserver la sécurité, la résilience et le pouvoir d'innovation de leur organisation.
Fondée en 2003, Splunk est une entreprise internationale. Ses plus de 7 500 employés, les Splunkers, ont déjà obtenu plus de 1 020 brevets à ce jour, et ses solutions sont disponibles dans 21 régions du monde. Ouverte et extensible, la plateforme de données Splunk prend en charge les données de tous les environnements pour donner à toutes les équipes d'une entreprise une visibilité complète et contextualisée sur l'ensemble des interactions et des processus métier. Splunk, une base solide pour vos données.