Avant de parler de normalisation des données, rappelons que toutes les entreprises d’aujourd’hui collectent des données sous une forme ou une autre. Les très grandes entreprises ont des méthodes établies pour recueillir, stocker et analyser les données. Quant aux structures plus modestes et aux start-ups, elles leur emboîtent le pas. En effet, la collecte et l’analyse des données ont un intérêt considérable pour :
Aujourd’hui, à l’ère du big data, de la démocratisation des données et maintenant de l’IA, des quantités sans précédent d’informations basées sur les données sont à notre disposition. La plupart des entreprises collectent et gèrent leurs données à l’aide de bases de données, de plateformes CRM ou de systèmes d’automatisation, mais la diversité des formats et des types de données peut entraîner des incohérences ou des redondances dans l’information.
Pour être véritablement efficace, la collecte des données doit s’appuyer sur un processus de gestion des données rationalisé. Et c’est là qu’intervient la normalisation des données.
Pour dire les choses simplement, la normalisation des données consiste à organiser les entrées de manière à ce qu’elles aient le même aspect dans tous les champs et enregistrements, afin de faciliter la recherche, le regroupement et l’analyse des informations. Il existe de nombreuses techniques et règles de normalisation des données.
Dans cet article, nous abordons les bases de cette pratique et donnons quelques conseils pour améliorer l’organisation et la gestion de vos données.
La normalisation des données est l’un des nombreux processus que vous pouvez appliquer à des données. C’est simplement une façon de « faire le ménage » dans vos données et de les réorganiser pour que vos utilisateurs puissent plus facilement les manipuler, les interroger et en analyser les résultats.
Lorsque vous normalisez un ensemble de données, vous le réorganisez pour éliminer toutes les données non structurées ou redondantes afin de pouvoir les stocker de façon plus logique et performante.
L’objectif principal de la normalisation des données consiste à produire un format de données normalisé à l’échelle du système entier. En facilitant l’interrogation et l’analyse des données, ce processus permet de prendre des décisions métiers plus intelligentes.
La normalisation des données peut être intégrée à votre pipeline de données dans une optique de visibilité : c’est ce qu’on appelle l’observabilité des données.
Concrètement, la normalisation des données est une étape vers leur optimisation, qui vise à maximiser la valeur que vous pouvez en extraire.
Malheureusement, l’optimisation des données reste un objectif lointain pour de nombreuses entreprises : elles collectent des volumes considérables de données qui, dans leur forme d’origine, sont rarement utiles ou exploitables. L’IA n’en est encore qu’à ses débuts. S’il y a une chose que nous avons comprise, c’est que l’IA a besoin de toutes les données.
(Bien sûr, il faut bien plus que des données pour assurer le succès de l’IA : il faut, au minimum, de la gouvernance, de l’éthique et des frameworks pour être sûr de tirer de la valeur de l’IA tout en réduisant ses effets néfastes que nous connaissons déjà.)
La normalisation des données a bien d’autres avantages que nous aborderons par la suite, mais commençons par présenter les différentes techniques de normalisation.
(À lire également : Plateformes de données et Supervision des bases de données.)
Fondamentalement, on normalise les données en créant un format par défaut (standardisé) pour toutes les données contenues dans la base de données de votre entreprise. La normalisation se déroule différemment selon le type de données utilisées. Voici quelques exemples de données normalisées :
Normaliser les données en masse est une entreprise plus complexe. On procède généralement en créant des tables et en les liant tout en suivant un ensemble de pratiques visant à protéger les données et à réduire la fréquence des anomalies. Ces techniques et pratiques de normalisation prennent de nombreuses formes : passons-les en revue.
(À lire également : Systèmes de gestion de base de données, ou DBMS.)
La normalisation des données suit un ensemble de règles appelées « formes normales ». Ces formes de normalisation de données sont catégorisées par couche et chaque règle s’appuie sur la précédente. Autrement dit, vous ne pouvez appliquer la deuxième couche de règles que si vos données répondent aux conditions de la première couche, et ainsi de suite.
Il existe de nombreuses formes de normalisation des données, mais voici les quatre formes les plus couramment employées, valables pour la plupart des ensembles de données.
Penchons-nous dessus plus en détail.
Pour parvenir à une forme normale donnée, vous devez suivre un ensemble défini de principes ou directives. Les règles que nous allons aborder régissent la façon dont les données doivent être liées et structurées pour maintenir l’intégrité de l’information.
La première forme normale, ou 1NF, représente la forme la plus simple de normalisation des données. Cette règle vise essentiellement à éviter tout doublon dans les entrées d’un groupe. Autrement dit :
Pensez par exemple à un tableau contenant le nom d’une personne, son adresse et son genre, et qui précise si elle a commandé un t-shirt Splunk.
La deuxième forme normale, ou 2NF, s’appuie sur les règles de la première forme. Une fois encore, elle a pour but d’éliminer toute répétition dans les entrées d’un jeu de données. Une fois cette règle de normalisation appliquée, les entrées doivent :
L’application d’une clé primaire signifie essentiellement qu’il faut créer une table distincte pour les sous-ensembles de données qui peuvent être placés sur plusieurs lignes. Les données de chaque table peuvent ensuite être liées à l’aide de libellés de clé étrangère (des numéros, dans ce cas).
Si une clé primaire telle que « Numéro client » s’applique à notre exemple, les sous-ensembles de données qui nécessitent plusieurs lignes (différentes commandes de t-shirt, par exemple) doivent être placés dans une nouvelle table, accompagnés d’une clé étrangère correspondante.
Exemple de données dans la deuxième forme normale :
Numéro de client | Nom | Adresse | Genre |
---|---|---|---|
1 | Joe Bloggs | 37 av. des Pissenlits | Homme |
2 | Jane Smith | 64 allée Franciso | Femme |
3 | Chris Columbus | 5 rue Mayflower | Homme |
Numéro de client | Commande de t-shirt |
---|---|
1 | L |
2 | S |
2 | M |
3 | M |
Le modèle de données de la troisième forme normale comprend les règles suivantes :
Autrement dit, en cas de modification de la clé primaire, toutes les données affectées doivent aller dans une nouvelle table.
Dans notre exemple, si vous documentez le nom, l’adresse et le genre d’une personne, mais que vous modifiez son nom par la suite, le genre de la personne pourrait changer également. Par conséquent, le genre reçoit une clé étrangère et toutes les données relatives au genre sont placées dans une nouvelle table.
Exemple de données dans la troisième forme normale :
Numéro de client | Nom | Adresse | ID de genre |
---|---|---|---|
1 | Joe Bloggs | 37 av. des Pissenlits | 1 |
2 | Jane Smith | 64 allée Franciso | 2 |
3 | Chris Columbus | 5 rue Mayflower | 1 |
Numéro de client | Commande de t-shirt |
---|---|
1 | L |
2 | S |
2 | M |
3 | M |
Numéro de client | Commande de t-shirt |
---|---|
1 | L |
2 | S |
2 | M |
3 | M |
ID de genre | Genre |
---|---|
1 | Homme |
2 | Femme |
3 | Non binaire |
4 | Préfère ne rien dire |
La forme normale de Boyce-Codd, appelée BCNF ou 3.5NF, est une version développée du modèle de données de la 3e forme normale (3NF). Une table 3.5NF est une table 3NF qui ne présente aucun recoupement de clés candidates. Cette forme normale inclut les règles suivantes :
Pour dire les choses simplement, cela signifie que pour une dépendance X → Y, X ne peut pas être un attribut non premier si Y est un attribut premier.
Si vous enfreignez les règles de normalisation, les anomalies suivantes peuvent se produire :
Toutes ces anomalies peuvent accroître la fréquence des redondances et des incohérences dans les données, et donc compromettre l’intégrité de votre base de données.
Maintenant que vous maîtrisez les concepts de base, voyons les avantages de la normalisation des données pour votre entreprise. Des données normalisées renforcent l’intégrité du référentiel en organisant les informations connexes en tables distinctes. Cette approche impose des contraintes de clés étrangères qui garantissent la cohérence des relations.
Outre l’intérêt évident d’une base de données mieux organisée et bien structurée, la normalisation des données offre de nombreux avantages supplémentaires aux entreprises :
Avant de normaliser vos données, il se peut que vous ayez plusieurs instances des mêmes informations client dispersées à plusieurs endroits de votre base de données. En organisant les données pour éliminer les doublons, vous pouvez libérer de l’espace de stockage et améliorer la performance et l’efficacité de votre système.
(À lire également : Gestion des données client.)
La vitesse à laquelle vous allez trouver des données après la normalisation est un avantage de poids pour l’exécution des requêtes en général. Les différentes équipes d’une entreprise trouveront les informations au même endroit au lieu d’avoir à consulter différents ensembles de données.
Autre avantage clé de la normalisation : l’élimination des anomalies dans les données, autrement dit des incohérences dans le stockage. Les problèmes affectant la structure d’une base de données se manifestent sous la forme d’erreurs lors de l’ajout, de la mise à jour ou de la suppression d’informations contenues dans une base de données.
Les règles de normalisation des données veillent à ce que chaque saisie ou mise à jour de données se fasse correctement, sans doublon ni erreur, et que vous puissiez supprimer des informations sans affecter des données connexes.
(À lire également : Détection des anomalies).
La normalisation améliore l’intégrité des données et réduit les redondances, deux facteurs qui permettent de maintenir des enregistrements exacts et cohérents. Cela permet également de partager les données de façon transparente.
La normalisation a également l’avantage de soutenir l’interopérabilité entre les différents systèmes.
Les méthodes de normalisation des données sont utiles pour les entreprises qui collectent des informations depuis un large éventail de sources, en particulier lorsqu’elles importent des données en continu depuis des plateformes SaaS et d’autres sources numériques (sites web, réseaux sociaux) pour les analyser.
En normalisant les données, vous donnez à votre entreprise les conditions optimales pour se développer. Vous pouvez notamment recourir à des tactiques comme la segmentation des prospects. Les formulaires de données normalisés permettent de diviser les contacts en catégories reposant sur différents critères :
Tout cela permet de retrouver plus facilement des informations sur un prospect et élimine de nombreux problèmes pour les équipes de développement commercial.
Il faut maintenant rappeler certaines réalités. C’est une évidence, la normalisation des données présente des avantages considérables pour les entreprises, mais elle a indéniablement des inconvénients.
Lorsque l’on normalise les données à un niveau plus complexe, certaines requêtes analytiques demandent plus de temps à votre base de données, en particulier lorsqu’il faut parcourir un grand volume de données. Les règles de données normalisées reposent sur l’utilisation d’un grand nombre de tables, ce qui explique ces lenteurs.
Le compromis traditionnel consiste à accélérer les requêtes en renonçant à réduire l’espace de stockage, mais rappelons que le coût du stockage tend à diminuer avec le temps.
Vous aurez besoin de connaissances approfondies et détaillées sur les formes normales et les structures de données pour normaliser correctement vos données. Si le processus initial est défaillant, vous rencontrerez d’importantes anomalies, comme des incohérences dans les dépendances. Cela se produit lorsque deux attributs qui ne sont pas des clés dépendent l’un de l’autre, créant des problèmes d’intégrité et des anomalies potentielles.
Lorsque le nombre de connexions de données augmente, attendez-vous à des défis tels que des bottlenecks, une augmentation de la latence et une densification de la complexité inhérente à la gestion des systèmes distribués. Pensez également qu’une augmentation de la charge affecte la performance et fait qu’il devient plus difficile encore de préserver la cohérence des données. Enfin, l’exploitation d’un processus à plus grande échelle s’accompagne toujours de difficultés liées à la gestion de la sécurité sur un nombre croissant de connexions, tout en intégrant des sources de données variées.
Il ne suffit pas de configurer la base de données : il faut aussi former les bonnes personnes à son interprétation. La plupart des données qui suivent les règles des formes normales sont enregistrées sous la forme de valeurs numériques. Autrement dit, les tables contiennent des codes plutôt que des informations réelles. Il faut donc toujours référencer la table de requêtes.
(À lire également : Le rôle d’analyste des données et Les certifications d’analyse des données à acquérir.)
Les développeurs et les architectes de données continuent de concevoir des bases de données NoSQL orientées document et des systèmes non relationnels utilisables sans stockage sur disque. Cela explique que le mélange de normalisation et de dénormalisation des données soit de plus en plus fréquent.
(À lire également : SQL et NoSQL.)
Le processus de normalisation des données demande du temps et des efforts, mais ses avantages compensent largement ses inconvénients. Si vous ne normalisez pas les données que vous collectez auprès de différentes sources, elles n’auront pas réellement de sens ou d’utilité pour votre entreprise.
Les bases de données et les systèmes évoluent pour réduire les demandes en stockage, mais il faut tout de même rappeler qu’un format normalisé permet d’éviter les doublons, les anomalies et les redondances, et donc d’améliorer l’intégrité globale de vos données. La normalisation des données libère leur potentiel métier et fonctionnel et offre des opportunités de croissance à tous les types d’entreprise.
Pour cette raison, c’est l’une des démarches les plus utiles que vous puissiez entreprendre pour votre organisation aujourd’hui.
Une erreur à signaler ? Une suggestion à faire ? Contactez-nous à l’adresse ssg-blogs@splunk.com.
Cette publication ne représente pas nécessairement la position, les stratégies ou l’opinion de Splunk.
La plateforme Splunk élimine les obstacles qui séparent les données de l'action, pour donner aux équipes d'observabilité, d'IT et de sécurité les moyens de préserver la sécurité, la résilience et le pouvoir d'innovation de leur organisation.
Fondée en 2003, Splunk est une entreprise internationale. Ses plus de 7 500 employés, les Splunkers, ont déjà obtenu plus de 1 020 brevets à ce jour, et ses solutions sont disponibles dans 21 régions du monde. Ouverte et extensible, la plateforme de données Splunk prend en charge les données de tous les environnements pour donner à toutes les équipes d'une entreprise une visibilité complète et contextualisée sur l'ensemble des interactions et des processus métier. Splunk, une base solide pour vos données.