Learn

29 novembre 2023

12 min de lecture

Qu’est-ce que la supervision IT ? Tout savoir sur la supervision des systèmes IT

Par Joseph Nduhiu

Que ce soit dans le cloud ou sur site, il est essentiel d’avoir de la visibilité sur les rouages internes des services et de l’infrastructure pour assurer le bon fonctionnement d’un système informatique.

La plupart des entreprises modernes ont fait de la transformation numérique une priorité stratégique. Pour la mener à bien, elles doivent veiller à ce que leurs systèmes IT soient à la fois performants, sécurisés et rentables. L’état et les performances de l’IT doivent être supervisés pour :

la satisfaction des clients,
la conformité réglementaire.

Le rapport Annual Outage Analysis de l’Uptime Institute nous apprend que plus des deux tiers des interruptions de service (67 %) coûtent plus de 100 000 $ aux organisations qui les subissent. La conclusion ? Vous avez impérativement besoin de pouvoir détecter et traiter rapidement les anomalies du système.

Dans cet article, nous passons en revue les éléments à superviser, le processus de supervision lui-même ainsi que les tendances à venir.

Splunk ITSI est un leader dans le domaine de l’AIOps

Splunk IT Service Intelligence (ITSI) est une solution d’AIOps, d’analytique et de gestion IT qui aide les équipes à anticiper les incidents avant qu’ils n’affectent les clients.

ITSI utilise l’IA et le machine learning pour corréler les données collectées auprès de nombreuses sources de supervision et offrir une vue unifiée des services IT et métiers pertinents. La solution a un double avantage : elle réduit les déluges d’alertes et permet la prévention des interruptions de service.

En savoir plus sur Splunk ITSI ›

Qu’est-ce que la supervision des systèmes IT ?

Pour dire les choses simplement, le terme de « supervision IT » recouvre l’ensemble des processus et des outils qui permettent de déterminer si l’équipement informatique et les services numériques de votre entreprise fonctionnent correctement. La supervision permet de détecter et de résoudre les problèmes – toutes sortes de problèmes.

Mais de nos jours, la supervision n’a rien de simple. En effet, nos systèmes et nos architectures sont d’une grande complexité, et les systèmes informatiques que nous utilisons sont distribués. Tout comme nos équipes, d’ailleurs, qui peuvent être réparties dans le monde entier.

Passons en revue quelques définitions officielles.

Selon la définition du manuel sur la SRE de Google, la supervision consiste à « collecter, traiter, agréger et afficher des données quantitatives en temps réel sur votre système. » Ces données peuvent être très diverses : nombre et types de requêtes, nombre et types d’erreurs, temps de traitement, disponibilité des serveurs, etc.

Dans ITIL^® 4, les informations concernant l’intégrité et les performances des services relèvent de la pratique « Supervision et gestion des événements ». Selon sa définition, la supervision est une fonction qui permet aux organisations de :

réagir de façon appropriée aux événements passés qui affectent les services,
prendre des mesures proactives pour prévenir les événements indésirables à l’avenir.

La supervision est étroitement liée à de nombreux aspects de la gestion des services informatiques (ITSM) : gestion des incidents, gestion des problèmes, gestion de la disponibilité, gestion des capacités et des performances, gestion de la sécurité de l’information, gestion de la continuité des services, gestion des configurations, gestion des déploiements et implémentation des changements.

La supervision a plusieurs variantes. Bien que cet article s’intéresse à la supervision des systèmes informatiques au sens large, on recense plusieurs sous-catégories de supervision :

(Les solutions Splunk couvrent tous ces aspects. Nous proposons également des outils de supervision spécifiques pour les grands fournisseurs, comme AWS, SAP, GCP et d’autres.)

Exemple : Tableau de bord des services AWS dans Splunk Infrastructure Monitoring

Tableau de bord EC2 affichant des métriques prêtes à l’emploi et signalant les problèmes critiques d’espace disque

Que faut-il superviser dans les systèmes IT ?

La supervision des systèmes informatiques a pour but de répondre à deux questions fondamentales : que se passe-t-il ? Et pourquoi ?

Pour répondre à ces questions, vous devez superviser continuellement différents aspects du système afin de repérer les anomalies, les problèmes et les notifications de maintenance. L’objectif : veiller à ce que les services fonctionnent normalement et qu’ils puissent être utilisés conformément aux niveaux de performance convenus.

Les métriques sont des données de mesure brutes qui sont collectées, agrégées et analysées par les systèmes de supervision. Les métriques des systèmes IT se répartissent en plusieurs couches :

Métriques d’infrastructure de bas niveau : mesurées au niveau de l’hôte, du serveur, du réseau et des installations, elles incluent la consommation de CPU, l’espace disque, la consommation électrique et l’état des interfaces, entre autres.
Métriques d’applications : mesurées au niveau des logiciels, elles incluent les temps de réponse, les taux d’erreur et la consommation des ressources, entre autres.
Métriques de services : ces métriques se situent au niveau de l’infrastructure, des connectivités, des applications et des opérations des services, selon l’environnement.

La supervision qui repose sur les métriques d’infrastructure de bas niveau est surnommée « supervision de boîte noire ». Elle relève généralement de la compétence des administrateurs système et des ingénieurs DevOps. Au niveau des applications, on parle de « supervision de boîte blanche ». C’est généralement le travail des développeurs et des ingénieurs de support des applications.

Les métriques de supervision des systèmes IT proviennent généralement de fonctions de supervision natives, directement intégrées dans les composants informatiques observés.

Outre ces métriques, certains systèmes de supervision IT déploient une instrumentation spécialisée (souvent sous la forme d’agents logiciels légers), capable d’extraire des indicateurs plus précis à l’échelle des services.

Les quatre signaux clés

Google recense quatre signaux clés qui doivent être au cœur de la supervision des systèmes informatiques :

Latence. C’est le temps nécessaire au traitement d’une requête, c’est-à-dire le délai d’aller-retour, généralement exprimé en millisecondes. Plus la latence est élevée, plus le niveau de service est médiocre ; c’est là que les utilisateurs se plaignent de ralentissements et de manque de réactivité.
Trafic. Le trafic mesure la demande exercée sur votre système, par exemple le nombre de requêtes traitées ou de sessions ouvertes sur une période définie, et qui consomme la capacité du système en question. Quand le trafic augmente, la contrainte exercée augmente également, ce qui peut affecter l’expérience des clients.
Erreurs. Le taux de requêtes qui échouent, que ce soit explicitement, implicitement ou selon la politique appliquée. Les erreurs sont généralement le signe d’un problème de configuration ou de défaillance par rapport à certains éléments du modèle de service.
Saturation. La saturation mesure la portion du système qui est utilisée et met en évidence les ressources qui subissent le plus de contraintes. Autrement dit, dans quelle mesure un service est « plein ». Dépasser les niveaux d’utilisation définis peut entraîner des problèmes de performances.

Bonnes pratiques pour lutter contre les déluges d’alertes

Quand les administrateurs système mettent en place des systèmes de supervision pour capturer davantage d’informations, ils courent le risque d’être submergés par :

la quantité d’alertes reçues,
la complexité de la tâche consistant à relier les alertes et les logs.

Les bonnes pratiques recommandent de définir des règles simples, prévisibles et fiables pour détecter les problèmes réels.

Pour éviter les déluges d’alertes, il peut être utile d’examiner régulièrement les paramètres des seuils (information, avertissement, problème) et de configurer correctement les moteurs de corrélation automatique, comme ceux fournis par l’AIOps.

(Découvrez les seuils adaptatifs pour une approche plus intelligente de la supervision.)

Les activités de la supervision des systèmes informatiques

Maintenant que nous comprenons un peu mieux le contexte, penchons-nous sur les six activités principales de la supervision des systèmes IT.

Phase 1 : Planification

Pour mettre en place la supervision d’un système, il faut d’abord réaliser plusieurs activités de planification. Vous allez définir la priorité du système, choisir les aspects à superviser, établir les métriques et les seuils permettant de classer les événements, définir un « modèle d’intégrité » (séquence complète d’événements), définir des corrélations et des règles, et associer les événements à des plans d’action et des équipes responsables.

Cette phase de planification doit permettre de produire :

un plan de supervision pour le système informatique,
un modèle d’intégrité du service,
les types d’événements définis,
les critères de détection des événements,
la hiérarchisation et la prise en charge des événements,
une matrice des responsabilités pour la gestion des événements.

(À lire également : La corrélation des événements informatiques.)

Phase 2 : Détection et logging

C’est la première étape de la prise en charge des événements. Des alertes sont émises lorsque les seuils définis sont franchis ou que des critères sont remplis. Les alertes sont capturées par un système de supervision informatique qui permet de les consulter, de les agréger et de les analyser.

Phase 3 : Filtrage et corrélation

Conformément aux règles définies, le système de supervision filtre et corrèle les alertes reçues. Le filtrage peut se faire selon différents critères :

source,
heure et date de création de l’événement,
niveau.

La corrélation recherche des modèles remarquables parmi les autres alertes pour déterminer la source des anomalies et leurs effets potentiels.

Phase 4 : Classification

Au cours de cette phase, les événements sont regroupés en fonction de critères définis (le type et la priorité, par exemple) afin d’induire une réponse adaptée. Les alertes associées à une intrusion ou un ransomware, par exemple, seront classées comme événements de sécurité, et seront donc confiées à l’équipe du SOC.

Phase 5 : Réponse

En fonction du plan d’action et de la matrice de responsabilités que vous avez définis aux étapes précédentes, l’équipe concernée est prévenue par e-mail, par SMS, via un système de collaboration en ligne ou tout autre canal convenu.

Dans certains environnements IT, la réponse aux événements peut être automatisée : certaines mesures, comme le redémarrage d’une instance ou le basculement du trafic, sont prises sans aucune intervention humaine.

Phase 6 : Examen

Il est important de procéder à un examen régulier de la planification de la supervision, en tirant des enseignements de la gestion des événements et de son impact sur la qualité des systèmes informatiques. Vous vous assurerez ainsi que les métriques et les seuils que vous avez définis répondent toujours à vos besoins. Cette phase d’examen doit également permettre de :

Mettre à jour les procédures de réponse et les matrices de responsabilités.
Vérifier les performances des métriques associées au processus de gestion des événements, comme la qualité des données et les détections manquées qui ont conduit à des interruptions de service.

Tendances en perspective de la supervision des systèmes informatiques

Les systèmes informatiques devenant de plus en plus complexes, les entreprises doivent investir dans des outils de supervision capables de suivre le rythme de l’évolution des technologies et le volume des changements.

Dans une étude de 451 Research, 39 % des participants avaient investi dans 11 à 30 outils de supervision pour leurs applications, leur infrastructure et leur environnement cloud. Le chiffre est parlant ! Cette prolifération des outils montre rapidement ses limites :

pertes d’efficacité,
gaspillage de budget,
opportunités manquées.

On comprend alors l’attractivité que peuvent exercer, pour des entreprises soucieuses de rentabilité, des outils couvrant l’ensemble du paysage technologique et capables de rassembler les événements d’une myriade de systèmes et d’environnements.

Dans le cadre de nos échanges avec nos clients et des recherches que nous avons menées ces dernières années, nous avons vu deux grandes tendances émerger.

Impact du ML et de l’IA

L’impact de l’IA/ML sur la supervision des systèmes informatiques est de plus en plus sensible, en particulier avec l’augmentation des capacités des grands modèles de langage (LLM). Les outils modernes qui intègrent l’IA peuvent désormais prendre en charge l’intégralité du processus, de la détection à la réponse. Ils analysent de grands volumes de données d’événements et réalisent des activités fastidieuses comme la corrélation des événements et l’analyse des logs à l’échelle des systèmes distribués.

Avec un entraînement adapté, ces outils remplissent parfaitement leur mission : trier efficacement le déluge d’alertes et reconnaître les faux positifs et les faux négatifs bien plus vite que n’importe quelle équipe humaine. Mais il ne faut pas en déduire que les personnes n’ont plus leur place dans la supervision des systèmes informatiques. Au contraire, elles vont pouvoir s’atteler à la création de meilleurs outils d’orchestration et d’automatisation afin de répondre aux alertes et de les résoudre.

Observabilité unifiée

L’autre tendance qui influence la supervision des systèmes informatiques est l’avènement de l’observabilité unifiée. De plus en plus de plateformes offrent une vue unifiée de l’infrastructure, des applications et de l’expérience utilisateur, en analysant les logs, les métriques et les traces. Elles sont une véritable loupe et permettent d’analyser les alertes en profondeur pour diagnostiquer avec précision les problèmes rencontrés par les utilisateurs dans les environnements complexes.

(Splunk est la première plateforme qui unifie l’observabilité et la cybersécurité. Découvrez comment.)

Supervisez la santé de votre entreprise

Pour les entreprises de toutes les tailles, la supervision des systèmes informatiques est un moyen essentiel de garantir la fonctionnalité, la performance et la sécurité de leurs services IT. Le domaine de la supervision des systèmes informatiques va poursuivre son évolution pour relever les défis à venir et offrir toujours plus d’avantages dans le contexte du développement technologique.

On ne dira jamais assez à quel point l’amélioration permanente est essentielle. Ce n’est qu’en adoptant une approche proactive et orientée données de la supervision des systèmes informatiques que les entreprises pourront garantir l’efficacité et la rentabilité de leurs services.

Guide de la supervision

Thématiques connexes

Une erreur à signaler ? Une suggestion à faire ? Contactez-nous à l’adresse ssg-blogs@splunk.com.

Cette publication ne représente pas nécessairement la position, les stratégies ou l’opinion de Splunk.

Joseph Nduhiu

Joseph is an ICT consultant and trainer with over 18 years of global experience across multiple sectors. His passion is assisting business units and IT departments in executing their digital transformation strategies and streamlining their operations in line with global standards and best practices. His areas of expertise include business process reengineering, IT service management, project management and cyber resilience. You can connect with Joseph @josephnduhio and on LinkedIn.

Articles connexes

Learn 16 min de lecture

Qu’est-ce que la gestion des risques des délits financiers (FCRM) ?

Plongez-vous dans la gestion des risques des délits financiers (FCRM). Découvrez les différents types de délits, la conformité aux règles de lutte contre le blanchiment d’argent, l’évaluation des risques et les solutions FCRM axées sur la détection et la prévention.

Learn 9 min de lecture

Ingénieur en fiabilité des sites : responsabilités, rôles et salaires

Découvrez l’importance du rôle d’ingénieur en fiabilité des sites. Vous connaîtrez les responsabilités, les compétences et les salaires des ingénieurs en fiabilité des sites.

Learn 19 min de lecture

Process mining : une brève introduction

Dans cet article de blog, nous explorons les bonnes pratiques et les meilleures stratégies pour prendre un bon départ avec le process mining.

À propos de Splunk

La plateforme Splunk élimine les obstacles qui séparent les données de l'action, pour donner aux équipes d'observabilité, d'IT et de sécurité les moyens de préserver la sécurité, la résilience et le pouvoir d'innovation de leur organisation.

Fondée en 2003, Splunk est une entreprise internationale. Ses plus de 7 500 employés, les Splunkers, ont déjà obtenu plus de 1 020 brevets à ce jour, et ses solutions sont disponibles dans 21 régions du monde. Ouverte et extensible, la plateforme de données Splunk prend en charge les données de tous les environnements pour donner à toutes les équipes d'une entreprise une visibilité complète et contextualisée sur l'ensemble des interactions et des processus métier. Splunk, une base solide pour vos données.

En savoir plus sur Splunk