Que ce soit dans le cloud ou sur site, il est essentiel d’avoir de la visibilité sur les rouages internes des services et de l’infrastructure pour assurer le bon fonctionnement d’un système informatique.
La plupart des entreprises modernes ont fait de la transformation numérique une priorité stratégique. Pour la mener à bien, elles doivent veiller à ce que leurs systèmes IT soient à la fois performants, sécurisés et rentables. L’état et les performances de l’IT doivent être supervisés pour :
Le rapport Annual Outage Analysis de l’Uptime Institute nous apprend que plus des deux tiers des interruptions de service (67 %) coûtent plus de 100 000 $ aux organisations qui les subissent. La conclusion ? Vous avez impérativement besoin de pouvoir détecter et traiter rapidement les anomalies du système.
Dans cet article, nous passons en revue les éléments à superviser, le processus de supervision lui-même ainsi que les tendances à venir.
Splunk IT Service Intelligence (ITSI) est une solution d’AIOps, d’analytique et de gestion IT qui aide les équipes à anticiper les incidents avant qu’ils n’affectent les clients.
ITSI utilise l’IA et le machine learning pour corréler les données collectées auprès de nombreuses sources de supervision et offrir une vue unifiée des services IT et métiers pertinents. La solution a un double avantage : elle réduit les déluges d’alertes et permet la prévention des interruptions de service.
Pour dire les choses simplement, le terme de « supervision IT » recouvre l’ensemble des processus et des outils qui permettent de déterminer si l’équipement informatique et les services numériques de votre entreprise fonctionnent correctement. La supervision permet de détecter et de résoudre les problèmes – toutes sortes de problèmes.
Mais de nos jours, la supervision n’a rien de simple. En effet, nos systèmes et nos architectures sont d’une grande complexité, et les systèmes informatiques que nous utilisons sont distribués. Tout comme nos équipes, d’ailleurs, qui peuvent être réparties dans le monde entier.
Passons en revue quelques définitions officielles.
Selon la définition du manuel sur la SRE de Google, la supervision consiste à « collecter, traiter, agréger et afficher des données quantitatives en temps réel sur votre système. » Ces données peuvent être très diverses : nombre et types de requêtes, nombre et types d’erreurs, temps de traitement, disponibilité des serveurs, etc.
Dans ITIL® 4, les informations concernant l’intégrité et les performances des services relèvent de la pratique « Supervision et gestion des événements ». Selon sa définition, la supervision est une fonction qui permet aux organisations de :
La supervision est étroitement liée à de nombreux aspects de la gestion des services informatiques (ITSM) : gestion des incidents, gestion des problèmes, gestion de la disponibilité, gestion des capacités et des performances, gestion de la sécurité de l’information, gestion de la continuité des services, gestion des configurations, gestion des déploiements et implémentation des changements.
La supervision a plusieurs variantes. Bien que cet article s’intéresse à la supervision des systèmes informatiques au sens large, on recense plusieurs sous-catégories de supervision :
(Les solutions Splunk couvrent tous ces aspects. Nous proposons également des outils de supervision spécifiques pour les grands fournisseurs, comme AWS, SAP, GCP et d’autres.)
Exemple : Tableau de bord des services AWS dans Splunk Infrastructure Monitoring
Tableau de bord EC2 affichant des métriques prêtes à l’emploi et signalant les problèmes critiques d’espace disque
La supervision des systèmes informatiques a pour but de répondre à deux questions fondamentales : que se passe-t-il ? Et pourquoi ?
Pour répondre à ces questions, vous devez superviser continuellement différents aspects du système afin de repérer les anomalies, les problèmes et les notifications de maintenance. L’objectif : veiller à ce que les services fonctionnent normalement et qu’ils puissent être utilisés conformément aux niveaux de performance convenus.
Les métriques sont des données de mesure brutes qui sont collectées, agrégées et analysées par les systèmes de supervision. Les métriques des systèmes IT se répartissent en plusieurs couches :
La supervision qui repose sur les métriques d’infrastructure de bas niveau est surnommée « supervision de boîte noire ». Elle relève généralement de la compétence des administrateurs système et des ingénieurs DevOps. Au niveau des applications, on parle de « supervision de boîte blanche ». C’est généralement le travail des développeurs et des ingénieurs de support des applications.
Les métriques de supervision des systèmes IT proviennent généralement de fonctions de supervision natives, directement intégrées dans les composants informatiques observés.
Outre ces métriques, certains systèmes de supervision IT déploient une instrumentation spécialisée (souvent sous la forme d’agents logiciels légers), capable d’extraire des indicateurs plus précis à l’échelle des services.
Google recense quatre signaux clés qui doivent être au cœur de la supervision des systèmes informatiques :
Quand les administrateurs système mettent en place des systèmes de supervision pour capturer davantage d’informations, ils courent le risque d’être submergés par :
Les bonnes pratiques recommandent de définir des règles simples, prévisibles et fiables pour détecter les problèmes réels.
Pour éviter les déluges d’alertes, il peut être utile d’examiner régulièrement les paramètres des seuils (information, avertissement, problème) et de configurer correctement les moteurs de corrélation automatique, comme ceux fournis par l’AIOps.
(Découvrez les seuils adaptatifs pour une approche plus intelligente de la supervision.)
Maintenant que nous comprenons un peu mieux le contexte, penchons-nous sur les six activités principales de la supervision des systèmes IT.
Pour mettre en place la supervision d’un système, il faut d’abord réaliser plusieurs activités de planification. Vous allez définir la priorité du système, choisir les aspects à superviser, établir les métriques et les seuils permettant de classer les événements, définir un « modèle d’intégrité » (séquence complète d’événements), définir des corrélations et des règles, et associer les événements à des plans d’action et des équipes responsables.
Cette phase de planification doit permettre de produire :
C’est la première étape de la prise en charge des événements. Des alertes sont émises lorsque les seuils définis sont franchis ou que des critères sont remplis. Les alertes sont capturées par un système de supervision informatique qui permet de les consulter, de les agréger et de les analyser.
Conformément aux règles définies, le système de supervision filtre et corrèle les alertes reçues. Le filtrage peut se faire selon différents critères :
La corrélation recherche des modèles remarquables parmi les autres alertes pour déterminer la source des anomalies et leurs effets potentiels.
Au cours de cette phase, les événements sont regroupés en fonction de critères définis (le type et la priorité, par exemple) afin d’induire une réponse adaptée. Les alertes associées à une intrusion ou un ransomware, par exemple, seront classées comme événements de sécurité, et seront donc confiées à l’équipe du SOC.
En fonction du plan d’action et de la matrice de responsabilités que vous avez définis aux étapes précédentes, l’équipe concernée est prévenue par e-mail, par SMS, via un système de collaboration en ligne ou tout autre canal convenu.
Dans certains environnements IT, la réponse aux événements peut être automatisée : certaines mesures, comme le redémarrage d’une instance ou le basculement du trafic, sont prises sans aucune intervention humaine.
Il est important de procéder à un examen régulier de la planification de la supervision, en tirant des enseignements de la gestion des événements et de son impact sur la qualité des systèmes informatiques. Vous vous assurerez ainsi que les métriques et les seuils que vous avez définis répondent toujours à vos besoins. Cette phase d’examen doit également permettre de :
Les systèmes informatiques devenant de plus en plus complexes, les entreprises doivent investir dans des outils de supervision capables de suivre le rythme de l’évolution des technologies et le volume des changements.
Dans une étude de 451 Research, 39 % des participants avaient investi dans 11 à 30 outils de supervision pour leurs applications, leur infrastructure et leur environnement cloud. Le chiffre est parlant ! Cette prolifération des outils montre rapidement ses limites :
On comprend alors l’attractivité que peuvent exercer, pour des entreprises soucieuses de rentabilité, des outils couvrant l’ensemble du paysage technologique et capables de rassembler les événements d’une myriade de systèmes et d’environnements.
Dans le cadre de nos échanges avec nos clients et des recherches que nous avons menées ces dernières années, nous avons vu deux grandes tendances émerger.
L’impact de l’IA/ML sur la supervision des systèmes informatiques est de plus en plus sensible, en particulier avec l’augmentation des capacités des grands modèles de langage (LLM). Les outils modernes qui intègrent l’IA peuvent désormais prendre en charge l’intégralité du processus, de la détection à la réponse. Ils analysent de grands volumes de données d’événements et réalisent des activités fastidieuses comme la corrélation des événements et l’analyse des logs à l’échelle des systèmes distribués.
Avec un entraînement adapté, ces outils remplissent parfaitement leur mission : trier efficacement le déluge d’alertes et reconnaître les faux positifs et les faux négatifs bien plus vite que n’importe quelle équipe humaine. Mais il ne faut pas en déduire que les personnes n’ont plus leur place dans la supervision des systèmes informatiques. Au contraire, elles vont pouvoir s’atteler à la création de meilleurs outils d’orchestration et d’automatisation afin de répondre aux alertes et de les résoudre.
L’autre tendance qui influence la supervision des systèmes informatiques est l’avènement de l’observabilité unifiée. De plus en plus de plateformes offrent une vue unifiée de l’infrastructure, des applications et de l’expérience utilisateur, en analysant les logs, les métriques et les traces. Elles sont une véritable loupe et permettent d’analyser les alertes en profondeur pour diagnostiquer avec précision les problèmes rencontrés par les utilisateurs dans les environnements complexes.
(Splunk est la première plateforme qui unifie l’observabilité et la cybersécurité. Découvrez comment.)
Pour les entreprises de toutes les tailles, la supervision des systèmes informatiques est un moyen essentiel de garantir la fonctionnalité, la performance et la sécurité de leurs services IT. Le domaine de la supervision des systèmes informatiques va poursuivre son évolution pour relever les défis à venir et offrir toujours plus d’avantages dans le contexte du développement technologique.
On ne dira jamais assez à quel point l’amélioration permanente est essentielle. Ce n’est qu’en adoptant une approche proactive et orientée données de la supervision des systèmes informatiques que les entreprises pourront garantir l’efficacité et la rentabilité de leurs services.
Une erreur à signaler ? Une suggestion à faire ? Contactez-nous à l’adresse ssg-blogs@splunk.com.
Cette publication ne représente pas nécessairement la position, les stratégies ou l’opinion de Splunk.
La plateforme Splunk élimine les obstacles qui séparent les données de l'action, pour donner aux équipes d'observabilité, d'IT et de sécurité les moyens de préserver la sécurité, la résilience et le pouvoir d'innovation de leur organisation.
Fondée en 2003, Splunk est une entreprise internationale. Ses plus de 7 500 employés, les Splunkers, ont déjà obtenu plus de 1 020 brevets à ce jour, et ses solutions sont disponibles dans 21 régions du monde. Ouverte et extensible, la plateforme de données Splunk prend en charge les données de tous les environnements pour donner à toutes les équipes d'une entreprise une visibilité complète et contextualisée sur l'ensemble des interactions et des processus métier. Splunk, une base solide pour vos données.