Date de publication : 18 octobre 2022
La supervision de la disponibilité consiste à observer l’état des systèmes technologiques essentiels, qu’ils soient sur site ou dans le cloud. Dans leur forme la plus simple, les outils de supervision de la disponibilité peuvent rendre compte de l’état d’un système en temps réel en interrogeant périodiquement un service selon un calendrier défini pour vérifier sa réactivité. Mais les outils de supervision de la disponibilité peuvent également effectuer des tests plus complexes pour produire davantage d’informations ; ils peuvent, par exemple, vérifier si les services sont accessibles à partir de différentes régions du monde, mesurer la vitesse de leur réponse, signaler les erreurs et déterminer les raisons des échecs. La supervision de la disponibilité fonctionne mieux lorsque l’on combine des outils en temps réel et prédictifs : les équipes informatiques peuvent alors réagir rapidement aux problèmes avant qu’ils ne deviennent catastrophiques.
La supervision de la disponibilité est un sous-ensemble de la gestion de la disponibilité, qui consiste à superviser et à gérer les services informatiques, de la planification aux rapports, en passant par la mise en œuvre et les opérations. Une disponibilité médiocre peut exercer un impact considérable sur l’entreprise : dégradation des recettes et de la rentabilité, clients mécontents et perte de réputation, entre autres. Plusieurs bonnes pratiques visent à garantir une haute disponibilité. Elles consistent notamment à comprendre les principales sources de risque liées à une interruption potentielle, à mettre en œuvre un programme de tests de résistance réguliers et à implémenter l’automatisation dans la mesure du possible.
Dans cet article, nous examinerons la relation entre la supervision et la gestion de la disponibilité, les méthodologies employées pour garantir leur qualité et les outils couramment utilisés dans cette discipline informatique essentielle.
Quelle est la différence entre la supervision et la gestion de la disponibilité ?
La supervision de la disponibilité est un domaine spécifique de la gestion de la disponibilité, qui est le processus de planification, d’analyse, d’exploitation et de supervision d’un service informatique. L’objectif de la gestion de la disponibilité est d’assurer une haute disponibilité : c’est donc une discipline plus complète que la supervision car elle vise à améliorer activement la disponibilité d’un service.
Pour atteindre ce haut niveau de disponibilité, il faut la bonne combinaison de redondance, d’évolutivité, d’équilibrage de charge, de supervision et de sauvegarde.
La gestion de la disponibilité est étroitement liée à plusieurs autres domaines de l’informatique, notamment la gestion des services informatiques (ITSM), l’observabilité et la supervision des performances des applications (APM). L’APM englobe elle-même de nombreuses solutions de supervision : la supervision synthétique, la supervision des serveurs, la supervision du cloud, la supervision du réseau et la supervision des utilisateurs réels (RUM). La RUM va encore plus loin dans la supervision de la disponibilité en offrant une visibilité sur l’expérience utilisateur d’un site web ou d’une application : pour ce faire, elle collecte passivement et analyse les erreurs et les informations temporelles et dimensionnelles sur les utilisateurs finaux en temps réel.
La gestion de la disponibilité est également un composant du framework ITIL. Largement utilisé, ce cadre définit les processus standards et les bonnes pratiques visant à optimiser les services informatiques et à minimiser l’impact des interruptions. Tout comme la supervision de la disponibilité, la gestion de la disponibilité vise à ce que l’entreprise fonctionne au maximum de ses capacités. Mais son objectif ultime reste l’amélioration continue.
Pourquoi la supervision de la disponibilité a-t-elle tant d’importance ?
La supervision de la disponibilité permet de s’assurer que les produits et services technologiques fonctionnent comme prévu. Dans tous les types d’organisations ou presque, la technologie est la pierre angulaire des opérations. Prenez la supervision des sites web, par exemple. Si la page d’accueil d’une entreprise comme Amazon ou Facebook est inaccessible, une série d’événements catastrophiques risque de s’enchaîner rapidement. Confrontés à une page d’erreur ou dans l’incapacité de se connecter, les clients se mettront immédiatement en colère et chercheront assez vite des alternatives. Les recettes chuteront mécaniquement, et la réputation de l’entreprise sera dégradée – tout comme sa santé financière.
Lorsque Facebook a subi une interruption de service à l’automne 2021 – avec les autres sites du groupe WhatsApp et Instagram – les sites sont restés inaccessibles pendant environ six heures. Sur cette période, plus de 14 millions d’utilisateurs ont signalé qu’ils ne pouvaient utiliser aucune des applications ou aucun des services de Facebook. Les experts ont estimé que chaque minute d’indisponibilité avait coûté 163 565 $ à l’entreprise, soit environ 60 millions de dollars de perte de revenus ce jour-là.
Ces temps d’arrêt ont aussi un coût en termes de productivité. Quand ils se produisent, l’entreprise décrète le branle-bas de combat, et tous les employés doivent se mobiliser pour corriger les problèmes rapidement et remettre les services en ligne.
Le but de la supervision de la disponibilité est précisément d’éviter ce type de dépenses catastrophiques, en veillant à ce que les services technologiques stratégiques – non seulement les points de terminaison du site web, mais aussi tout type de matériel ou de logiciel critique – restent opérationnels et conformes aux attentes.
Une autre fonction majeure de la supervision de la disponibilité consiste à superviser les performances des accords de niveau de service (SLA) passés avec des fournisseurs de technologie tiers. Lorsque vous faites affaire avec un fournisseur de services (connexion à Internet ou technologie cloud, par exemple), le contrat spécifie presque toujours que le fournisseur atteindra un niveau minimum de disponibilité, généralement exprimé en pourcentage de disponibilité sur un mois ou autre période définie. Dans ce cadre, il incombe au client de suivre la disponibilité réelle, grâce à la supervision du temps de fonctionnement, par exemple. Si les relevés de la solution de supervision du client indiquent que le SLA n’est pas respecté, des remboursements ou des crédits sont normalement prévus.
Dans une entreprise, les temps d’arrêt entraînent souvent une perte de clientèle et des pertes financières importantes.
Qu’est-ce que la supervision de la disponibilité des services ?
La supervision de la disponibilité des services est un terme relativement rare qui décrit la supervision des services web, à savoir le trafic HTTP et HTTPS externe ou le fonctionnement des API web. La plupart des solutions de supervision ont gagné en exhaustivité et en robustesse depuis les débuts du Web, et elles permettent désormais de superviser un ensemble de technologies beaucoup plus large que de simples services web : périphériques matériels, processus réseau, applications et autres actifs technologiques. Il existe plusieurs façons de superviser les services web ; vous pouvez utiliser un capteur de ping cloud pour superviser les temps de ping TCP ou un capteur HTTP cloud pour superviser le temps de chargement du serveur web. Cela dit, la supervision de la disponibilité des services web reste une pratique courante et essentielle dans toutes les entreprises ou presque, le Web étant en première ligne pour quasiment toutes les interactions avec les clients.
Qu’est-ce que la supervision de la disponibilité du cloud ?
Comme son nom l’indique, la supervision de la disponibilité du cloud s’intéresse aux ressources basées sur le cloud, dont elle mesure la disponibilité et les performances. Ce type de supervision est indispensable pour s’assurer du respect des SLA promis. La supervision de la disponibilité du cloud est importante quel que soit le type d’environnement utilisé, qu’il soit privé, public ou hybride.
Les outils de supervision de la disponibilité du cloud ont tendance à reposer fortement sur la réalisation de tests ciblant divers services. Contrairement aux applications sur site, il est relativement facile d’exécuter des tests sur des applications cloud, non seulement parce que les services cloud offrent des ressources techniquement illimitées, mais aussi parce qu’ils proposent souvent cette capacité nativement. L’IT n’a pas besoin d’installer un logiciel supplémentaire ou de faire appel à un prestataire de plus pour tester une application cloud ; cette fonctionnalité est presque toujours intégrée à la plateforme cloud.
Au sens large du terme, la supervision de la disponibilité du cloud va bien au-delà de la simple supervision des applications. Elle englobe la supervision d’autres ressources cloud telles que les machines virtuelles, les bases de données, les applications et sites web, le stockage et plus encore. Pour la plupart, ces sous-systèmes ne sont généralement pas considérés comme des « applications », mais l’intégralité d’un environnement cloud doit impérativement être supervisée pour garantir la disponibilité des applications qu’il héberge. De nombreux outils de supervision de la disponibilité du cloud examinent ainsi tous les composants de l’infrastructure cloud plutôt qu’un sous-ensemble, comme c’est souvent le cas avec les outils de supervision plus traditionnels.
Qu’est-ce que la supervision de la disponibilité des applications ?
La supervision de la disponibilité des applications consiste à s’assurer qu’une application, généralement dans un environnement en ligne, est opérationnelle et réactive. La disponibilité des applications est importante car, de plus en plus, les utilisateurs n’interagissent plus avec des sources de données statiques mais bien avec des applications dynamiques, que ce soit sur un site ou une page web (un client de messagerie en ligne, par exemple) ou sur leur téléphone mobile. Dans un environnement d’entreprise, les utilisateurs interagissent également avec les applications hébergées sur le serveur.
La disponibilité des applications joue un rôle essentiel parce que les applications sont indépendantes de la disponibilité du réseau, du serveur et même du site web. Même quand tous ces éléments d’infrastructure fonctionnent normalement, une application peut subir une interruption. Dans cet exemple, si seul le serveur est supervisé, la gestion informatique peut penser que tout fonctionne correctement. Ce n’est qu’en supervisant directement la disponibilité des applications qu’elle saura que les utilisateurs rencontrent des problèmes et pourra commencer à en rechercher la cause première.
La disponibilité des applications ne permet pas seulement de garantir leur accessibilité : elle mesure aussi la qualité de l’expérience utilisateur. Un bon outil ne mesurera pas seulement le temps de disponibilité de façon binaire, il évaluera aussi la réactivité de l’application, la latence, la durée moyenne des sessions et l’apparition d’erreurs. En fin de compte, l’IT doit pouvoir utiliser son outil de supervision de la disponibilité des applications pour signaler les problèmes à un stade précoce, avant qu’ils n’évoluent et provoquent une interruption de l’ensemble de l’application.
Quelles sont les bonnes pratiques de supervision de la disponibilité ?
Comment s’assurer d’obtenir un aperçu optimal de la disponibilité des services et de l’améliorer au fil du temps ? Ces quelques bonnes pratiques peuvent vous aider :
- Choisissez judicieusement ce que vous supervisez : on peut être tenté de superviser chaque élément matériel et logiciel, mais ce n’est pas réaliste. Les milliers d’agents de supervision nécessaires surchargeraient la bande passante de l’infrastructure et dépasseraient les capacités d’attention des équipes, multipliant les notifications et les fausses alertes. Identifiez les services les plus essentiels et les plus exposés aux risques dans l’entreprise et concentrez les efforts de supervision de manière appropriée.
- Testez plus fréquemment : l’un des moyens les plus simples d’améliorer la supervision de la disponibilité consiste à réduire le délai entre deux vérifications. Si vous testez les services une fois toutes les cinq minutes, réduisez ce délai à une fois par minute. N’oubliez pas que l’intervalle de test représente la durée maximale pendant laquelle les services peuvent être hors ligne avant que leur absence ne soit remarquée. Êtes-vous prêts à perdre cinq minutes de disponibilité avant d’être informé de l’existence d’un problème ? La supervision continue est la meilleure option possible sur ce front.
- Testez à partir de plusieurs emplacements : quand il s’agit de services en ligne, les interruptions peuvent affecter les utilisateurs de différentes manières. Le service peut très bien fonctionner pour un utilisateur à Paris, alors qu’un autre aura des problèmes à Bruxelles. Si certaines régions sont confrontées à des dégradations de performances, comme des problèmes de connectivité persistants, vous devrez peut-être créer des zones de disponibilité supplémentaires, plus proches des utilisateurs concernés.
- Soumettez régulièrement les systèmes à des tests de résistance : les outils de supervision de la disponibilité permettent à l’IT de créer des tests synthétiques qui exercent une pression considérable sur les systèmes – bien supérieure aux conditions normales d’exploitation. Pour les analystes, ce peut être l’occasion de comprendre le fonctionnement des services avec beaucoup plus de nuances. Et cela permet d’anticiper naturellement les besoins en capacité à venir.
- Automatisez autant que possible : demander à des humains de remédier à chaque interruption et chaque erreur entraîne rapidement une surcharge de travail et un épuisement des équipes. Les outils d’automatisation et d’intégration alimentés par l’IA peuvent alléger une grande partie du fardeau des gestionnaires humains en rationalisant la gestion des défaillances de routine, et en n’adressant aux agents humains que les problèmes les plus graves. L’objectif ultime de la supervision automatisée est d’améliorer considérablement le temps de réponse et de résoudre les problèmes avant que quiconque ne se rende compte qu’il y a une interruption – et que les tickets d’incident ne commencent à affluer.
- Comprendre comment et quand escalader : un outil automatisé a tout de même ses limites. Si un serveur prend feu, vos outils automatisés ne pourront pas remédier au problème sans aide. Ce qui est essentiel, c’est qu’ils comprennent quand une intervention humaine est nécessaire et sachent faire remonter les problèmes rapidement et de manière appropriée à un technicien de premier niveau. De même, ces techniciens doivent être en mesure de trier rapidement les problèmes et d’alerter leurs supérieurs lorsqu’une situation est particulièrement grave. Pour cela, il faut une formation, des tests de résistance, des simulations d’interruption et, bien sûr, une grande expérience pratique.
Comment prendre un bon départ avec la supervision de la disponibilité ?
Parce qu’il existe de nombreux outils de supervision de la disponibilité à différents niveaux de prix – dont beaucoup sont disponibles gratuitement ou à très faible coût – c’est une technologie facile à acquérir. Pour de nombreux utilisateurs, le plus logique est de commencer par le service ou les outils intégrés aux services que vous utilisez déjà : si vous utilisez Amazon Web Services (AWS), il est naturel d’utiliser la plateforme Amazon CloudWatch pour superviser vos workloads AWS. AWS fournit gratuitement une collection de métriques et d’alarmes opérationnelles personnalisées pour vous aider à démarrer avec le système. Pour les organisations avec des besoins modestes en disponibilité, on trouve de nombreux outils de supervision simples basés sur le cloud. Et n’oubliez pas que tous les grands fournisseurs de services cloud incluent un outil de supervision intégré à leur plateforme, même si leur robustesse varie.
Le plus simple – et le plus judicieux – consiste à commencer petit. Identifiez un petit nombre de systèmes critiques et mettez en place des outils de supervision pour les observer. Il peut s’agir du site web principal de votre organisation, d’une base de données ou d’un serveur de fichiers stratégique, ou d’une application critique. En fin de compte, peu importe l’appareil, l’application ou le service que vous choisirez de superviser. Utilisez simplement l’expérience pour acquérir une bonne maîtrise de l’outil de supervision, comprendre ce qui se passe lorsqu’une défaillance se produit et mettre en place des tests de résistance synthétiques. En utilisant les données de performances pour vous familiariser avec la plateforme, vous pourrez augmenter le nombre et le type de systèmes que vous supervisez.
Quel est l’avenir de la supervision de la disponibilité ?
Si la supervision de la disponibilité a toutes les chances de rester populaire en tant que discipline à part entière, des outils plus avancés liés à la gestion des services informatiques (ITSM) et à l’observabilité commencent à englober certaines de ses fonctionnalités traditionnelles. Certains outils de supervision autonomes ont été abandonnés ou dépassés ces dernières années, les organisations informatiques privilégiant des solutions plus complètes et avancées. AWS CloudWatch, par exemple, est un outil d’observabilité à large spectre qui peut superviser presque tous les services AWS et utilise le machine learning pour identifier les comportements inattendus – une capacité qui dépasse le cadre de la définition traditionnelle de la supervision de la disponibilité.
Cela dit, la supervision de la disponibilité reste une pratique essentielle dans presque toutes les entreprises. L’infrastructure et les services critiques ne feront que gagner en importance au fil du temps, et les organisations incapables de maintenir une haute disponibilité dans l’ensemble de leurs opérations risquent de souffrir.
La disponibilité a acquis une telle importance que la moindre déconnexion d’un service web majeur, même pour une courte durée, devient une actualité nationale. Les consommateurs et les entreprises dépendent des produits technologiques pour une large gamme de services essentiels ; les conséquences sont lourdes lorsqu’ils ne sont pas disponibles, pour les usagers comme pour les organisations. On ne saurait trop insister sur le fait que les clients s’attendent désormais à une disponibilité proche de 100 % des entreprises auxquelles ils font appel. Et c’est à vous qu’il incombe de veiller à ce que vos produits restent hautement disponibles afin d’éviter l’insatisfaction des clients, des pertes de revenus et plus encore.
Prévisions pour l’IT et l’observabilité
Quoi de mieux qu’une surprise ? Être prêt à tout. Nos leaders font le point sur les grandes tendances pour 2023.