L’expérience des utilisateurs finaux et la performance d’un service, deux éléments stratégiques pour le succès d’une entreprise, sont tributaires de la disponibilité et la fiabilité de ce service informatique.
Ces deux concepts, disponibilité et fiabilité, revêtent une importance particulièrement cruciale à l’ère du cloud computing : le logiciel est le moteur des opérations métiers, mais ce logiciel est bien souvent géré et fourni sous la forme de service par des fournisseurs tiers. En fin de compte, la disponibilité et la fiabilité figurent en bonne place dans le classement des métriques les plus importantes des services informatiques.
Mais comment mesurer la disponibilité et la fiabilité ?
Pour mesurer ces caractéristiques, on utilise plusieurs indicateurs clés, parmi lesquels le MTTR. Dans cet article, vous apprendrez tout ce qu’il faut savoir sur le MTTR : comment le calculer, comment le réduire et quels défis vous pourriez rencontrer en chemin.
Splunk IT Service Intelligence (ITSI) est une solution d’AIOps, d’analytique et de gestion IT qui aide les équipes à anticiper les incidents avant qu’ils n’affectent les clients.
ITSI utilise l’IA et le machine learning pour corréler les données collectées auprès de nombreuses sources de supervision et offrir une vue unifiée des services IT et métiers pertinents. La solution a un double avantage : elle réduit les déluges d’alertes et permet la prévention des interruptions de service.
Le MTTR, ou temps moyen de rétablissement, fait partie des « indicateurs de défaillance ». Il désigne le temps moyen nécessaire pour rétablir le fonctionnement après un problème ou une panne dans un système, un équipement ou un processus. Le MTTR peut également désigner le temps moyen de réparation ou de résolution. Tous ces termes sont utilisés de façon interchangeable.
C’est l’un des indicateurs les plus visibles et les plus utiles pour déterminer le niveau de performance de l’infrastructure, des systèmes et de l’équipement informatique d’une entreprise, ainsi que l’efficacité de l’équipe IT lorsqu’il faut faire face à des incidents critiques.
Concrètement, plus la valeur du MTTR est basse, et plus vite une organisation peut intervenir et se rétablir d’un incident qui affecte la disponibilité des services ou de la production. Le MTTR varie en fonction des capacités internes et de facteurs internes qui influent sur le temps nécessaire pour rétablir des opérations défaillantes à un niveau acceptable de fonctionnement.
(Le MTTR n’est qu’un indicateur parmi tous ceux que l’on mesure pour évaluer la réponse aux incidents.)
Quand on parle du MTTR, on commet souvent l’erreur de le voir comme un indicateur unique à interpréter de façon uniforme. En réalité, il peut englober quatre mesures distinctes. Le « R » peut signifier réparation, rétablissement, réponse ou résolution. Si ces métriques relèvent d’un domaine commun, elles ont chacune leur propre signification et leurs nuances.
Le MTTR est une métrique utile dans un large éventail de contextes. On l’associe généralement à la gestion des services, dans la mesure où il assure qu’un service est bien fourni aux utilisateurs finaux comme prévu par les termes du contrat. Il est aussi précieux dans le développement logiciel et en particulier dans la pratique DevOps de développement continu : la maturité du développement logiciel se traduit généralement par une baisse du MTTR.
Lorsqu’on calcule le MTTR, le chronomètre se déclenche dès l’instant où une défaillance est détectée. Le MTTR inclut le temps qu’il faut pour diagnostiquer le problème, le corriger, tester la correction et réaliser toute autre procédure nécessaire avant que le service soit à nouveau opérationnel et que les opérations soient rétablies. De ce fait, un MTTR faible est toujours préférable à un MTTR élevé.
La plupart des accords de niveau de service (SLA) passés entre un client et un prestataire ou un fournisseur incluent une forme ou une autre de MTTR à titre de garantie de performance. Un MTTR élevé peut ainsi entraîner de lourdes pénalités. Il est essentiel de garder à l’esprit que le MTTR correspond à un temps de réparation typique et non à une garantie. Un fournisseur qui affiche un MTTR de 24 heures indique le temps qu’il lui faut généralement pour effectuer une réparation, mais certains incidents peuvent prendre plus ou moins de temps.
L’objectif du MTTR est d’évaluer le temps pendant lequel des systèmes stratégiques sont inutilisables. C’est donc un précieux indicateur pour analyser la gravité et l’impact d’un incident informatique dans son ensemble. Du point de vue mathématique, le temps moyen de rétablissement est calculé comme suit :
MTTR = Temps d’indisponibilité/nombre d’incidents
ou
MTTR = Temps de maintenance/nombre de réparations
Pour tout composant affecté, le MTTR inclut le temps qui s’est écoulé entre le moment de l’incident et celui où le service a retrouvé un état normal de fonctionnement et de disponibilité.
Dans ce contexte, la disponibilité désigne la proportion de temps pendant laquelle un service est resté opérationnel en conditions normales. On la calcule comme suit :
Disponibilité = (Temps total écoulé - Temps d’indisponibilité total)/Temps total écoulé
Autrement dit, la disponibilité correspond à la fonction inverse du MTTR : le MTTR augmente à cause d’un manque de fiabilité du système, le service passe moins de temps dans un état pleinement opérationnel et fonctionnel.
Dans notre équation, la fiabilité désigne la probabilité que le service reste à un niveau de performance attendu dans son état opérationnel.
La fiabilité peut être utilisée en tant qu’attribut de la disponibilité et décrire la qualité de performance d’un service au fil des états successifs de disponibilité et de défaillance. On peut alors la comparer aux métriques de performance préétablies. De façon générale, la fiabilité d’un service se dégrade au cours de son cycle de vie et la valeur de son MTTR augmente.
Le MTTR peut fluctuer considérablement d’un composant à l’autre, car de nombreux facteurs influencent la disponibilité et la fiabilité. Le taux d’interruption d’un composant matériel ou logiciel est une constante qui peut être établie, mais le rétablissement de l’état de disponibilité d’origine peut dépendre de facteurs internes, comme les dépendances au sein des systèmes, mais aussi de facteurs externes, comme la disponibilité des pièces de rechange, des outils et des services.
Au moment d’évaluer cet indicateur, gardez à l’esprit que tous les MTTR ne se valent pas : pour une entreprise d’e-commerce, un temps d’arrêt ne se traduit pas par le même manque à gagner selon qu’il survient pendant la période des Fêtes ou pendant une période habituellement calme. Dans ce contexte, différentes redondances modulaires peuvent minimiser le MTTR et rendre les défaillances quasiment imperceptibles.
(Découvrez comment les ingénieurs en fiabilité des sites améliorent la fiabilité des systèmes.)
Le MTTR est étroitement corrélé aux performances métiers. Voici quelques exemples qui illustrent l’impact du MTTR sur les opérations et les résultats de l’entreprise.
Les interruptions imprévues affectent lourdement l’expérience des utilisateurs finaux. Le MTTR est particulièrement important pour les entreprises axées sur le cloud, car le coût d’un temps d’arrêt est entièrement tributaire de la fréquence des interruptions et du temps nécessaire à la correction d’un incident informatique.
Autrement dit, l’expérience utilisateur est en relation de corrélation inverse avec le MTTR : plus il faut de temps pour rétablir un service après une interruption, plus l’impact sera lourd sur l’expérience de vos utilisateurs finaux.
Plus il faut de temps pour réparer un service ou le rétablir après un problème, plus les opérations d’une entreprise sont perturbées. Et ces interruptions peuvent avoir de lourdes conséquences :
Un MTTR plus faible réduit la durée des temps d’arrêt et minimise leur impact financier.
Directement lié au coût des temps d’arrêt, un MTTR robuste est le signe que l’entreprise a su mettre en place des processus efficaces de réparation et de rétablissement. Cette efficacité n’a pas seulement pour effet de réduire les interruptions de service, elle permet également d’optimiser l’utilisation des ressources et donc d’améliorer l’efficacité des opérations dans leur ensemble.
Dans les entreprises qui dépendent fortement de l’informatique, le MTTR des systèmes et des services internes revêt une importance tout aussi cruciale. Des perturbations dans les outils stratégiques peuvent ralentir le travail, voire l’empêcher complètement. Cette perte de productivité est source de frustration chez les employés et de perte de revenus.
Les entreprises sont souvent liées par des accords de niveau de service (SLA) qui définissent des objectifs de MTTR minimum. Si ces MTTR ne sont pas atteints, elles s’exposent à des pénalités ou des litiges pour non-respect du contrat.
La poursuite d’un excellent MTTR est un travail continu. Comme bien souvent dans le domaine de l’IT, c’est un processus itératif qui demande une attention constante.
Voici comment les entreprises abordent cette démarche d’amélioration permanente du MTTR.
Pour corriger un problème, il faut d’abord savoir de quoi il s’agit, où il s’est produit et quand. Une solution sophistiquée de supervision informatique vous fournira des données continues et en temps réel qui vous aideront à comprendre les performances de votre système dans le détail, et vous informeront sur le contexte de la moindre défaillance.
Comme le MTTR mesure la capacité d’une entreprise à réagir à un problème, les alertes doivent être extrêmement précises et efficaces. Les équipes doivent en effet être informées de tout problème majeur aussi rapidement que possible afin de minimiser son impact métier.
(Mesurez la performance de la supervision et des alertes avec le MTTA.)
La première étape pour améliorer le MTTR consiste à comprendre les incidents qui en sont à l’origine. Il est donc primordial d’effectuer une analyse détaillée des causes profondes des incidents majeurs pour minimiser le MTTR. C’est en comprenant ce qui a provoqué l’interruption d’un système ou d’un composant que vous pourrez mettre en place les mesures de protection, les remplacements et les corrections nécessaires pour éviter que le problème ne se reproduise.
Les entreprises dotées d’un protocole de réponse aux incidents minutieusement planifié sont plus à même de répondre rapidement et efficacement aux problèmes, et affichent donc un MTTR plus faible. Dans de nombreux cas, ce plan inclut une forme de gestion des services informatiques (ITSM). Les entreprises qui ont achevé leur transformation numérique peuvent adopter une approche plus souple, miser sur des outils de collaboration interfonctionnels et élaborer des réponses spécifiques (des checklists, par exemple) pour chaque incident.
Le système automatisé de gestion des incidents peut être une excellente solution : il se charge d’envoyer des alertes sur plusieurs canaux (appels téléphoniques, SMS, e-mail, etc.) à toutes les personnes impliquées dans la réponse aux incidents, ce qui réduit le délai de notification. Mais dans tous les cas, il est essentiel d’avoir une image claire des personnes à informer en cas d’incident, de la procédure de documentation et des étapes à suivre pour le corriger.
Les incidents passés ne sont pas seulement un creux sur votre courbe de disponibilité : ils sont autant d’occasions d’apprendre et de vous préparer à l’avenir. En consignant et en documentant ces incidents de façon détaillée, les entreprises peuvent mettre au point un guide de référence rapide qui sera très utile si des problèmes similaires surviennent à nouveau, et fera donc baisser le MTTR.
(Apprenez à effectuer un bilan post-incident ou « post-mortem ».)
Tout comme la résilience permet d’atteindre les objectifs de fiabilité et de disponibilité des services fournis par les systèmes cloud, la redondance permet de réduire l’impact potentiel d’une défaillance d’un nœud de réseau spécifique.
Les composants d’un nœud peuvent être fragiles, mais en assurer la redondance au niveau individuel n’est pas nécessairement coûteux.
Pour évaluer l’intérêt de mettre en place une redondance modulaire, tenez compte à la fois du MTTR et du MTTF (temps moyen de défaillance).
En fin de compte, il est possible de mettre sur pied un système d’une grande fiabilité, optimisé pour réduire aussi bien le MTTF que le MTTR.
La réduction du MTTR n’est pas seulement un processus continu, elle peut aussi devenir de plus en plus difficile. Avec l’émergence de nouvelles menaces et la complexité croissante des systèmes, la cybersécurité évolue constamment et les équipes informatiques doivent faire face à la multiplication des points de défaillance.
Et ce n’est que la partie émergée de l’iceberg. Voici les grands défis que vous rencontrerez dans l’évaluation du MTTR.
L’un des grands défis des environnements cloud est le manque de visibilité et de contrôle sur les opérations de l’infrastructure. Sans données de supervision en temps réel suffisantes, il peut être impossible de déterminer la véritable cause profonde des défaillances informatiques. Le MTTR est alors étroitement lié à la complexité de votre environnement IT et de ses dépendances.
Pour résoudre ces problèmes, des technologies d’hyper-automatisation alimentée par IA sont capables d’extraire des données de supervision pertinentes à l’échelle du processus tout en évaluant les performances du système, et peuvent rendre compte des dépendances sur l’intégralité de l’environnement multicloud.
Vous avez acheté un outil tiers dans un but précis. Qu’il s’agisse d’obtenir une fonctionnalité supplémentaire, de gagner en évolutivité ou de compenser un manque de personnel ou de ressources, les interruptions qui touchent les outils tiers peuvent avoir de lourdes conséquences sur le MTTR. En effet, non seulement vous allez dépendre de l’intervention d’équipes d’assistance externes, mais vous aurez également une visibilité limitée sur le système ou le composant affecté. Et votre MTTR s’en ressentira inévitablement.
(Tout savoir sur la gestion des risques tiers.)
Une approche manuelle de la détection et du tri peut prolonger considérablement le MTTR. Il est essentiel d’intégrer des outils de détection et de réponse automatiques à votre système pour accélérer la résolution des incidents.
Vos clients subissent chaque seconde passée à corriger une interruption du système. Selon le service ou l’outil concerné, cela peut avoir de graves conséquences pour eux. Pendant une interruption, le manque de communication peut être source de frustration et de mécontentement. Et il devient plus difficile de communiquer sur les défaillances et les délais de résolution lorsque l’analyse des causes profondes prend plus de temps que prévu.
Une fois encore, tous les MTTR ne se valent pas, et une communication insuffisante en cas d’interruption de grande envergure peut avoir des effets néfastes dans toute l’entreprise.
La disponibilité et la fiabilité des services informatiques influencent considérablement l’expérience des utilisateurs finaux et les performances globales d’une entreprise. En les mesurant à travers le MTTR, nous pouvons obtenir de précieuses informations sur la viabilité des services et l’efficacité des processus de résolution.
Le MTTR est un indicateur vital pour les entreprises qui fournissent des services internes et externes. En surmontant les défis abordés ici, elles peuvent améliorer l’efficacité de leurs opérations, accroître leurs revenus et préserver la satisfaction de leurs clients et de leurs utilisateurs.
Une erreur à signaler ? Une suggestion à faire ? Contactez-nous à l’adresse ssg-blogs@splunk.com.
Cette publication ne représente pas nécessairement la position, les stratégies ou l’opinion de Splunk.
La plateforme Splunk élimine les obstacles qui séparent les données de l'action, pour donner aux équipes d'observabilité, d'IT et de sécurité les moyens de préserver la sécurité, la résilience et le pouvoir d'innovation de leur organisation.
Fondée en 2003, Splunk est une entreprise internationale. Ses plus de 7 500 employés, les Splunkers, ont déjà obtenu plus de 1 020 brevets à ce jour, et ses solutions sont disponibles dans 21 régions du monde. Ouverte et extensible, la plateforme de données Splunk prend en charge les données de tous les environnements pour donner à toutes les équipes d'une entreprise une visibilité complète et contextualisée sur l'ensemble des interactions et des processus métier. Splunk, une base solide pour vos données.