Les algorithmes sont au cœur des technologies que nous utilisons dans pratiquement tous les aspects de notre vie quotidienne : ce sont des formules et des processus qui nous aident à nous connecter, à résoudre des problèmes et à accomplir des choses extraordinaires. Ils améliorent la reconnaissance vocale et permettent de faire atterrir une fusée autonome ou un drone, ou nous font d’excellentes recommandations sur Netflix. Un algorithme n’est toutefois rien de plus qu'un ensemble de règles ou de tâches qui s’exécutent en fonction de données d’entrée. Le véritable potentiel des algorithmes et des systèmes d’intelligence artificielle – qui reposent sur le machine learning – s’exprime lorsqu’ils sont formés et alimentés par de grandes quantités de données.
On ne réfléchit pas souvent à l’entraînement des systèmes informatiques, en particulier lorsqu'ils possèdent des capacités sophistiquées comme les plateformes AIOps. En réalité, les systèmes IT n'atteignent leur plein potentiel qu'avec un entraînement patient et exhaustif.
Il semble peu probable qu’un système ayant la capacité de supprimer les doublons dans un million d'événements, d’anticiper et de prédire les problèmes de disponibilité du système avec 30 minutes d'avance voire plus et de corriger automatiquement les problèmes identifiés nécessite un entraînement supplémentaire, mais les algorithmes ont leur limite. Les systèmes AIOps sont en effet très performants, comme nous l'avons dit, mais leur force réside dans leur capacité à apprendre et à s'adapter. Cet apprentissage provient de plusieurs sources.
Fournir plus de données peut permettre de délivrer des renseignements plus précis. Mais il ne s'agit pas d’injecter n’importe quelles vieilles données dans le système. Au contraire, on pense qu’un système devient plus précis lorsque vous lui fournissez des données similaires à celles qu’il a déjà vues. Ces données proviennent généralement de sources similaires, mais leur diversité accrue permet au système d'appliquer ses algorithmes et d’identifier les ajustements dont il peut avoir besoin pour certaines applications ou certains services.
Le feedback des opérateurs IT – les entraîneurs – apprend à la plateforme comment elle doit se comporter et ce qu’elle doit signaler dans l’environnement. Il n’est pas rare que les premiers utilisateurs des systèmes AIOps alternent entre perplexité et émerveillement lorsque le système envoie des alertes pour des choses que l'équipe se contenterait de consigner dans un fichier de log. Le raisonnement est simple : le feedback des opérateurs est essentiel pour que le système apprenne ce qui nécessite une attention immédiate et ce qui peut être logué sans être signalé. Le service IT n’a pas besoin d’être informé de chaque échec d’opération, mais il veut savoir si le taux de défaillance augmente ou s’il se manifeste uniquement dans des zones précises de l’environnement.
Les entreprises ont différents seuils et objectifs de niveau de service (SLO). Les plateformes AIOps doivent apprendre comment réagir lorsque ces seuils sont dépassés ou que les SLO sont compromis. Il arrive souvent que ces seuils soient alignés sur la satisfaction des clients et d'autres impacts sur le business, qui n’intéressent habituellement pas les ordinateurs. Le système doit être entraîné à adopter la bonne marche à suivre en fonction du résultat anticipé.
Enfin, l’AIOps possède la capacité d’accomplir une variété de fonctions selon les données qu’elle possède et des tendances qu’elle identifie. Cette réponse peut consister simplement à consigner dans un fichier de log la fréquence d'un scénario, à initier une procédure de réponse aux incidents afin de mobiliser les bons collaborateurs sur un problème, ou à corriger le problème de façon autonome à l’aide de scripts ou d'automatisation. Il appartient aux opérateurs IT et aux développeurs d’entraîner le système à apporter la meilleure réponse à différents scénarios.
Entraîner des systèmes informatiques ne devrait pas être intimidant : nous le faisons tous les jours. Toute personne qui utilise la correction automatique de l’orthographe sait que le système a parfois quelques ratés au début (pas trop embarrassant, espérons-le – nous avons tous vu passer des captures d'écran). La correction automatique demande de l’entraînement. Elle doit apprendre les mots que vous utilisez régulièrement. Elle apprend vos habitudes d’expression et vos modes de communication habituels. Au fil du temps, elle vous fait gagner un temps précieux lorsque vous rédigez un message (ou vous épargne au moins une faute gênante).
Les plateformes AIOps, si elles sont infiniment plus capables et complexes, lui ressemblent car elles délivrent leurs meilleures performances lorsqu’elles sont entraînées par des professionnels IT expérimentés qui savent appliquer les besoins du département et de l’entreprise aux résultats soutenus par la plateforme.
Vous voulez en savoir plus ? La vérité sur 6 grands mythes de l’AIOps vous aidera à dépasser l’effet de mode pour comprendre ce qu’est vraiment l’AIOps – et ce que ce n’est pas.
*Cet article est une traduction de celui initialement publié sur le blog Splunk anglais.
----------------------------------------------------
Thanks!
Splunk
La plateforme Splunk élimine les obstacles qui séparent les données de l'action, pour donner aux équipes d'observabilité, d'IT et de sécurité les moyens de préserver la sécurité, la résilience et le pouvoir d'innovation de leur organisation.
Fondée en 2003, Splunk est une entreprise internationale. Ses plus de 7 500 employés, les Splunkers, ont déjà obtenu plus de 1 020 brevets à ce jour, et ses solutions sont disponibles dans 21 régions du monde. Ouverte et extensible, la plateforme de données Splunk prend en charge les données de tous les environnements pour donner à toutes les équipes d'une entreprise une visibilité complète et contextualisée sur l'ensemble des interactions et des processus métier. Splunk, une base solide pour vos données.