Depuis des décennies, les administrateurs système travaillent en grande partie dans l’ombre pour maintenir l’accessibilité et la disponibilité de vos services informatiques les plus importants. Et si l’essor du DevOps et du cloud a conduit à l’émergence d’un profil hybride Administrateur/Développeur, l’administrateur système a toujours des tâches fondamentales et indispensables à accomplir. Les administrateurs système d’aujourd’hui maîtrisent à la fois le matériel et les logiciels, et savent configurer une architecture résiliente et sécurisée pour assurer le succès de l’entreprise.
Ils sont normalement chargés de l’installation, de la maintenance, de la configuration et de la réparation des serveurs, des réseaux et d’autres systèmes informatiques. Mais ils apprennent aussi un peu de programmation et d’écriture de script pour exécuter des tâches et des actions dans leurs applications et leur infrastructure. Dans le monde du DevOps, les développeurs logiciels ressemblent davantage à des administrateurs et les administrateurs ressemblent davantage à des développeurs, ce qui se traduit par une meilleure collaboration et des boucles de rétroaction plus courtes entre toutes les équipes.
Parce que le rôle d’administrateur système a considérablement changé au cours de la dernière décennie, nous avons décidé de créer le Guide définitif de l’administrateur système de 2019. Tout d’abord, nous allons aborder les rôles et responsabilités de base d’un administrateur système avant de passer en revue quelques conseils et ressources pour atteindre un haut niveau d’efficacité dans le rôle d’administrateur système.
En tant qu’administrateur système, vous gérez essentiellement l’ensemble de la technologie et de la pile informatique. Et dans le secteur de la technologie, cela signifie assurer la maintenance du système qui forme littéralement la base de toute l’activité. Chaque seconde de coupure de votre site web ou de votre serveur se traduit par une perte de productivité et de revenus, ainsi que des coûts élevés. Par-dessus tout, les administrateurs système doivent résoudre efficacement les problèmes. Face aux innombrables systèmes d’exploitation, configurations réseau et problèmes de sécurité à garder à l’esprit, un administrateur système efficace doit savoir apprendre de nouvelles choses et maintenir de solides boucles de feedback avec l’équipe de développement.
Mais pour être plus précis, passons en revue 12 grandes responsabilités de l’administrateur système, pour mieux comprendre les compétences et les technologies que vous aurez besoin de maîtriser.
Selon votre chaîne d’outils et votre pile technologique, l’administrateur système est chargé de superviser et générer des alertes concernant vos applications et votre infrastructure. Le suivi des principaux indicateurs du serveur et du réseau — processeur, utilisation du disque, DNS, latence et ETL — peut aider les administrateurs système à détecter un incident. Ils peuvent ensuite configurer des alertes basées sur des seuils pour recevoir des notifications à tout moment en cas d’incident majeur. Il est important que les administrateurs système sachent comment utiliser à la fois les sorties des systèmes externes et les indicateurs pour déterminer la santé de leurs propres systèmes, pour une architecture plus observable.
Les administrateurs système sont généralement responsables des autorisations des utilisateurs et de l’administration de l’ensemble des applications et des services. Les administrateurs système peuvent attribuer des rôles d’utilisateur et gérer l’ensemble de la pile informatique de l’organisation, permettant à chacun d’accéder à une partie des applications et des services de manière sécurisée.
Le SysAdmin est chargé de gérer les mots de passe et les politiques et pratiques SSO de toute l’entreprise. Ils sont capables de réinitialiser les mots de passe et de garantir le respect de toutes les exigences de sécurité. Si vous utilisez le SSO et/ou l’authentification à deux facteurs, l’administrateur système est chargé de gérer ces outils et de permettre aux employés d’accéder aux systèmes dont ils ont besoin quand ils en ont besoin.
Pour assurer l’organisation et la cohérence des données, l’administrateur système instaure généralement des politiques et des procédures qui encadrent l’organisation et le partage des fichiers dans l’entreprise. Comme la plupart des autres responsabilités de l’administrateur, il s’agit de se protéger face aux attaques externes tout en assurant un accès simple et approprié aux fichiers pour les employés.
À un niveau très général, l’administrateur système devra définir les bonnes pratiques d’utilisation des systèmes de l’entreprise. Tout doit être couvert, des logiciels propriétaires que vous créez aux différentes applications et services informatiques tiers. En montrant aux employés comment utiliser les systèmes de manière sécurisée et productive, les administrateurs système ont le pouvoir de transformer complètement les méthodes de travail d’une entreprise.
C’est à l’administrateur système de mettre en place des politiques et des procédures pour suivre l’installation et les mises à jour des logiciels. Si des problèmes apparaissent suite à de nouvelles mises à jour ou à des interdépendances entre les nouvelles versions des systèmes, il doit être en mesure de détecter ces problèmes et de les résoudre.
Les administrateurs système doivent tenir à jour des plans de redondance, de basculement et de rétablissement en cas d’incident. En s’appuyant sur une supervision, des alertes et une communication interfonctionnelle efficaces, ils doivent être en mesure de détecter rapidement toute défaillance et de remédier aux incidents informatiques.
La sécurité doit être une priorité dans toutes les tâches de l’administrateur système. Qu’il s’agisse des autorisations des utilisateurs ou de la gestion de la documentation, les administrateurs système doivent accomplir toutes les actions de manière sécurisée. Lors de la configuration des réseaux, des politiques et des serveurs, il saura procéder de manière techniquement solide et sécurisée.
Les administrateurs système sont souvent chargés de maintenir la documentation et les runbooks. Dans un contexte CI/CD, la tâche peut être ardue. Les administrateurs système doivent savoir tirer parti de l’automatisation pour garantir l’exactitude et la mise à jour des runbooks et de la documentation sans ralentir le cycle de vie du développement.
Les administrateurs système ne peuvent pas se contenter de combiner environnement IT et de sécurité. Ils doivent le construire dans une optique de visibilité et de rapidité. Comment mettre en place un système permettant une détection, une prise en charge et une résolution rapides des incidents en cas de problème ? Quel type de supervision et d’alerte doit être mis en place ? Quelle est la stratégie de communication en cas de panne ? Les administrateurs système doivent maîtriser toutes ces questions afin de tirer le meilleur parti de leurs pratiques de gestion des incidents.
Les administrateurs système sont souvent chargés d’effectuer des examens post-incident pour les systèmes concernés. Combien de temps a-t-il fallu pour identifier le problème ? Combien de temps a-t-il fallu pour remédier à l’incident ? Le suivi des examens post-incident, la collaboration avec les autres équipes concernées et des notes détaillées peuvent contribuer à améliorer les relations entre l’IT et les développeurs de logiciels, ce qui conduit à de meilleures boucles de rétroaction et à des déploiements plus fiables. Utilisez les revues post-incident comme un moyen d’apprendre de vos erreurs passées, de former les personnes et d’améliorer les processus et la technologie pour la suite.
À la base, un bon administrateur système a du talent pour la résolution des problèmes et sait se préparer à l’imprévu. À l’ère du CI/CD et du DevOps, les équipes déploient plus rapidement une architecture plus complexe, ce qui augmente considérablement la difficulté des tâches de l’administrateur système. Pour cette raison, il aura toujours avantage à trouver des moyens de réduire les goulots d’étranglement dans le cycle de vie du déploiement tout en réduisant simultanément les risques dans l’infrastructure IT et de sécurité.
Pour être efficaces à l’ère moderne, les administrateurs système doivent s’informer sur la programmation, l’automatisation et le cloud computing. Ils ne se contentent pas de redémarrer les serveurs et de mettre hors service les anciens équipements : ils assurent la fiabilité et la disponibilité de tous vos logiciels et matériels. Nous tenions donc à donner également un aperçu des compétences et technologies modernes avec lesquelles les administrateurs système doivent se familiariser.
La maîtrise d’outils comme Puppet, Chef, Ansible et Jenkins est indispensable à l’efficacité de l’administrateur système. Ces outils permettent aux administrateurs système d’automatiser un certain nombre de tâches et de configurations tout au long du cycle de publication, ce qui réduit les erreurs et accélère les déploiements. Les développeurs peuvent ainsi passer plus de temps à créer de nouvelles applications et de nouveaux services au lieu de corriger des projets dans le pipeline en cours ou de traiter des demandes de support.
Avec l’avènement d’AWS, d’Azure et de GCP, les administrateurs système du monde entier doivent comprendre comment orchestrer les systèmes dans le cloud. Quels types d’outils de supervision et d’alerte devez-vous utiliser ? Quelle est la meilleure façon de gérer vos serveurs et vos réseaux maintenant que votre infrastructure est basée sur le cloud ? Les administrateurs système travaillent constamment sur ces questions et s’efforcent d’intégrer la redondance et la sécurité à l’ensemble du système. Mais avec la migration vers le cloud de l’ensemble des applications et des services, c’est l’une des compétences les plus importantes pour les administrateurs système du monde entier.
Git est la forme de contrôle de version la plus couramment utilisée. Le contrôle de version est un moyen de suivre les modifications apportées au code et aux différentes versions d’une application ou d’un service. Grâce à cette pratique, en cas de problème avec la version en cours d’un service, les administrateurs système peuvent facilement annuler un déploiement ou des mises à jour pour résoudre le problème. Le contrôle de version est essentiel pour maintenir un pipeline CI/CD fiable et fournir une visibilité sur les projets dans l’ensemble de l’ingénierie et de l’IT. Les administrateurs système doivent comprendre le contrôle de version pour voir rapidement ce que font les développeurs, identifier les problèmes et les résoudre — souvent à plusieurs reprises — avant qu’ils n’atteignent les clients.
Comme on l’a vu ci-dessus, les administrateurs système doivent comprendre les rouages de la maintenance des serveurs et du réseau. Ces serveurs et réseaux sont les piliers qui soutiennent l’ensemble de votre entreprise et délivrent de la valeur aux clients. Les administrateurs système doivent donc continuellement améliorer les processus afin de maintenir des systèmes plus fiables, éviter autant que possible les pannes et améliorer la réponse en cas d’incident.
De plus en plus, les administrateurs système utilisent des scripts et de la programmation pour atteindre les résultats souhaités. La recherche d’administrateurs système capables de rédiger fréquemment du code est à l’origine de l’émergence récente de l’ingénierie en fiabilité des sites (SRE). Traditionnellement, les administrateurs système ont une approche très réactive face aux incidents de production, le code leur étant transmis par les développeurs. Mais comme les équipes SysAdmins et SRE écrivent de plus en plus souvent du code et collaborent avec les développeurs plus en amont du cycle de déploiement, elles peuvent identifier les problèmes de manière proactive et les corriger plus fréquemment. Les administrateurs système qui savent écrire des scripts et programmer sont très convoités sur le marché actuel, car ils contribuent activement à améliorer la fiabilité du système et à générer de la valeur commerciale.
Les administrateurs système obtiennent rarement la reconnaissance qu’ils méritent. Ils répondent fréquemment aux incidents à 4 heures du matin et corrigent des incidents qui pourraient potentiellement entraîner des millions de dollars de perte de revenus et des expériences client désastreuses. Au cœur de toute bonne équipe informatique et d’ingénierie, se trouve un équilibre constant entre rapidité et fiabilité. Si les développeurs repoussent souvent les limites de la vitesse, les administrateurs système ont la mission délicate de les ralentir avant qu’ils n’aillent trop loin, garantissant une fiabilité et une sécurité accrues pour l’ensemble de vos applications et services.
Le Splunk Observability Cloud délivre une supervision et des alertes de bout en bout pour les équipes de développement, IT et d’ingénierie. Découvrez-le par vous-même avec un essai gratuit de 14 jours. Aucune carte de crédit demandée.
*Cet article est une traduction de celui initialement publié sur le blog Splunk anglais.
La plateforme Splunk élimine les obstacles qui séparent les données de l'action, pour donner aux équipes d'observabilité, d'IT et de sécurité les moyens de préserver la sécurité, la résilience et le pouvoir d'innovation de leur organisation.
Fondée en 2003, Splunk est une entreprise internationale. Ses plus de 7 500 employés, les Splunkers, ont déjà obtenu plus de 1 020 brevets à ce jour, et ses solutions sont disponibles dans 21 régions du monde. Ouverte et extensible, la plateforme de données Splunk prend en charge les données de tous les environnements pour donner à toutes les équipes d'une entreprise une visibilité complète et contextualisée sur l'ensemble des interactions et des processus métier. Splunk, une base solide pour vos données.