Data Insider

Qu’est-ce que la supervision IT ?

La supervision IT comprend une large gamme de produits conçus pour permettre aux analystes de déterminer si les équipements IT fonctionnent selon les niveaux de service attendus, tout en résolvant les problèmes détectés. Les outils de supervision IT vont des contrôles de base aux outils plus avancés capables d’examiner à une échelle granulaire les performances d’un produit, et même automatiser les corrections en cas de suspicion de problème.

Utilisé avec un serveur web, un outil de supervision IT peut analyser les tendances d’utilisation du processeur et de la mémoire, déterminer si l’espace disque est insuffisant et connaître la fréquence à laquelle le système s’est arrêté sans raison au cours de l’année écoulée.

La supervision IT, qui inclut la supervision du réseau et des applications, a considérablement évolué depuis 2010 en raison de la complexification croissante des environnements IT. Notons d’abord que les outils de supervision IT peuvent désormais superviser des systèmes installés localement ou dans le cloud. Et avec les centaines de produits et d’outils de supervision disponibles sur le marché, les systèmes de supervision varient considérablement en termes de complexité et d’approche. L’outil de supervision IT idéal pour une entreprise peut s’avérer inadapté pour une autre.

Les concepts inhérents à la supervision de l’IT recouvrent largement d’autres disciplines, dont la gestion des opérations IT (ITOM), la gestion des événements et des informations de sécurité (SIEM), l’orchestration, l’automatisation et la réponse de sécurité (SOAR), l’intelligence opérationnelle (OI) et bien d’autres.

Cet article explore les grands types de supervision IT, ses outils et son fonctionnement avec la gestion et la performance du réseau, les DevOps et l’automatisation, et il aborde le choix d’une stratégie efficace de supervision IT.

Rapport d’analystes | Splunk se classe au 1er rang de l’étude des parts de marché ITOA d’IDC

Présentation de la supervision IT

Quels sont les principaux types de supervision IT ?

Les formes principales de supervision IT sont la supervision de la disponibilité, la supervision des performances web, la gestion des applications web et la gestion des performances applicatives, la gestion des API, la supervision des utilisateurs réels, la supervision de la sécurité et la supervision des activités métier.

Bien qu’il n’existe pas de liste exhaustive des différents types d’outils de supervision IT, de nombreux termes recouvrent plusieurs types de supervision, ce qui brouille les frontières de ce marché. Examinons les grandes catégories d’outils qui composent la supervision IT :

  • la supervision de la disponibilité. Souvent appelée supervision des systèmes, la supervision de la disponibilité est sans doute l’outil de supervision IT le plus mature. Elle englobe des catégories telles que la gestion des serveurs, la supervision/gestion de l’infrastructure et la supervision/gestion du réseau. Elle a pour but de fournir aux utilisateurs des informations sur la disponibilité et les performances de tout ce qui est supervisé.
  • la supervision des performances web. Sous-ensemble de la supervision de la disponibilité, la supervision des performances web suit la disponibilité d’un serveur web ou d’un service, mais apporte également des détails plus fins au système. Ces outils peuvent capturer des informations telles que le temps de chargement des pages, l’emplacement des erreurs générées et les temps de chargement de divers éléments Web, ce qui aide les analystes à affiner les performances d’un site ou d’une application web.
  • la gestion des applications/de la performance des applications (APM). Les outils d’APM sont similaires aux outils de supervision des performances web, mais ils sont conçus pour les applications orientées client et permettent aux analystes de suivre les performances d’une application et de détecter les problèmes avant qu’ils ne deviennent trop graves pour la base d’utilisateurs. Les outils d’APM plus modernes peuvent inclure des routines automatisées pour résoudre ces problèmes sans l’intervention d’un développeur humain.
  • la supervision des API. Pour les entreprises qui proposent des API aux développeurs tiers, il est essentiel de garantir la disponibilité de ces services. Les outils et logiciels de supervision des API permettent de savoir si une API fonctionne correctement, afin de minimiser les temps d’arrêt.
  • la supervision des utilisateurs réels (RUM). La supervision des utilisateurs réels est conçue pour enregistrer les interactions réelles entre les utilisateurs finaux et un site web ou une application. En supervisant les temps de charge réels et le comportement des utilisateurs, elle peut identifier les problèmes en s’appuyant sur de « véritables » difficultés rencontrées par les utilisateurs, plutôt que sur des simulations. Ce type de supervision est rétrospectif et non prédictif : il permet aux analystes de détecter les problèmes uniquement après qu’ils se sont produits.
  • la supervision de sécurité. La supervision de sécurité est un type de supervision IT très spécifique qui recherche les cas de violation ou d’activité inhabituelle sur le réseau. La supervision de sécurité est une catégorie de haut niveau qui inclut de nombreux sous-ensembles d’outils d’analyse de sécurité.
  • la supervision des activités métier (BAM). Ce type d’outil de supervision utilise les indicateurs clés de performance de l’entreprise et les suit au fil du temps. Ces métriques peuvent notamment inclure des informations sur les ventes, les téléchargements d’applications ou le volume des transferts financiers.

Notez que tous ces outils peuvent être chargés de superviser des équipements ou des applications installés localement et peuvent être utilisés conjointement avec des systèmes cloud.

Security monitoring dashboard

La supervision de sécurité IT est utilisée pour détecter les menaces et les activités suspectes sur le réseau.

Quels sont les types d’outils utilisés dans la supervision IT ?

Les outils de supervision de l’infrastructure IT peuvent être répartis en trois catégories ou types de dispositifs réseau (observation, analyse et engagement) en fonction de leur utilisation :

  • les outils d’observation. Ce sont les outils de supervision IT les plus élémentaires ; on les utilise pour observer des machines, des logiciels ou des services et rendre compte de leur efficacité opérationnelle. La plupart des outils de supervision de la disponibilité, y compris les outils de supervision et de gestion de l’infrastructure, les outils de supervision des performances applicatives et les outils de supervision des performances web, relèvent de cette catégorie.
  • les outils d’analyse. Ce type d’outil de supervision IT a pour mission de relever les données d’observation et de les analyser de façon plus approfondie. Ces données peuvent être analysées pour déterminer l’origine des problèmes et, surtout, pour déterminer pourquoi ces problèmes peuvent se produire. Les outils d’analyse avancés tels que les systèmes AIOps sont conçus pour prévoir les cas où les problèmes sont susceptibles de se produire, en s’appuyant sur des tendances et des modèles historiques.
  • les outils d’engagement. Dernier niveau des outils de supervision IT, les outils d’engagement sont conçus pour agir sur les informations créées par les outils d’analyse et d’observation. Cela peut prendre une forme simple, par exemple celle de tickets de service ou d’alertes transmis de façon intelligente ou au responsable concerné ; plus souvent, ces outils sont utilisés pour ajouter des capacités de services, redémarrer le matériel ou le logiciel problématique, ou exécuter des sauvegardes.

Comment la supervision et la gestion IT fonctionnent-elles ensemble ?

Les outils de supervision IT délivrent les informations permettant aux gestionnaires d’agir. La supervision IT fait partie de la gestion, de la collecte et de la diffusion des données de performance, qui doivent ensuite informer la prise de décisions tactiques et commerciales.

Les informations fournies par les outils de supervision IT permettent aux responsables métier d’étudier plus en détails l’impact de l’infrastructure informatique sur les recettes et les bénéfices. Ce temps d’arrêt de 0,11 % se traduit par une indisponibilité de 11 minutes par semaine. Pendant les heures de grande fréquentation d’un site commercial, par exemple, 11 minutes d’incapacité à traiter les paiements peuvent représenter un coût important. Comment comparer ce coût à celui du remplacement d’une carte mémoire dans le serveur ou de la mise à jour du réseau, qui auraient permis d’éviter cette interruption ? Est-ce qu’un problème de processus doit être résolu pour corriger la défaillance ? Si les temps d’arrêt augmentent, un gestionnaire avisé peut en déduire que des problèmes encore plus importants se profilent à l’horizon et utiliser alors les données de supervision IT pour demander le remplacement ou la mise à niveau du matériel existant.

Comment la supervision IT fonctionne-t-elle avec DevOps ?

La supervision IT joue un rôle de plus en plus important dans le domaine des DevOps, principalement parce que les DevOps sont axées sur la collaboration des équipes et en particulier celles du développement et des opérations. Mais les entreprises ont observé des avantages plus importants encore en intégrant d’autres départements à cette combinaison, et notamment les équipes de sécurité et de QA/test. Ce n’est que lorsque tous ces groupes travaillent ensemble et forment une équipe cohérente que le lancement d’un logiciel ou d’un service peut réussir.

La supervision IT est un complément naturel à ce concept, surtout pour les produits qui reposent sur une haute disponibilité tels qu’un service cloud ou une application reposant sur l’API de votre entreprise. Lorsque ces services ralentissent ou s’interrompent, la satisfaction des clients et, à terme, le chiffre d’affaires peuvent chuter de façon significative. Pour cette raison, il est essentiel que les équipes DevOps s’efforcent de veiller à que les systèmes critiques restent opérationnels et réactifs, et d’intégrer ces mesures de performances directement dans le processus de développement dès le début.

Les DevOps et la supervision IT se rencontrent également lorsqu’il s’agit de gérer le rythme croissant de la publication des produits, car les applications sont parfois actualisées plusieurs fois par jour. La supervision est essentielle dans ces types d’environnements, car le rythme effréné du développement ne laisse souvent qu’un minimum de temps à l’assurance qualité avant la publication d’une nouvelle mise à jour. Il arrive parfois qu’un bug passe en production sans être détecté, entraînant un ralentissement ou un blocage inacceptable dans un système clé. Avec une solution robuste de supervision IT en temps réel, ces erreurs peuvent être détectées rapidement, souvent en quelques secondes, ce qui permet à l’équipe DevOps de résoudre immédiatement le problème ou de rétablir le code à un état de fonctionnement connu, réduisant ainsi les temps d’arrêt.

Cela dit, dans le monde des DevOps, la supervision IT est également prospective. Les systèmes de supervision DevOps peuvent être chargés de superviser les outils employés par les développeurs afin d’identifier les domaines d’inefficacité qui pourraient bénéficier d’une automatisation.

Security monitoring dashboard

La supervision IT est un aspect de plus en plus important des DevOps car elle nécessite une collaboration entre plusieurs équipes.

Comment la supervision et l’automatisation IT fonctionnent-elles ensemble ?

La supervision IT s’allie essentiellement à l’automatisation avec les outils d’engagement. Comme nous l’avons vu, l’automatisation peut prendre la forme de tickets de service ou d’alertes automatiques, ou bien réaliser une série complexe d’actions pour corriger un problème détecté par l’outil de supervision, et ce sans intervention humaine.

Plus l’infrastructure est complexe, plus l’automatisation devient nécessaire. Même dans les entreprises de taille modeste, il y a bien trop de composants pour que leur gestion soit humainement possible, et la situation se complique encore avec les systèmes hybrides qui combinent réseaux cloud et locaux.

Les outils de supervision IT qui incorporent de l’automatisation sont conçus pour simplifier tout cela. Si un serveur ralentit suite à un pic soudain d’activité des clients, l’outil peut diagnostiquer une surcharge de processeur et automatiquement demander à un autre serveur (réel ou virtuel) de prendre le relais. Lorsque le trafic réseau diminue à nouveau, il peut alors décider d’éteindre ce deuxième serveur. L’outil peut également générer un rapport de cause profonde sur l’incident afin que la gestion puisse décider si une mise à niveau s’impose.

Comment les analystes utilisent-ils la supervision IT ?

Les outils de supervision IT sont utilisés de diverses façons par les analystes, et il n’existe aucune manière canonique de les exploiter. Cela dit, en termes généraux, les analystes utilisent les outils de supervision IT pour exécuter une pléthore de fonctions critiques :

  • la supervision et le dépannage des nœuds d’infrastructures physiques et virtuelles (serveurs, matériel réseau et systèmes cloud) pour résoudre rapidement les problèmes ;
  • la supervision des applications exécutées en temps réel pour garantir la disponibilité et accélérer le développement dans un environnement DevOps ;
  • l’amélioration du processus de prise de décision IT en facilitant l’identification des goulots d’étranglement, des blocages de bande passante et autres points de défaillance potentiels dans l’environnement réseau ;
  • l’élargissement de la visibilité sur les systèmes basés dans le cloud et l’intégration de la supervision aux systèmes sur site ;
  • la prédiction et l’analyse de l’impact des opérations IT sur l’entreprise, en incluant l’impact financier ;
  • l’automatisation de la gestion des incidents pour réduire l’intervention humaine, réparer rapidement les problèmes et éviter les déluges d’alerte ;
  • le suivi des comportements des utilisateurs finaux au sein d’une application pour identifier les opportunités d’amélioration.
IT monitoring tools are used in a variety of ways by analysts.

Les outils de supervision IT sont utilisés de diverses façons par les analystes.

Pour bien démarrer

Comment choisir une stratégie de supervision IT ?

Si vous êtes prêt à lancer votre propre stratégie de supervision IT, voici un guide pas à pas pour commencer.

  1. Déterminez vos objectifs. Voulez-vous simplement être averti en cas d’interruption d’un serveur ou devez-vous superviser un environnement hybride impliquant de l’équipement local et des services cloud ? Voulez-vous intégrer votre outil de supervision à d’autres services ? Souhaitez-vous bénéficier d’une visibilité sur des données de performances spécifiques ? Voulez-vous utiliser la technologie de machine learning pour automatiser les actions correctives ? Les réponses à ces questions auront un impact considérable sur la complexité des outils de supervision que vous allez envisager.
  2. Faites participer les décideurs métier. Conjointement avec l’étape 1, vous avez tout intérêt à impliquer les parties prenantes extérieures à l’organisation IT pour obtenir leur adhésion sur leurs propres objectifs de supervision IT. Faites correspondre ces besoins aux besoins de supervision du service IT pour créer une seule liste d’objectifs.
  3. Identifiez les fonctionnalités clés dont vous avez besoin. La plupart des outils de supervision offrent des fonctionnalités de base telles que la production de rapports et de tableaux de bord, mais leur sophistication varie. Si vous avez des besoins particuliers de conservation des données, ou si vous voulez des informations en temps réel obtenues grâce au machine learning, ces fonctionnalités vont aussi orienter votre choix.
  4. Identifiez les sources de données utilisables. Elles peuvent être très variées : servlogs, données machine ou sources de données tierces. Quoi que vous essayiez de superviser, il y a forcément au moins une source de données pertinente. Énumérez toutes ces sources afin de vous assurer que l’outil que vous envisagez prend bien en charge les informations souhaitées.
  5. Évaluez les outils à l’aide des versions d’essai. Une fois bien informé, vous n’avez pas besoin de vous lancer avec le premier outil de supervision IT qui semble convenir. La plupart de ces outils sont disponibles à titre d’essai. Vous pouvez donc les voir fonctionner dans votre environnement avant de vous engager définitivement. C’est particulièrement vrai pour les outils proposés en tant que service, sur abonnement.

Quelles sont les bonnes pratiques de la supervision IT ?

La façon dont vous utilisez l’outil est tout aussi importante que l’outil lui-même, et plusieurs bonnes pratiques robustes sont à recommander : maîtriser les alertes, tenir compte du niveau d’alerte et des supports de transmission, affiner les tableaux de bord, créer un plan de remontée des informations, opter pour la redondance et rechercher les valeurs anormales.

  • Maîtrisez les alertes. Un trop grand nombre d’alertes crée rapidement de la fatigue et augmente le risque d’en ignorer. Prenez soin de concevoir une logique d’alerte qui se déclenche lorsqu’une intervention humaine est vraiment nécessaire.
  • Tenez compte du niveau d’alerte. Les interruptions de service de base ou les temps d’arrêt limités peuvent être affectés à des analystes de bas niveau, mais les problèmes plus graves doivent être transmis aux responsables et ce, rapidement. Attribuez différents niveaux de gravité aux problèmes pour faciliter ce type de catégorisation et de remontée.
  • Pensez également au moyen de communication. Quand est-ce qu’une alerte par e-mail est acceptable ? Dans quelles situations envoyer un message texte ou une notification mobile ? N’oubliez pas qu’un nombre excessif de messages peut rapidement entraîner un sentiment de fatigue, source d’alertes ignorées.
  • Affinez vos tableaux de bord. Le tableau de bord est l’endroit où la plupart des analystes passent la majeure partie de leur journée de travail. Il est donc logique de veiller à ce que le tableau de bord mette les informations les plus critiques au premier plan et les informations secondaires à portée de main.
  • Créez un plan de remontée des informations indépendant du système d’alertes. Vos alertes peuvent intégrer des routines de remontée des informations rudimentaires, mais un problème apparemment simple avec un serveur peut rapidement prendre de l’importance. Par exemple, votre outil de supervision peut se contenter de signaler qu’un serveur distant est hors ligne, sans savoir qu’un ouragan de catégorie 5 est en train de balayer le centre de données. Ce sont deux niveaux de problèmes très différents qui méritent des réponses tout aussi différentes.
  • Souvenez-vous que la redondance est votre alliée. Dans la mesure du possible, évitez de compter sur une seule source de données pour superviser l’intégrité d’un nœud particulier. Si votre outil de supervision perd l’accès à un log de serveur, cela signifie-t-il que le serveur s’est interrompu ou qu’un câble réseau a été coupé ? Vous ne le saurez pas si vous ne disposez pas d’une source de données secondaire capable de superviser le trafic réseau et de vous aider à résoudre plus rapidement ce type de problèmes.
  • Recherchez les valeurs anormales. Un temps de réponse moyen de 0,3 seconde pour une page web est une belle performance, pour tant que cela ne cache pas le fait qu’un petit pourcentage de vos visiteurs subit en réalité 30 secondes de chargement, voire plus, sans que vous ne vous en aperceviez. Une stratégie de supervision intelligente doit examiner toutes les données et pas seulement les moyennes, et le travail de diagnostic doit souvent traiter l’ensemble spécifique de variables qui peuvent être à l’origine de problèmes pour une fraction de la base d’utilisateurs finaux.

Pour résumer

La supervision IT revêt une importance décisive pour votre entreprise

La supervision IT ne consiste pas seulement à informer un technicien quand un serveur plante, mais également à prévoir ces problèmes à l’avance de manière intelligente et, de plus en plus, à automatiser une réponse pour y remédier avant que les utilisateurs ne soient réellement affectés.

Les infrastructures informatiques étant de plus en plus complexes, il est aujourd’hui impératif, pour les responsables IT, de mettre en œuvre des systèmes qui leur permettent de garder le contrôle. En intégrant formellement la supervision IT à l’ensemble de votre écosystème, vous pourrez améliorer considérablement vos opérations sur un large éventail d’indicateurs, d’abord simplement pour garantir disponibilité des services, puis assurer des performances élevées et la rentabilité globale de l’entreprise.