La question n’est pas de savoir si, mais quand un incident va se produire. Les systèmes subissent des interruptions. Les logiciels rencontrent des erreurs. Les fournisseurs ont des problèmes de leur côté. Votre mission : vous préparer à ces problèmes. Et dans cette mission, les niveaux de gravité peuvent être de précieux outils.
Les incidents peuvent exercer un impact variable sur votre entreprise et vos clients. Les niveaux de gravité vous permettent de classer l’impact d’un incident et de gérer votre réponse. Lorsque vous utilisez correctement les niveaux de gravité...
Dans cet article, nous allons voir ce que sont les niveaux de gravité, comment les utiliser et en quoi ils se distinguent des niveaux de priorité.
Splunk IT Service Intelligence (ITSI) est une solution d’AIOps, d’analytique et de gestion IT qui aide les équipes à anticiper les incidents avant qu’ils n’affectent les clients.
ITSI utilise l’IA et le machine learning pour corréler les données collectées auprès de nombreuses sources de supervision et offrir une vue unifiée des services IT et métiers pertinents. La solution a un double avantage : elle réduit les déluges d’alertes et permet la prévention des interruptions de service.
Outils essentiels de la pratique de gestion des incidents, les niveaux de gravité mesurent l’impact d’un événement sur votre activité. Que l’incident soit interne (défaillance d’équipement ou logicielle) ou externe (faille de sécurité, problème chez un fournisseur), il produit un effet spécifique sur votre capacité à servir vos clients. Le niveau de gravité est le reflet de cet impact.
(Gérez les incidents de sécurité plus efficacement grâce à ces fonctionnalités SIEM.)
Selon le type d’entreprise, les niveaux de gravité sont généralement au nombre de trois, quatre ou cinq. Le niveau 1, ou SEV 1, correspond au niveau le plus grave. Les niveaux des chiffres les plus élevés (3, 4 ou 5) représentent les niveaux les moins graves.
Il n’existe pas de définition universelle des niveaux de sécurité. La façon dont vous les définissez dépend des priorités de votre entreprise et de vos utilisateurs. Dans certaines entreprises, trois niveaux suffisent. Dans d’autres, il peut être préférable de répartir les incidents en cinq niveaux. On peut définir ces cinq niveaux comme suit :
Description de la gravité | |
SEV 1 | Incident critique affectant un grand nombre d’utilisateurs en production. |
SEV 2 | Problème significatif affectant un nombre d’utilisateurs limité en production. |
SEV 3 | Incident provoquant des erreurs, des problèmes mineurs pour les utilisateurs ou une surcharge du système. |
SEV 4 | Incident mineur affectant le service sans avoir d’impact grave sur les utilisateurs. |
SEV 5 | Défaillance mineure entraînant des problèmes mineurs. |
Lorsqu’un incident se produit, vos équipes ont besoin de savoir :
Par exemple, lorsqu’une défaillance affecte tous les utilisateurs, la réaction classique est « Tout le monde sur le pont ! » Mais il n’est pas forcément productif que tout le monde se consacre au même problème. Cela peut même être contre-productif en semant la confusion et en donnant lieu à des contradictions et de la redondance dans les efforts. En définissant un niveau de gravité et en y rattachant des processus spécifiques, on améliore l’efficacité de la réponse. (Mieux encore : désignez un commandant des incidents qui sera chargé de prendre les décisions.)
La définition des niveaux de gravité doit faire partie de votre plan de gestion des incidents. Ils vous aideront considérablement à répondre à ces questions en amont et feront gagner du temps à votre équipe, qui saura immédiatement quoi faire une fois le niveau de gravité de l’incident déterminé.
(Consultez ces bonnes pratiques d’examen des incidents.)
Reprenons les questions ci-dessus et voyons quelles seraient les réponses dans le cas d’un incident SEV 1 :
Dans le cas d’un incident SEV 5, en revanche, les réponses sont très différentes :
Les niveaux de gravité offrent une référence commune à toutes les personnes impliquées dans la réponse aux incidents. En attribuant un niveau associé à un ensemble clair de procédures, on mobilise les bonnes équipes pour résoudre le problème. Sans ce classement, vous risquez de perdre du temps à déterminer les modalités d’intervention, ce qui peut même créer des problèmes supplémentaires.
À première vue, la gravité et la priorité sont similaires. Si vous faites face à un incident SEV 1, vous allez évidemment le traiter avant un incident SEV 2. Dans ces conditions, pourquoi faire la différence entre gravité et priorité ?
Bien souvent, priorité et gravité se recoupent parfaitement. Une défaillance qui empêche tous les utilisateurs d’utiliser un service est à la fois hautement prioritaire et de type SEV 1. Dans cet exemple, les problèmes techniques et les priorités métiers sont parfaitement alignés. Mais ce n’est pas toujours le cas :
Même si ces deux classifications peuvent se contredire, elles restent de précieuses méthodes de communication. La gravité dit aux parties prenantes à quel point un problème est grave. La priorité indique au personnel technique ce sur quoi il doit travailler.
(Suivez davantage de métriques de réponse aux incidents.)
Les niveaux de gravité des incidents constituent un concept relativement simple. Malheureusement, cette simplicité ne se retrouve pas forcément dans l’implémentation. Vous ne pouvez pas les mettre en œuvre avec un simple copier-coller depuis un article de blog ou un livre blanc. Vous devez les adapter à votre entreprise en prenant plusieurs facteurs en considération :
Voici quelques bonnes pratiques pour aider votre organisation à définir (et à appliquer) des niveaux de gravité.
Bonne pratique : adoptez un système unifié de niveaux et de descriptions pour l’ensemble de votre entreprise.
Vous pourriez être tenté d’utiliser différents niveaux de gravité en fonction des applications et des piles logicielles, en particulier dans une grande entreprise. Mais cela introduira de la complexité dans l’un des grands avantages du système de niveaux : la clarté de la communication au sujet des incidents. En multipliant les niveaux et les définitions, vous n’aiderez pas les parties prenantes à comprendre la signification d’un incident. Cela peut même semer la confusion chez les ingénieurs et les développeurs qui travaillent sur différentes applications.
Bonne pratique : utilisez le plus petit nombre possible de niveaux de gravité. Ni plus, ni moins.
S’ils sont trop nombreux, cela peut être source de confusion. Les niveaux de sécurité sont faits pour être rapidement attribués à un incident qui se produit, afin de passer à l’action. Un nombre excessif de niveaux va ralentir ce processus. Et s’il n’y en a pas suffisamment, des incidents de gravités différentes risquent d’être groupés. Toute nuance entre les incidents risque de disparaître dans ces catégorisations trop grossières.
Comment trouver le bon équilibre ? Rassemblez les acteurs concernés et établissez un plan. Passez les précédents incidents en revue et voyez comment ils s’inscrivent dans le cadre proposé. Reprenez les précédentes analyses de causes profondes. Faites des essais et n’ayez pas peur de modifier votre plan si nécessaire.
Bonne pratique : simplifiez l’attribution des niveaux de gravité
Si votre équipe n’est pas en mesure d’attribuer rapidement le bon niveau de gravité à un incident, elle ne profitera pas de tous les avantages de ce système. Vous devez donc définir des règles spécifiques pour que cette attribution soit quasi automatique. Il ne faut pas perdre de temps à argumenter sur la gravité d’un incident.
L’objectif est de passer rapidement à l’action après avoir déterminé le niveau. Vous allez donc créer des règles qui s’appuient sur l’impact mesurable, par exemple :
Vous avez maintenant une idée précise de ce que sont les niveaux de gravité des incidents et de leur utilisation. Concrètement, ces niveaux sont des outils de communication : ils permettent de partager l’impact d’un problème pour mobiliser rapidement les équipes autour de sa résolution. Naturellement, il existe un lien entre la gravité et la priorité d’un incident, mais ces deux notions restent très différentes.
(Pour connaître toute l’actualité de la sécurité, pensez à ces événements et conférences sur la cybersécurité et l’InfoSec.)
Une erreur à signaler ? Une suggestion à faire ? Contactez-nous à l’adresse ssg-blogs@splunk.com.
Cette publication ne représente pas nécessairement la position, les stratégies ou l’opinion de Splunk.
La plateforme Splunk élimine les obstacles qui séparent les données de l'action, pour donner aux équipes d'observabilité, d'IT et de sécurité les moyens de préserver la sécurité, la résilience et le pouvoir d'innovation de leur organisation.
Fondée en 2003, Splunk est une entreprise internationale. Ses plus de 7 500 employés, les Splunkers, ont déjà obtenu plus de 1 020 brevets à ce jour, et ses solutions sont disponibles dans 21 régions du monde. Ouverte et extensible, la plateforme de données Splunk prend en charge les données de tous les environnements pour donner à toutes les équipes d'une entreprise une visibilité complète et contextualisée sur l'ensemble des interactions et des processus métier. Splunk, une base solide pour vos données.