Data Insider

Qu’est-ce que la gestion des incidents ?

La gestion des incidents consiste à identifier et à corriger les incidents IT qui menacent ou interrompent les services d’une entreprise. Composant de la gestion des services IT (ITSM), la gestion des incidents vise à maintenir les services en fonctionnement ou, en cas d'interruption de service, à les restaurer le plus rapidement possible, tout en minimisant l’impact sur l’entreprise.

Un « incident », selon la définition de l’ITIL (Bibliothèque d’infrastructure des technologies de l’information), est « une interruption imprévue ou imminente d’un service IT ». Selon cette description générale, tout événement allant de la dégradation de la qualité du réseau à la saturation de l’espace disque en passant par une cyberattaque peut être considéré comme un incident. Le processus de détection et de réponse aux incidents liés à la sécurité est appelé « gestion des incidents de sécurité ».

Il existe de nombreuses façons d’aborder la gestion des incidents, et les stratégies, outils et accords de niveau de service (SLA) varient selon les entreprises. En général, les équipes IT tentent de prévenir les incidents par le biais de mises à jour logicielles régulières, de la supervision des événements et d’autres pratiques, et elles disposent d’un plan de réponse aux incidents pour les résoudre rapidement et identifier la cause profonde afin d’éviter les récidives.

La gestion des incidents joue un rôle essentiel car les interruptions de service peuvent avoir un coût considérable, atteignant dans certaines situations des centaines de milliers de dollars par heure, sans compter les amendes pour non-conformité et la perte de clientèle.

Dans les sections qui suivent, nous allons examiner les étapes et les bonnes pratiques de la gestion des incidents, et voir de quelle manière elle peut aider les entreprises à réduire les temps d’arrêt néfastes.

Réponse aux incidents de sécurité

Qu’est-ce que la réponse aux incidents de sécurité ?

La réponse aux incidents de sécurité est le processus d’identification, d’analyse et de résolution des menaces ou incidents de sécurité en temps réel. Fonctionnant grâce à une combinaison d’investigations et d’analyses informatiques et humaines, il vise à minimiser les impacts négatifs sur l’entreprise. Le processus commence généralement au niveau du système de sécurité qui avertit l’équipe de réponse qu’un incident s’est produit. L’équipe de réponse investigue et analyse l’incident afin de déterminer sa validité et sa portée, évalue son impact et élabore un plan d’atténuation.

Un incident de sécurité peut aller d'une menace active à une violation effective des données, et il peut provenir de l’intérieur ou de l’extérieur de l'entreprise. Un employé qui utilise un ordinateur professionnel pour accéder à un site web de jeux d’argent, un fournisseur qui télécharge des données qu’il n’est pas autorisé à consulter ou une attaque par programme malveillant sont autant d’exemples d’incidents de sécurité.

Outre le dépannage, la réponse aux incidents de sécurité inclut également la réponse préventive et la mise en œuvre de mesures défensives visant à empêcher les récidives. Par exemple, à la suite des célèbres attaques Heartbleed et EternalBlue, les administrateurs des entreprises touchées ont immédiatement sécurisé et contrôlé les systèmes et l’infrastructure IT afin d’empêcher les pirates malveillants d’accéder à leurs systèmes et de les compromettre à nouveau.

Comment la réponse aux incidents de sécurité est-elle liée à la gestion des incidents ?

La réponse aux incidents de sécurité est un processus spécifique au sein du processus plus large de gestion des incidents. Selon la définition de l’ITIL, la gestion des incidents traite « toute interruption d’un service IT ou réduction de sa qualité ». Les erreurs humaines, les défaillances technologiques, les violations de sécurité et bien d’autres types d’événements peuvent entraîner des interruptions. L’objectif de la gestion des incidents est d’identifier la cause de l’incident, de comprendre son impact et son urgence, et de déterminer une réponse pour rétablir le service normal le plus rapidement possible.

La réponse aux incidents de sécurité est un processus similaire, mais il concerne spécifiquement les incidents de sécurité. Un incident de sécurité peut être une tentative d’intrusion, une violation de la politique, une infection par un logiciel malveillant ou tout autre événement qui constitue une menace pour la sécurité informatique. Lorsqu’une entreprise identifie un incident de sécurité, l’équipe de réponse, parfois appelée CSIRT, évalue sa portée, puis détermine et exécute les étapes nécessaires pour le résoudre. La résolution efficace des incidents de sécurité est essentielle pour prévenir ou atténuer les dommages et les risques qui en résultent.

Quelles sont les phases du cycle de vie de la réponse aux incidents ?

Le cycle de vie de la réponse aux incidents comprend quatre phases selon la description de l’Institut national des normes et des technologies (NIST) :

1. Préparation : la première phase a pour but d’aider les organisations à déterminer les risques pesant sur leurs systèmes et leurs données, à définir des stratégies de gestion des problèmes et à mettre en place des mécanismes pour gérer les incidents de sécurité. Elle peut inclure la réalisation d’une évaluation formelle des risques, la mise en œuvre d’outils et de processus pour analyser et atténuer les incidents, la hiérarchisation des menaces, la création et la formation d’une équipe de réponse et la mise en place d’un plan d’intervention en cas d’incident (IRP), conformément aux directives sur le cycle de vie du NIST.

2. Détection et analyse : au cours de cette phase, l’équipe des opérations configure des systèmes pour surveiller, détecter, hiérarchiser et analyser proactivement les incidents prioritaires, dans le but de reconnaître toute menace ou activité anormale et suspecte dans l’environnement réseau, susceptible de perturber le flux de travail. La détection et l’analyse sont généralement effectuées grâce à une combinaison d’investigation humaine et d’outils de sécurité qui automatisent les processus de sécurité. Grâce à l’automatisation et à une exécution efficace, cette phase peut souvent minimiser la propagation et l’impact d’un incident.

3. Confinement, éradication et rétablissement : la troisième phase traite de la résolution des incidents de sécurité. Le confinement vise à empêcher l’incident de causer d’autres dommages : la déconnexion du serveur affecté du réseau et la mise en œuvre de règles de pare-feu pour bloquer l’adversaire peuvent, par exemple, arrêter une attaque par un programme malveillant. Les administrateurs de sécurité ou le personnel de support suppriment la menace au point de contact, en éliminant le logiciel malveillant du serveur infecté et en s’assurant qu’il n’existe nulle part ailleurs dans le système. Enfin, le personnel de support rétablit le système dans son état antérieur à l’infection et restaure la qualité du service en rechargeant les applications ou en restaurant les données à partir des sauvegardes.

4. Activité post-incident : la quatrième phase englobe les étapes à suivre pour éviter que des incidents similaires ne se reproduisent. À l’aide des données recueillies lors des réunions d’incident et de post-mortem, l’organisation établit comment l’incident s’est produit, quelles mesures préventives renforcer ou ajouter, comment améliorer les processus de supervision et d’alerte, et comment rationaliser les requêtes d’assistance et de service, ainsi que les processus de correction et de reprise. Il convient également de résoudre tout problème de conformité juridique ou réglementaire au cours de cette phase.

Ensemble, les quatre phases sont conçues pour s’appuyer sur une base de connaissances complète ; l’efficacité de la troisième phase repose fortement sur le succès des phases un et deux. Pour assurer une protection optimale et restaurer rapidement les services, les entreprises doivent mettre les quatre phases en œuvre.

Incident Response Life Cycle

Comment élaborer un plan moderne de réponse aux incidents de sécurité ?

Une réponse efficace aux incidents de sécurité repose sur la mise en place d’une stratégie préalable. La Norme ISO/IEC 27035 décrit un processus en cinq parties pour la gestion de la réponse aux incidents :

1. Se préparer à gérer les incidents.

2. Identifier et signaler les incidents de sécurité.

3. Évaluer les incidents et décider des mesures à prendre.

4. Répondre aux incidents par le confinement, l’investigation et la résolution.

5. Documenter les principaux points à retenir et les enseignements tirés de chaque incident.

Chaque entreprise exécutera ce plan un peu différemment, mais certaines bonnes pratiques peuvent aider à façonner la réponse aux incidents de sécurité en fonction des besoins de votre entreprise :

  • Faites un inventaire des actifs. Déterminez quels systèmes et données revêtent une importance stratégique pour votre activité et hiérarchisez les interventions dans l’ordre où ils doivent être traités et rétablis après un incident de sécurité. 
  • Constituez une équipe de réponse aux incidents de sécurité. Répartissez les rôles et les responsabilités des membres de l’équipe et veillez à inclure des représentants des services en-dehors de l’IT, tels que les finances, les opérations et le service juridique, en établissant une communication avec les personnes appropriées en cas d’incident de sécurité. 
  • Recherchez les indices de sécurité. Commencez par définir ce qui constitue un incident de sécurité pour votre entreprise, pour savoir ce que vous devez chercher. Développez ensuite des politiques décrivant comment les détecter et les signaler. 
  • Créez un plan d’action en cas d’incident de sécurité. Cette liste doit inclure toutes les tâches utiles en fonction de la menace et de la personne responsable de chacune d’elles. Ensuite, testez le plan pour déterminer son efficacité et l’affiner au besoin. 
  • Évaluez la réponse de votre équipe. L’analyse des réussites et des échecs de l’exécution d’une réponse vous permettra d’améliorer votre plan en vue du prochain incident de sécurité.

Comment trier les menaces et déterminer le niveau de réponse approprié ?

Le triage et la prise en charge des menaces varient selon l’organisation, mais des bonnes pratiques de catégorisation et d’établissement des priorités peuvent offrir un cadre pour un processus efficace et performant :

  • Identification : dès qu’un incident est confirmé, vous devez commencer à recueillir les preuves qu’il laisse derrière lui. Il faut notamment analyser les fichiers de log et d’autres sources de données afin de faciliter l’identification des points de terminaison compromis ou infectés.
  • Investigation : une fois que vous avez recueilli toutes les preuves au sujet de l’incident, vous pouvez les assembler pour visualiser le chemin emprunté par l’adversaire. Retracer la trajectoire de l’incident vous permettra également de déterminer la cible de l’attaquant.
  • Résolution : la visualisation du parcours d’attaque vous permet d’identifier les cibles les plus stratégiques et de hiérarchiser votre réponse en conséquence. Vous pouvez utiliser les informations recueillies au cours de l’étape de hiérarchisation pour supprimer le logiciel malveillant et restaurer les systèmes infectés par ordre d’importance de vos opérations métier.

Les outils de cybersécurité peuvent prendre en charge le processus de triage et même le rendre plus efficace. L’automatisation et l’orchestration peuvent soulager les équipes de sécurité des tâches fastidieuses d’analyse et de collecte des données, leur permettant ainsi de se concentrer sur l’exploration et la résolution des incidents critiques.

Systèmes de gestion des incidents

Quel est le rôle du DevOps dans la gestion des incidents ?

Les équipes DevOps utilisent la gestion des incidents pour appuyer la supervision de sécurité dans les applications logicielles et l’environnement de développement. Si l’ITIL informe sur la gestion des incidents pour l’ITSM, il n’existe pas de guide officiel pour les équipes DevOps. Dans ce contexte, la gestion des incidents repose sur les principes fondamentaux du DevOps, qui consistent à éliminer les silos organisationnels, à accroître la collaboration et la transparence, et à utiliser des processus légers. Elle peut donc être résumée en quelques étapes :

Détection : les équipes de réponse aux incidents DevOps collaborent pour identifier les vulnérabilités du système et planifient la réponse aux incidents potentiels. Elles mettent également en place des outils de supervision et des systèmes d’alerte, ainsi que des manuels décrivant la marche à suivre en cas de détection d’un incident.

Réponse : la plupart des équipes de gestion des incidents DevOps reçoivent des informations issues des outils de supervision, évaluent la gravité et l’impact de l’incident et suivent le manuel pour transmettre le problème aux bons intervenants par le biais des canaux de communication appropriés.

Résolution : le gestionnaire d’incidents travaille avec les équipes concernées pour résoudre le problème, récupérer les systèmes et les données, puis rétablir le fonctionnement normal de l’application.

Analyse: à cette étape de «clôture», l’équipe de gestion des incidents se réunit pour partager les leçons apprises dans le cadre d’un «examen post-incident sans blâme», dans le but d’améliorer les systèmes et d’empêcher que des incidents similaires ne se reproduisent.

Préparation : les équipes de gestion des incidents évaluent leur degré de préparation au prochain incident en appliquant ce qu’elles ont appris lors de l'examen post-incident. C'est le moment d'ajuster leurs outils de supervision et d’alerte, de mettre à jour leurs processus de gestion et leurs responsabilités d’équipe, de discuter des possibilités de solutions et d'implémenter une correction définitive du problème traité dans le pipeline de développement.

Qu’est-ce qu’un examen post-incident sans blâme ?

L’examen post-incident sans blâme est un aspect crucial du cycle de vie des incidents. Par nature, les équipes DevOps ont besoin de procéder à une analyse ouverte de leur processus de réponse aux incidents afin d’améliorer en permanence leur efficacité opérationnelle. L’examen post-incident sans blâme rend cette analyse possible car il permet d'examiner les lacunes techniques et humaines des moyens mis en œuvre pour résoudre l'incident.

Dans le cadre d’un examen post-incident sans blâme, les membres de l’équipe de réponse et les autres personnes impliquées ou touchées par l’incident se réunissent pour mieux comprendre l’événement et l’empêcher de se reproduire. L’examen est conçu pour identifier les outils et les processus à améliorer, et non pas pour désigner des responsables ; cela permet non seulement aux intervenants d’astreinte d’agir sans hésitation lors d’un incident, mais aussi de produire des idées plus innovantes et de meilleures applications.

Quelles sont les techniques de gestion des incidents majeurs ?

Un plan d’attaque bien préparé reste le meilleur moyen de surmonter le stress et l’incertitude d’un incident grave. L’ITIL propose un Guide de gestion des incidents majeurs, très détaillé, mais les étapes suivantes offrent une structure générale pour aborder n’importe quel incident :

  • Rassemblez tous les faits. Avant de passer à l’action, vous devez absolument comprendre la nature et la portée du problème. Au minimum, vous devez déterminer rapidement quels services et quels utilisateurs sont affectés, l’impact potentiel sur l’entreprise, qui examine le problème et doit être informé, et si le problème soulève des préoccupations de conformité ou de légalité.
  • Communiquez avec les bonnes personnes. En cas d’incident, vous aurez besoin d’une liste des personnes à contacter et des méthodes de communication. Outre les membres de l’équipe de réponse, vous devez également communiquer avec les autres parties prenantes de l’entreprise, la base d’utilisateurs du service touché et les organismes de réglementation concernés.
  • Élaborez un plan d’action. Les équipes clés doivent déterminer et mettre en œuvre la meilleure réponse à l’incident en fonction des faits recueillis. Le gestionnaire des incidents doit coordonner toutes les activités de l’équipe et faire en sorte que le plan de réponse reste efficace et sur la bonne voie.
  • Maintenez tout le monde dans la boucle. Le gestionnaire d’incidents doit régulièrement faire le point sur le travail des équipes pour s’assurer du respect des échéances, et tenir proactivement les autres parties prenantes informées du processus.
  • Demandez des autorisations de changement d’urgence. Une fois que vous avez trouvé un moyen de résoudre l’incident, effectuez des tests pour vous assurer qu’il fonctionne. Au besoin, le gestionnaire d’incidents devra initier le processus de gestion des changements d’urgence afin que les équipes d’intervention puissent rapidement implémenter la correction.
  • Faites savoir que le problème est corrigé. Une fois le correctif déployé et vérifié, un petit groupe de contrôle d’utilisateurs confirme que le service fonctionne correctement. L’équipe de réponse aux incidents informera par la suite toutes les personnes concernées que l’incident a été résolu.
  • Effectuez une revue rapide. Prenez un peu de temps avec les équipes pour récapituler les mesures qu’elles ont prises et les leçons qu’elles en ont tirées pendant que l’événement est encore frais dans l’esprit de chacun. Planifiez un examen post-incident sans blâme pour une évaluation plus approfondie après la reprise.

Risques d’indisponibilité

Quel est le coût d’une interruption de système ?

Selon une enquête de 2020 de l’ITIC sur le coût horaire des temps d’arrêt, 40 % des entreprises interrogées ont déclaré qu’une seule heure d’arrêt peut coûter entre 1 million de dollars et plus de 50 millions de dollars, sans inclure les frais juridiques, les amendes ni les pénalités de conformité.

Les données montrent que toute interruption de la productivité des employés, y compris les temps d’arrêt, peut avoir un coût. Une étude d’UC Irvine indique qu’il faut environ 23 minutes pour retrouver le niveau de concentration précédent après une interruption de la productivité. Si le coût réel des pannes varie d’une entreprise à l’autre, il est bien établi qu’une seule panne de système peut coûter des millions de dollars – et cela sans compter les coûts connexes tels que la perte d’opportunités commerciales, la baisse de productivité et la détérioration de la réputation.

Aucune entreprise n’est à l’abri d’une panne de système, mais passer d’une approche réactive à une approche proactive de la gestion des incidents peut réduire leur fréquence et leur impact.

Risks of Downtime

Que sont le MTTD et le MTTR ?

Le MTTD est le « temps moyen de détection » ou « temps moyen de découverte » et le MTTR est le « temps moyen de réponse ». Ces deux indicateurs sont utilisés pour quantifier l’efficacité des processus de gestion des incidents d’une équipe.

Le MTTD est un indicateur clé de performance pour la gestion des incidents : il mesure la durée pendant laquelle un problème existe avant que l’entreprise ou les parties concernées n’en soient informées. Avec un MTTD court, l’entreprise souffre moins longtemps des pannes et autres perturbations qu’avec un MTTD long. En outre, plus le MTTD est faible, plus le coût de l’interruption sera réduit pour l’entreprise. Les problèmes peuvent se faire connaître de deux manières : soit par les utilisateurs finaux qui signalent une panne à l’assistance, soit à partir des divers outils de supervision et de gestion des systèmes d’alerte.

Le MTTR représente le temps moyen nécessaire pour réparer et rétablir la fonctionnalité d’un composant ou d’un système affecté ; il mesure ainsi le niveau de maintenance de l’équipement d’une entreprise, ainsi que l’efficacité de l’équipe dans la résolution des incidents IT. Le MTTR commence à l’instant où une défaillance est détectée et englobe le temps de diagnostic, de correction et de test, ainsi que toutes les autres activités permettant de rétablir le fonctionnement normal du service. Combinés, le MTTR et le MTTD constituent la durée d’un cyberincident.

Le MTTR est très utile car c’est un puissant indicateur du coût d’un incident IT. Plus le MTTR d’une équipe IT est élevé, et plus l’entreprise court le risque de subir une coupure importante en cas d’incident, pouvant entraîner de graves perturbations dans son fonctionnement, une insatisfaction des clients et une perte de revenus.

Pour bien démarrer

Quels outils de gestion des incidents pouvez-vous mettre en place pour renforcer vos défenses ?

La plateforme de gestion des incidents est la première ligne de défense pendant un incident. Elle apporte une assistance stratégique à chaque phase du processus de gestion des incidents, grâce à des fonctionnalités comme l’identification des incidents, la journalisation, le diagnostic et l’investigation, l’escalade des problèmes et leur résolution. Il existe de nombreuses plateformes, et le choix dépend en grande partie de la taille et de l’étendue de votre organisation, des exigences de conformité et des considérations budgétaires.

Par quoi commencer pour mettre en œuvre un plan efficace de gestion des incidents ?

La première étape de la mise en œuvre d’un plan efficace de gestion des incidents consiste à former une équipe de réponse aux incidents, composée de personnel interne et/ou externe. Ensuite, vous devez décider ce qu’est un incident pour votre entreprise et conduire une analyse des risques d’incident en évaluant les menaces, risques et défaillances d’infrastructure potentiels. Vous pouvez alors commencer à élaborer des plans de réponse pour différents scénarios, former le personnel et vous exercer à l’aide de simulations de violations dans le but d’améliorer continuellement votre réponse aux incidents.

Pour résumer : Toute entreprise a besoin d’une gestion efficace des incidents

Avec la complexité croissante des environnements IT et la multiplication de menaces toujours plus sophistiquées, les entreprises sont confrontées à un niveau de risque sans précédent. La gestion des incidents vous permet d’atténuer ce risque en vous permettant de détecter et de résoudre les incidents plus rapidement. Bien qu’aucune entreprise ne soit à l’abri des pannes et autres incidents, la gestion des incidents est le moyen le plus efficace d’initier une réponse immédiate et d’éviter des temps d’arrêt coûteux susceptibles de compromettre la réputation et les résultats de votre entreprise.