Case Study

Grâce à l’analyse des événements, Econocom offre un meilleur service à ses clients

Résumé

Avec 10 000 employés dans 19 pays et des revenus de 2,5 milliards d’euros, Econocom élabore, finance et supervise des solutions de transformation numérique pour les entreprises. Le respect des SLA stricts associés à ces services est absolument vital pour l’activité d’Econocom. Depuis le déploiement de Splunk Enterprise et de Splunk IT Service Intelligence (ITSI), l’entreprise bénéficie de nombreux avantages :

  • Respect de tous les SLA
  • Amélioration du service fourni aux clients
  • Meilleure gestion des événements
  • Normalisation des processus des opérations IT
SPLUNK SOLUTION AREAS
Défis :
    • Des événements générés par des dizaines de milliers de composants d’infrastructure sous supervision, isolés dans les silos d’une dizaine de solutions différentes
    • Des SLA stricts exigeant d’intervenir en cas de défaillance
    • Impossibilité de mesurer efficacement des SLA en raison du cloisonnement des événements dans des silos
    • Absence de vision unifiée des événements qui permettrait de planifier l’affectation du personnel
    • Difficulté à comprendre les événements lors des déluges d’alertes
    • Pollution d’événements
    • Grand nombre de faux positifs
Impact sur l’entreprise :
    • Amélioration du service client grâce à une
    •  prise en charge plus rapide des événements
    • Vue d’ensemble unifiée des événements issus de dizaines de solutions héritées de supervision et de gestion des événements
    • L’analyse des événements fournit à l’équipe de gestion une meilleure visibilité pour planifier l’affectation des équipes
    • La réduction du nombre de faux-positifs a fait baisser le nombre d'événements de 60 %
    • Amélioration de la communication et de la collaboration entre les différentes équipes
    • Division par 10 du nombre d’incidents créés par les performances du système
    • Normalisation des opérations de traitement des événements et de gestion des incidents
    • Accélération de l’exploration des incidents
    • Visibilité sur les performances des SLA pour les clients
    • Amélioration de la planification des capacités

     

Sources de données :
    • Événements et alertes générés par de multiples solutions de surveillance des infrastructures
    • Données de performance du système
    • Données de performance des applications

Pourquoi Splunk

En tant que société de services chargée d’administrer des infrastructures critiques pour ses clients, Econocom doit s’assurer de pouvoir réagir instantanément à toute modification de l’environnement de ses clients. Econocom doit également respecter des SLA très rigoureux.

Avant de recourir à Splunk, les équipes d’exploitation d’Econocom utilisaient près d’une douzaine de solutions de supervision et de consoles d’événements. « Il y avait tant de choses à superviser qu’il était devenu impossible de gérer les événements et de les hiérarchiser correctement, parce qu’ils provenaient tous de systèmes différents, » explique Romuald Fronteau, consultant en solutions techniques, Econocom. Econocom est régi par des SLA très stricts en ce qui concerne la réponse aux événements, mais le volume d’événements répartis sur tous ces silos empêchait leur traitement dans les délais requis par les SLA.

Les opérateurs d’Econocom n’avaient pas les moyens d'appliquer des outils analytiques à plusieurs sources de données simultanément pour accélérer l’examen des incidents, visualiser les données dans leur contexte métier et planifier les capacités.

Splunk ITSI a été mis en œuvre et est entré en production en quelques semaines, et la plateforme est aujourd’hui utilisée par de nombreuses équipes différentes de l’organisation IT.

« Notre ambition est d’évoluer de la prestation de services informatiques à la fourniture de services d’accélération et de stratégie. Nous pouvons recueillir des données sur une diversité de systèmes, de solutions et de couches technologiques, ainsi que sur les performances des utilisateurs finaux, et disposer ainsi d’une image holistique unique de toute la situation. Nos équipes opérationnelles sont plus productives, les équipes de gestion IT prennent de meilleures décisions, et nous avons amélioré la qualité des services que nous délivrons à nos clients. Grâce à l’intégration du machine learning dans Splunk ITSI, nous avons moins d'événements à traiter, et le temps moyen de prise en charge a été réduit de huit minutes grâce au framework d'analyse standardisée. Ces progrès se sont traduits par une amélioration de 15 % des performances de l’entreprise par rapport à nos SLA. »



Laurent Amouroux
Technical Director, Infrastructure Management Services
Econocom

Les performances de respect des SLA ont augmenté de 15 %

Econocom a pu centraliser les événements générés par tous ses outils au sein d’une solution commune, Splunk ITSI. Grâce aux fonctionnalités d'analyse des événements de Splunk ITSI, Econocom hiérarchise mieux les événements qui touchent l’infrastructure de ses clients et réagit plus rapidement, assurant ainsi une meilleure qualité de service. Splunk ITSI permet également à Econocom d’exclure les événements considérés comme des faux positifs du processus de gestion des événements, ce qui réduit de 60 % le volume total des événements et permet aux opérateurs de se concentrer sur les événements qui comptent vraiment.

Le temps nécessaire pour qu’un opérateur valide et traite un événement est crucial pour Econocom, et ce délai constitue la base de ses SLA auprès des clients. Avec Splunk ITSI, les opérateurs d’Econocom ont une quantité réduite d'événements à traiter dans une interface unique, et ils bénéficient d’un framework d'analyse. Ils ont ainsi gagné huit minutes sur le temps moyen de traitement des événements. Cette baisse s’est traduite par une amélioration de 15 % des performances de l’entreprise par rapport à ses SLA.

L’analyse des événements, un catalyseur pour l’efficacité du personnel

L’analyse des événements dans Splunk ITSI fournit des renseignements plus approfondis aux responsables informatiques. Il est notamment crucial que le centre des opérations soit pourvu du personnel nécessaire. En appliquant une analyse avancée aux données d’événements historiques, la gestion d’Econocom planifie mieux les rotations du personnel du centre des opérations en prédisant le volume probable d’événements pour chaque client. Cette approche réduit les coûts et minimise le risque qu’un manque de personnel entraîne le non-respect d’un SLA.

Les renseignements fournis sur les services métier accélèrent l’analyse des causes profondes

Econocom a adopté une approche de la supervision centrée sur les services métier. Les renseignements délivrés par Splunk ITSI sur les services offrent à Econocom une visibilité de bout en bout, non seulement sur l’infrastructure, mais aussi sur l’utilisation des applications par les clients et les données de performance de ces applications. Splunk ITSI est employé dans le centre des opérations réseau (NOC) ainsi que par les équipes opérationnelles et les analystes de niveau 2 et 3, pour accélérer l’analyse des causes profondes des incidents.

Econocom avait impérativement besoin d’avoir une visibilité sur la qualité de ses services, et la plateforme Splunk a permis à l’entreprise de présenter les performances de ses SLA en temps réel à ses clients.

Le machine learning divise par 10 le nombre d’événements de performance système

Econocom a mis en place une approche plus sophistiquée de l’analyse et des alertes relatives à l’infrastructure IT qu’elle supervise pour ses clients. Cela a permis de diviser par 10 le nombre d’événements générés par des problèmes de performance du système. L’approche d’Econocom consiste à utiliser les seuils adaptatifs de Splunk ITSI qui exploitent les fonctions intégrées de machine learning pour apprendre ce qu’est un comportement normal. Traditionnellement, des pics de CPU déclencheraient des franchissements de seuil, qu’ils soient ou non symptomatiques d’un problème. Désormais, le machine learning de Splunk ITSI comprend quels pics peuvent être normaux dans certaines circonstances, évitant ainsi le franchissement des seuils, ce qui réduit le nombre d’événements créés.