Splunk Observability : fonctionnalités clés et facteurs de différenciation
L’architecture de Splunk Observability est spécialement conçue pour aider les organisations à renforcer leur résilience numérique, à accélérer l’innovation et à contrôler les coûts dans des environnements distribués d’une complexité croissante. La conception unifiée de la plateforme réunit les trois facteurs de différenciation clés qui rendent Splunk uniques et permettent aux équipes de se consacrer aux véritables priorités.
1. Un contexte métier plus détaillé pour hiérarchiser l’action
Splunk Observability permet d’aller au-delà de l’intégrité de l’infrastructure et des applications pour apporter de la visibilité sur l’impact métier de chaque problème de performance. L’architecture est pensée pour corréler la télémétrie provenant des applications, de l’infrastructure et des réseaux internes et externes, afin de relier plus facilement l’intégrité technologique aux processus métiers, aux expériences utilisateurs et aux résultats métiers.
- Informations métiers triées : groupez les services de back-end et visualisez les processus métiers (paiement, exécution des commandes, traitement des prêts) pour superviser ce qui compte le plus.
- Cartographie du parcours métier : suivez les workflows complexes et les parcours utilisateurs à travers la pile de manière à identifier les problèmes et à les hiérarchiser en fonction de leur impact métier.
- Prise en charge des KPI personnalisés : ajoutez à la volée du contexte métier à la télémétrie grâce au balisage flexible (ID utilisateur, ID de magasin, etc.) et aux métriques personnalisées, afin d’obtenir une visibilité détaillée sur l’impact qu’exercent les incidents sur le revenu, les segments de clients et les opérations décisives.
- Couverture complète de l’environnement : obtenez une visibilité exhaustive et des informations corrélées sur tous les environnements (réseaux, infrastructure et applications), quel que soit le modèle de déploiement.
Grâce à ce puissant ancrage métier, les équipes hiérarchisent les problèmes en fonction de leur impact réel, prennent rapidement des décisions et ciblent l’emploi des ressources sur les objectifs les plus rentables.
2. Détection et investigation optimisées par l’IA des problèmes affectant l’entreprise
Au cœur de Splunk Observability se trouve un moteur d’analyse en temps réel, alimenté par l’IA, qui systématise la détection, l’investigation et la correction des incidents dans l’ensemble du paysage numérique. L’architecture intègre le traitement de la télémétrie à haute vitesse, la flexibilité du schéma en lecture et du machine learning avancé pour éliminer le bruit et mettre en évidence les véritables priorités.
- Analyse en temps réel et à grande échelle : streamez et analysez les données de télémétrie de toute la pile en quelques secondes pour prendre en charge les environnements modernes à haute vélocité.
- Détection des anomalies par IA/ML : exploitez l’IA agentique et le machine learning intégré pour détecter au plus tôt les signes de problème, détecter les tendances et prédire les incidents avant qu’ils ne dégénèrent.
- Analyse des causes profondes et workflows guidés : le dépannage guidé par IA isole rapidement la source des problèmes complexes en cascade, y compris lorsqu’ils couvrent plusieurs applications, composants d’infrastructure, réseaux et workloads IA/ML.
- Unification de la réponse aux incidents : corrélez les alertes connexes de toutes les sources au sein d’une même vue exploitable et automatisez les workflows pour rétablir rapidement les systèmes.
En intégrant les informations produites par l’IA à l’ensemble de la plateforme, Splunk Observability aide les équipes à minimiser la fatigue due aux alertes, à réduire le temps passé en cellule de crise et à résoudre les incidents critiques avec rapidité et confiance.
3. Des tarifs prévisibles pour garder le contrôle de vos données et de vos coûts
L’architecture de Splunk Observability est conçue pour évoluer de façon efficace en veillant à ce que les organisations ne paient que pour ce dont elles ont réellement besoin, en gardant un contrôle total sur leurs données. Des normes ouvertes, des outils flexibles de gestion des données et des contrôles natifs sur les pipelines assurent transparence et liberté de choix.
- Acquisition native OpenTelemetry : collectez et exploitez les données de télémétrie à l’aide de standards ouverts sans agents propriétaires pour alléger la dette technique.
- Flexibilité de la gestion des pipelines de données : transformez, filtrez, agrégez et acheminez les données de télémétrie dès l’acquisition pour gérer efficacement des volumes de données croissants sans augmenter les coûts de façon exponentielle.
- Fédération de l’analyse et du stockage : analysez les données où qu’elles se trouvent, même dans un espace de stockage à faible coût, sans avoir à centraliser toutes vos ressources.
- Modèles de facturation prévisibles : une tarification simple et évolutive offrant des options d’utilisation flexibles et basées sur l’hôte permet d’éviter les dépassements punitifs et les mauvaises surprises, tout en couvrant les déploiements cloud, sur site et hybrides.
Ce sont ces fondements architecturaux qui permettent aux entreprises qui choisissent Splunk Observability de faire évoluer leur pratique de l’observabilité en toute confiance, avec une rentabilité optimale et un contrôle complet sur les données et les dépenses.
Principaux scénarios d’utilisation de Splunk Observability
Scénario d’utilisation : dépannage et analyse des causes profondes (RCA)
Définition : Splunk Observability permet aux entreprises d’utiliser la puissance de l’IA pour détecter, diagnostiquer et prendre rapidement en charge les problèmes de performance affectant les applications et l’infrastructure.
Présentation technique : Splunk rassemble les grands volumes de données machine – logs non structurés, métriques et traces incluses – pour obtenir des informations exploitables à l’aide de l’approche « schéma en lecture ». Splunk Platform (Enterprise/Cloud) et IT Service Intelligence (ITSI) facilitent l’acquisition, le filtrage et la transformation à grande échelle de toutes les sources de données ou presque, y compris les intégrations tierces et Cisco. Des modèles sophistiqués d’IA/ML corrèlent les alertes, identifient les causes profondes et accompagnent les équipes dans les étapes de résolution grâce à l’apport de contexte métier et à l’automatisation.
Fonctionnalités clés
- Centralisation et réduction des alertes
- Unification de l’acquisition et de la corrélation des alertes provenant de Splunk, des outils tiers et des solutions de gestion des événements.
- Event iQ et les seuils adaptatifs utilisent l’IA/ML pour regrouper les alertes de façon dynamique, réduire le bruit et adapter les niveaux d’alerte aux variations saisonnières.
- Les fenêtres de seuil personnalisées permettent de procéder à des ajustements proactifs en vue des événements tels que le Black Friday.
- Automatisation de l’analyse des causes profondes et de la réponse aux incidents
- Le dépannage piloté par l’IA met en évidence les causes probables d’un problème et les services affectés dans des tableaux de bord unifiés.
- L’examen des épisodes fournit une chronologie contextualisée des événements, un historique des corrections et des liens vers des tickets connexes.
- Automatisation par e-mail, scripts et Splunk SOAR ; réponse accélérée grâce à la transmission bidirectionnelle des tickets et aux runbooks personnalisés.
- Dépannage des applications et de l’infrastructure
- Télémétrie en temps réel (actualisation en moins de 3 secondes) pour l’ensemble des métriques, des logs et des traces.
- Transactions métiers, cartographie des services, recherche de tags, analyseur de traces et graphes d’appel pour visualiser les workflows et réaliser des analyses approfondies.
- Télémétrie unifiée (métriques RED, tableaux de bord d’infrastructure et vues centrées sur les services) avec croisement instantané via le Contenu connexe.
- Dépannage piloté par l’IA
- Des workflows guidés couvrant les logs, les métriques, les traces et l’intégrité des entités, hiérarchisés par impact métier.
- Résumés générés par l’IA des « épisodes » (groupements d’alertes), avec informations exploitables et suggestion de marche à suivre.
Fonctionnement
- Importe les métriques, les logs et les traces des sources cloud, locales et tierces grâce aux connecteurs OpenTelemetry et natifs de Splunk.
- Corrèle et regroupe les alertes grâce à l’IA et au ML pour réduire le bruit et repérer les incidents critiques.
- Met en évidence les causes possibles et les services affectés dans une interface unifiée.
- Guide les ingénieurs dans les étapes d’investigation et de correction en mettant des données de contexte, l’historique des épisodes et des visualisations à leur disposition.
- Automatise les étapes de réponse et facilite la collaboration inter-équipes grâce au partage des données en temps réel.
Exemples d’utilisation
- Diagnostiquer une dégradation des services dans un environnement de microservices Kubernetes.
- Analyser la latence d’une application pour remonter jusqu’à une dépendance spécifique en back-end dans un déploiement de cloud hybride.
- Investiguer les échecs de transaction métier dans des workflows distribués en corrélant des logs et des traces.
Résultats
- Réduire la fatigue liée aux alertes et accélérer le tri des incidents.
- Réduire le MTTD et le MTTR des incidents critiques.
- Améliorer la collaboration entre les opérations IT, les SRE et les équipes d’ingénierie.
- Améliorer la fiabilité et la disponibilité des services métiers.
Pourquoi c’est important : en détectant et en résolvant les problèmes avec rapidité et précision, les équipes minimisent les temps d’arrêt, réduisent les coûts opérationnels et préservent la fiabilité des services et la confiance des clients.
Applications avancées et facteurs à prendre en compte
Effectue des détections proactives et évite les déluges d’alertes grâce aux ITSI Content Packs. Prend en charge les environnements hybrides multi-architectures (multi-niveaux, microservices, COTS). Log Observer Connect facilite les opérations de dépannage avancées touchant plusieurs plateformes sans ingestion redondante des logs.
Scénario d’utilisation : supervision des processus métiers critiques
Définition : avec Splunk Observability, les équipes bénéficient d’une visibilité en temps réel sur l’impact que les problèmes de performance exercent sur les processus métiers, les KPI et les workflows critiques.
Présentation technique : Splunk Platform et ITSI proposent des tableaux de bord (Glass Tables) personnalisables qui corrèlent les données de l’IA, des applications, des réseaux et des services métiers. Ces tableaux de bord intègrent aussi bien des métriques numériques que non numériques pour répondre aux besoins d’un large éventail d’acteurs. AppDynamics et les Content Packs assurent une supervision approfondie et une intégration rapide des applications commerciales et SaaS (SAP, M365, etc.), et établissent un lien direct entre les performances techniques et l’impact métier.
Fonctionnalités clés
- Visibilité unifiée sur les services métiers
- Les glass tables donnent à voir en temps réel l’état des ressources, des KPI et des entités métiers, sur les réseaux gérés en internes ou non et tous les types d’architecture.
- Service Analyzer propose des topologies à code couleur de l’état des services et de l’infrastructure.
- Analyse de l’état des services
- La corrélation rapide des logs, des métriques et des traces accélère l’analyse des dépendances et de l’impact.
- Isolez les problèmes en menant vos investigations à l’échelle du KPI ou de l’entité, et comparez les données actuelles aux références historiques pour mettre des tendances en évidence.
- COTS et supervision des applications SAP
- Supervision de SAP via AppDynamics (au niveau du code profond via des agents Java/ABAP) et ITSI (PowerConnect pour la télémétrie ABAP).
- Des Content Packs prêts à l’emploi pour SAP, M365 et d’autres applications d’entreprise accélèrent le déploiement et produisent des métriques normalisées.
- Amélioration continue et création de rapports
- Analytique intégrée pour profiler et suivre le MTTD, le MTTR et le volume d’alertes.
- Suivi des progrès accomplis par rapport à des KPI personnalisés à des fins de reporting IT et métier.
- Les tableaux de bord d’analyse des performances métiers et la validation des publications relient les métriques techniques et métiers (conversions, revenus, etc.) pour faciliter la supervision stratégique.
- Cartographie des processus métiers et personnalisation des KPI
- Dans AppDynamics, les business journeys cartographient les workflows de bout en bout afin de faire le lien entre KPI, expérience utilisateur et résultats métiers.
- Suivi de métriques personnalisées illimité (ID utilisateur/boutique, segment de clients, etc.) pour analyser l’impact métier avec un maximum de détail.
Fonctionnement
- Importe les données de télémétrie et métiers provenant des applications, de l’infrastructure et des outils tiers.
- Cartographie les services et les processus métiers à l’aide des glass tables, de Service Analyzer et des business journeys.
- Corrèle les métriques de l’IT aux KPI et aux SLO métiers pour une analyse complète de l’impact métier.
- Met en évidence les alertes en temps réel et les tendances utiles aux acteurs techniques et métiers.
- Soutient les processus d’amélioration continue en établissant des profils de référence et des rapports sur l’évolution des métriques essentielles.
Exemples d’utilisation
- Suivi de l’impact des incidents IT sur les workflows générateurs de revenus.
- Suivi de l’état des transactions métiers SAP et identification des ralentissements dans les processus.
- Analyse des performances des services par rapport aux SLA dans les unités métiers critiques.
Résultats
- Identification plus rapide des incidents affectant les activités.
- Rapports enrichis pour les acteurs opérationnels et décisionnels.
- Amélioration de l’alignement entre les performances de l’IA et les résultats métiers.
Pourquoi c’est important : lorsqu’elles ont une vision claire de l’impact des performances de l’IT et des applications sur les résultats de l’entreprise, les équipes hiérarchisent les problèmes, protègent le chiffre d’affaires et maintiennent la fluidité de l’expérience des utilisateurs.
Applications avancées et facteurs à prendre en compte
Prend en charge les KPI numériques et non numériques (disponibilité des lits d’hôpitaux, état des actifs physiques, etc.). S’intègre aux environnements classiques (à trois niveaux) et modernes (cloud-native, microservices). Mise en place rapide et suivi des métriques recommandées grâce aux Content Packs pour les applications SaaS et COTS.
Scénario d’utilisation : compréhension des parcours utilisateurs critiques
Définition : Splunk Observability apporte une visibilité complète sur chaque étape franchie par les utilisateurs dans les applications web et mobiles, les API, les réseaux et les services de back-end.
Présentation technique : Splunk Observability Cloud et AppDynamics unifient la supervision des utilisateurs réels (RUM), la supervision synthétique, la supervision des performances des applications (APM) et l’observabilité du réseau avec ThousandEyes, pour délivrer des informations corrélées sur la santé technique et l’impact métier. Cette approche permet aux équipes de comprendre, de superviser et d’optimiser chaque étape du parcours numérique de l’utilisateur, du front-end aux chemins d’accès réseau en passant par le back-end et les API externes.
Fonctionnalités clés
- Solution complète de supervision de l’expérience numérique
- Combine la supervision des utilisateurs réels, la supervision synthétique, l’APM et l’observabilité du réseau pour une vision complète des parcours utilisateur.
- Capture les données de télémétrie des navigateurs, des applications mobiles, des API, des back-ends et de l’infrastructure cloud en temps réel.
- Cartographie et visualisation du parcours utilisateur
- Dans AppDynamics, les cartes de parcours d’expérience représentent graphiquement les flux des utilisateurs et les points de friction.
- Le replay des sessions, les cartes thermiques et l’analyse des parcours révèlent les endroits où la circulation des utilisateurs est fluide ou ralentie.
- Détection proactive et analyse des parcours réseau
- La supervision synthétique valide les parcours utilisateur 24 h/24 à partir de sites mondiaux ou privés, afin de détecter les régressions avant le déploiement.
- L’intégration de ThousandEyes permet d’associer l’état du réseau saut par saut (perte de paquets, DNS, BGP) aux transactions des utilisateurs.
- Analyse des causes profondes
- Le traçage distribué no-sample et la détection des anomalies basée sur le ML permettent d’identifier rapidement les problèmes sur l’ensemble de la pile.
- La RCA assistée par l’IA permet de déterminer si les problèmes proviennent du code, des microservices, du CDN ou d’événements externes.
- Corrélation des résultats métiers et collaboration
- Les tableaux de bord établissent un lien entre la santé technique et les KPI métiers (conversion, revenus, satisfaction).
- La collaboration inter-équipes (ITOps, SRE, NetOps, produits) est facilitée par le suivi des SLO/SLA et l’espace de travail unifié.
Fonctionnement
- Collecte la télémétrie de toutes les couches d’applications et réseau en combinant OpenTelemetry, RUM, APM et tests synthétiques.
- Corrèle les performances de front-end et de back-end avec les interactions utilisateurs et les KPI métiers.
- Représente graphiquement les parcours utilisateurs et les points de friction sous forme de tableaux de bord, de cartes de parcours et d’analyses de session.
- Soutient l’analyse des causes profondes en traçant les interactions utilisateurs sur les systèmes distribués et les parcours réseau.
- Appuie les processus d’optimisation continue en identifiant et en hiérarchisant les problèmes qui affectent les segments d’utilisateurs clés.
Exemples d’utilisation
- Diagnostic des ralentissements dans les flux de paiement sur une plateforme d’e-commerce couvrant plusieurs API et sauts de réseau.
- Identification de l’impact de la latence du réseau ou des défaillances des API tierces sur l’expérience des utilisateurs d’une application SaaS.
- Traitement prioritaire des correctifs concernant les workflows qui touchent les clients de grande valeur ou de premier plan.
Résultats
- Résolution plus rapide des problèmes qui touchent les activités.
- Optimisation des expériences numériques et amélioration de la satisfaction des clients.
- Établissement d’un lien direct entre les performances techniques et les résultats de l’entreprise.
Pourquoi c’est important : avec une visibilité de bout en bout sur l’expérience des utilisateurs, l’entreprise parvient à identifier et résoudre rapidement les points de friction, optimise les parcours numériques et fidélise ses clients en maximisant leur satisfaction.
Applications avancées et facteurs à prendre en compte
Prise en charge du dépannage dans les clouds hybrides et publics et sur les API tierces. Les visualisations réseau intégrées permettent d’isoler les causes profondes situées en dehors du périmètre de l’utilisateur. Gère les parcours utilisateur complexes et distribués sur tous les points de contact numériques et physiques.
Définition : Splunk Observability appuie les approches proactives visant à renforcer la fiabilité des applications et de l’infrastructure, à accroître l’efficacité des ressources et à améliorer l’expérience utilisateur dans les environnements hybrides et cloud-native.
Aperçu technique : l’observabilité offerte par Splunk permet d’optimiser les environnements traditionnels (multi-niveaux, COTS) et cloud-native (microservices, conteneurs). La solution combine le profilage AlwaysOn, la supervision de l’infrastructure en temps réel, les alertes basées sur les SLO et l’analyse prédictive pour aider les équipes à optimiser les performances et la gestion des coûts en continu.
Fonctionnalités clés
- Profilage continu (profilage AlwaysOn)
- Capture l’utilisation du processeur et de la mémoire par fonction ou par ligne en production, de façon à identifier les bottlenecks et les fuites de mémoire.
- Optimisation de l’infrastructure
- Supervise l’utilisation du CPU, de la mémoire, du stockage et du réseau au niveau des serveurs, des conteneurs et des ressources cloud.
- Met en évidence les manques et les excès dans le provisionnement des ressources, et corrèle les métriques de l’infrastructure aux performances des applications pour optimiser les capacités.
- Supervision des performances basée sur les SLO
- Fixe et suit les objectifs de niveau de service (SLO) ; anticipe et prévient les dégradations de service grâce à l’analyse des taux d’utilisation.
- Supervision synthétique
- Teste continuellement la disponibilité et les performances des applications à partir de plusieurs sites dans le monde, afin de détecter les problèmes avant qu’ils n’affectent les utilisateurs.
- Approche économique : 1 $ pour 10 000 tests d’API, compatible avec les usages à l’échelle de l’entreprise.
- Analyse pilotée par ML (AppDynamics et ITSI)
- Les seuils adaptatifs et l’analyse prédictive anticipent et préviennent les dégradations de performance.
- Réduit la fréquence des faux positifs et met en évidence les anomalies à des fins de correction préventive.
Fonctionnement
- Profile continuellement le code des applications et la consommation de ressources de l’infrastructure grâce au profilage AlwaysOn et à la supervision en temps réel.
- Définit des profils de référence et des seuils adaptatifs à l’aide de l’analyse pilotée par ML.
- Supervise les SLO et émet des alertes en cas de divergence par rapport aux objectifs de fiabilité et aux performances de référence.
- Intègre les données des tests synthétiques et des utilisateurs réels pour une validation de bout en bout.
- Fournit des recommandations pratiques et concrètes pour optimiser le dimensionnement de charges et les applications.
Exemples d’utilisation
- Détection et résolution des fuites de mémoire dans un microservice Java.
- Optimisation de l’allocation des ressources cloud dans un souci de réduction des dépenses d’infrastructure.
- Prévision et prévention des dégradations de performance avant le lancement d’un produit à forte visibilité.
Résultats
- Amélioration de l’efficacité des applications et de l’infrastructure.
- Réduction des coûts d’exploitation et amélioration de l’évolutivité.
- Amélioration de l’expérience utilisateur grâce à des performances élevées et constantes.
Pourquoi c’est important : l’ajustement proactif des performances et l’optimisation des ressources ont de nombreux avantages : ils réduisent les coûts, évitent les interruptions de service et garantissent aux utilisateurs et aux clients une qualité d’expérience constante.
Applications avancées et facteurs à prendre en compte
Prise en charge des piles d’applications hybrides (multi-niveaux, COTS, microservices). Basé sur OpenTelemetry : aucun agent propriétaire nécessaire pour une indépendance totale vis-à-vis des fournisseurs. S’adapte aussi bien aux environnements classiques que cloud-native.
Scénario d’utilisation : optimisation des coûts de l’observabilité
Définition : grâce l’utilisation de normes ouvertes et à une tarification prévisible et flexible, Splunk Observability offre aux entreprises les outils nécessaires pour gérer efficacement les volumes de télémétrie tout en contrôlant leurs dépenses.
Présentation technique : la plateforme Splunk et ses modèles de tarification flexibles permettent aux entreprises de gérer leurs données à grande échelle, de conserver leur indépendance vis-à-vis des fournisseurs et d’optimiser la valeur de l’observabilité. Grâce à ses outils avancés de gestion des données, de contrôles des pipelines et d’optimisation des coûts, les équipes peuvent superviser avec précision la collecte et le stockage des données de télémétrie, et donc les dépenses associées.
Fonctionnalités clés
- Acquisition des données avec OpenTelemetry : collecte unifiée via des SDK, des API et des outils, sans agents propriétaires ; un seul processus d’ingestion pour une pluralité d’usages.
- Gestion du pipeline de métriques : agrégation, filtrage, archivage et suppression des métriques inutiles ; l’automatisation du pipeline identifie les métriques de faible valeur pour les archiver (les métriques archivées coûtent 10 fois moins cher).
- Contrôle à haute cardinalité : limites de jetons par équipe ou service ; l’analyse identifie les jetons à grand volume afin d’optimiser le stockage et l’utilisation des métriques.
- Histogrammes : les métriques volumineuses sont compressées en informations granulaires et exploitables pour une analyse efficace des tendances.
- Acheminement, filtrage et transformation des données : le processeur d’acquisition et le processeur de périphérie permettent le filtrage, le masquage, l’enrichissement et l’acheminement des données avec SPL2 au moment de l’acquisition et à la périphérie du réseau.
- Rétention et recherche fédérée : contrôle granulaire de la conservation des données ; recherche unifiée couvrant plusieurs environnements Splunk sans centralisation de l’acquisition.
- Outils de supervision et d’optimisation des coûts : optimiseur de coûts AWS EC2 intégré, tableaux de bord et alertes en cas de franchissement des seuils de facturation.
- Tarification prévisible et transparente : modèles flexibles (par hôte, workload, volume d’ingestion, entité, activité) sans frais de dépassement punitifs.
Fonctionnement
- Importe, traite et achemine les données télémétriques à l’aide d’outils de gestion des données OpenTelemetry et natifs de Splunk.
- Met à profit l’automatisation du pipeline pour agréger, filtrer et archiver les métriques et les logs en fonction de leur utilisation et de leur valeur.
- Facilite la supervision et l’optimisation des coûts en fournissant des tableaux de bord, des alertes et des outils d’analyse de coûts intégrés.
- Apporte visibilité et gouvernance pour garantir la conformité du stockage et de la rétention aux politiques.
- S’intègre aux environnements cloud et locaux pour une gestion unifiée et évolutive des coûts de l’observabilité.
Exemples d’utilisation
- Réduction des coûts de supervision grâce au filtrage des métriques de faible valeur au niveau des pipelines d’acquisition.
- Gestion des volumes de télémétrie et de la rétention à des fins de conformité aux politiques réglementaires et internes.
- Optimisation de la supervision des ressources AWS EC2 pour éviter les frais de dépassement et contrôler les coûts du cloud.
Résultats
- Des coûts d’observabilité plus faibles et prévisibles.
- Gestion évolutive des données sans perte d’informations stratégiques.
- Contrôle accru sur la collecte, la conservation et la facturation de la télémétrie.
Pourquoi c’est important : lorsqu’elles peuvent gérer efficacement les volumes de télémétrie et les dépenses associées, les entreprises sont libres d’augmenter leurs capacités d’observation en gardant le contrôle sur les coûts, pour maximiser la rentabilité de leurs outils et éviter les dépassements coûteux.
Applications avancées et facteurs à prendre en compte
Prise en charge du suivi et de la refacturation pour une répartition fine des coûts entre les équipes et services. Intégration fluide des logs grâce à Log Observer Connect. Conçu pour les environnements à haute cardinalité avec une croissance variable du volume de télémétrie.
Scénario d’utilisation : détection et hiérarchisation des vulnérabilités des applications
Définition : Splunk Observability détecte les vulnérabilités et les attaques dans le code des applications, et hiérarchise la réponse en fonction du risque réel et de l’impact sur l’entreprise.
Présentation technique : Splunk Secure Application intègre la sécurité des applications à l’observabilité, ce qui permet de détecter les vulnérabilités en temps réel pour protéger les systèmes et hiérarchiser leur correction en fonction des risques. Splunk s’appuie sur les agents APM existants et les analyses contextuelles pour permettre aux équipes de détecter, hiérarchiser et corriger les menaces de sécurité en minimisant la charge opérationnelle.
Fonctionnalités clés
- Sécurité intégrée à l’exécution
- Analyse du code en continu et protection contre les exploits en cours d’exécution à l’aide des agents d’APM et d’observabilité existants.
- Détection et atténuation des menaces directement dans les workflows d’observabilité.
- Analyse contextuelle des risques
- Attribution automatisée d’un score de risque en fonction de l’impact métier (flux de paiement critique ou environnement de test, par exemple).
- Hiérarchisation par IA/ML mettant en évidence les vulnérabilités exploitables et à fort impact afin de réduire les déluges d’alertes.
- Détection et neutralisation automatisées
- Défense en temps réel contre les menaces en constante évolution, à l’échelle de la ligne de code.
- Feedback immédiat sur les risques de sécurité, corrélés à l’expérience de l’utilisateur et aux KPI de l’entreprise.
- Collaboration sur la réponse aux incidents
- Partage des tableaux de bord et des vues sur les incidents entre les équipes ITOps, d’ingénierie et SecOps.
- Intégration étroite avec Splunk SIEM et Splunk SOAR pour orchestrer la réponse, l’escalade et le suivi des workflows.
Fonctionnement
- Importe les données de télémétrie et de sécurité provenant du code de l’application, de l’infrastructure et des workflows métiers à l’aide des agents APM existants.
- Recherche continuellement les vulnérabilités et supervise le comportement en cours d’exécution en s’appuyant sur de la threat intelligence intégrée et des analyses avancées.
- Corrèle les alertes de sécurité avec le contexte de l’application et l’impact métier pour donner la priorité aux problèmes les plus critiques.
- Automatise les opérations de correction et transmet les incidents aux équipes de sécurité grâce à l’intégration du SIEM et du SOAR.
- Appuie les initiatives d’amélioration continue grâce à un processus constant de supervision et d’analyse.
Exemples d’utilisation
- Détection et neutralisation des attaques par injection SQL dans les applications en production.
- Traitement prioritaire des vulnérabilités touchant les processus métiers de grande valeur tels que les flux de paiement.
- Automatisation de l’escalade des événements de sécurité et orchestration de la réponse entre les équipes informatiques et de sécurité.
Résultats
- Détection plus rapide des vulnérabilités et réduction du temps moyen de correction (MTTR).
- Baisse du risque de violation de données et de défaut de conformité.
- Meilleur alignement de la sécurité et des opérations pour une défense robuste des applications.
Pourquoi c’est important : la sécurité continue des applications, basée sur les risques, réduit le risque de violations, accélère le processus de correction et protège à la fois les opérations métiers et les données des clients.
Applications avancées et facteurs à prendre en compte
Prise en charge des vecteurs d’attaque externes et internes aux applications. Conçu pour minimiser la charge opérationnelle (exploite les agents d’observabilité existants pour éviter la prolifération des outils). Accompagne l’évolution des architectures hybrides et cloud-native.
Scénario d’utilisation : corrélation entre les domaines réseau
Définition : Splunk Observability et IT Service Intelligence (ITSI) assurent la santé des services réseau en unifiant la visibilité et en réduisant la quantité d’alertes dans tous les domaines réseau, en combinant ThousandEyes, Catalyst Center et Meraki.
Présentation technique : Splunk Observability supprime les silos qui séparent les équipes chargées de l’IT, des réseaux et des applications en mettant à leur disposition une plateforme commune et unifiée pour la supervision et la corrélation des données d’intégrité et de performance provenant des réseaux, des infrastructures et des applications d’entreprise, qu’ils soient ou non gérés en interne. Des intégrations prêtes à l’emploi pour les sources Cisco et tierces, les outils d’analyse d’événements d’ITSI et les packs de contenu facilitent la mise en place du système, l’enrichissement des alertes interdomaines et les analyses avancées. Les équipes peuvent ainsi compter sur une vue complète et en temps réel de l’état du réseau et des services.
Fonctionnalités clés
- Visibilité unifiée sur le réseau et les services
- Agrégez et corrélez en un même endroit la télémétrie (métriques, logs, événements, traces) issue de tous les domaines : réseaux, infrastructures et applications appartenant ou non à l’entreprise.
- Des tableaux de bord et des glass tables personnalisés donne une représentation lisible de l’état des actifs, des KPI et des services critiques aux acteurs techniques et métiers.
- Corrélation des alertes interdomaines et réduction du volume d’alertes
- Regroupez les alertes liées provenant de différents domaines (Cisco, Meraki, ThousandEyes et tiers) afin de réduire le bruit et d’établir des priorités.
- Enrichissez et contextualisez les événements, et automatisez la hiérarchisation des incidents pour accélérer le triage.
- Dépannage de bout en bout et informations contextuelles
- Remontez rapidement aux causes profondes et isolez les domaines concernés grâce à la corrélation des données pour réduire le MTTD et le MTTR.
- Produisez des vues exécutives en temps réel reliant les performances techniques aux KPI et aux résultats métiers.
- Intégration flexible et indépendante des données
- Intégrez facilement les données des réseaux, de l’infrastructure et des applications provenant de Splunk et d’outils externes grâce aux packs de contenu Splunkbase.
Fonctionnement
- Importe et normalise les données télémétriques des réseaux (appartenant ou non à l’entreprise), de l’infrastructure et des applications via les intégrations ITSI et Splunk.
- Corrèle et regroupe les alertes et les événements de tous les domaines, en les replaçant dans leur contexte métier et technique.
- Présente des tableaux de bord unifiés aux équipes techniques et aux acteurs métiers pour leur donner accès à l’état des services et du réseau en temps réel.
- Guide les équipes pour les aider à isoler les domaines, à identifier les causes profondes et à automatiser ou escalader les processus de correction.
- Soutient les efforts d’amélioration continue grâce au suivi de l’allègement des alertes, de l’amélioration du MTTD/MTTR et de l’impact des KPI métiers.
Exemples d’utilisation
- Réduction de la fatigue liée aux alertes grâce au regroupement des alertes du réseau et des applications en un seul incident permettant d’initier une réponse.
- Tableau de bord exécutif en temps réel pour le suivi des KPI réglementaires ou opérationnels (disponibilité des ambulances, temps d’attente, etc.).
- Décloisonner les équipes du réseau, des applications et de l’infrastructure en donnant à chacune une vue unifiée de l’état des services et de l’impact des problèmes.
Résultats
- Accélération de la détection et de la résolution des incidents sur toute la pile numérique.
- Réduction de la surcharge opérationnelle et de la fatigue liée aux alertes.
- Hiérarchisation claire reposant sur l’impact métier et pas seulement les symptômes techniques.
Pourquoi c’est important : associée à une visibilité complète et interdomaines, la corrélation des alertes minimise les temps d’arrêt, accélère le dépannage et permet aux équipes IT et métiers de focaliser leur attention sur la résilience des services numériques.
Applications avancées et facteurs à prendre en compte
Prend en charge les KPI numériques et non numériques dans les environnements hautement réglementés ou critiques. Indépendant des sources de données : s’intègre facilement aux infrastructures réseau classiques et modernes. Mise en place et évolution simples et rapides grâce aux packs de contenu et aux connecteurs disponibles sur Splunkbase.
Scénario d’utilisation : interprétation de l’impact du réseau sur les performances des applications
Définition : grâce à Splunk Observability et ThousandEyes, les équipes résolvent les problèmes de performance des applications en corrélant en temps réel les dépendances entre les réseaux internes et externes.
Présentation technique : l’intégration de ThousandEyes, Splunk Observability Cloud et AppDynamics brise les silos qui séparent l’ITOps, l’ingénierie et le NetOps. L’unification de la télémétrie des applications, de l’infrastructure et de chaque saut de réseau (interne et tiers) permet d’identifier avec précision les causes profondes, qu’elles se situent dans le code, l’infrastructure ou le réseau. Grâce aux tableaux de bord communs, à la corrélation de bout en bout et au profilage continu, les équipes ont les moyens de résoudre les problèmes plus rapidement et d’optimiser les expériences numériques.
Fonctionnalités clés
- Visibilité unifiée de bout en bout
- Corrélation en temps réel de la télémétrie des applications, de l’infrastructure et des réseaux, en incluant les ISP tiers et les fournisseurs de services cloud.
- Les tableaux de bord communs mettent les données probantes à la portée de toutes les équipes pour éviter les conjectures et le cloisonnement des investigations.
- Collaboration inter-équipes et résolution des incidents
- Fait le lien entre le NetOps, l’ITOps et l’ingénierie en unifiant le contexte pour faciliter l’analyse des causes profondes.
- L’intégration bidirectionnelle avec ThousandEyes permet une analyse précise des chemins réseau et un profilage fin des performances.
- Supervision proactive et profilage
- La supervision continue détecte les dégradations et suit l’évolution des performances dans tous les domaines du réseau.
- Clarifie les responsabilités des fournisseurs et la gestion proactive des niveaux de service.
- Accélération du dépannage et du MTTI
- Détermine rapidement la localisation de la cause profonde : code, infrastructure ou réseau externe.
- Réduit les escalades inutiles et améliore le délai moyen de disculpation (MTTI).
Fonctionnement
- Bénéficie de l’intégration bidirectionnelle de ThousandEyes avec Splunk Observability et AppDynamics.
- Collecte et corrèle en temps réel les données de télémétrie issues des applications, de l’infrastructure et de tous les domaines du réseau (administrés en interne ou non).
- Met des tableaux de bord communs et des alertes unifiées à la disposition de toutes les équipes pour encourager la collaboration dans les investigations.
- Effectue des analyses des parcours réseau et du profilage continu pour circonscrire les problèmes et responsabiliser les partenaires.
- Soutient les efforts d’optimisation proactive et permet d’offrir aux utilisateurs des expériences numériques fluides.
Exemples d’utilisation
- Accélération du MTTI grâce à la disculpation instantanée du réseau dans le dépannage multidomaines.
- Profilage des performances réseau pour anticiper les perturbations et faire respecter les SLA des partenaires tiers.
- Identification de l’origine des ralentissements des transactions SaaS : modification de code, infrastructure interne ou défaillance d’ISP externe.
Résultats
- Résolution plus rapide et précise des incidents affectant plusieurs domaines d’application, d’infrastructure et de réseau.
- Réduction du délai moyen de disculpation (MTTI) et des escalades inutiles.
- Amélioration de l’expérience numérique et de la continuité des activités.
Pourquoi c’est important : en disposant d’une visibilité unifiée sur l’ensemble de la chaîne de livraison numérique, les équipes éliminent les angles morts, analysent plus rapidement les causes profondes et créent des expériences numériques fiables et performantes.
Applications avancées et facteurs à prendre en compte
Prend en charge les environnements hybrides englobant des architectures cloud, SaaS et multi-ISP. Soutient à la fois les approches proactives et réactives de la gestion des performances réseau. Accompagne l’évolution des organisations aux chaînes de livraison numériques complexes ou mondialement distribuées.
Scénario d’utilisation : supervision des applications d’IA et de l’infrastructure associée
Définition : grâce à Splunk Observability, les équipes supervisent en temps réel l’intégrité, les performances et la sécurité de l’ensemble de la pile d’applications d’IA (agents, LLM et infrastructure inclus), pour garantir sa fiabilité, son efficacité et son alignement sur les objectifs de l’entreprise.
Présentation technique : les workloads d’IA et de LLM acquièrent une importance stratégique ; pour les protéger, Splunk Observability for AI propose une supervision complète des couches d’application et d’infrastructure. Grâce à l’instrumentation OpenTelemetry native, à des tableaux de bord en temps réel et à une intégration transparente avec les AI Pods de Cisco, Splunk délivre de précieuses informations sur l’utilisation des ressources, la précision des modèles, la sécurité et l’impact métier, en englobant tous les frameworks, agents et environnements. L’intégration d’AI Agent Monitoring et d’AI Defense apporte la visibilité nécessaire sur les opérations et la sécurité pour garantir une IA responsable, rentable et de haute qualité.
Fonctionnalités clés
- Supervision de l’intégrité et des performances de l’infrastructure d’IA
- Supervise l’état de santé, la disponibilité et la consommation de l’infrastructure d’IA (AI Pods Cisco, GPU, bases de données vectorielles, etc.).
- Des tableaux de bord denses corrèlent les performances métiers aux métriques opérationnelles (utilisation, taux d’erreur, bottlenecks).
- Supervision complète des LLM et des applications agentiques
- Suit et analyse les workflows LLM/agents, l’utilisation des tokens, la latence, les taux d’erreur, la dérive et les hallucinations.
- Les évaluations spécialisées suivent la qualité sémantique et la performance technique des résultats des modèles.
- Sécurité et conformité intégrées
- Cisco AI Defense protège les systèmes contre les injections de prompts, les fuites de données médicales et les menaces de sécurité connexes.
- Relie les risques de sécurité de l’IA à l’infrastructure et aux services pour soutenir une approche globale de la gouvernance et de la conformité.
- Prise en charge native d’OpenTelemetry et intégration indépendante des fournisseurs
- Supervision flexible et sans agent pour tous les frameworks d’IA afin de maintenir l’indépendance vis-à-vis des fournisseurs.
- Assure la supervision des workloads exécutées sur les AI Pods Cisco et autres environnements.
- Optimisation continue et gouvernance
- Le profilage automatisé et le suivi en temps réel des SLO orientent l’optimisation continue des performances et des risques.
- Les fonctionnalités de gouvernance assurent le respect des normes réglementaires et organisationnelles et clarifient les responsabilités.
Fonctionnement
- Instrumente l’infrastructure d’IA, les LLM et les applications d’agents en s’appuyant sur OpenTelemetry et les intégrations natives de Splunk.
- Collecte les métriques, les événements, les logs et les traces pour les mettre en corrélation avec la télémétrie du réseau et de la sécurité au sein de tableaux de bord unifiés.
- Suit l’utilisation des ressources de l’IA, ses performances et sa sécurité afin d’émettre des alertes pertinentes et de détecter les anomalies.
- Facilite l’analyse des causes profondes et l’équilibrage optimisé du coût, de la fiabilité et de l’impact métier.
- Soutient les efforts de conformité et de gouvernance en supervisant à la fois les métriques d’exploitation et de précision, et en faisant respecter les politiques internes.
Exemples d’utilisation
- Détection et dépannage des échecs d’inférence et des conflits de ressources dans les infrastructures d’IA multi-tenants.
- Supervision de la dérive sémantique, des biais et des hallucinations dans les applications basées sur des LLM, afin de protéger la réputation de l’entreprise.
- Application des règles de conformité grâce au suivi des risques de fuite de données médicales et des KPI réglementaires dans les workloads d’IA.
Résultats
- Atténuez les risques pesant sur les opérations et la réputation en adoptant une approche proactive de la supervision et de la gouvernance.
- Optimisation de la consommation des ressources et réduction des coûts de l’infrastructure d’IA.
- Amélioration de la fiabilité, des performances et de la sécurité des applications optimisées par l’IA.
Pourquoi c’est important : en encadrant les applications d’IA par une supervision complète et unifiée, les entreprises ont la possibilité de créer, de déployer et d’exploiter une IA fiable, conforme et rentable, en phase avec les objectifs de l’entreprise.
Applications avancées et facteurs à prendre en compte
- Prend en charge les déploiements d’IA cloud et locaux, y compris les AI Pods Cisco et les infrastructures tierces.
- S’adapte aux grands environnements d’IA distribués et multi-frameworks.
- S’intègre aux plateformes dédiées à la supervision d’agents d’IA/ML pour une supervision holistique.
Usages de Splunk Observability : fonctionnalités basées sur le rôle et avantages
Au-delà de ses fonctionnalités centrales, Splunk Observability fournit des informations sur mesure pour des rôles et des équipes spécifiques de l’organisation, et les soutiennent dans la poursuite de leurs objectifs opérationnels et métiers particuliers.
Équipes des opérations IT et d’ingénierie de fiabilité des sites (SRE)
Splunk Observability répond aux besoins des responsables ITOps, SRE, DevOps et métier en offrant une visibilité unifiée et des informations globales sur l’ensemble des services numériques. Les vues suivantes, dédiées à des rôles particuliers, permettent de comprendre comment chaque équipe exploite les solutions.