PLATFORM

Faites face à l’imprévisible grâce à la stabilité et à la résilience de la plateforme cloud Splunk

La stabilité et la résilience des services cloud sont au cœur des préoccupations actuelles des entreprises. Qu’il s’agisse de faire face à un pic de demande lié à la pandémie ou de lutter contre une interruption de service inattendue, vous devez rester au service de vos clients. Avec le service de la plateforme Splunk Cloud, vous disposez d’un partenaire fiable, axé sur la stabilité et la résilience, qui peut vous aider à mener des investigations, diagnostiquer et résoudre rapidement les problèmes causés par des interruptions massives à l’échelle de l’industrie, des vulnérabilités de sécurité internes ou des erreurs de l’utilisateur.

La pandémie en cours accélère une transition déjà rapide vers le cloud, et la complexité croissante du paysage de la cybersécurité continue de mettre la stabilité, la résilience et la reprise au premier plan. Chez Splunk, nous nous consacrons à aider les clients à atténuer le risque d’incidents futurs. C’est dans notre ADN de donner la priorité à la stabilité et à la fiabilité du service, pour permettre aux clients d’analyser et de résoudre rapidement les problèmes.

La plateforme Splunk Cloud : fiable, disponible et évolutive 

La plateforme Splunk Cloud respecte un engagement de haute disponibilité, dans une optique « always on ». De la gestion de l’infrastructure à la conformité des données, la plateforme Splunk Cloud est conçue pour s’adapter à vos besoins d’analyse de données, qu’elles se comptent en Go, en Po ou plus encore. Conçue pour gérer les pics soudains de volume de données, la plateforme Splunk Cloud vous permet d’augmenter progressivement votre capacité tout en conservant la sécurité par conception. Nous proposons à chaque client des environnements cloud dédiés, disponibles dans AWS et GCP, ainsi que le chiffrement des données en transit et, en option, le chiffrement au repos. Nous évaluons et ajoutons en permanence de nouvelles normes internationales.

Comment ?

La plateforme Splunk Cloud offre des niveaux impressionnants de résilience, de haute disponibilité et de reprise après sinistre. La plateforme Splunk Cloud est conçue pour être prête à faire front en cas de problèmes et pour les résoudre aussi vite que possible. L’équipe produit de Splunk a intégré des innovations pour assurer la continuité des activités de nos clients.

Assurer stabilité et résilience à nos clients

Les clients attendent un service fiable et hautement disponible, et Splunk tient cette promesse. La plateforme Splunk Cloud est conçue pour remplir plusieurs objectifs : 

1. Des données fiables en transit grâce à l’utilisation de plusieurs stratégies de mise en file d’attente, notamment :

  • la séparation de l’importation et de l’indexation (file d’attente persistante) dans le périmètre de la plateforme Splunk Cloud, dans le cadre de la refonte de l’architecture Splunk avec Victoria Experience ;
  • la mise en file d’attente des forwarders pour éviter la perte de données, en mettant constamment les données en file d’attente à leur source puis en renouvelant les tentatives en cas de défaillance de l’indexeur ou de problèmes de réseau.

2. Des données fiables au repos et un suivi de la disponibilité à l’aide de plusieurs stratégies clés, telles que :

  • la réplication entre les zones de disponibilité (AZ) aide à prévenir la perte de données en réduisant le risque de point de défaillance unique lors de l’importation ;
  • la randomisation de l’indexeur de l’équilibreur de charge permet d’éviter les scénarios de perte de données à fort impact en cas d’interruption de l’un des nombreux indexeurs. L’équilibreur de charge contribue également à réduire la surcharge de l’indexeur, facilite la randomisation résiliente et améliore l’évolutivité de l’importation, dans le cadre de la refonte de l’architecture Splunk avec Victoria Experience ;
  • la triple réplication des données pour la redondance de la couche d’indexation.

3. Haute disponibilité de la recherche par plusieurs moyens :

  • la duplication automatique des indexeurs et remplacement en cas de défaillance, pour réduire le risque de point de défaillance unique ;
  • l’accès équilibré en charge à la couche de recherche via le cluster de search heads ;
  • des sauvegardes chaque soir de la configuration.

4. Disponibilité prioritaire pour les services stratégiques et critiques grâce à :

  • l’indexation évolutive et flexible offrant une haute résilience face aux pics d’importation et de modèles de recherche, pour veiller à ce que les recherches stratégiques hautement prioritaires ne puissent pas être ignorées ni abandonnées, dans le cadre de la refonte de l’architecture Splunk avec Victoria Experience ;
  • des facteurs de réplication dans l’indexation, conçus pour assurer une haute disponibilité des données et éviter les recherches ignorées ;
  • la création de clusters de search heads dans la couche plateforme, afin de hiérarchiser la disponibilité de la recherche en cas de panne d’une search head.

Utilisez Splunk pour anticiper les temps d’arrêt

Détectez les problèmes avant qu’ils ne surviennent, en temps réel.
Avec la plateforme Splunk Cloud, importez, analysez, supervisez et interrogez tout type de données en temps réel pour détecter et prévenir les problèmes. Vous pourrez aussi répondre à tout moment, où que vous soyez, grâce aux applications mobiles et aux capacités de réalité augmentée de Splunk.

Allez à la racine du problème RAPIDEMENT.
Grâce à un accès unifié à toutes vos sources de données au sein de la plateforme Splunk Cloud, vous pouvez analyser la cause profonde des problèmes dans toutes vos données et découvrir des informations métier auparavant inaccessibles.

Résolvez les problèmes en un tour de main.
La plateforme Splunk Cloud vous permet de maximiser l’efficacité de votre équipe en tirant le meilleur parti de ressources limitées. Soyez opérationnel en deux jours seulement et minimisez les retards des processus de gestion des modifications lors des montées de version. Lorsque vous êtes prêt, élargissez rapidement votre déploiement Splunk : il faut généralement deux jours pour obtenir plusieurs To de capacité supplémentaire. Confiez à Splunk la gestion et l’administration de l’infrastructure.

Chez Splunk, nous utilisons Splunk

Nous faisons confiance à l’excellence opérationnelle de Splunk et l’utilisons pour détecter les problèmes avant qu’ils ne surviennent, en temps réel. Nous utilisons actuellement la plateforme Splunk Cloud, IT Service Intelligence Cloud, Splunk On-Call et une intégration personnalisée avec nos canaux de communication internes pour que les bonnes équipes soient prêtes à assurer la prise en charge et la gestion des incidents. Nous apprenons rapidement par itération, en examinant les données pour nous assurer que tout fonctionne parfaitement

« Ici, au NOC Splunk, nous utilisons Splunk pour suivre, maintenir et dépanner les connexions à Splunk SaaS, l’aboutissement des recherches planifiées et ad hoc, le déroulement de l’importation et de l’indexation des données, ainsi que la fonctionnalité et la disponibilité de l’API, tout cela pour offrir la meilleure expérience possible à nos clients Splunk. »
Brenden Reeves, Directeur du réseau Splunk

En ce moment, nous utilisons la plateforme Splunk Cloud de plusieurs manières :

  • pour suivre les connexions à Splunk SaaS complètes et valides. Nous utilisons Splunk pour superviser les connexions et les taux de réussite de l’authentification de la plateforme Splunk Cloud, puis mener des investigations en cas de problème. Par exemple, nous avons des alertes en cas d’origine géographique inhabituelle ou de multiples tentatives infructueuses ;
  • pour superviser les recherches planifiées et ad hoc. Nous utilisons Splunk pour superviser les taux de réussite des recherches et mener des investigations approfondies lorsque les échecs dépassent un seuil défini. À titre proactif, nous supervisons activement un éventail d’indicateurs de niveau de service (SLI) pour déterminer s’ils descendent en dessous d’un seuil défini ;
  • pour superviser l’importation et l’indexation des données. Nous supervisons les indexeurs pour évaluer s’ils se trouvent dans l’état client souhaité ; généralement, nous n’alertons les clients que dans les scénarios anormaux, en utilisant le machine learning pour identifier proactivement les pics inhabituels et en évitant d’inonder les clients d’alertes inutiles. Si un client demande de l’aide, nous sommes prêts à nous plonger dans les performances et à résoudre le problème rapidement ;
  • pour suivre la disponibilité et le fonctionnement des API. Nous supervisons les services API pour vérifier qu’ils restent disponibles et fonctionnent correctement. Nous supervisons la capacité d’importation de la couche d’indexation (par exemple, l’importation du collecteur d’événements HTTP et les ports internes 9997 Splunk à Splunk), et la disponibilité de la couche de recherche (par exemple, la disponibilité de la page de connexion, la capacité de l’API de recherche hybride à interroger les indexeurs cloud ou la disponibilité du service de recherche lui-même, via des recherches test négligeables sur le plan du calcul).

Le NOC de Splunk supervise les activités suspectes ou inattendues dans ces quatre domaines, ce qui permet à Splunk de contacter les clients de manière proactive lorsqu’un problème potentiel se manifeste. Le Splunk Dashboard Studio fournit des visualisations qui réunissent toutes ces informations pour notre équipe NOC, permettant à différents membres de l’équipe d’identifier et de communiquer rapidement les problèmes potentiels.

« Dans le NOC Splunk, les tableaux de bord de vue d’ensemble de la pile nous offrent un aperçu rapide de l’ensemble du cluster de serveurs et de services par client, afin d’identifier et résoudre rapidement tous les problèmes des clients »
Brenden Reeves, Directeur du réseau Splunk

Et après ?

Les interruptions et les incidents de sécurité sont inévitables. Les fonctionnalités de Splunk peuvent vous aider à prospérer malgré l’incertitude. La plateforme Splunk Cloud est essentielle pour aider nos clients à assurer la stabilité de leurs écosystèmes du point de vue de la sécurité, de l’infrastructure et des applications. Chez Splunk, nous nous appuyons sur la disponibilité et la résilience de la plateforme Splunk Cloud, qui constitue le fondement de notre propre NOC. Splunk est déterminé à aider ses clients à atteindre un haut niveau de résilience et atténuer les risques futurs. Notre ADN Splunk nous pousse à innover pour rendre notre service accessible, stable et fiable, afin de donner à nos clients les moyens d’analyser et de résoudre rapidement les problèmes.

*Cet article est une traduction de celui initialement publié sur le blog Splunk anglais.

Splunk
Posted by

Splunk