PLATFORM

Für alles gewappnet – dank der Stabilität und Resilienz der Splunk Cloud Plattform

Stabilität und Resilienz von Cloud-Services haben bei Unternehmen heute höchste Priorität. Denn unabhängig vom Pandemie-bedingten Anstieg der Nachfrage oder der Bekämpfung unerwartet auftretender Ausfälle steht die Unterstützung der eigenen Kunden stets im Fokus. Mit der Splunk Cloud Plattform steht hierfür eine verlässliche Lösung zu Verfügung, die auf Stabilität und Resilienz ausgerichtet ist und zur raschen Untersuchung, Fehlerbehebung und Lösung von Problemen beitragen kann, die durch großflächige und branchenweite Ausfälle, interne Sicherheitsschwachstellen oder Benutzerfehler ausgelöst werden.

Durch die anhaltende Pandemie wird die ohnehin vorangetriebene Migration von Cloud-Lösungen noch zusätzlich beschleunigt. Im Hinblick auf eine immer komplexere Sicherheitslandschaft spielen dabei die Themen Stabilität, Resilienz und Wiederherstellung eine zunehmend wichtigere Rolle. Deshalb konzentrieren wir uns bei Splunk darauf, unsere Kunden bei der Eindämmung des Risikos zukünftiger Vorfälle maßgeblich zu unterstützen. Als Teil unserer DNA ist die Priorisierung von Stabilität und Zuverlässigkeit unserer Services seit jeher essentiell, um unsere Kunden bei der gründlichen Untersuchung und schnellen Lösung von Problemen zu unterstützen.

Die Splunk Cloud Plattform – zuverlässig, verfügbar und skalierbar

Die Splunk Cloud Plattform verspricht Hochverfügbarkeit nach der Maxime „always on“: Vom Infrastruktur-Management bis hin zur Daten-Compliance, die Splunk Cloud Plattform wurde so konzipiert, dass sie passend zu den individuellen Anforderungen eurer Datenanalysen skaliert werden kann. Unabhängig davon, ob es dabei um GB, PB oder noch größere Datenmengen geht. Die Architektur der Splunk Cloud Plattform ist darauf ausgelegt, plötzliche Anstiege des Datenvolumens problemlos aufzufangen, indem die Kapazität jederzeit schrittweise erhöht werden kann, ohne dass die Sicherheit darunter leidet. Ebenso steht jedem Kunden neben dedizierten Cloud-Umgebungen in AWS und GCP auch die Datenverschlüsselung bei der Übertragung zur Verfügung - bei Bedarf auch im Ruhezustand. Neue internationale Standards werden zudem von uns kontinuierlich bewertet und regelmäßig hinzugefügt.

Welche Vorteile bietet die Splunk Cloud Plattform?

Die Splunk Cloud Platform bietet eine beeindruckende Resilienz, hohe Verfügbarkeit und Disaster Recovery. Ebenso trägt die Splunk Cloud Plattform dazu bei, optimal auf Probleme vorbereitet zu sein und diese schnellstmöglich zu beheben. Hierfür hat das Produktteam bei Splunk zahlreiche Innovationen integriert, um die "Business Continuity" unserer Kunden jederzeit sicherstellen zu können.

Stabilität und Resilienz für unsere Kunden

Kunden erwarten einen zuverlässigen Service mit hoher Verfügbarkeit. Splunk wird dieser Anforderung mehr als nur gerecht und bietet mit der Splunk Cloud Plattform noch zahlreiche weitere Vorteile.

1. Zuverlässige Datenübertragung durch den Einsatz mehrerer Warteschlangenstrategien, unter anderem:

  • Trennung von Datenerfassung und Indizierung (persistente Warteschlangen) an der Grenze der Splunk Cloud Plattform als Bestandteil der neu konzipierten Splunk Architektur in der Victoria Experience
  • Forwarder-Warteschlangen zur Verhindern von Datenverlusten, indem die Daten an ihrer Quelle beständig in eine Warteschlange gestellt werden und erneute Versuche unternommen werden, falls Netzwerkprobleme vorliegen oder der Indexer ausfällt.

2. Zuverlässige Datenspeicherung und Nachverfolgung der Verfügbarkeit mit Hilfe gleich mehrerer Schlüsselstrategien:

  • Die Replikation über mehrere Verfügbarkeitszonen hinweg schützt vor Datenverlust, indem die Möglichkeit einer einzelnen Schwachstelle (Single Point of Failure) während der Erfassung stark eingeschränkt wird.
  • Mit der Indexer-Randomisierung per Load Balancer lassen sich Szenarien mit schwerwiegenden Datenverlusten gezielt verhindern, falls einer der zahlreichen Indexer einmal ausfallen sollte. Als fester Bestandteil der neu-konzipierten Splunk-Architektur in der Victoria Experience trägt der Load Balancer aber auch dazu bei, die Überlastung von Indexern zu reduzieren, eine zuverlässige Randomisierung zu gewährleisten und die Skalierbarkeit der Erfassung zu verbessern.
  • Dreifache Datenreplikation für Redundanz auf der Indexer-Ebene
     

3. Hohe Suchverfügbarkeit durch folgende Funktionen:

  • Automatische Duplizierung von Indexern und Ersatz im Falle eines Ausfalls, wodurch die Möglichkeit eines „Single Point of Failure“ reduziert wird.
  • Lastenausgleich beim Zugriff auf die Suchschicht via Search Head Cluster
  • Konfigurations-Backups über Nacht

4. Priorisierte Verfügbarkeit für erfolgs- und geschäftskritische Anforderungen durch folgende Funktionen:

  • Skalierbare und flexible Indizierung mit hoher Resilienz im Fall von Spitzen bei der Datenerfassung und in Suchmustern als fester Bestandteil der neu konzipierten Splunk-Architektur in der Victoria Experience. Damit geschäftskritische Suchen mit hoher Priorität weder übersprungen werden müssen noch fehlschlagen können.
  • Replikationsfaktoren bei der Indizierung, die für eine hohe Datenverfügbarkeit sorgen und das Überspringen von Suchen verhindern.
  • Search-Head-Clustering auf Plattformebene zur Priorisierung der Suchverfügbarkeit falls ein Search Head ausfallen sollte.

Mit Splunk proaktiv Downtime verhindern.

Probleme noch vor deren Entstehung erkennen – in Echtzeit
Mit der Splunk Cloud Plattform lassen sich beliebige Daten in Echtzeit streamen, analysieren, überwachen und durchsuchen. Dadurch können Probleme bereits erkannt und verhindert werden, bevor diese überhaupt auftreten. Darüber hinaus bieten die mobilen Apps und Augmented-Reality-Funktionen von Splunk die Möglichkeit, jederzeit und überall zu reagieren.

Der Kernursache auf den Grund gehen, und zwar SCHNELL
Dank des einheitlichen Zugriffs auf sämtliche Datenquellen innerhalb der Splunk Cloud Plattform lassen sich Probleme über alle Daten hinweg genauestens analysieren und bisher unzugängliche Geschäftseinblicke ermöglichen.

Problemlösung im Handumdrehen
Die Splunk Cloud Plattform macht es möglich, die Effizienz der Expertenteams zu maximieren und die ohnehin begrenzten Ressourcen optimal zu nutzen. Innerhalb von weniger als zwei Tagen einsatzbereit lassen sich Verzögerungen bei Change-Management-Prozessen für Upgrades gezielt minimieren. Bei Bedarf kann die Splunk-Bereitstellung innerhalb kürzester Zeit problemlos erweitert werden. So sind mehrere TB an zusätzlicher Kapazität in der Regel innerhalb von zwei Tagen verfügbar. Aber auch das Management und die Administration der gesamten Infrastruktur kann man ohne weiteres Splunk anvertrauen.

Auch bei Splunk ... nutzen wir Splunk!

Auch wir selbst setzen auf die effizienten Abläufe von Splunk und verwenden die Lösung, um Probleme bereits vor deren Entstehen zu erkennen - in Echtzeit. So nutzen wir aktuell Splunk Cloud Platform, IT Service Intelligence Cloud, Splunk On-Call und eine unternehmensinterne Integration für unsere innerbetrieblichen Kommunikationskanäle, damit sich die richtigen Teams mit dem Management von Incidents befassen und entsprechend darauf reagieren können. Durch Iteration lernen wir schnell dazu und prüfen fortlaufend Daten, um jederzeit reibungslose Abläufe zu gewährleisten.

„Hier im NOC von Splunk setzen wir ganz bewusst auf Splunk für Splunk, um Splunk-SaaS-Anmeldungen, den Erfolg von geplanten und Ad-hoc-Suchen, den Erfolg von Datenerfassung und Indizierung sowie die Funktion und Verfügbarkeit von APIs bestmöglich nachzuverfolgen, aufrechtzuerhalten und Fehler in diesen Bereichen zu beheben. Immer mit dem Ziel, unseren Kunden ein rundum perfektes Nutzererlebnis bieten zu können.“
Brenden Reeves, NOC von Splunk

Ein paar Beispiele dafür, wie die Splunk Cloud Plattform bei uns aktuell zum Einsatz kommt:

  • Nachverfolgung vollständiger, gültiger Splunk-SaaS-Anmeldungen. Mithilfe von Splunk können wir die Anmeldungen an der Splunk Cloud Platform und die Erfolgsraten bei der Authentifizierung überwachen. Auch Untersuchungen im Fall von Problemen lassen sich damit durchrführen. Beispielsweise haben wir Benachrichtigungen für ungewöhnliche geographische Standorte oder für mehrere Fehlversuche bei der Anmeldung eingerichtet.
  • Monitoring von geplanten oder Ad-hoc-Suchen. Wir nutzen Splunk, um die Erfolgsrate von Suchen zu überwachen und eingehende Untersuchungen durchzuführen, sollten Fehler einen bestimmten Schwellenwert überschreiten. Außerdem überwachen wir aktiv und proaktiv verschiedenste Service-Level-Indikatoren (SLIs), ob diese unter einen gewissen Schwellenwert fallen.
  • Monitoring von Datenerfassung und Indizierung. Wir überwachen Indexer, um nachverfolgen zu können, inwiefern sich diese im gewünschten Kundenstatus befinden. In der Regel werden die Kunden dann nur bei Ausreißerszenarien benachrichtigt. Dabei nutzen wir Machine Learning, um ungewöhnliche Spitzen proaktiv zu erkennen und Kunden nicht mit unnötigen Warnmeldungen zu überfluten. Sollte ein Kunde Support anfordern, sind wir jederzeit bereit, die Performance genauer unter die Lupe zu nehmen und das Problem schnell zu lösen.
  • Nachverfolgen der Verfügbarkeit und Funktion von APIs. Wir überwachen API-Services, damit diese für unsere Kunden durchgehend verfügbar sind und ordnungsgemäß funktionieren. Ebenso überwachen wir die Verfügbarkeit der Indexschicht für die Datenerfassung (z. B.: über HTTP Event Collector und interne Splunk-to-Splunk-Erfassung über Port 9997) sowie die Verfügbarkeit der Suchschicht (z. B.: Verfügbarkeit der Anmeldeseite; Fähigkeit der Hybrid-Search-API, Cloud-Indexer zu suchen; Verfügbarkeit des Such-Services selbst über nicht rechenintensive Testsuchen).

Diese vier Bereiche werden durch das NOC von Splunk hinsichtlich verdächtiger oder unerwarteter Aktivitäten kontinuierlich überwacht. Dadurch ist es Splunk möglich, jeden Kunden proaktiv zu kontaktieren, sollte ein potenzielles Problem erkannt werden. Splunk Dashboard Studio bietet die nötigen Visualisierungen, um all diese Aspekte für unser NOC-Team zusammenzuführen und es gleich mehreren Teammitgliedern zu ermöglichen, Probleme zu erkennen und rasch nach außen zu kommunizieren.

„Im NOC von Splunk verfügen wir über "Stack-Overiew-Dashboards", mit deren Unterstützung wir uns schnell und bequem einen Überblick über den gesamten Cluster von Servern und Services jedes einzelnen Kunden verschaffen können. Dadurch sind wir in der Lage, mögliche Kundenprobleme schnell zu erkennen und umgehend zu beheben.“
Brenden Reeves, Splunk NOC

Fazit

Ausfälle und Sicherheits-Incidents können jederzeit auftreten. Mit den von Splunk angebotenen Funktionen lässt sich der Erfolg dennoch gezielt sicherstellen - trotz unsicherer Zeiten. So leistet die Splunk Cloud Plattform mit Blick auf Sicherheit, Infrastruktur und Anwendungen einen entscheidenden Beitrag zur Stabilität der Ökosysteme unserer Kunden. Ganz bewusst setzen wir bei Splunk deshalb auf die Verfügbarkeit und Resilienz der Splunk Cloud Plattform als Fundament unseres eigenen NOC. Gleichzeitig helfen wir unseren Kunden, die Resilienz ihrer Unternehmen voranzutreiben und zukünftige Risiken weiter einzudämmen. Innovation ist bei Splunk ein wichtiger Teil der DNA und treibt uns immer wieder dazu an, stabile und zuverlässige Services bereitstellen zu können. Services, die unseren Kunden maßgeblich dabei unterstützen, um Probleme schneller untersuchen und lösen zu können.

*Dieser Artikel wurde aus dem Englischen übersetzt und editiert. Den Originalblogpost findet ihr hier: Face the Unexpected with the Stability and Resiliency of Splunk Cloud Platform.

Splunk
Posted by

Splunk

TAGS
Show All Tags
Show Less Tags