Splunk Observability: Hauptfunktionen und Alleinstellungsmerkmale
Die Splunk Observability-Architektur wurde speziell entwickelt, um Unternehmen beim Erreichen digitaler Resilienz, einem höheren Innovationstempo und der Kostenkontrolle in zunehmend komplexen, verteilten Umgebungen zu helfen. Das einheitliche Design der Plattform unterstreicht drei wichtige Alleinstellungsmerkmale, die Splunk von anderen Anbietern abheben und sicherstellen, dass sich Teams auf das Wesentliche konzentrieren können.
1. Tiefer greifender Geschäftskontext für die Priorisierung der wichtigen Dinge
Splunk Observability ermöglicht Unternehmen, über Infrastruktur und Anwendungsstatus hinauszugehen, und bietet Einblick in die geschäftlichen Auswirkungen jedes einzelnen Leistungsproblems. Die Architektur ist so konzipiert, dass sie Telemetriedaten von Anwendungen, Infrastruktur sowie eigenen und fremden Netzwerken korreliert. Dies macht es einfach, den Technologiezustand Geschäftsprozessen, Benutzererfahrungen und Ergebnissen zuzuordnen.
- Kuratierte Geschäftserkenntnisse: Sie können Backend-Services gruppieren und Geschäftsprozesse (wie Bezahlvorgang, Auftragserfüllung, Kreditbearbeitung) visualisieren, um die wichtigsten Bereiche zu überwachen.
- Erstellung von Business Journey-Karten: Tracken Sie mehrstufige Workflows und Benutzer-Flows über den Stack hinweg, um Probleme zu identifizieren und abhängig von ihren geschäftlichen Auswirkungen zu priorisieren.
- Unterstützung benutzerdefinierter KPIs: Fügen Sie spontan Geschäftskontext zu Telemetrie hinzu, indem Sie flexible Tags (wie Benutzer- oder Filial-ID) und benutzerdefinierte Metriken nutzen, um detaillierte Einblicke in die Auswirkungen von Incidents auf Umsatz, Kundensegmente und wichtige Betriebsabläufe zu erhalten.
- Umfassende Umgebungsabdeckung: Vollständige Transparenz und korrelierte Erkenntnisse über alle Umgebungen hinweg – Netzwerke, Infrastruktur und Anwendungen – unabhängig vom Bereitstellungsmodell.
Diese tiefgreifende Geschäftsausrichtung bedeutet, dass Teams Probleme nach realen Auswirkungen priorisieren, Entscheidungsprozesse beschleunigen und sicherstellen können, dass Ressourcen auf wertschöpfende Ergebnisse konzentriert werden.
2. KI-gestützte Erkennung und Untersuchung von Problemen mit geschäftlichen Auswirkungen
Das Herzstück von Splunk Observability ist eine KI-gestützte Echtzeitanalyse-Engine, die die Erkennung, Untersuchung und Behebung von Incidents innerhalb der gesamten digitalen Landschaft optimiert. Die Architektur integriert High-Speed-Telemetrieverarbeitung, Schema-on-Read-Flexibilität und erweitertes Machine Learning, um das Warnmeldungsrauschen zu verringern und das Wesentliche aufzuzeigen.
- Echtzeitanalysen im großem Umfang: Streamen und analysieren Sie Telemetriedaten aus dem gesamten Stack in Sekundenschnelle, wie dies moderne High-Speed-Umgebungen erfordern.
- KI/ML-gestützte Anomalieerkennung: Nutzen Sie KI-Agenten und integriertes Machine Learning, um sich anbahnende Probleme frühzeitig zu erkennen, Muster zu entdecken und Incidents zu prognostizieren, bevor sie eskalieren.
- Kernursachenanalyse und geführte Workflows: KI-geführtes Troubleshooting isoliert die Ursachen komplexer, kaskadierender Probleme blitzschnell – dies gilt auch für Probleme, die Anwendungen, Infrastruktur, Netzwerke und KI/ML-Workloads umspannen.
- Einheitliche Incident Response: Korrelieren Sie zusammengehörige Benachrichtigungen aus einer beliebigen Quelle in einer einzelnen, verlässlichen Ansicht und automatisieren Sie Workflows für eine schnellere Recovery.
Durch die Integration KI-gestützter Erkenntnisse innerhalb der gesamten Plattform hilft Splunk Observability Teams, Over-Alerting zu verringern, die für Krisensitzungen aufgewandte Zeit zu reduzieren und unternehmenskritische Incidents schnell und zuverlässig zu lösen.
3. Planbare Tarife und Kontrolle über Ihre Daten und Kosten
Die Architektur von Splunk Observability ist auf effiziente Skalierbarkeit ausgelegt, sodass Unternehmen nur für das bezahlen, was sie benötigen, und gleichzeitig die volle Kontrolle über ihre Daten behalten. Offene Standards, flexibles Datenmanagement und native Pipeline-Kontrollen sorgen für Transparenz und Flexibilität.
- OpenTelemetry-native Datenerfassung: Telemetriedaten werden mithilfe offener Standards erfasst und instrumentiert. Dies macht proprietäre Agenten unnötig und reduziert technische Mängel.
- Flexibles Datenpipeline-Management: Telemetriedaten werden bei der Erfassung umgewandelt, gefiltert, aggregiert und weitergeleitet. Dies ermöglicht es Unternehmen, wachsende Datenmengen effizient und ohne ausufernde Kosten zu verwalten.
- Föderierte Analyse und Speicherung: Analysieren Sie Daten unabhängig von ihrem Speicherort sogar in kostengünstigen Datenspeichern, ohne alle Bestände zentralisieren zu müssen.
- Planbare Tarifmodelle: Einfache, skalierbare Tarife (einschließlich hostbasierter und flexibler Nutzungsoptionen) vermeiden überhöhte Mehrkosten und Budgetüberraschungen und unterstützen Cloud-, On-Premises- und Hybrid-Bereitstellungen.
Mit diesen architektonischen Grundlagen stellt Splunk Observability sicher, dass Unternehmen ihre Observability-Praktiken zuverlässig skalieren, den ROI maximieren und die Kontrolle über Daten und Ausgaben behalten können.
Beliebte Use Cases für Splunk Observability
Use Case: Troubleshooting und Kernursachenanalyse
Definition: Splunk Observability ermöglicht Unternehmen, mithilfe von KI-gestützter Erkennung, Diagnose und schneller Reaktion anwendungs- und infrastrukturübergreifende Leistungsprobleme zu beheben.
Technischer Überblick: Splunk nutzt einen Schema-on-Read-Ansatz, um große Mengen an heterogenen Maschinendaten, einschließlich unstrukturierter Logs, Metriken und Traces, zu verlässlichen Erkenntnissen zu konsolidieren. Die Splunk Platform (Enterprise/Cloud) und IT Service Intelligence (ITSI) ermöglichen die Erfassung, Filterung und Umwandlung von Daten aus nahezu jeder Datenquelle in großen Umfang, einschließlich Integrationen von Drittanbietern und Cisco. Fortgeschrittene KI/ML-Modelle korrelieren Warnmeldungen, identifizieren Kernursachen und führen Teams mit Geschäftskontext und Automatisierung zur Lösung.
Zentrale Funktionen
- Zentralisierung und Reduzierung von Warnmeldungen
- Einheitliche Erfassung und Korrelation von Warnmeldungen aus Splunk, Drittanbieter-Tools und Event Management-Tools
- Event iQ und die adaptive Schwellenwertbestimmung verwenden KI/ML für die dynamische Gruppierung von Warnmeldungen, die Reduzierung des Warnmelderauschens und die saisonale Anpassung
- Benutzerdefinierte Schwellenwertfenster ermöglichen eine proaktive Optimierung für bekannte Geschäftsereignisse (z. B. Black Friday)
- Automatisierte Kernursachenanalyse und Incident Response
- KI-geführtes Troubleshooting zeigt wahrscheinliche Ursachen und betroffene Services in einheitlichen Dashboards
- Die Episodenüberprüfung bietet Zeitachsen mit aussagekräftigem Kontext, bisher angewandte Lösungen und Links zu verwandten Tickets
- Automatisierung per E-Mail, Skripten und Splunk SOAR; bidirektionale Ticketerstellung und benutzerdefinierte Runbooks beschleunigen die Reaktion
- Fehlerbehebung in Anwendungen und der Infrastruktur
- Echtzeitaktualisierung von Telemetriedaten für Metriken, Logs und Traces in unter 3 Sekunden
- Geschäftstransaktionen, Service-Maps, Tag Spotlight, Trace Analyzer und Aufrufdiagramme für die Workflow-Visualisierung und umfassende Analysen
- Einheitliche Telemetrie (RED-Metriken, Infrastruktur-Dashboards, serviceorientierte Ansichten) mit direkter Querverlinkung über verwandte Inhalte
- KI-geführtes Troubleshooting
- Geführte Workflows, die Logs, Metriken, Traces und den Entitätszustand umfassen, priorisiert nach geschäftlicher Auswirkung
- KI-generierte Zusammenfassungen für gruppierte Warnmeldungsepisoden mit umsetzbaren Erkenntnissen und nächsten Schritten
Funktionsweise
- Metriken, Logs und Traces werden mit OpenTelemetry- und Splunk-nativen Konnektoren aus Cloud-, On-Premise- und Drittanbieterquellen aufgenommen.
- Warnmeldungen werden mithilfe von KI/ML korreliert und gruppiert, um das Rauschen zu reduzieren und kritische Vorfälle zu identifizieren.
- Wahrscheinliche Kernursachen und betroffene Services werden in einer einheitlichen Benutzeroberfläche angezeigt.
- Engineering-Teams werden mithilfe von Kontextdaten, historischen Episoden und Visualisierungen durch die Untersuchung und Behebung von Problemen geführt.
- Reaktionsmaßnahmen werden automatisiert. Außerdem wird die teamübergreifende Zusammenarbeit durch den Austausch von Echtzeitdaten ermöglicht.
Beispiele für Use Cases
- Diagnostizieren von Service-Verschlechterungen in einer Kubernetes-basierten Microservices-Umgebung
- Nachverfolgen der Anwendungslatenz zu einer spezifischen Backend-Abhängigkeit in einer hybriden Cloud-Bereitstellung
- Untersuchen fehlgeschlagener Geschäftstransaktionen in verteilten Workflows durch Korrelation von Logs und Traces
Ergebnisse
- Weniger Over-Alerting und schnellere Incident-Sichtung
- Kürzere MTTD und MTTR bei kritischen Incidents
- Bessere Zusammenarbeit zwischen IT Operations-, SRE- und Engineering-Teams
- Verbesserte Zuverlässigkeit und Uptime für Unternehmens-Services
Bedeutung: Die schnelle und präzise Erkennung und Behebung von Problemen minimiert Ausfallzeiten, reduziert den operativen Mehraufwand und hilft Teams, die Service-Zuverlässigkeit und das Kundenvertrauen aufrechtzuerhalten.
Randfälle und Überlegungen
Warnmeldestürme werden mit ITSI Content Packs proaktiv erkannt und vermieden. Unterstützt hybride Umgebungen mit mehreren Architekturen (n-Tier, Microservices, COTS). Log Observer Connect ermöglicht ein erweitertes plattformübergreifendes Troubleshooting ohne redundante Log-Erfassung.
Use Case: Überwachen kritischer Geschäftsprozesse
Definition: Mit Splunk Observability erhalten Teams in Echtzeit Einblick in die Auswirkungen von Leistungsproblemen auf Geschäftsprozesse, KPIs und missionskritische Workflows.
Technischer Überblick: Die Splunk Platform und ITSI bieten anpassbare Live-Dashboards (Glass Table-Ansichten), die IT-, Anwendungs-, Netzwerk- und Unternehmens-Service-Daten korrelieren. Diese Dashboards erfassen sowohl digitale als auch nicht-digitale Metriken und unterstützen damit ein breites Spektrum an Stakeholdern. AppDynamics und Content Packs ermöglichen tiefgreifendes Monitoring und ein schnelles Onboarding für kommerzielle und SaaS-Apps wie etwa SAP, M365), sodass die technische Leistung geschäftlichen Auswirkungen zugeordnet werden kann.
Zentrale Funktionen
- Zentralisierte Transparenz über Unternehmens-Services hinweg
- Glass Table-Ansichten visualisieren den Echtzeitzustand von Assets, KPIs und Geschäftsentitäten über eigene und fremde Netzwerke sowie diverse Architekturen hinweg
- Service Analyzer bietet farbcodierte, topologische Zustandsansichten von Services und Infrastruktur
- Analyse des Servicezustands
- Die schnelle Korrelation von Logs, Metriken und Traces ermöglicht eine rasche Abhängigkeits- und Folgenanalyse
- Probleme werden per Drilldown auf KPI-/Entitätsebene isoliert; historischer Basiswertvergleich macht Trends deutlich
- Monitoring von COTS & SAP-Anwendungen
- SAP-Monitoring über AppDynamics (tiefe Code-Ebene über Java/ABAP-Agenten) und ITSI (PowerConnect für ABAP-Telemetrie)
- Direkt einsatzbereite Content Packs für SAP, M365 und andere Geschäfts-Apps ermöglichen eine schnelle Bereitstellung und standardisierte Metriken
- Kontinuierliche Verbesserung und Reporting
- Integrierte Analysen zur Ermittlung von Basiswerten für MTTD, MTTR und Warnmeldungsrauschen und das Tracken dieser Werte
- Verfolgen des Fortschritts bei kundenspezifischen KPIs für Berichte an IT- und Business-Stakeholder
- Business Performance Analytics-Dashboards und die Release-Überprüfung verknüpfen technische und geschäftliche Metriken (wie etwa Conversion-Rate und Umsatz) für das Management
- Abbilden von Geschäftsprozessen und KPI-Anpassung
- Business Journeys in AppDynamics bilden durchgängige End-to-End-Workflows ab und korrelieren dabei KPIs mit Benutzererfahrung und Geschäftsergebnissen
- Unbegrenzte benutzerdefinierte Metriken/Tracking (z. B. Benutzer-/Filial-ID, Kundensegment) für eine detaillierte Business Impact Analysis (BIA)
Funktionsweise
- Telemetrie- und Geschäftsdaten werden aus Apps, Infrastruktur und Drittanbieter-Tools erfasst.
- Services und Geschäftsprozesse werden mithilfe von Glass Table-Ansichten, Service Analyzer und Business Journeys abgebildet.
- IT-Metriken werden mit geschäftlichen KPIs/SLOs für eine umfassende Business Impact Analysis korreliert.
- In Echtzeit werden Warnmeldungen und Trends aufgezeigt, die sowohl für technische als auch Business-Stakeholder relevant sind.
- Die Ermittlung von Basiswerten, das Tracken sowie das Reporting zu wichtigen Metriken ermöglichen kontinuierliche Verbesserungen.
Beispiele für Use Cases
- Monitoring der Auswirkungen von IT-Störungen auf umsatzgenerierende Workflows
- Tracken des Zustands von SAP-Geschäftstransaktionen und Identifizieren von Performance-Einbußen bei Prozessen
- Analysieren der Service Level-Performance hinsichtlich der SLA-Verpflichtungen für kritische Geschäftsbereiche
Ergebnisse
- Schnelleres Identifizieren von Incidents mit Auswirkungen auf das Geschäft
- Verbessertes Reporting an Stakeholder in Betrieb und Führungsebene
- Verbesserte Ausrichtung von IT-Performance und Geschäftsergebnissen
Bedeutung: Wenn Teams verstehen, wie sich die IT- und Anwendungs-Performance auf die Geschäftsergebnisse auswirkt, können sie die wichtigsten Probleme priorisieren, den Umsatz schützen und eine reibungslose Benutzererfahrung sicherstellen.
Randfälle und Überlegungen
Unterstützt sowohl digitale als auch nicht-digitale KPIs (z. B. Verfügbarkeit von Krankenhausbetten, Status physischer Ressourcen) Integration mit älteren (3-Tier) und modernen Umgebungen (Cloud-nativ, Microservices) möglich Schnelles Onboarding und Best Practice-Metriken durch Content Packs für SaaS- und COTS-Apps
Use Case: Verstehen kritischer User Journeys
Definition: Splunk Observability bietet durchgängige End-to-End-Transparenz bei jedem Schritt, den Benutzer in webbasierten und mobilen Apps, APIs, Netzwerken und Backend-Services unternehmen.
Technischer Überblick: Splunk Observability Cloud und AppDynamics führen Real User Monitoring (RUM), Synthetic Monitoring, Application Performance Monitoring (APM) und Netzwerk-Observability, einschließlich ThousandEyes, zusammen, um korrelierte Einblicke in den technischen Zustand und geschäftliche Auswirkungen zu bereitzustellen. Dieser Ansatz ermöglicht Teams, jede Phase der digitalen User Journeys zu verstehen, zu überwachen und zu optimieren, und zwar über Frontend, Backend, externe APIs und Netzwerkpfade hinweg.
Zentrale Funktionen
- Vollständiges Digital Experience Monitoring
- RUM, Synthetic Monitoring, APM und Netzwerk-Observability werden kombiniert, um eine umfassende Sicht auf User Journeys zu erhalten
- Telemetriedaten werden aus Browsern, mobilen Apps, APIs, Backends und Cloud-Infrastruktur in Echtzeit erfasst
- Abbildung und Visualisierung von User Journeys
- Experience Journey Maps in AppDynamics visualisieren Benutzer-Flows und Reibungspunkte
- Session Replay, Heatmaps und Pfadanalysen zeigen, wo Benutzer Erfolg oder Schwierigkeiten haben
- Proaktive Erkennung und Netzwerkpfadanalyse
- Synthetic Monitoring überprüft User Journeys von globalen/privaten Standorten rund um die Uhr und erkennt Regressionen vor der Bereitstellung
- Die ThousandEyes-Integration ordnet den Netzwerkzustand (Paketverlust, DNS, BGP) Sprung für Sprung Benutzertransaktionen zu
- Kernursachenanalyse
- Durch dezentrales No-Sample-Tracing und ML-gestützte Anomalieerkennung können Probleme im gesamten Stack schnell identifiziert werden
- Die KI-gestützte Kernursachenanalyse zeigt, ob Probleme auf den Code, Microservices, das CDN oder externe Ereignisse zurückzuführen sind
- Korrelation mit Geschäftsergebnissen und Zusammenarbeit
- Dashboards verknüpfen den technischen Zustand mit geschäftlichen KPIs (Conversion-Rate, Umsatz, Kundenzufriedenheit)
- SLO/SLA-Tracking und eine einheitliche Arbeitsumgebung unterstützen die teamübergreifende Zusammenarbeit (ITOps, SRE, NetOps, Produkt)
Funktionsweise
- Telemetriedaten aus allen App-/Netzwerkebenen werden mithilfe von OpenTelemetry, RUM, APM und synthetischen Tests erfasst.
- Die Frontend-/Backend-Performance wird mit Benutzerinteraktionen und geschäftlichen KPIs korreliert.
- User Journeys und Reibungspunkte werden mit Dashboards, Journey Maps und Session-Analysen visualisiert.
- Die Kernursachenanalyse wird durch Nachverfolgen von Benutzertransaktionen über verteilte Systeme und Netzwerkpfade hinweg ermöglicht.
- Die kontinuierliche Optimierung wird durch Identifizieren und Priorisieren von Problemen unterstützt, die sich auf wichtige Benutzersegmente auswirken.
Beispiele für Use Cases
- Diagnose langsamer Bezahlabläufe in einer E-Commerce-Plattform, die mehrere APIs und Netzwerksprünge umfassen
- Feststellen, wie sich Netzwerklatenz oder Ausfälle von Drittanbieter-APIs auf die Benutzererfahrung in einer SaaS-Anwendung auswirken
- Priorisierung von Fehlerbehebungen für Workflows, die sich auf besonders hochwertige Kunden oder Gold-Kunden auswirken
Ergebnisse
- Schnellere Behebung von Problemen mit Auswirkungen auf Benutzer
- Optimierte digitale Erfahrungen und höhere Kundenzufriedenheit
- Bessere Möglichkeiten, die technische Performance direkt mit Geschäftsergebnissen zu verknüpfen
Bedeutung: Eine durchgängige End-to-End-Transparenz bei Benutzererfahrungen ermöglicht Unternehmen, Reibungspunkte schnell zu erkennen und zu beheben, digitale Journeys zu optimieren und die Kundenzufriedenheit und -bindung zu steigern.
Randfälle und Überlegungen
Unterstützt das Troubleshooting in hybriden/öffentlichen Cloud-Umgebungen und über Drittanbieter-APIs hinweg. Eingebettete Netzwerkvisualisierungen isolieren Kernursachen außerhalb des Benutzerperimeters. Handelt stark verteilte, komplexe User Journeys über digitale und physische Kontaktpunkte hinweg.
Definition: Splunk Observability ermöglicht die proaktive Verbesserung der Zuverlässigkeit von Anwendungen und Infrastruktur, der Ressourceneffizienz und der Benutzererfahrung in hybriden und Cloud-nativen Umgebungen.
Technischer Überblick: Splunk bietet Observability und Optimierung sowohl in herkömmlichen (n-Tier, COTS) als auch in Cloud-nativen Umgebungen (Microservices, Container). Durch die Kombination von AlwaysOn-Profiling, Infrastruktur-Monitoring in Echtzeit, SLO-basierten Benachrichtigungen und prädiktiver Analytik ermöglicht Splunk eine kontinuierliche Leistungsoptimierung und Kostenmanagement.
Zentrale Funktionen
- Kontinuierliche Profilerstellung (AlwaysOn-Profiling)
- Die CPU- und Arbeitsspeichernutzung pro Funktion/Zeile in der Produktion werden erfasst, um Engpässe und Speicherlecks zu identifizieren
- Infrastrukturoptimierung
- Die CPU-, Arbeitsspeicher-, Speicher- und Netzwerknutzung werden für Server, Container und Cloud-Ressourcen überwacht
- Ressourcen mit Unter-/Überprovisionierung werden aufgezeigt und Infrastrukturmetriken werden mit der App-Leistung korreliert, um die richtige Dimensionierung zu ermöglichen
- SLO-basiertes Performance-Monitoring
- Service Level Objectives (SLOs) werden definiert und getrackt; mit Burn-Rate-Analysen werden Servicebeeinträchtigungen vorhergesagt und verhindert
- Synthetic Monitoring
- Verfügbarkeit und Leistung werden von mehreren Standorten in aller Welt kontinuierlich getestet, um Probleme zu erkennen, bevor Benutzer betroffen sind
- Kostengünstig: 1 US-Dollar pro 10.000 API-Tests, skalierbar für den Unternehmenseinsatz
- ML-gestützte Analysen (AppDynamics & ITSI)
- Durch adaptive Schwellenwertbestimmung und prädiktive Analytik werden Leistungseinbußen prognostiziert und verhindert
- False Positives werden reduziert und Anomalien frühzeitig aufgedeckt, um präventive Gegenmaßnahmen zu ermöglichen
Funktionsweise
- Durch AlwaysOn-Profiling und Infrastruktur-Monitoring in Echtzeit werden kontinuierlich Profile von Anwendungscode und Infrastrukturressourcennutzung erstellt.
- Mithilfe ML-gestützter Analysen werden Basiswerte und adaptive Schwellenwerte festgelegt.
- SLOs werden überwacht und Warnmeldungen bei Abweichungen von Zuverlässigkeitszielen und Performance-Basiswerten ausgegeben.
- Synthetische und reale Benutzertestdaten für eine durchgängige End-to-End-Validierung werden integriert.
- Es werden umsetzbare Empfehlungen zur optimalen Workload-Dimensionierung und Anwendungsoptimierung bereitgestellt.
Beispiele für Use Cases
- Erkennung und Behebung von Arbeitsspeicherlecks in einem Java-Microservice
- Optimierung der Cloud-Ressourcenzuweisung, um Infrastrukturkosten zu senken
- Vorhersage und Verhinderung von Leistungseinbußen vor einer viel beachteten Produkteinführung
Ergebnisse
- Höhere Anwendungs- und Infrastruktureffizienz
- Geringere Betriebskosten und bessere Skalierbarkeit
- Verbesserte Benutzererfahrung durch gleichbleibend hohe Leistung
Bedeutung: Eine proaktive Leistungs- und Ressourcenoptimierung senkt die Kosten, verhindert Ausfälle und gewährleistet Benutzern und Kunden Nutzungserfahrungen mit gleichbleibend hoher Qualität.
Randfälle und Überlegungen
Unterstützt hybride Anwendungs-Stacks (n-Tier, COTS, Microservices). OpenTelemetry-nativ – keine Anbieterbindung oder proprietären Agenten erforderlich. Skalierbar sowohl für ältere als auch Cloud-native Umgebungen.
Use Case: Optimieren von Observability-Kosten
Definition: Splunk Observability bietet Unternehmen die Tools für eine effiziente Verwaltung von Telemetrievolumen und -kosten, unterstützt offene Standards und gewährleistet eine planbare, flexible Preisgestaltung.
Technischer Überblick: Die Splunk Platform und ihre flexiblen Tarifmodelle helfen Unternehmen, Daten in großem Umfang zu verwalten, eine Anbieterbindung zu vermeiden und den Nutzen von Observability zu optimieren. Fortschrittliche Tools für Datenmanagement, Pipeline-Kontrolle und Kostenoptimierung ermöglichen eine detaillierte Kontrolle der Telemetrieerfassung, -speicherung und -kosten.
Zentrale Funktionen
- OpenTelemetry-native Datenerfassung: Einheitliche Erfassung über SDKs, APIs und Tools; macht proprietäre Agenten überflüssig und unterstützt die einmalige Erfassung für mehrfach verwendbare Telemetrie.
- Metrics Pipeline Management: Aggregiert, filtert, archiviert und verwirft unerwünschte Metriken; die Pipeline-Automatisierung identifiziert ungenutzte/weniger wertvolle Metriken für die Archivierung (archivierte Metriken kosten 10x weniger).
- Kontrolle hoher Kardinalität: Token-Limits pro Team/Service; Analysen zur Identifizierung von Token mit hohem Volumen und Optimierung der Metrikspeicherung/-nutzung.
- Histogrammmetriken: Komprimieren Metriken mit hohem Volumen zu detaillierten, umsetzbaren Erkenntnissen für eine effiziente Trendanalyse.
- Datenweiterleitung, -filterung und -umwandlung: Ingest Processor und Edge Processor ermöglichen SPL2-basiertes Filtern, Maskieren, Anreichern und Weiterleiten bei der Datenerfassung und am Netzwerkrand.
- Aufbewahrung und föderierte Suche: Detaillierte Kontrollen für die Aufbewahrung; einheitliche Suche über mehrere Splunk-Umgebungen hinweg ohne zentrale Datenerfassung.
- Tools für die Kostenkontrolle und -optimierung: Integrierter AWS EC2 Cost Optimizer, Dashboards und Warnmeldungen bei Überschreitung von Abrechnungsschwellenwerten.
- Planbare, transparente Preise: Flexible Modelle (nach Host, Workload, erfasster Datenmenge, Entität, Aktivität) ohne Strafgebühren bei Überschreitungen.
Funktionsweise
- Telemetriedaten werden mit OpenTelemetry und Splunk-eigenen Datenmanagement-Tools erfasst, verarbeitet und weitergeleitet.
- Durch Pipeline-Automatisierung werden Metriken und Logs basierend auf Nutzung und Wert aggregiert, gefiltert und archiviert.
- Kostenkontrolle und -optimierung werden über Dashboards, Warnmeldungen und integrierte Kostenanalysetools ermöglicht.
- Transparenz und Governance bei Speicherung und Aufbewahrung sowie die Einhaltung von Richtlinien werden sichergestellt.
- Lässt sich sowohl in Cloud- als auch in On-Premises-Umgebungen integrieren und ermöglicht so ein einheitliches, skalierbares Management der Observability-Kosten.
Beispiele für Use Cases
- Senken der Monitoring-Kosten durch Herausfiltern weniger wertvoller Metriken aus Datenerfassungs-Pipelines
- Verwalten von Telemetriedatenmengen und deren Aufbewahrung zur Einhaltung regulatorischer und betrieblicher Richtlinien
- Optimieren des Ressourcen-Monitorings für AWS EC2, um Überschreitungen zu vermeiden und Cloud-Kosten zu kontrollieren
Ergebnisse
- Geringere, besser planbare Observability-Kosten
- Skalierbares Datenmanagement ohne Verlust wichtiger Erkenntnisse
- Bessere Kontrolle über Telemetrieerfassung, -speicherung und -abrechnung
Bedeutung: Durch ein effizientes Management von Telemetrievolumen und -ausgaben können Unternehmen Observability skalieren und gleichzeitig die Kosten kontrollieren, den ROI maximieren und teure Überschreitungen vermeiden.
Randfälle und Überlegungen
Unterstützt die Rückverrechnung/Rückbelastung für eine detaillierte Kostenzuordnung über Teams/Services hinweg. Nahtlose Log-Integration mit Log Observer Connect. Konzipiert für Umgebungen mit hoher Kardinalität und variabler Telemetriezunahme.
Use Case: Erkennung und Priorisierung von Sicherheitslücken in Anwendungen
Definition: Splunk Observability erkennt Sicherheitslücken und Angriffe in Anwendungscode und priorisiert die Reaktion basierend auf dem tatsächlichen Risiko und den geschäftlichen Auswirkungen.
Technischer Überblick: Splunk Secure Application integriert Anwendungssicherheit mit Observability und bietet so Schwachstellenerkennung, Schutz und risikobasierte Priorisierung in Echtzeit. Durch die Nutzung vorhandener APM-Agenten und kontextbezogener Analysen ermöglicht Splunk Teams, Sicherheitsbedrohungen mit minimalem operativem Aufwand zu erkennen, zu priorisieren und zu beheben.
Zentrale Funktionen
- Integrierte Laufzeitsicherheit
- Kontinuierliche Code-Überprüfung und Laufzeitschutz gegen Exploits mithilfe vorhandener APM-/Observability-Agenten
- Bedrohungserkennung und -eindämmung direkt innerhalb von Observability-Workflows
- Kontextbezogene Risikoanalyse
- Automatisierte Risikobewertung auf Basis der geschäftlichen Auswirkungen (z. B. kritischer Zahlungs-Flow im Vergleich zu Testumgebung)
- KI/ML-gestützte Priorisierung zum Aufspüren glaubhafter Schwachstellen mit großen Auswirkungen und zur Minimierung von Over-Alerting
- Automatisierte Erkennung und Blockierung
- Echtzeitverteidigung gegen sich ständig weiterentwickelnde Bedrohungen, bis hin zu einzelnen Codezeilen
- Unmittelbares Feedback zu Sicherheitsrisiken, korreliert mit Benutzererfahrung und geschäftlichen KPIs
- Zusammenarbeit bei Incidents
- Gemeinsame Dashboards und Incident-Ansichten für ITOps, Engineering und SecOps
- Enge Integration mit Splunk SIEM und SOAR für eine orchestrierte Reaktion, Eskalation und Workflow-Tracking
Funktionsweise
- Telemetrie- und Sicherheitsdaten werden mit vorhandenen APM-Agenten aus Anwendungscode, Infrastruktur und Geschäfts-Worklflows erfasst.
- Mithilfe integrierter Bedrohungsinformationen und fortschrittlichen Analysen wird kontinuierlich auf Sicherheitslücken geprüft und das Laufzeitverhalten überwacht.
- Sicherheitswarnungen werden mit Anwendungskontext und geschäftlichen Auswirkungen korreliert, um die kritischsten Probleme zu priorisieren.
- Behebungsmaßnahmen werden automatisiert und Vorfälle über die SIEM/SOAR-Integration an Sicherheitsteams eskaliert.
- Die kontinuierliche Verbesserung wird durch fortlaufendes Monitoring und Analysen unterstützt.
Beispiele für Use Cases
- Erkennen und Blockieren von SQL Injection-Angriffen in Produktionsanwendungen
- Priorisieren der Schließung von Sicherheitslücken in hochwertigen Geschäftsprozessen (z. B. Zahlungsabläufen)
- Automatisieren der Eskalation von Sicherheitsereignissen und der orchestrierten Reaktion zwischen IT- und Sicherheitsteams
Ergebnisse
- Schnellere Erkennung von Sicherheitslücken und kürzere MTTR (Mean Time to Remediate)
- Geringeres Risiko von Datenschutzverletzungen und Compliance-Verstößen
- Verbesserte Abstimmung zwischen Security- und Operations-Teams für eine robuste Anwendungsverteidigung
Bedeutung: Die kontinuierliche, risikobasierte Anwendungssicherheit verringert die Wahrscheinlichkeit von Sicherheitsverletzungen, beschleunigt die Behebung und schützt sowohl den Geschäftsbetrieb als auch Kundendaten.
Randfälle und Überlegungen
Unterstützt sowohl App-interne als auch externe Angriffsvektoren. Entwickelt für minimalen operativen Aufwand (nutzt bestehende Observability-Agenten, vermeidet Tool-Wirrwar). Skaliert mit hybriden und Cloud-nativen Architekturen.
Use Case: Korrelieren von Netzwerkdomänen
Definition: Splunk Observability und IT Service Intelligence (ITSI) schützen den Servicezustand des Netzwerks, indem sie die Transparenz vereinheitlichen und die Zahl irrelevanter Warnmeldungen über alle Netzwerkdomänen hinweg reduzieren – ThousandEyes, Catalyst Center und Meraki eingeschlossen.
Technischer Überblick: Splunk Observability löst abgeschottete Silostrukturen zwischen IT-, Netzwerk- und Anwendungsteams auf, indem es eine einzige, einheitliche Plattform für das Monitoring und die Korrelation von Zustands- und Leistungsdaten aus eigenen und fremden Netzwerken, Infrastrukturen und Geschäftsanwendungen bereitstellt. Mit direkt einsetzbaren Integrationen für Cisco- und Drittanbieterquellen ermöglichen Event Analytics und Content Packs von ITSI ein schnelles Onboarding, die domänenübergreifende Anreicherung von Warnmeldungen und erweiterte Analysen und geben Teams damit eine umfassende Echtzeitsicht auf den Zustand von Netzwerk und Services.
Zentrale Funktionen
- Einheitliche Netzwerk- und Service-Transparenz
- Telemetriedaten (Metriken, Logs, Ereignisse, Traces) aus allen Domänen – eigenen und fremden Netzwerken, Infrastruktur und Anwendungen – werden an einem Ort zusammengeführt und korreliert
- Benutzerspezifische Dashboards und Glass Table-Ansichten visualisieren den Zustand von Ressourcen, KPIs und geschäftskritischen Services für technische und Business-Stakeholder
- Domänenübergreifende Warnmeldungskorrelation und Eindämmung der Warnmeldungsflut
- Zusammengehörige Warnmeldungen aus verschiedenen Domänen (Cisco, Meraki, ThousandEyes, Drittanbieter) werden gruppiert, um die Warnmeldungsflut zu reduzieren und Wichtiges zu priorisieren
- Ereignisse werden mit Geschäftskontext angereichert und die Priorisierung von Vorfällen wird automatisiert, um die Sichtung zu beschleunigen
- Durchgängiges End-to-End-Troubleshooting und kontextbezogene Erkenntnisse
- Kernursachen und betroffene Domänen werden mithilfe korrelierter Nachweise schnell isoliert, was die MTTD und MTTR senkt
- Es werden Echtzeitansichten auf Managementebene bereitgestellt, die die technische Performance den geschäftlichen KPIs und Ergebnissen zuordnen
- Flexibles, datenunabhängiges Onboarding
- Mit Splunkbase Content Packs können Netzwerk-, Infrastruktur- und Anwendungsdaten aus Splunk und externen Tools einfach integriert werden
Funktionsweise
- Über ITSI- und Splunk-Integrationen werden Telemetriedaten aus Netzwerken (eigenen/fremden), Infrastruktur und Anwendungen aufgenommen und normalisiert.
- Warnmeldungen und Ereignisse werden über alle Domänen hinweg korreliert und gruppiert, wobei sie mit geschäftlichem und technischem Kontext angereichert werden.
- Es werden einheitliche Dashboards für technische Teams und Business-Stakeholder bereitgestellt, die den Zustand von Services und Netzwerken in Echtzeit zeigen.
- Teams werden dabei angeleitet, Domänen zu isolieren, exakte Kernursachen zu ermitteln und die Behebung zu automatisieren bzw. zu eskalieren.
- Kontinuierliche Verbesserungen werden durch Nachverfolgen von Over-Alerting, verbesserten MTTD/MTTR-Werten und Auswirkungen auf geschäftliche KPIs unterstützt.
Beispiele für Use Cases
- Reduzieren von Over-Alerting durch Gruppieren doppelter Netzwerk- und Anwendungswarnmeldungen in einem einzigen, belastbaren Incident
- Bereitstellen eines Echtzeit-Dashboards auf Managementebene für das Monitoring regulatorischer oder operativer KPIs (z. B. Verfügbarkeit von Krankenwagen, Wartezeiten)
- Auflösen isolierter Silos zwischen Netzwerk-, App- und Infrastrukturteams durch Bereitstellen einer einheitlichen Sicht auf den Servicezustand und die Auswirkungen für alle
Ergebnisse
- Schnellere Erkennung und Behebung von Vorfällen im gesamten digitalen Stack
- Weniger operativer Aufwand und reduziertes Over-Alerting
- Klare Priorisierung basierend auf den geschäftlichen Auswirkungen, nicht nur anhand der technischen Symptome
Bedeutung: Vollständige, domänenübergreifende Transparenz und Warnmeldungskorrelation minimieren Ausfallzeiten, beschleunigen das Troubleshooting und ermöglichen IT- und Business-Teams, sich auf die Bereitstellung resilienter digitaler Services zu konzentrieren.
Randfälle und Überlegungen
Unterstützt sowohl digitale als auch nicht-digitale KPIs für stark regulierte oder kritische Umgebungen. Unabhängig von der Datenquelle – lässt sich problemlos in bestehende und moderne Netzwerkinfrastrukturen integrieren. Ermöglicht schnelles Onboarding und Skalieren über Splunkbase Content Packs und Konnektoren.
Use Case: Ermitteln der Auswirkungen des Netzwerks auf die App-Performance
Definition: Splunk Observability und ThousandEyes helfen Teams bei der Behebung von Problemen mit der Anwendungsleistung, indem sie Abhängigkeiten über eigene und fremde Netzwerke in Echtzeit korrelieren.
Technischer Überblick: Durch die Integration von ThousandEyes mit Splunk Observability Cloud und AppDynamics können Unternehmen Silostrukturen zwischen ITOps, Engineering und NetOps aufbrechen. Einheitliche Telemetrie zu Anwendung, Infrastruktur und jedem Netzwerksprung (intern und Drittanbieter) ermöglicht die präzise Identifizierung der Kernursachen – im Code, in der Infrastruktur oder im Netzwerk. Gemeinsame Dashboards, eine durchgängige End-to-End-Korrelation und kontinuierliches Benchmarking ermöglichen Teams, Probleme schneller zu lösen und digitale Erfahrungen zu optimieren.
Zentrale Funktionen
- Einheitliche End-to-End-Transparenz
- Echtzeitkorrelation von App-, Infrastruktur- und Netzwerktelemetrie, einschließlich Drittanbieter-ISPs und Cloud-Anbietern
- Gemeinsame Dashboards liefern Nachweise für alle Teams und eliminieren so Mutmaßungen und isolierte Untersuchungen
- Teamübergreifende Zusammenarbeit und Behebung von Incidents
- Nahtloser Brückenschlag zwischen NetOps, ITOps und Engineering durch einheitlichen Kontext für die Kernursachenanalyse
- Die bidirektionale Integration mit ThousandEyes ermöglicht präzise Netzwerkpfadanalysen und Performance-Benchmarking
- Proaktives Monitoring und Benchmarking
- Durch kontinuierliches Monitoring werden Leistungseinbußen erkannt und Performance-Trends über alle Netzwerkdomänen hinweg getrackt
- Ermöglicht es, Anbieter zur Rechenschaft zu ziehen, und macht ein proaktives Service Level Management möglich
- Schnelleres Troubleshooting und kürzere MTTI
- Identifiziert schnell, ob die Kernursache im Code, der Infrastruktur oder einem externen Netzwerk liegt
- Reduziert unnötige Eskalationen und verbessert die MTTI (Mean Time to Innocence)
Funktionsweise
- ThousandEyes wird bidirektional mit Splunk Observability und AppDynamics integriert.
- Echtzeit-Telemetriedaten aus Anwendungen, Infrastruktur und allen Netzwerkdomänen (eigenen und fremden) werden erfasst und korreliert.
- Es werden einheitliche Dashboards und Warnmeldungen für alle Teams angezeigt, damit sie Probleme gemeinsam untersuchen können.
- Durch Netzwerkpfadanalysen und kontinuierliches Benchmarking lassen sich Probleme genau identifizieren und Partner zur Rechenschaft ziehen.
- Ermöglicht eine proaktive Optimierung und nahtlose digitale Erfahrungen für Benutzer.
Beispiele für Use Cases
- Verkürzen der MTTI durch sofortigen Nachweis der „Netzwerkunschuld“ beim Troubleshooting in mehreren Domänen
- Benchmarking der Netzwerkleistung, um Störungen vorherzusehen und SLAs mit externen Partnern durchzusetzen
- Feststellen, ob langsame SaaS-Transaktionen durch Codeänderungen, interne Infrastruktur oder einen externen ISP-Ausfall verursacht werden
Ergebnisse
- Schnellere und präzisere Incident-Behebung in Apps, Infrastruktur und Netzwerkdomänen
- Kürzere MTTI (Mean Time to Innocence) und weniger unnötige Eskalationen
- Bessere digitale Erfahrung und Business Continuity
Bedeutung: Einheitliche Transparenz entlang der gesamten digitalen Lieferkette beseitigt Erkennungslücken, beschleunigt die Kernursachenanalyse und versetzt Teams in die Lage, zuverlässige und leistungsstarke digitale Erfahrungen zu schaffen.
Randfälle und Überlegungen
Unterstützt hybride Umgebungen, einschließlich Cloud-, SaaS- und Multi-ISP-Architekturen. Ermöglicht sowohl proaktives als auch reaktives Netzwerk-Performance-Management. Skalierbar für Unternehmen mit global verteilten oder komplexen digitalen Lieferketten.
Use Case: Monitoring von KI-Apps und -Infrastruktur
Definition: Splunk Observability ermöglicht die Echtzeitüberwachung von Zustand, Leistung und Sicherheit Ihres gesamten KI-Anwendungsstapels – einschließlich Agenten, LLMs und KI-Infrastruktur – und gewährleistet so Zuverlässigkeit, Effizienz und Business-Ausrichtung.
Technischer Überblick: Da KI- und LLM-Workloads immer geschäftskritischer werden, bietet Splunk Observability für KI ein umfassendes Monitoring sowohl auf Anwendungs- als auch Infrastrukturebene. Mit OpenTelemetry-nativer Instrumentierung, Echtzeit-Dashboards und nahtloser Integration mit Cisco AI Pods bietet Splunk verwertbare Erkenntnisse zu Ressourcennutzung, Modellgenauigkeit, Sicherheit und geschäftlichen Auswirkungen – über alle Frameworks, Agenten und Umgebungen hinweg. Integriertes AI Agent Monitoring und AI Defense bieten Transparenz bei Operations und Security, um eine verantwortungsvolle, kosteneffektive und hochwertige KI zu ermöglichen.
Zentrale Funktionen
- Monitoring von Zustand und Leistung der KI-Infrastruktur
- Überwacht Zustand, Verfügbarkeit und Nutzung der KI-Infrastruktur (Cisco AI Pods, GPUs, Vektordatenbanken usw.)
- Datenintensive Dashboards korrelieren die Geschäftsleistung mit operativen Metriken (Auslastung, Fehlerraten, Engpässe)
- Umfassendes Monitoring von LLM- und agentenbasierten Anwendungen
- Trackt und analysiert LLM/Agenten-Workflows, Token-Nutzung, Latenz, Fehler, Abweichung und Halluzinationen
- Spezielle Bewertungen überwachen die semantische Qualität und technische Performance von Modellausgaben
- Integrierte Sicherheit und Compliance
- Cisco AI Defense erkennt und schützt vor Prompt Injection, Gesundheitsdatenlecks und ähnlichen Sicherheitsbedrohungen
- Verknüpft KI-Sicherheitsrisiken mit Infrastruktur und Services für eine ganzheitliche Governance und Compliance
- OpenTelemetry-native, herstellerneutrale Integration
- Flexibles, agentenloses Monitoring für alle KI-Frameworks, durch das eine Anbieterbindung vermieden wird
- Unterstützt das Monitoring von Workloads, die auf Cisco AI Pods und anderen Umgebungen ausgeführt werden
- Kontinuierliche Optimierung und Governance
- Automatisiertes Benchmarking und SLO-Tracking in Echtzeit ermöglichen eine kontinuierliche Leistungs- und Risikooptimierung
- Governance-Funktionen sorgen für Compliance und Verantwortlichkeit gemäß regulatorischen und unternehmerischen Standards
Funktionsweise
- KI-Infrastruktur und LLM/Agentenanwendungen werden mit OpenTelemetry und Splunk-nativen Integrationen instrumentiert.
- Metriken, Ereignisse, Logs und Traces werden erfasst und mit Telemetriedaten aus Netzwerk- und Sicherheitssystemen in einheitlichen Dashboards korreliert.
- Durch Tracken von Nutzung, Leistung und Sicherheit von KI-Ressourcen werden verwertbare Warnmeldungen und Anomalieerkennungen aufgezeigt.
- Die Kernursachenanalyse und Optimierung von Kosten, Zuverlässigkeit und Geschäftsauswirkungen werden unterstützt.
- Compliance und Governance werden durch Monitoring von Betriebs- und Genauigkeitsmetriken sowie die Durchsetzung von Unternehmensrichtlinien unterstützt.
Beispiele für Use Cases
- Erkennen und Beheben von Inferenzfehlern oder Ressourcenkonflikten in einer mandantenfähigen KI-Infrastruktur
- Monitoring semantischer Abweichungen, Verzerrungen oder Halluzinationen in LLM-gestützten Anwendungen, um den Unternehmensruf zu schützen
- Sicherstellen der Compliance durch Tracken von Risiken für Gesundheitsdatenlecks und regulatorische KPIs in KI-Workloads
Ergebnisse
- Geringere Risiken für Betrieb und Ruf durch proaktives Monitoring und Governance
- Optimierte Ressourcennutzung und geringere Kosten für KI-Infrastruktur
- Verbesserte Zuverlässigkeit, Leistung und Sicherheit von KI-gestützten Anwendungen
Bedeutung: Das umfassende, einheitliche Monitoring von KI-Anwendungsstapeln versetzt Unternehmen in die Lage, zuverlässige, Compliance-konforme und kosteneffiziente KI zu entwickeln, bereitzustellen und zu betreiben, die auf die Geschäftsziele abgestimmt ist.
Randfälle und Überlegungen
- Es werden sowohl Cloud- als auch On-Premises-KI-Bereitstellungen, einschließlich Cisco AI Pods und Infrastruktur von Drittanbietern, unterstützt.
- Skalierbar für große, verteilte und Multi-Framework-KI-Umgebungen
- Lässt sich in spezialisierte KI/LLM-Monitoring-Plattformen integrieren, um eine ganzheitliche Kontrolle zu ermöglichen
So nutzen Teams Splunk Observability: Rollenbasierte Funktionen und Vorteile
Über die Kernfunktionen hinaus bietet Splunk Observability maßgeschneiderte Erkenntnisse und Vorteile für spezifische Rollen und Teams innerhalb eines Unternehmens, durch die sie ihre individuellen operativen und geschäftlichen Ziele erreichen können.
IT Operations- und SRE-Teams (Site Reliability Engineering)
Splunk Observability unterstützt die Anforderungen von ITOps-, SRE-, DevOps- und Business-Verantwortlichen, indem es einheitliche Transparenz und Informationen über digitale Services hinweg bietet. Die folgenden rollenbasierten Ansichten zeigen, wie unterschiedliche Teams das Portfolio in der Praxis einsetzen.