Observability

02. November 2022

7 Minuten Lesedauer

Fehlalarme nerven… jetzt ist Schluss damit!

Von Splunk

Hinweis: Dieser Blog ist Teil einer fünfteiligen Blog-Reihe rund um das Thema Observability. Die anderen dazugehörenden Blogs findet ihr hier:

Es gibt einen interessanten semiotischen Effekt, durch den bedeutungstragende Zeichen im Handumdrehen bedeutungslos werden – die Wiederholung.

Nehmen wir folgendes Beispiel:

VORSICHT!

Wer mit dieser Warnung Aufmerksamkeit verschaffen will, kann sie hervorheben, lauter rufen, in roten Lettern drucken usw. Wer die Nachricht dagegen beständig wiederholt, erreicht damit das Gegenteil. Der gewünschte Effekt verliert sich in der Redundanz:

VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT!
VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT!

Manchmal ist dieser Effekt der Bedeutungsentleerung gewollt (etwa beim Rezitieren eines Mantras). In der IT wirkt er aber meist verheerend. Zum Beispiel wenn die Cybersicherheit oder die Funktionsfähigkeit von Online-Systemen auf dem Spiel steht. Dann verpasst man wahrscheinlich, dass hinter dem siebten „Vorsicht!“ eine echte, ernstzunehmende Warnung gesteckt hat.

Drei Wünsche gegen Alarmmüdigkeit

In der IT heißt dieser Effekt „Alarmmüdigkeit“ (Alert Fatigue), und sie hat viele Facetten: zu viele Warnmeldungen, Fehlalarme, kryptische Benachrichtigungen mit wenig Aussagekraft – sie alle führen dazu, dass die Flut an Meldungen überhandnehmen und irgendwann nicht mehr ernst genommen oder gar nicht mehr wahrgenommen werden. Wenn digitale First Responder drei Wünsche frei hätten, würden sie selbst vermutlich dieses sagen:

Ruf mich, wenn du dir nicht selbst helfen kannst.
(Und nicht bei Problemen, die bereits anderweitig gelöst sind.)
Ruf mich, wenn es dringend ist.
(Und nicht bei Problemen, die vorerst ohne Folgen bleiben.)
Ruf mich, wenn du mich brauchst.
(Und nicht jemand anderen.)

Dazu bräuchte es allerdings eine gewisse Übersicht. Und auch diese Übersicht hat in der IT einen Namen: Observability. Observability kann die drei Wünsche der Security- und Operations-Teams tadellos erfüllen.

Benebelt von Alert Fatigue? Abschalten ist keine Lösung!

GIPHY

Der Grundgedanke jedes einzelnen Sicherheitstools und jeder einzelnen Sicherheitsfunktion in Software und Hardware ist gut: Je früher eine Gefahr erkannt wird, desto eher können Gegenmaßnahmen eingeleitet werden. Zu viel Sicherheit kann aber zu Lähmung führen. Und in heutigen IT-Umgebungen ist das oft der Fall.

E-Mail-Programme, SIEMs, Firewalls und viele mehr funken aus ihren Silos, lösen Alarme aus und buhlen um Aufmerksamkeit. Um auf Nummer sicher zu gehen, werden viele Meldungen im Zweifelsfall auch noch als kritisch eingestuft, obwohl sie es nicht sind.

Das Ergebnis ist immer das gleiche: IT-Verantwortliche sehen sich einer Flut von Warnungen gegenüber, die sie kaum einschätzen und denen sie erst recht nicht allen nachgehen können (wir sprechen hier übrigens von bis zu mehreren Tausend pro Tag!). Fehlalarme und unnötige Warnungen zählen mittlerweile zu den größten Nervensägen von IT-Admins. Es gibt sogar Unternehmen, die ihre Sicherheitssysteme absichtlich entschärft haben, um die Unmenge an Fehlalarmen in den Griff zu bekommen.

Mut zur Lücke? Besser nicht. Sinnvoller ist es, das Übel an den Wurzeln zu packen.

Strukturierte Warnmeldesysteme gegen Alarmmüdigkeit

Dazu gibt es mehrere Ansatzpunkte. Der erste ist, die eingehenden Alarme zu bündeln, sodass euer Team nicht mit fünf Wassereimern an sieben verschiedenen Brandherden arbeiten muss. Laufen die Meldungen an einer zentralen Stelle ein, erleichtert das den Überblick und die Priorisierung.

Noch besser ist es, wenn die Alarme mit möglichst vielen weiteren Kontextinformationen angereichert sind:

Wo genau liegt das Problem?
Wann ist es aufgetreten, gab es schon vergleichbare Vorfälle?
Welche Alarme haben denselben Auslöser oder stehen in direkter Beziehung zueinander?
Was muss ich noch wissen, um den Alarm qualifiziert beurteilen zu können?

Die Guru Meditation mit simpler Fehleradresse war beim Commodore Amiga vielleicht noch zeitgemäß. Heute ist sie es nicht mehr.

Automatisierung ist Pflicht

Wer das beherzigt, kann die Unternehmens-IT zwar schon deutlich entlasten. Darüber hinaus ist es aber auch essenziell, das Incident Management zu optimieren. Das kann in komplexen IT-Umgebungen heutzutage nur mit Automatisierung erreicht werden. Reaktionszeiten auf einen Störfall lassen sich beispielsweise deutlich verkürzen, wenn Warnmeldungen direkt die richtigen Empfänger im Bereitschaftsdienst erreichen. Dazu können unter anderem Eskalationsrichtlinien vorgegeben werden. Moderne Systeme liefern außerdem gleich Vorschläge zu geeigneten Respondern mit.

Die Optimierung der internen Workflows hat zwei weitere positive Effekte. Zum einen lässt sich das verfügbare IT-Budget effizienter verwenden, wenn die Mittel gezielt dort eingesetzt werden, wo sie dringend gebraucht werden. Zum anderen senkt sie die Burnout-Gefahr im Bereitschaftsteam, dem die Arbeit enorm erleichtert wird.

Observability mit Sofortanalysen – die Wunscherfüllungsmaschine

Ihr erinnert euch an die drei Wünsche digitaler First Responder oben? Nun, mit den dargestellten Maßnahmen gehen diese Wünsche in Erfüllung:

Ruf mich, wenn du dir nicht selbst helfen kannst. – Wird gemacht, ein Großteil der Probleme hat sich ja bereits automatisiert erledigt.
Ruf mich, wenn es dringend ist. – Geht in Ordnung, wir erfahren jetzt sofort und mit Kontext, wie ein Problem nach Schweregrad einzustufen ist.
Ruf mich, wenn du mich brauchst. – Sowieso, die Playbooks sorgen dafür, dass Rollen und Zuständigkeiten stets klar sind.

Aber bitte beachtet: Das alles ist weit mehr, als eine bloße Monitoring-Lösung leisten kann. Was es hierfür braucht, ist Observability.

Observability unterscheidet sich aber noch in weiteren Punkten vom klassischen Monitoring. Observability-Tools können nicht nur Logs, Metriken und Traces aus unterschiedlichsten Quellen zusammenführen und verarbeiten, sondern liefern auch gleich spezialisierte Analysefunktionen mit, sodass sich daraus ein ebenso umfassender wie detaillierter Einblick in verteilte Systeme ergibt.

Alarm gelöst, bevor er losgeht

Und es geht sogar noch besser: Die Observability-Lösung von Splunk registriert und untersucht automatisch auch unübliche Veränderungen in den Systemen mittels künstlicher Intelligenz. So ist es unter anderem möglich, sicherheits- oder performance-kritische Vorfälle zu verhindern, bevor sie überhaupt zum Problem werden.

Observability zieht alle verfügbaren Informationen aus verschiedenen Quellen zusammen, um IT-Sicherheit und IT Operations die bestmögliche Entscheidungsgrundlage bei Vorfällen zu liefern. Allein indem Observability-Systeme viele Meldungen schon automatisiert abarbeiten, beugen sie wirksam der Alarmmüdigkeit vor.

Sprecht uns an, wenn ihr mehr über die Observability-Plattform von Splunk erfahren möchtet oder startet einfach unverbindlich mit einer kostenlosen Testversion.

Splunk

Erfahren Sie mehr

Observability 9 Minuten Lesedauer

Modellieren und Vereinheitlichen von DevOps-Daten

Wir nutzen Datenmodelle und bringen Ordnung in das Chaos, während wir Elemente und Gemeinsamkeiten in verschiedenen Phasen des DevOps-Lebenszyklus aufschlüsseln, angefangen mit der Arbeitsplanung.

Observability 8 Minuten Lesedauer

Site Reliability Engineer (SRE) – Rollen und Zuständigkeiten

Site Reliability Engineers (SREs) haben zahlreiche Rollen und Zuständigkeiten in DevOps und IT. Hier erfahrt ihr, wie SRE-Teams bei Softwarebereitstellung und Incidents für Geschwindigkeit und Zuverlässigkeit sorgen.

Observability 10 Minuten Lesedauer

5 wichtige Einblicke, die ihr nicht allein mit der Monitoring-Lösung eures Cloud-Anbieters erhaltet

In diesem Blog präsentieren wir euch fünf gute Gründe, warum ihr Splunk braucht, um einen stabilen Betriebszustand eurer Multi-Cloud-Umgebung sicherzustellen, und geben euch zudem konkrete Beispiele für den Mehrwert gegenüber Monitoring-Tools einzelner Cloud-Anbieter.

Über Splunk

Die führenden Unternehmen der Welt vertrauen auf Splunk, einem Unternehmen von Cisco, um ihre digitale Resilienz mit der einheitlichen Sicherheits- und Observability-Plattform, unterstützt durch branchenführende KI, kontinuierlich zu stärken.

Unsere Kunden setzen auf die preisgekrönten Sicherheits- und Observability-Lösungen von Splunk, um die Zuverlässigkeit ihrer komplexen digitalen Umgebungen zu sichern und zu optimieren – in jeder Größenordnung.

Erfahren Sie mehr über Splunk

Den Splunk-Blog abonnieren

Die neuesten Artikel von Splunk, direkt im eigenen Posteingang.

Jetzt registrieren

Auf X mit Splunk vernetzen

@Splunk folgen

Auf Instagram mit Splunk vernetzen

@Splunk folgen

Splunk-Blog für Entscheider aufrufen (Splunk Perspectives)

Perspectives lesen