DEVOPS

Fehlalarme nerven… jetzt ist Schluss damit!

Es gibt einen interessanten semiotischen Effekt, durch den bedeutungstragende Zeichen im Handumdrehen bedeutungslos werden – die Wiederholung. 

Nehmen wir folgendes Beispiel:

VORSICHT!

Wer mit dieser Warnung Aufmerksamkeit verschaffen will, kann sie hervorheben, lauter rufen, in roten Lettern drucken usw. Wer die Nachricht dagegen beständig wiederholt, erreicht damit das Gegenteil. Der gewünschte Effekt verliert sich in der Redundanz:

VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT!
VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! VORSICHT! 

Manchmal ist dieser Effekt der Bedeutungsentleerung gewollt (etwa beim Rezitieren eines Mantras). In der IT wirkt er aber meist verheerend. Zum Beispiel wenn die Cybersicherheit oder die Funktionsfähigkeit von Online-Systemen auf dem Spiel steht. Dann verpasst man wahrscheinlich, dass hinter dem siebten „Vorsicht!“ eine echte, ernstzunehmende Warnung gesteckt hat.

Drei Wünsche gegen Alarmmüdigkeit

In der IT heißt dieser Effekt „Alarmmüdigkeit“ (Alert Fatigue), und sie hat viele Facetten: zu viele Warnmeldungen, Fehlalarme, kryptische Benachrichtigungen mit wenig Aussagekraft – sie alle führen dazu, dass die Flut an Meldungen überhandnehmen und irgendwann nicht mehr ernst genommen oder gar nicht mehr wahrgenommen werden. Wenn digitale First Responder drei Wünsche frei hätten, würden sie selbst vermutlich dieses sagen:

  • Ruf mich, wenn du dir nicht selbst helfen kannst.
    (Und nicht bei Problemen, die bereits anderweitig gelöst sind.)
  • Ruf mich, wenn es dringend ist.
    (Und nicht bei Problemen, die vorerst ohne Folgen bleiben.)
  • Ruf mich, wenn du mich brauchst.
    (Und nicht jemand anderen.)

Dazu bräuchte es allerdings eine gewisse Übersicht. Und auch diese Übersicht hat in der IT einen Namen: Observability. Observability kann die drei Wünsche der Security- und Operations-Teams tadellos erfüllen.

Benebelt von Alert Fatigue? Abschalten ist keine Lösung!

GIPHY




















Der Grundgedanke jedes einzelnen Sicherheitstools und jeder einzelnen Sicherheitsfunktion in Software und Hardware ist gut: Je früher eine Gefahr erkannt wird, desto eher können Gegenmaßnahmen eingeleitet werden. Zu viel Sicherheit kann aber zu Lähmung führen. Und in heutigen IT-Umgebungen ist das oft der Fall. 

E-Mail-Programme, SIEMs, Firewalls und viele mehr funken aus ihren Silos, lösen Alarme aus und buhlen um Aufmerksamkeit. Um auf Nummer sicher zu gehen, werden viele Meldungen im Zweifelsfall auch noch als kritisch eingestuft, obwohl sie es nicht sind. 

Das Ergebnis ist immer das gleiche: IT-Verantwortliche sehen sich einer Flut von Warnungen gegenüber, die sie kaum einschätzen und denen sie erst recht nicht allen nachgehen können (wir sprechen hier übrigens von bis zu mehreren Tausend pro Tag!). Fehlalarme und unnötige Warnungen zählen mittlerweile zu den größten Nervensägen von IT-Admins. Es gibt sogar Unternehmen, die ihre Sicherheitssysteme absichtlich entschärft haben, um die Unmenge an Fehlalarmen in den Griff zu bekommen. 

Mut zur Lücke? Besser nicht. Sinnvoller ist es, das Übel an den Wurzeln zu packen.

Strukturierte Warnmeldesysteme gegen Alarmmüdigkeit

Dazu gibt es mehrere Ansatzpunkte. Der erste ist, die eingehenden Alarme zu bündeln, sodass euer Team nicht mit fünf Wassereimern an sieben verschiedenen Brandherden arbeiten muss. Laufen die Meldungen an einer zentralen Stelle ein, erleichtert das den Überblick und die Priorisierung.

Noch besser ist es, wenn die Alarme mit möglichst vielen weiteren Kontextinformationen angereichert sind:

  • Wo genau liegt das Problem?
  • Wann ist es aufgetreten, gab es schon vergleichbare Vorfälle? 
  • Welche Alarme haben denselben Auslöser oder stehen in direkter Beziehung zueinander?
  • Was muss ich noch wissen, um den Alarm qualifiziert beurteilen zu können?

Die Guru Meditation mit simpler Fehleradresse war beim Commodore Amiga vielleicht noch zeitgemäß. Heute ist sie es nicht mehr.

Automatisierung ist Pflicht

Wer das beherzigt, kann die Unternehmens-IT zwar schon deutlich entlasten. Darüber hinaus ist es aber auch essenziell, das Incident Management zu optimieren. Das kann in komplexen IT-Umgebungen heutzutage nur mit Automatisierung erreicht werden. Reaktionszeiten auf einen Störfall lassen sich beispielsweise deutlich verkürzen, wenn Warnmeldungen direkt die richtigen Empfänger im Bereitschaftsdienst erreichen. Dazu können unter anderem Eskalationsrichtlinien vorgegeben werden. Moderne Systeme liefern außerdem gleich Vorschläge zu geeigneten Respondern mit.

Die Optimierung der internen Workflows hat zwei weitere positive Effekte. Zum einen lässt sich das verfügbare IT-Budget effizienter verwenden, wenn die Mittel gezielt dort eingesetzt werden, wo sie dringend gebraucht werden. Zum anderen senkt sie die Burnout-Gefahr im Bereitschaftsteam, dem die Arbeit enorm erleichtert wird.

Observability mit Sofortanalysen – die Wunscherfüllungsmaschine

Ihr erinnert euch an die drei Wünsche digitaler First Responder oben? Nun, mit den dargestellten Maßnahmen gehen diese Wünsche in Erfüllung:

 

  • Ruf mich, wenn du dir nicht selbst helfen kannst. – Wird gemacht, ein Großteil der Probleme hat sich ja bereits automatisiert erledigt.
  • Ruf mich, wenn es dringend ist. – Geht in Ordnung, wir erfahren jetzt sofort und mit Kontext, wie ein Problem nach Schweregrad einzustufen ist.
  • Ruf mich, wenn du mich brauchst. – Sowieso, die Playbooks sorgen dafür, dass Rollen und Zuständigkeiten stets klar sind.

 

Aber bitte beachtet: Das alles ist weit mehr, als eine bloße Monitoring-Lösung leisten kann. Was es hierfür braucht, ist Observability

Observability unterscheidet sich aber noch in weiteren Punkten vom klassischen Monitoring. Observability-Tools können nicht nur Logs, Metriken und Traces aus unterschiedlichsten Quellen zusammenführen und verarbeiten, sondern liefern auch gleich spezialisierte Analysefunktionen mit, sodass sich daraus ein ebenso umfassender wie detaillierter Einblick in verteilte Systeme ergibt.

Alarm gelöst, bevor er losgeht

Und es geht sogar noch besser: Die Observability-Lösung von Splunk registriert und untersucht automatisch auch unübliche Veränderungen in den Systemen mittels künstlicher Intelligenz. So ist es unter anderem möglich, sicherheits- oder performance-kritische Vorfälle zu verhindern, bevor sie überhaupt zum Problem werden.

Observability zieht alle verfügbaren Informationen aus verschiedenen Quellen zusammen, um IT-Sicherheit und IT Operations die bestmögliche Entscheidungsgrundlage bei Vorfällen zu liefern. Allein indem Observability-Systeme viele Meldungen schon automatisiert abarbeiten, beugen sie wirksam der Alarmmüdigkeit vor. 

Sprecht uns an, wenn ihr mehr über die Observability-Plattform von Splunk erfahren möchtet oder startet einfach unverbindlich mit einer kostenlosen Testversion. Gerne könnt ihr bei Fragen auch mich direkt kontaktieren!

Bis zum nächsten Mal!

Stephan

Stephan ist mit seinem Eintritt im April 2019 im Vertriebsteam bei Splunk und seit August 2021 als Sales Specialist mit Fokus auf IT-Operations und Observability in Deutschland tätig. 

Stephan verfügt deutschland- und europaweit über mehr als 20 Jahre Erfahrung verschiedenen Bereichen des IT-Vertriebs. Weitere Stationen hierbei waren internationale Hersteller wie z. B. Integrated Research, Oracle, Axway, Software AG, Attachmate oder 3Com.