Learn

25. August 2023

16 Minuten Lesedauer

Mean Time to Repair (MTTR): Definition, Tipps, Herausforderungen

Von Muhammad Raza

Die Verfügbarkeit und Zuverlässigkeit jedes IT-Dienstes bestimmen letztlich die Nutzererfahrung und die Leistung des Services. Beides beeinflusst das Geschäft erheblich.

Die beiden Konzepte – Verfügbarkeit und Zuverlässigkeit – sind besonders relevant im Cloud-Computing-Zeitalter, in dem Software die Geschäftsprozesse bestimmt. Diese Software wird jedoch oft von externen Anbietern als Dienst bereitgestellt und verwaltet. Letztendlich gehören Verfügbarkeit und Zuverlässigkeit zu den wichtigsten Faktoren bei der Bereitstellung von IT-Diensten.

Doch wie lassen sich Verfügbarkeit und Zuverlässigkeit messen?

Eine der wichtigsten Kennzahlen zur Messung dieser Zuverlässigkeitsmerkmale von Diensten ist MTTR. Hier erfahrt ihr alles Wissenswerte über die MTTR-Kennzahl, einschließlich ihrer Berechnung, wie ihr einen niedrigen MTTR-Wert erreicht und welche Herausforderungen euch dabei begegnen können.

Splunk ITSI ist ein Branchenführer im Bereich AIOps

Splunk IT Service Intelligence (ITSI) ist eine AIOps-, Analyse- und IT-Management-Lösung, die Teams dabei unterstützt, Vorfälle vorherzusagen, bevor sie sich auf Kunden auswirken.

Unter Einsatz von KI und maschinellem Lernen korreliert ITSI Daten aus Überwachungsquellen und liefert eine einheitliche Echtzeitansicht relevanter IT- und Geschäftsdienste, reduziert die Alarmmenge und verhindert proaktiv Ausfälle.

Erfahre mehr über Splunk ITSI ›

Was ist MTTR?

Als eine von mehreren „Ausfallkennzahlen“ bezeichnet Mean Time To Recover (MTTR) die durchschnittliche Zeit, die verstreicht, um ein Problem oder einen Ausfall in einem System oder einem Prozess zu beheben oder sich davon zu erholen. MTTR kann auch für Mean Time To Repair (mittlere Reparaturzeit), Mean Time To Resolve (durchschnittliche Lösungszeit) und Mean Time To Resolution (mittlere Zeit bis zur Lösung) stehen, die alle austauschbar verwendet werden. Manchmal kommt auch der Begriff „Average Time“ (durchschnittliche Zeit) anstelle von „Mean Time“ zum Einsatz – allesamt unterschiedliche Bezeichnungen für dasselbe Konzept.

Es handelt sich um eine der aussagekräftigsten und nützlichsten Kennzahlen, um zu ermitteln, wie gut die IT-Infrastruktur, Systeme und Ausrüstung einer Organisation funktionieren und wie effizient und effektiv das IT-Team bei der Reaktion auf kritische Vorfälle arbeitet.

In der Praxis gilt: Je niedriger der MTTR-Wert, desto schneller kann die Organisation auf Vorfälle reagieren, die die Verfügbarkeit von Diensten oder der Produktion beeinträchtigen, und sich von ihnen erholen. Der MTTR-Wert variiert sowohl aufgrund interner Fähigkeiten als auch aufgrund externer Faktoren. Beides beeinflusst die benötigte Zeit, um den Betrieb wieder in den Zustand vor dem Ausfall zu bringen.

(MTTR ist nur eine von vielen Kennzahlen, die wir für die Reaktion auf Vorfälle heranziehen können.)

Abgrenzung verschiedener MTTR-Definitionen

Die Diskussion über MTTR beinhaltet oft die Annahme, dass es sich um eine einzige Kennzahl mit einer einheitlichen Interpretation handelt. In Wirklichkeit umfasst das Ganze jedoch vier verschiedene Messgrößen. Das „R“ kann für Repair (Reparatur), Recovery (Wiederherstellung), Respond (Reaktion) oder Resolve (Lösung) stehen. Obwohl diese Kennzahlen ei¬nige Gemeinsamkeiten aufweisen, hat jede ihre eigene Bedeutung und Nuancen.

Mean Time To Resolve: Dieser Indikator misst die durchschnittliche Dauer vom Öffnen eines Tickets bis zu dessen Schließung (und Lösung des Problems).
Mean Time To Respond: Diese Kennzahl ermöglicht es IT-Teams, die durchschnittliche Zeit zu messen, die benötigt wird, um auf ein neu eröffnetes Ticket zu reagieren.
Mean Time To Recovery (oder Resolve): Dies bezeichnet die Dauer, um ein Problem zu erkennen, zu mindern und zu lösen. Sie ist besonders wichtig für DevOps-Praktiken und dient als Maß für die Stabilität eines DevOps-Teams, wie das Forschungsprogramm DevOps Research and Assessment (DORA) hervorhebt.

Fokus auf Mean Time To Repair

MTTR ist eine jener nützlichen Kennzahlen, die in verschiedenen Bereichen zum Einsatz kommen können. Sie wird am häufigsten mit dem Management eines Dienstes in Verbindung gebracht, um sicherzustellen, dass ein Service vertragsgemäß die Endnutzer erreicht. Sie erweist sich auch in der Software-Entwicklung als nützlich, beispielsweise in der DevOps-Praxis der kontinuierlichen Entwicklung: Mit zunehmendem Reifegrad eurer Software-Entwicklung wird euer MTTR-Wert wahrscheinlich sinken.

Bei der MTTR-Berechnung beginnt die Zeitmessung beim Erkennen eines Fehlers. Die MTTR umfasst die Zeit, die für die Diagnose des Problems, die Reparatur, das Testen und alle anderen Verfahren benötigt wird, bevor der Dienst wieder in den normalen Betrieb geht. Deshalb gilt ein niedriger MTTR-Wert als erstrebenswerter als ein hoher Wert.

Ein niedriger MTTR-Wert zeigt an, dass das System nur für einen relativ kurzen Zeitraum offline war,
ein hoher MTTR-Wert signalisiert das Gegenteil und deutet darauf hin, dass Nutzer oder Kunden für einen längeren Zeitraum beeinträchtigt waren.

Die meisten Service-Level-Agreements (SLAs) zwischen einem Kunden und einem Dienstleister/Anbieter enthalten MTTR in irgendeiner Form als Leistungsgarantie. Ein hoher MTTR-Wert kann zu hohen Vertragsstrafen führen. Ihr solltet immer im Hinterkopf behalten, dass die MTTR eine typische Reparaturzeit darstellt, nicht eine garantierte. Wenn ein Anbieter einen MTTR-Wert von 24 Stunden angibt, bedeutet dies, dass eine Reparatur üblicherweise so lange dauert. Einzelne Vorfälle können jedoch auch mehr oder weniger Zeit in Anspruch nehmen.

Die MTTR-Berechnung

Der Zweck von MTTR besteht darin, die Zeit zu erfassen, in der geschäftskritische Systeme ausfallen. Dies macht sie zu einer wertvollen Kennzahl für die Analyse des Gesamtausmaßes und der Auswirkungen eines IT-Vorfalls. Mathematisch wird die Mean-Time-To-Recover-Kennzahl wie folgt definiert:

MTTR = Verstrichene Zeit als Ausfallzeit / Anzahl der Vorfälle

oder

MTTR = Dauer der Wartung / Anzahl der Reparaturen

Für jede betroffene Komponente beinhaltet der MTTR-Wert die Zeit, die vom Moment des Vorfalls bis zum Augenblick der Wiederherstellung eines betriebsbereiten Zustands vergeht.

Verständnis von Verfügbarkeit und Zuverlässigkeit durch MTTR

In diesem Zusammenhang bezieht sich Verfügbarkeit auf den Anteil der Zeit, in der ein Dienst unter normalen Bedingungen betriebsbereit bleibt. Die Berechnung geht so:

Verfügbarkeit = (gesamte vergangene Zeit – gesamte Ausfallzeit) / gesamte vergangene Zeit

Das bedeutet, dass wir die Verfügbarkeit funktional als umgekehrte Funktion der MTTR betrachten können. Mit anderen Worten: Wenn der MTTR-Wert aufgrund mangelnder Systemzuverlässigkeit steigt, verbringt der Dienst weniger Zeit in einem voll funktionsfähigen und betriebsbereiten Zustand.

In unserer Gleichung bezieht sich Zuverlässigkeit auf die Wahrscheinlichkeit, dass der Dienst während seines Betriebszustands die erwarteten Leistungsstandards aufrechterhält.

Man kann Zuverlässigkeit als Attribut der Verfügbarkeit sehen. Das beschreibt, wie gut der Dienst bei vorübergehender Verfügbarkeit und in Ausfallsituationen im Vergleich zu vordefinierten Leistungsparametern funktioniert. Als allgemeine Regel gilt, dass die Zuverlässigkeit eines Dienstes im Laufe seines Lebenszyklus abnimmt, während der MTTR-Wert steigt.

Die MTTR kann von Komponente zu Komponente erheblich schwanken, da zahlreiche Faktoren die Verfügbarkeit und Zuverlässigkeit beeinflussen. Die Ausfallrate kann für eine einzelne Hardware- oder Software-Komponente als konstanter Wert definiert sein. Doch die Wiederherstellung des ursprünglichen Verfügbarkeitszustands hängt möglicherweise von diversen Faktoren ab, einschließlich interner Systemabhängigkeiten und externer Einflüsse (Verfügbarkeit von Ersatzprodukten, Werkzeugen und Dienstleistungen).

Bei der Bewertung dieser Kennzahl solltet ihr beachten, dass nicht jede MTTR gleich zu bewerten ist: Die Kosten von Ausfallzeiten fallen für E-Commerce-Unternehmen während der Hochsaison deutlich höher aus als bei einem Ausfall in der Nebensaison. In diesem Zusammenhang können verschiedene modulare Redundanzen die MTTR auf ein Minimum reduzieren, wodurch Ausfälle nahezu unbemerkt bleiben.

(Erfahrt, wie Site Reliability Engineers die Systemzuverlässigkeit verbessern.)

Gründe für die Überwachung und Messung der MTTR

Die MTTR steht in einem engen Zusammenhang mit der Performance des Unternehmens. Es folgen einige Beispiele, wie die MTTR Geschäftsabläufe und -ergebnisse beeinflusst.

Benutzererfahrung

Ungeplante Ausfälle wirken sich erheblich auf das Nutzererlebnis aus. Die MTTR ist besonders relevant für cloudbasierte Unternehmen, da die Opportunitätskosten von Ausfallzeiten vollständig davon abhängen, wie häufig Ausfälle auftreten und wie lange die Wiederherstellung nach einem IT-Ausfall dauert.

Das bedeutet, dass das Nutzererlebnis in umgekehrtem Verhältnis zur MTTR steht: Je länger die Wiederherstellung eines Dienstes nach einem Ausfall dauert, desto negativer wirkt sich dies auf das Nutzererlebnis aus.

Kosten durch Ausfallzeiten

Je länger die Reparatur oder Wiederherstellung nach einem Problem dauert, desto mehr Ausfallzeiten entstehen für ein Unternehmen. Ausfallzeiten können zu Folgendem führen:

Produktivitätseinbußen
Umsatzrückgang
Unzufriedenheit der Kunden

Eine kürzere MTTR verringert die Dauer der Ausfallzeiten und minimiert deren negative finanzielle Auswirkungen.

um die operative Effizienz zu verbessern.

In direktem Zusammenhang mit den Kosten für Ausfallzeiten zeigt eine niedrige MTTR, dass ein Unternehmen über effiziente Reparatur- und Wiederherstellungsprozesse verfügt. Diese Effizienz verringert nicht nur die Ausfallzeiten, sondern ermöglicht auch eine effektivere Nutzung der Ressourcen. Das verbessert die Gesamteffizienz des Betriebs.

Mitarbeiterproduktivität

In IT-intensiven Unternehmen spielt die MTTR für interne Systeme und Dienste eine genauso wichtige Rolle. Störungen bei wichtigen Tools können Angestellte daran hindern, Aufgaben effizient oder manchmal überhaupt auszuführen. Das zieht Produktivitätsverluste, frustrierte Mitarbeiter und Umsatzeinbußen nach sich.

SLA-Einhaltung

Es ist nicht ungewöhnlich, dass Unternehmen Service Level Agreements (SLAs) mit Kunden abschließen, die Mindestziele für die MTTR festlegen. Wenn Unternehmen die vereinbarte MTTR nicht einhalten, drohen ihnen möglicherweise Vertragsstrafen. Oder es kommen Klagen wegen Vertragsverletzung auf sie zu.

Wie ihr die MTTR in eurer Firma senkt

Das Streben nach einem hervorragenden MTTR-Wert ist nie eine einmalige Sache. Wie die meisten Aspekte in der IT handelt es sich um einen fortlaufenden Prozess, der ständige Iteration und Aufmerksamkeit erfordert.

Hier findet ihr einige Ansätze, wie Unternehmen den fortlaufenden Prozess zur Aufrechterhaltung einer niedrigen MTTR in Angriff nehmen können.

Monitoring und Benachrichtigungen

Um ein Problem zu beheben, müsst ihr wissen, worum es sich handelt und wo und wann es auftrat. Eine fortschrittliche IT-Überwachungslösung liefert euch Echtzeitdaten ohne Unterbrechung, um die Leistung eures Systems vollständig zu verstehen und alle Informationen zu Fehlern oder Ausfällen bereitzustellen.

Da die MTTR die Fähigkeit einer Organisation misst, auf ein Problem zu reagieren, muss die Alarmierung äußerst präzise und effektiv gelingen. Teams müssen so schnell wie möglich über größere Probleme informiert werden, um die Auswirkungen eines Vorfalls auf das Geschäft zu minimieren.

(Messt den Erfolg von Überwachung und Alarmierung mit der MTTA-Kennzahl.)

Kernursachenanalyse

Der erste Schritt zur Verbesserung der MTTR besteht darin, die Vorfälle und ihre Ursachen zu verstehen. Eine gründliche Ursachenanalyse größerer Vorfälle gilt als Schlüssel zur Minimierung der MTTR. Indem ihr versteht, was einen System- oder Komponentenausfall verursacht hat, könnt ihr geeignete Schutzmaßnahmen ergreifen, Ersatzteile bestellen oder Korrekturen implementieren, um ein wiederholtes Auftreten zu verhindern.

Erstellt einen Vorfallreaktionsplan

Unternehmen mit einem sorgfältig geplanten Vorfallreaktionsprotokoll reagieren mit höherer Wahrscheinlichkeit schnell und effektiv auf Probleme und weisen daher eine niedrigere MTTR auf. Für viele Unternehmen beinhaltet dies einen IT-Service-Management-Ansatz (ITSM). Firmen, die eine vollständige digitale Transformation erfolgreich durchlaufen haben, verfolgen möglicherweise einen flexibleren Ansatz. Das geschieht, indem sie funktionsübergreifende Kollaborationstools einsetzen und spezifische Reaktionen – sogar explizite Checklisten – für jeden Vorfall erstellen.

Eine hervorragende Lösung für viele Unternehmen ist ein automatisiertes Vorfallmanagementsystem, das den Prozess der Alarmierung über mehrere Kanäle hinweg (Telefonanrufe, SMS, E-Mail usw.) an alle involvierten Personen übernimmt und so die Benachrichtigungszeit verkürzt. Unabhängig davon ist der Schlüssel zu jedem Plan eine klare Vorstellung davon, wer bei einem Vorfall zu benachrichtigen ist, wie das Geschehen dokumentiert werden soll und welche Schritte zur Behebung erforderlich sind.

Wissensmanagement

Vergangene Vorfälle stellen nicht nur Dellen in der Verfügbarkeitskurve dar – sie bieten auch die Gelegenheit, zu lernen und sich auf die Zukunft vorzubereiten. Durch eine klare Protokollierung und Dokumentation dieser Vorfälle können Unternehmen eine Art Schnellreferenz-Handbuch für ähnliche Probleme in der Zukunft entwickeln, was letztlich zu einer besseren MTTR führt.

(Erfahrt, wie ihr eine Vorfallsanalyse durchführt.)

Redundanz und Failover-Systeme

So wie man in cloudbasierten Systemen Ausfallsicherheit implementiert, um vereinbarte SLA-Bedingungen für Zuverlässigkeit und Verfügbarkeit zu erfüllen, wird Redundanz eingeführt, um die potenziellen Auswirkungen der MTTR eines einzelnen Netzwerkknotens zu eliminieren.

Einzelne Knotenkomponenten können unzuverlässig sein, aber modulare Redundanz kann auf der Ebene einzelner Komponenten kostengünstig sein.

Bei der Entscheidung über die Implementierung modularer Redundanz sollten sowohl MTTR als auch MTTF (mittlere Zeit bis zum Ausfall) Berücksichtigung finden.

Letztendlich lässt sich ein extrem zuverlässiges System als eines definieren, das es schafft, die Summe aus MTTF und MTTR auf ein Minimum zu reduzieren.

Herausforderungen bei der MTTR-Optimierung

Die Verringerung der MTTR ist nicht nur ein kontinuierlicher Prozess, sondern kann sich zunehmend schwieriger gestalten. Durch das Aufkommen neuer Bedrohungen und die zunehmende Komplexität von Systemen befindet sich die Cybersicherheit in einem ständigen Wandel. IT-Teams sehen sich mit einer wachsenden Zahl potenzieller Schwachstellen in einem System konfrontiert.

Leider ist das nur die Spitze des Eisbergs. Hier sind einige der wichtigsten Herausforderungen, die es bei der Bewertung der MTTR zu beachten gilt.

Komplexität und Abhängigkeiten

Eine der Herausforderungen in Bezug auf Cloud-Umgebungen ist das Fehlen von Transparenz und Kontrolle über den Infrastrukturbetrieb. Ohne ausreichende Echtzeitüberwachungsdaten gelingt es möglicherweise nicht, die eigentliche Grundursache von IT-Ausfällen zu ermitteln. Die MTTR entpuppt sich dann als ein Faktor, der die Komplexität und die Abhängigkeiten innerhalb der IT-Umgebung fördert.

Um diese Bedenken auszuräumen, können KI-gestützte, automatische Intelligenztechnologien relevante Überwachungsdaten auf Prozessebene extrahieren, während sie die Systemleistung bewerten und Abhängigkeiten in der gesamten Multi-Cloud-Umgebung berücksichtigen.

Abhängigkeit von Drittanbietern

Es gibt einen Grund, warum ihr ein Tool eines Drittanbieters erworben habt. Ob der Grund dafür eine erweiterte Funktionalität, Skalierbarkeit oder ein Mangel an internem Personal oder Ressourcen ist: Ausfälle bei Tools von Drittanbietern können die MTTR erheblich beeinflussen. Da man sich wahrscheinlich zumindest teilweise auf externe Support-Teams verlassen muss und deutlich weniger Einblick in das System oder die Komponente hat, beeinträchtigt das die MTTR unweigerlich, falls eine Komponente eines Drittanbieters nicht mehr funktioniert.

(Erfahrt mehr über das Risikomanagement bei Drittanbietern.)

Mangel an Automatisierung

Eine manuelle Herangehensweise bei der Erkennung und Triage kann die MTTR deutlich erhöhen. Es ist wichtig, automatische Erkennungs- und Reaktionstools in ein System zu integrieren, um eine möglichst schnelle Behebung von Vorfällen zu gewährleisten.

Kommunikation mit den Nutzern

Jede Sekunde, die bei der Behebung eines Systemausfalls vergeht, ist eine Sekunde, in der die Kunden unter dem Ausfall leiden. Je nach bereitgestelltem Service oder Tool kann dies bei den Kunden großen Unmut auslösen. Kommunikationslücken während eines Ausfalls können zu Frust oder Unzufriedenheit führen. Die Kommunikation bei Ausfällen und die Behebungszeiten gestaltet sich zunehmend schwieriger, wenn die Ursachenanalyse länger als erwartet dauert.

Da nicht jede MTTR gleich ist, kann eine mangelnde Kommunikation mit den Nutzern bei einem schwerwiegenden Ausfall weitreichende Folgen für das gesamte Unternehmen haben.

Zusammenfassung

Die Verfügbarkeit und Zuverlässigkeit von IT-Diensten haben einen erheblichen Einfluss auf die Nutzererfahrung und die Gesamtleistung eines Unternehmens. Wenn wir die MTTR messen, lassen sich wertvolle Erkenntnisse über die Zuverlässigkeit von Diensten und die Effizienz von Vorfallbehebungsprozessen gewinnen.

Die MTTR ist ein entscheidender Indikator für jede Organisation, die einen Dienst anbietet, sei es intern oder extern. Die Bewältigung der hier aufgezeigten Herausforderungen kann die betriebliche Effizienz steigern, den Umsatz erhöhen und zu einer zufriedenen Kunden- und Nutzerbasis beitragen.

Ihr habt einen Fehler entdeckt oder eine Anregung? Bitte lasst es uns wissen und schreibt eine E-Mail an ssg-blogs@splunk.com.

Dieser Beitrag spiegelt nicht zwingend die Position, Strategie oder Meinung von Splunk wider.

Metriken-Leitfaden

Muhammad Raza

Muhammad Raza is a technology writer who specializes in cybersecurity, software development and machine learning and AI.

Über Splunk

Die führenden Unternehmen der Welt vertrauen auf Splunk, einem Unternehmen von Cisco, um ihre digitale Resilienz mit der einheitlichen Sicherheits- und Observability-Plattform, unterstützt durch branchenführende KI, kontinuierlich zu stärken.

Unsere Kunden setzen auf die preisgekrönten Sicherheits- und Observability-Lösungen von Splunk, um die Zuverlässigkeit ihrer komplexen digitalen Umgebungen zu sichern und zu optimieren – in jeder Größenordnung.

Erfahren Sie mehr über Splunk

Den Splunk-Blog abonnieren

Die neuesten Artikel von Splunk, direkt im eigenen Posteingang.

Jetzt registrieren

Auf X mit Splunk vernetzen

@Splunk folgen

Auf Instagram mit Splunk vernetzen