Incidents und Operative Resilienz - Vorbereitung zahlt sich aus

Wie technologische und organisatorische Maßnahmen Geld sparen können
08.05.2024
Tags

Einleitung

Sind Sie auf einen Ausfall Ihrer IT vorbereitet? Wen müssten Sie kontaktieren und was passiert, wenn eine wichtige Kernkomponente ausfällt oder Daten verloren gehen? Gut zwei Drittel der Unternehmen des deutschen Mittelstandes würden nach diesen Fragen mit der Schulter zucken [1] - dabei lassen sich mit Vorbereitung immense Kosten sparen.

Daten und Fakten

Rund 25.000 Euro pro Stunde kostet ein IT-Ausfall im deutschen Mittelstand laut einer Befragung von Unternehmen mit 200-5.000 Mitarbeitenden. Bis zu vier solcher Ausfälle, die durchschnittlich 3,8 Stunden bis zur Behebung andauern, durchlebt jedes Unternehmen im Schnitt pro Jahr [1]. Das sind jährlich mehr als 380.000 Euro wirtschaftlicher Schaden!

Die Gründe für den hohen Schaden sind vielfältig: zwar hat nur etwa ein Drittel der Ausfälle Auswirkungen auf den Kundenbetrieb [2], aber auch interne Störungen können zu flächigem Produktivitätsausfall führen.

Ursachen und Abhilfe

Die größte Abhilfe schafft hierbei ein Prozessreview: ganze 20% der Ausfälle sind auf mangelhafte Prozesstreue zurückzuführen [2]. Hier ist Ursachenforschung gefragt: warum von den Prozessen abgewichen wurde ist ein wichtiger Datenpunkt und kann maßgebliche Hinweise liefern, wo Verbesserungspotential besteht. In Zeiten von hybriden und remote-Arbeitsumgebungen wandeln sich auch die Anforderungen an Arbeitsabläufe: “People before Process” ist hier ein nützliches Mantra, also ein Fokus auf die Bedürfnisse der durchführenden Mitarbeitenden. Das heißt nicht, dass “Befindlichkeiten” die Arbeitsabläufe diktieren sollten, sondern, dass Prozesse die Mitarbeitenden bei ihrer Arbeit so gut es geht unterstützen und nicht behindern sollten.

Doch auch technologisch kann man Einfluss nehmen: gerade Hyperscaler wie AWS erlauben großzügige Freiheiten, auf Ausfälle, Datenverluste und Fehler zu reagieren - egal ob durch smartes Monitoring und Alarmierung oder entsprechende automatische Fehlerbehebung durch z.B. den Neustart eines bestimmten Dienstes.

Die Auswahl des Cloudanbieters ist dabei nur der erste Faktor zu einer resilienten IT-Infrastruktur: AWS ist einer der wenigen Cloudanbieter, die seit ihren frühen Jahren die physische Separation ihrer Availability Zones garantieren und damit geophysische Redundanz schaffen. Microsoft Azure führte dies erst 2018 ein [3], die Google Cloud Platform garantiert bis heute keine physische Separation ihrer Zonen, obwohl sie 2023 berühmterweise den Grund lieferten, warum dies sinnvoll ist. [4]

Die eingesetzten Dienste und Technologien sind ebenfalls ein wichtiger Schlüssel zur Resilienz: smartes Monitoring und Logging sowie gut automatisiertes Autoscaling und Fehlermanagement leisten hier bereits einen Großteil der Arbeit.

Abschließend ist häufig auch ein fehlendes Desaster Recovery Konzept ein Grund für langanhaltende Ausfälle - während ein vorbereitetes Unternehmen im Notfall idealerweise nur auf einen Knopf drücken muss, um eine Minimalinfrastruktur für den Notbetrieb hochzufahren, müssen unvorbereitete Unternehmen oft erst Inventur nehmen und planen, was denn überhaupt benötigt wird und wie man es wiederherstellt.

Berüchtigt für dieses Szenario sind u.a. Angriffe mittels Ransomware, die nicht nur die Anwendungen angreifen, sondern auch die Unternehmensdaten unzugänglich machen. Eine wohldefinierte Cloudinfrastruktur mit geschützten Backups kann auch in diesem Fall Zeit und Geld sparen: betroffene Dienste können schnell terminiert werden und eingespielte Datenwiederherstellungen minimieren etwaige Datenverluste auf ein vertretbares Maß.

Zusammenfassung

Incidents und Ausfälle sind kostspielig und werden teurer, je mehr Mitarbeitende eine Firma beschäftigt und je größer der Kundenstamm ist. Spontan auf einen Ausfall reagieren zu müssen kostet vor allem Zeit und ist anfällig für Fehler. Vorbereitung, basierend auf aktuellen Daten aus der Wirtschaft und Forschung, sowie etablierte, gut eingeübte Prozessabläufe und Automatisierungen helfen dabei, Ausfälle so gut es geht zu verhindern und im Zweifelsfall, sie kurz zu halten. Bei der Vorbereitung sollte die gesamte Produktionskette inklusive aller dazugehörigen Prozesse, Bedrohungsszenarien und Infrastruktur berücksichtig werden.

Nutzen Sie unsere Erfahrung!

Als AWS Strategic Partner kann kreuzwerker Sie allumfänglich auf dem Weg zu operativer Resilienz beraten und unterstützen: unsere Experten stehen Ihnen sowohl mit prozessualen Reviews und Handlungsvorschlägen als auch mit tiefem, technologischen Fachwissen zu AWS Technologien und Best Practices, Backupstrategien, Observability und ElasticSearch sowie Deploymentorchestrierung mittels Kubernetes zur Verfügung.

Sie möchten evaluieren, ob Ihre Desaster Recovery modernen Standards genügt oder sie überhaupt erst etablieren? Wir unterstützen Sie gerne!

[1] https://digitalisationworld.com/news/27800/hp-studie-it-systemausf-auml-lle-kosten-deutsche-mittelst-auml-ndler-im-durchschnitt-fast-400000-euro-pro-jahr

[2] Uptime Institute, Annual Outage Analysis 2023

[3] https://azure.microsoft.com/en-us/blog/azure-availability-zones-now-available-for-the-most-comprehensive-resiliency-strategy/

[4] https://status.cloud.google.com/incidents/dS9ps52MUnxQfyDGPfkY