Veröffentlichungsdatum: 18. Oktober 2022
Bei der Verfügbarkeitsüberwachung (Availability Monitoring) wird der Status wichtiger IT-Systeme beobachtet, ganz gleich, ob es sich um lokale Services oder um Services in der Cloud handelt. Die leichteste Aufgabe, die Verfügbarkeitsüberwachungs-Tools erledigen können, besteht darin, dass sie in Echtzeit den Uptime-Status eines Systems melden, indem sie nach einem festen Zeitplan regelmäßig Services abfragen, um sicherzustellen, dass sie reagieren. Mit Tools zur Überwachung der Verfügbarkeit können jedoch auch komplexere Tests erstellt werden, die weitere Informationen liefern, indem sie ermitteln, ob Services von verschiedenen Standorten auf der ganzen Welt aufgerufen werden können und wie schnell sie reagieren und indem sie Fehler melden und die Gründe für Ausfälle ermitteln. Am besten funktioniert die Verfügbarkeitsüberwachung, wenn sowohl Echtzeit- als auch Prognose-Tools eingesetzt werden, sodass IT-Teams schnell auf Probleme reagieren können, bevor sie sich zur Katastrophe auswachsen.
Verfügbarkeitsüberwachung ist ein Teilbereich des Verfügbarkeitsmanagements, eines IT-Prozesses zur Überwachung und Verwaltung von IT-Services – von der Planung und Implementierung über Arbeitsabläufe bis hin zum Reporting. Geringe Verfügbarkeit kann beträchtliche Nachteile für ein Unternehmen nach sich ziehen, und in den meisten Organisationen, in denen Umsatz und Rentabilität direkt von ihr betroffen sind, führt sie zu unzufriedenen Kunden und einem schlechten Ruf. Zur Sicherstellung einer hohen Verfügbarkeit empfiehlt es sich u. a., sich mit den wichtigsten Risikoquellen aufgrund potenzieller Ausfälle im Unternehmen auseinanderzusetzen, einen Plan für regelmäßige Stresstests zu implementieren und, wann immer es möglich ist, auf Automatisierung zu setzen.
In diesem Artikel sehen wir uns das Verhältnis zwischen Verfügbarkeitsüberwachung und Verfügbarkeitsmanagement, die Methoden zur Gewährleistung einer hohen Qualität bei beiden sowie einige der im Rahmen dieser wichtigen IT-Disziplin am häufigsten verwendeten Tools an.
Worin besteht der Unterschied zwischen Verfügbarkeitsüberwachung und Verfügbarkeitsmanagement?
Die Verfügbarkeitsüberwachung (Availability Monitoring) ist ein Teilbereich des Verfügbarkeitsmanagements, bei dem es sich um den Prozess handelt, bei dem IT-Services geplant, analysiert, betrieben und überwacht werden. Das Ziel des Verfügbarkeitsmanagements besteht darin, für eine hohe Verfügbarkeit zu sorgen. Verfügbarkeitsmanagement ist umfassender als Verfügbarkeitsüberwachung. Es geht über das bloße Überwachen der Verfügbarkeit eines Service hinaus. Seine Aufgabe ist es, die Verfügbarkeit des betreffenden Service aktiv zu optimieren.
Um eine hohe Verfügbarkeit zu erreichen, benötigen Sie die richtige Kombination aus Redundanz, Skalierbarkeit, Lastenausgleich, Überwachung und Backup.
Verfügbarkeitsmanagement steht in engem Zusammenhang mit einer Reihe weiterer IT-Felder, wie z. B. mit dem IT-Servicemanagement (ITSM), dem Observability-Monitoring und dem Application Performance Monitoring (APM). Innerhalb des APM gibt es viele Überwachungs- oder Monitoring-Lösungen, wie etwa das Synthetic Monitoring, das Server-Monitoring, das Cloud-Monitoring, das Netzwerk-Monitoring und das Real User Monitoring (RUM). Das RUM führt die Verfügbarkeitsüberwachung, also das Availability Monitoring, einen Schritt weiter. Es bietet Einblick in die User Experience einer Website oder App, indem es passiv Timing-, Fehler- und Dimensionsinformationen von Endbenutzern in Echtzeit sammelt und analysiert.
Darüber hinaus ist das Verfügbarkeitsmanagement Teil des weithin genutzten ITIL-Frameworks, in dem die Standardprozesse und die bewährten Vorgehensweisen zur Optimierung von IT-Services und zur Minimierung der Auswirkungen von Service-Ausfällen festgelegt sind. Wie bei der Verfügbarkeitsüberwachung besteht eines der Ziele des Verfügbarkeitsmanagements darin sicherzustellen, dass das Unternehmen seine Kapazitäten optimal ausnutzt. Das ultimative Ziel des Verfügbarkeitsmanagements ist also die Förderung einer kontinuierlichen Verbesserung.
Warum ist es so wichtig, die Verfügbarkeit zu überwachen?
Verfügbarkeitsüberwachung (Availability Monitoring) ist eine Methode, mit der sichergestellt wird, dass IT-Produkte und -Services in Betrieb sind und wie erwartet funktionieren. Für nahezu alle Arten von Organisationen ist der IT-Bereich die Lebensader des Geschäfts. Nehmen wir z. B. das Website-Monitoring. Wenn die Homepage eines Unternehmens wie z. B. Amazon oder Facebook offline ist, wird schnell eine Katastrophe nach der anderen passieren. Ob nun eine rein informative Statusseite angezeigt wird oder ob es unmöglich ist, sich anzumelden; die Kunden ärgern sich sofort, der Umsatz fällt auf Null und am Ende sehen sich die Benutzer nach Alternativen um und schaden damit dem Ruf des Unternehmens und seinem wirtschaftlichen Erfolg.
Als es im Herbst 2021 bei Facebook (und bei seinen Schwester-Websites WhatsApp und Instagram) zu einem Ausfall kam, waren die Websites ca. sechs Stunden nicht zu erreichen. Während dieser Zeit meldeten mehr als 14 Mio. Benutzer, dass sie die Apps und Services von Facebook nicht nutzen konnten. Experten schätzen, dass jede Minute des Ausfalls an diesem Tag das Unternehmen USD 163.565,00 und damit insgesamt ca. USD 60 Mio. an Umsatzeinbußen kostete.
Darüber hinaus ziehen Ausfallzeiten Produktivitätseinbußen nach sich, da Unternehmen verpflichtet sind, einen „All Hands on Deck“-Alarm für die IT-Mitarbeiter auszugeben, die alles stehen und liegen lassen müssen, um schnell die nötigen Reparaturen durchzuführen, damit die Services wieder online gehen können.
Zweck der Verfügbarkeitsüberwachung ist es, diese Art von katastrophalen Kosten zu vermeiden und dafür zu sorgen, dass wichtige IT-Services – und nicht nur Website-Endpunkte sondern jede Art von Hardware und Software – in Betrieb bleiben und den an sie gestellten Erwartungen standhalten.
Eine weitere wichtige Funktion der Verfügbarkeitsüberwachung besteht darin zu überwachen, dass Service Level Agreements (SLAs) mit unabhängigen IT-Anbietern erfüllt werden. Wenn Sie Geschäfte mit einem Serviceanbieter (wie z. B. einem Internet-Serviceanbieter oder einem Cloud-Technologie-Anbieter) abschließen, sieht der Vertrag nahezu immer vor, dass der Anbieter ein Mindestmaß an Verfügbarkeit erreicht, das in der Regel als Prozentsatz der Uptime über einen Monat oder einen anderen vereinbarten Zeitraum angegeben wird. Somit obliegt es dem Kunden, die tatsächliche Verfügbarkeit beispielsweise per Uptime-Monitoring nachzuverfolgen. Wird der SLA nicht erfüllt – und die Lösung des Kunden zur Überwachung der Verfügbarkeit deckt dies auf – fallen Erstattungsbeträge oder Gutschriften an.
Downtime in Unternehmen führt oftmals zum Verlust von Kunden und beträchtlichen finanziellen Einbußen.
Was ist Service-Verfügbarkeitsüberwachung?
Service-Verfügbarkeitsüberwachung ist ein relativ wenig geläufiger Begriff, mit dem die Kontrolle webbasierter Services in Form von HTTP- und HTTPS-Datenverkehr bzw. die Funktionsweise webbasierter APIs beschrieben wird. Die meisten Verfügbarkeitsüberwachungslösungen wurden, was ihren Umfang und ihre Belastbarkeit anbelangt, seit den Anfängen des Internets erweitert und ermöglichen heutzutage die Kontrolle über eine viel breitere Sammlung von Technologien als über einfache Web-Services, wie z. B. über Hardware-Geräte, Netzwerkprozesse, Anwendungen und sonstige Technologieressourcen. Es gibt eine Reihe von Möglichkeiten zur Überwachung webbasierter Services; beispielsweise können Sie einen Cloud-Ping-Sensor zur Überwachung der TCP-Ping-Zeiten oder einen Cloud-HTTP-Sensor zur Überwachung der Webserver-Ladezeit verwenden. Alles in allem ist die Überwachung der Verfügbarkeit der Webservices nach wie vor für nahezu jedes Unternehmen unerlässlich, da das Internet bei so gut wie allen Kundeninteraktionen in der vordersten Reihe steht.
Was ist Cloud-Verfügbarkeitsüberwachung?
Wie der Name schon sagt, werden bei der Cloud-Verfügbarkeitsüberwachung die Uptime und die Leistung cloud-basierter Ressourcen gemessen. Diese Art der Überwachung ist besonders wichtig, wenn es darum geht sicherzustellen, dass in SLAs zugesicherte Vereinbarungen eingehalten werden. Cloud-Verfügbarkeitsüberwachung ist wichtig, und zwar ganz unabhängig davon, wo sie eingesetzt wird, ob nun in einer privaten oder öffentlichen oder in einer hybriden Umgebung.
Cloud-Verfügbarkeitsüberwachungstools sind tendenziell sehr auf das Testen verschiedener Services fokussiert. Im Gegensatz zu lokalen Anwendungen ist es relativ einfach, cloud-basierte Anwendungen zu testen, da Cloud-Services nicht nur funktionell unbegrenzte Ressourcen bieten, sondern diese Möglichkeit in der Regel als Standardfunktion beinhalten. IT-Abteilungen müssen keine zusätzliche Software installieren oder Verträge mit weiteren Testanbietern abschließen, um eine Cloud-Anwendung einem Stresstest zu unterziehen; diese Funktion ist nahezu immer in die Cloud-Plattform integriert.
Im weiteren Sinne des Begriffs geht die Cloud-Verfügbarkeitsüberwachung weit über einfaches Anwendungs-Monitoring hinaus und beinhaltet die Überwachung zusätzlicher cloud-basierter Ressourcen wie z. B. virtueller Maschinen, Datenbanken, Webanwendungen, Websites, Speicher etc. Zwar fallen viele dieser Teilsysteme u. U. normalerweise nicht unter den Begriff „Anwendung“, aber es muss unbedingt die gesamte Cloud-Umgebung überwacht werden, damit sichergestellt ist, dass die Anwendung, die darauf läuft, verfügbar ist. Als solche stehen alle Komponenten der Cloud-Infrastruktur und nicht nur ein kleiner Teil von ihnen im Fokus vieler Cloud-Verfügbarkeitsüberwachungstools, wie es bei herkömmlicheren Überwachungs- oder Monitoring-Tools ggf. eher der Fall ist.
Was ist Anwendungs-Verfügbarkeitsüberwachung?
Anwendungs-Verfügbarkeitsüberwachung ist eine Methode, mit der sichergestellt wird, dass eine Anwendung – in der Regel in einem Online-Setting – funktioniert und reagiert. Die Verfügbarkeit der Anwendung ist wichtig, da Benutzer in zunehmendem Maße nicht mit statischen Datenquellen interagieren, sondern mit dynamischen Anwendungen, ob nun auf einer Website oder einer Webseite (wenn sie z. B. ein webbasiertes E-Mail-System verwenden) oder bei der Arbeit in einer App auf einem Smartphone. Benutzer in einem Unternehmens-Setting interagieren darüber hinaus mit Anwendungen, die regulär auf dem Server gehostet werden.
Anwendungsverfügbarkeit ist wichtig, da sich die Verfügbarkeit von Anwendungen von der Verfügbarkeit von Netzwerken, Servern und sogar Websites unterscheidet. All diese Infrastrukturelemente funktionieren u. U. normal, während eine Anwendung, die darauf ausgeführt wird, möglicherweise ausfällt. In diesem Beispiel sieht es für das IT-Management, wenn nur der Server überwacht wird, ggf. so aus, als ob alles ordnungsgemäß funktioniert. Nur indem die Anwendungsverfügbarkeit direkt überwacht wird, kann das IT-Management feststellen, dass Benutzer auf Probleme stoßen, und mit der Suche nach der Ursache beginnen.
Anwendungs-Verfügbarkeitsüberwachung ist ein wichtiges Tool, und zwar nicht nur, wenn es darum geht, Uptime zu gewährleisten, sondern auch, um die Qualität der Benutzererfahrung zu messen. Ein gutes Tool zur Überwachung der Anwendungsverfügbarkeit misst nicht nur die Uptime als binären Messwert, sondern erfasst auch, wie reaktiv die Anwendung ist, ob es ein Latenzproblem gibt, wie lange die durchschnittliche Sitzung dauert und ob möglicherweise Fehler generiert werden. Letztlich besteht das Ziel bei der Überwachung der Anwendungsverfügbarkeit darin, dass das IT-Management mithilfe des Tools Probleme erkennen kann, solange sie noch klein sind, damit sie sich gar nicht erst zu einem großen Problem auswachsen können, bei dem die gesamte Anwendung offline geht.
Welche Best Practices gibt es im Bereich Verfügbarkeitsüberwachung?
Wie stellen Sie sicher, dass Sie einen optimalen Einblick in die Serviceverfügbarkeit erhalten – und wie verbessern Sie sie im Laufe der Zeit? Diese Best Practices können helfen:
- Machen Sie sich Gedanken darüber, was Sie überwachen: Jede einzelne Hardware- und Softwarekomponente zu überwachen klingt vielleicht ideal, ist jedoch nicht praktizierbar. Sie würden Tausende von Monitoring-Agents benötigen, die die Bandbreite der Infrastruktur und die Aufmerksamkeit der Mitarbeiter überstrapazieren würden, sodass alle möglichen falschen oder irrelevanten Benachrichtigungen oder Warnungen generiert würden. Ermitteln Sie die wichtigsten und die am meisten risikobehafteten Services im Unternehmen und konzentrieren Sie sich darauf, diese angemessen zu überwachen.
- Testen Sie häufiger: Eine der einfachsten Methoden zur Verbesserung der Überwachung der Verfügbarkeit besteht darin, die Zeiträume zwischen den Überprüfungen zu verkürzen. Wenn Sie Services einmal alle fünf Minuten testen, verkürzen Sie diesen Zeitraum auf einmal pro Minute. Denken Sie daran, dass das Testintervall dem Zeitraum entsprechen sollte, über den die Services maximal offline gehen können, bevor festgestellt wird, dass sie nicht funktionieren. Möchten Sie ganze fünf Minuten Verfügbarkeit verlieren, bevor Sie überhaupt merken, dass es ein Problem gibt? An dieser Stelle ist ein kontinuierliches Monitoring die beste Option.
- Testen Sie an mehreren Standorten: Bei Online-Services können Ausfälle für verschiedene Benutzer unterschiedliche Folgen haben. Während Ihre Services für einen Benutzer in New York völlig normal aussehen, kann ein Benutzer in Los Angeles aus unterschiedlichen Gründen auf Probleme stoßen. Wenn in bestimmten Regionen Performance-Probleme auftreten, wie z. B. nachhaltige Konnektivitätsprobleme, könnte dies darauf hinweisen, dass Sie zusätzliche Verfügbarkeitszonen einrichten müssen, die näher an den betroffenen Benutzern liegen.
- Führen Sie regelmäßig System-Stresstests durch: Mithilfe von Tools für die Verfügbarkeitsüberwachungs kann das IT-Management Synthetics-Tests entwickeln, durch die Systeme erheblichem Stress ausgesetzt werden – und zwar mehr, als normalerweise zu erwarten wäre. Auf diese Weise erhalten Analysten einen weitaus differenzierteren Einblick in die Funktionsweise der Services. Gleichzeitig können sie so Vorbereitungen für zukünftige Kapazitätsbedarfe treffen.
- Automatisieren Sie, wann immer es möglich ist: Wenn alle Ausfälle und Fehler von Menschen behoben werden sollen, führt dies ganz schnell zu Überlastung, Übermüdung und unzufriedenen IT-Mitarbeitern. KI-gestützte Automatisierungs- und Integrations-Tools können den Managern einen Großteil der Last von ihren Schultern nehmen, indem sie den Umgang mit häufig auftretenden Ausfällen optimieren und nur die schwierigsten Probleme zur Lösung an Mitarbeiter weiterleiten. Das ultimative Ziel der automatisierten Überwachung besteht darin, die Antwortzeit erheblich zu verkürzen und Probleme zu beheben, bevor alle gemerkt haben, dass es zu einem Ausfall gekommen ist - und bevor es Fehlertickets regnet.
- Lernen Sie, wie und wann es an der Zeit ist, Probleme weiterzuleiten: Ein automatisiertes Tool kann nur bestimmte Aufgaben alleine erledigen. Wenn ein Server brennt, können Ihre automatisierten Tools das Problem nicht ohne Hilfe beheben. Es ist unerlässlich, dass sie erkennen, wenn eine Person involviert werden muss und dass sie Probleme schnell und angemessen an einen First-Level-Techniker weiterleiten. Ebenso müssen diese Techniker in der Lage sein, Probleme nach Wichtigkeit einzuordnen, und erfahrenere Mitarbeiter einbinden, wenn eine Situation ganz besonders brenzlig ist. Dies erfordert Training, Stresstests, simulierte Ausfälle und natürlich ganz viel praktische Erfahrung.
Wie sehen die ersten Schritte bei der Verfügbarkeitsüberwachung aus?
Da es so viele Verfügbarkeitsüberwachungs-Tools in unterschiedlichen Preisklassen gibt – viele sind kostenlos oder zu einem sehr niedrigen Preis erhältlich –, sind die ersten Schritte mit dieser Technologie ganz einfach. Für viele Benutzer macht es am meisten Sinn, mit dem Monitoring-Service oder den Tools zu beginnen, die in die Services integriert sind, die sie bereits verwenden: Wenn Sie Amazon Web Services (AWS) verwenden, überwachen Sie Ihre AWS-Workloads natürlich mithilfe der Amazon CloudWatch-Plattform. AWS bietet eine Handvoll kostenloser benutzerdefinierter operativer Messgrößen und Alarme für die ersten Schritte mit dem System. Für Organisationen mit einem überschaubarem Bedarf an Verfügbarkeit stehen zahlreiche einfache, cloud-basierte Monitoring-Tools zur Verfügung. Und denken Sie daran, dass alle großen Cloud-Service-Anbieter das ein oder andere Monitoring-Tool in ihre Plattform integriert haben, wenngleich diese, was ihre Belastbarkeit anbelangt, sehr unterschiedlich sind.
Es ist einfach – und clever –, bei der Verfügbarkeitsüberwachung klein anzufangen. Ermitteln Sie zunächst nur wenige kritische Systeme und richten Sie zu ihrer Beobachtung Monitoring-Tools ein. Dies könnte die primäre Website Ihrer Organisation sein, eine wichtige Datenbank, ein wichtiger Dateiserver oder eine kritische Anwendung. Letztlich ist es nicht wirklich von Bedeutung, welches Gerät, welche Anwendung oder welchen Service Sie für die Überwachung wählen. Nutzen Sie einfach die Erfahrung, um zu verstehen, wie Sie am besten mit dem Monitoring-Tool umgehen, was passiert, wenn es zu einem Ausfall kommt, und wie Sie synthetische Stresstests einrichten. Während Sie sich mithilfe von Performance-Daten mit der Plattform vertraut machen, können Sie die Zahl und die Art der überwachten Systeme erweitern.
Wie sieht die Zukunft der Verfügbarkeitsüberwachung aus?
Während die Verfügbarkeitsüberwachung aller Wahrscheinlichkeit nach als eigenständige Disziplin weiterhin beliebt bleiben dürfte, werden einige der Funktionen, die früher den Verfügbarkeitsüberwachungs-Tools vorbehalten waren, in anspruchsvolleren Tools in Verbindung mit IT-Servicemanagement (ITSM) und Observability zusammengefasst. Einige eigenständige Monitoring-Tools wurden in den letzten Jahren eingestellt oder als veraltet eingestuft, da IT-Unternehmen die umfassenderen modernen Lösungen bevorzugen. AWS CloudWatch ist beispielsweise ein breit angelegtes Observability-Tool, das nahezu jeden AWS-Service überwachen und mithilfe von maschinellem Lernen unerwartetes Verhalten erkennen kann, was eine Fähigkeit ist, die über die herkömmliche Definition der Verfügbarkeitsüberwachung hinausgeht.
Alles in allem ist Verfügbarkeitsüberwachung nach wie vor in nahezu jedem Unternehmen eine unerlässliche Praktik. Unternehmenskritische Infrastruktur und Services werden im Laufe der Zeit immer wichtiger werden, und Organisationen, die die hohe Verfügbarkeit ihrer Geschäftstätigkeiten nicht aufrechterhalten können, werden aller Wahrscheinlichkeit nach am Markt Probleme bekommen.
Verfügbarkeit ist so wichtig geworden, dass es landesweit Aufmerksamkeit erregt, wenn große Web-Dienste auch nur für kurze Zeit offline sind. Verbraucher und Unternehmen verlassen sich bei einer großen Bandbreite an wichtigen Services auf IT-Produkte; wenn diese nicht verfügbar sind, ist das für sie problematisch, und auch für die Organisationen, die diese Services bereitstellen, ist die Situation schwierig. Es kann nicht genug betont werden, dass Kunden heutzutage von den Organisationen, mit denen sie interagieren, eine Uptime von nahezu 100 % erwarten. Damit ist es also an Ihnen sicherzustellen, dass Ihre Produkte in hohem Maße verfügbar bleiben, um den Unmut der Kunden, Umsatzeinbußen etc. zu vermeiden.
Prognosen zu IT & Observability
Gibt es etwas besseres als Überraschungen? Ja, nämlich auf alles vorbereitet zu sein. Unsere Experten verraten, wie das geht - in ihren Prognosen zu den wichtigsten Trends des kommenden Jahres.