Ob in der Cloud oder vor Ort: Einsichten in das Innenleben unserer IT-Dienste und -Infrastrukturen zählen zu den wesentlichen Bestandteilen eines gut funktionierenden IT-Systems.
Das Streben nach digitaler Transformation als strategisches Kernziel hat für die meisten modernen Unternehmen dazu geführt, dass die Sicherstellung gut funktionierender, sicherer und kostengünstiger IT-Systeme eine entscheidende Aufgabe ist. Die Überwachung von IT-Status und -Leistung spielt eine extrem wichtige Rolle bei:
Laut der jährlichen Ausfallanalyse des Uptime Institute verursachen mehr als zwei Drittel (67 Prozent) aller Ausfälle Kosten von über 100.000 Dollar für ein Unternehmen. Die Schlussfolgerung? Die Fähigkeit, Systemanomalien schnell zu erkennen und zu beheben, zählt zum Pflichtprogramm.
In diesem Artikel erklären wir euch, was überwacht wird, wie die Überwachung abläuft und welche Trends sich abzeichnen.
Splunk IT Service Intelligence (ITSI) ist eine AIOps-, Analyse- und IT-Management-Lösung, die Teams dabei unterstützt, Vorfälle vorherzusagen, bevor sie sich auf Kunden auswirken.
Unter Einsatz von KI und maschinellem Lernen korreliert ITSI Daten aus Überwachungsquellen und liefert eine einheitliche Echtzeitansicht relevanter IT- und Geschäftsdienste, reduziert die Alarmmenge und verhindert proaktiv Ausfälle.
Vereinfacht ausgedrückt bezeichnet der Begriff „IT-Monitoring“ alle Prozesse und Werkzeuge, die bei der Überprüfung helfen, ob die IT-Ausstattung und digitalen Dienste einer Organisation ordnungsgemäß funktionieren. Überwachung hilft bei der Erkennung und Lösung von Problemen, und zwar bei allen möglichen Problemen.
Monitoring ist heutzutage eine komplexe Angelegenheit. Der Grund dafür liegt in der Komplexität unserer Systeme und Architekturen – die verwendeten IT-Systeme sind verteilt. (Genau wie die Menschen, mit denen wir zusammenarbeiten.)
Betrachten wir einige offizielle Definitionen.
Das SRE-Book von Google definiert Monitoring als „das Sammeln, Verarbeiten, Aggregieren und Anzeigen von quantitativen Echtzeitdaten über ein System verteilt“. Diese Daten können Abfragezahlen und -typen, Fehlerzahlen und -typen, Verarbeitungszeiten und Server-Laufzeiten umfassen.
In ITIL® 4 fallen Informationen über den Zustand und die Leistung von Services in die Kategorie „Monitoring und Event Management“. Sie definieren Überwachung als eine Fähigkeit, die es Organisationen ermöglicht:
Monitoring ist eng mit vielen IT-Service-Management-Praktiken (ITSM) verknüpft, darunter Vorfall-Management, Problem-Management, Verfügbarkeits-Management, Kapazitäts- und Leistungs-Management, Informationssicherheits-Management, Service-Kontinuitäts-Management, Konfigurations-Management, Bereitstellungs-Management und Change Enablement.
Monitoring kann verschiedene Ausprägungen haben. Obwohl dieser Artikel IT-Systemüberwachung im großen Rahmen behandelt, können wir auch spezifischere Untergruppen des Monitorings unterscheiden, etwa:
(Splunk kann bei all dem unterstützen. Wir bieten auch anbieterspezifisches Monitoring: AWS, SAP, GCP and more.)
Ein Beispiel: Splunk Infrastructure Monitoring zeigt ein AWS-Services-Dashboard
Das EC2-Dashboard zeigt vorkonfigurierte Metriken an und weist auf kritische Festplattenspeicherprobleme hin
IT-Systemüberwachung beantwortet zwei grundlegende Fragen: Was geschieht und warum geschieht es?
Um diese Fragen zu beantworten, müsst ihr Systembestandteile kontinuierlich auf Anomalien, Probleme oder Warnungen für Wartungsaktivitäten überprüfen. Das stellt sicher, dass die Dienste auf Basis vereinbarter Leistungsniveaus funktionieren und genutzt werden können.
Metriken sind die Quellen für Rohmessdaten, die von Überwachungssystemen gesammelt, aggregiert und analysiert werden. IT-Systemmetriken erstrecken sich über mehrere Ebenen, darunter:
Monitoring basierend auf niedrigstufigen Infrastrukturmetriken heißt auch „Black-Box-Monitoring“. Dies liegt üblicherweise im Aufgabenbereich von Systemadministratoren und DevOps-Ingenieuren. Auf Anwendungsebene gilt der Begriff „White-Box-Monitoring“, was normalerweise zum Aufgabenbereich von Entwicklern und Application-Support-Ingenieuren gehört.
IT-System-Monitoring-Metriken stammen normalerweise aus nativen Überwachungsfunktionen, die in die beobachteten IT-Komponenten integriert sind.
Darüber hinaus setzen einige IT-Überwachungssysteme auf maßgeschneiderte Lösungen (wie leichte Software-Agenten), die fortgeschrittenere Service-Level-Metriken extrahieren können.
Laut Google gibt es vier goldene Signale, auf die sich die IT-Systemüberwachung konzentrieren sollte:
Wenn Systemadministratoren Überwachungssysteme zur Erfassung von mehr Daten einrichten, besteht die Gefahr von Überforderung durch:
Es empfiehlt sich, einfache, vorhersehbare und zuverlässige Regeln aufzustellen, die echte Probleme in den meisten Fällen erkennen.
Darüber hinaus können regelmäßige Überprüfungen der Schwellenwerteinstellungen (informativ vs. Warnung vs. Ausnahme) sowie die effektive Konfiguration automatisierter Korrelationsmechanismen, wie sie AIOps ermöglicht, übermäßige Alarmhäufungen verhindern.
(Erfahrt mehr über adaptive Schwellenwerte, die eine intelligentere Überwachung ermöglichen.)
Lasst uns nun vor diesem Hintergrund die sechs Hauptaktivitäten der IT-Systemüberwachung betrachten:
Die Auswahl eines zu überwachenden IT-Systems erfordert mehrere Planungsschritte, darunter: Festlegung der Priorität, Auswahl zu überwachender Merkmale, Festlegung von Metriken und Schwellenwerten zur Event-Klassifizierung, Definition eines „gesunden“ Servicemodells (End-to-End-Ereignisse), Festlegung von Ereigniskorrelationen und Regelsätzen sowie Zuordnung von Ereignissen zu Aktionsplänen und verantwortlichen Teams.
Wesentliche Ergebnisse der Planung umfassen:
Dies ist die erste Stufe, die sich mit einem Ereignis beschäftigt. Hier finden IT-System-Alarmmeldungen Beachtung, wenn die festgelegten Schwellenwerte und Kriterien überschritten werden. Ein IT-Monitoring-System erfasst Alarme, wo sie angezeigt, zusammengefasst und analysiert werden können.
Auf Basis der festgelegten Regeln filtert und korreliert das Überwachungssystem den empfangenen Alarm. Die Filterung kann auf folgenden Kriterien basieren:
Die Korrelation überprüft Muster unter anderen Alarmen, um Anomaliequellen und potenzielle Auswirkungen zu ermitteln.
In dieser Phase erfolgt die Einordnung des Ereignisses nach festgelegten Kriterien (wie Typ und Priorität), um die richtige Reaktion auf es zu ermitteln. Beispielsweise würden Alarme im Zusammenhang mit Eindringversuchen oder Ransomware als Sicherheitsereignisse klassifiziert – und dies informiert ein SOC-Team, dass es handeln muss.
Basierend auf dem zuvor definierten Aktionsplan und Verantwortlichkeiten wird das zuständige Team per E-Mail, Textnachricht, Online-Kollaborationssystem oder einem anderen vereinbarten Kanal benachrichtigt.
In manchen IT-Umgebungen kann die Ereignisreaktion automatisiert erfolgen. Das bedeutet, dass Maßnahmen ohne menschliches Eingreifen erfolgen, etwa ein Neustart von Instanzen oder die Umleitung von Datenverkehr.
Basierend auf dem Handling von Ereignissen und deren Auswirkungen auf die Qualität der IT-Systeme sollte eine regelmäßige Überprüfung der Überwachungsplanung erfolgen. Das stellt sicher, dass die festgelegten Metriken und Schwellenwerte noch den Anforderungen entsprechen.Diese Überprüfung sollte auch:
Durch die zunehmende Komplexität von IT-Systemen müssen Unternehmen in Überwachungsinstrumente investieren, die mit der technologischen Entwicklung und dem Umfang der Änderungen Schritt halten können.
Eine Umfrage von 451 Research ergab, dass 39 Prozent der Befragten zwischen 11 und 30 Monitoring-Tools für ihre Anwendungs-, Infrastruktur- und Cloud-Umgebungen einsetzen. Diese Tool-Vielfalt führt schnell zu:
Tools, die die gesamte Technologielandschaft abdecken und Ereignisse über zahlreiche Systeme und Umgebungen hinweg konsolidieren, werden Unternehmen, die ein gutes Preis-Leistungs-Verhältnis suchen, zwangsläufig attraktiver finden.
Durch die Zusammenarbeit mit Kunden in den letzten Jahren und jährliche Forschung zeichnen sich zwei Haupttrends ab.
Der Einfluss von KI/ML auf die IT-Systemüberwachung wird weiter zunehmen, insbesondere angesichts der wachsenden Fähigkeiten großer Sprachmodelle (LLMs). Moderne Tools mit integrierter KI können nun den gesamten Prozesslebenszyklus von der Erkennung bis zur Reaktion abdecken. Dies gilt insbesondere für die Analyse großer Ereignisdatenmengen sowie für mühsame Aufgaben wie Ereigniskorrelation und Protokollanalyse in verteilten Systemen.
Mit entsprechendem Training eignen sich diese Tools perfekt dazu, schneller und effektiver als jedes menschliche Team durch den Alarmdschungel und Falschmeldungen zu navigieren. Dies bedeutet jedoch nicht, dass Menschen vollständig aus dem IT-System-Monitoring verschwinden. Vielmehr verlagert sich ihr Fokus auf die Entwicklung besserer Orchestrierungs- und Automatisierungstools zur Reaktion auf und Lösung von Alarmmeldungen.
Der andere Trend, der das IT-System-Monitoring beeinflusst, ist das Aufkommen einheitlicher Beobachtbarkeit. Der Aufstieg von Plattformen, die eine einheitliche Sicht auf Infrastruktur, Anwendungen und Benutzererfahrung bieten, indem sie Protokolle, Metriken und Traces analysieren, stellt euch eine wertvolle Lupe zur Verfügung. Sie ermöglicht eine gründlichere Analyse von Alarmen, um die genauen Probleme zu identifizieren, mit denen sich Benutzer in komplexen Umgebungen konfrontiert sehen.
Für Unternehmen jeder Größe stellt IT-Systemüberwachung eine entscheidende Möglichkeit dar, um die Funktionalität, Leistung und Sicherheit von IT-Diensten zu gewährleisten. Das Feld des IT-System-Monitorings wird sich weiterentwickeln, um neue Herausforderungen zu bewältigen und mehr Vorteile zu bieten, sofern sich die Technologie auch weiterhin verändert.
Die Bedeutung kontinuierlicher Verbesserung kann nicht hoch genug eingeschätzt werden. Unternehmen können nur durch einen proaktiven, datengesteuerten Ansatz beim IT-System-Monitoring garantieren, dass ihre Dienste Mehrwerte liefern.
Ihr habt einen Fehler entdeckt oder eine Anregung? Bitte lasst es uns wissen und schreibt eine E-Mail an ssg-blogs@splunk.com.
Dieser Beitrag spiegelt nicht zwingend die Position, Strategie oder Meinung von Splunk wider.
Weltweit führende Unternehmen verlassen sich auf Splunk, ein Cisco-Unternehmen, um mit unserer Plattform für einheitliche Sicherheit und Observability, die auf branchenführender KI basiert, kontinuierlich ihre digitale Resilienz zu stärken.
Unsere Kunden vertrauen auf die preisgekrönten Security- und Observability-Lösungen von Splunk, um ihre komplexen digitalen Umgebungen ungeachtet ihrer Größenordnung zuverlässig zu sichern und verbessern.