false
29. November 2023
 | 
12 Minuten Lesedauer

Was ist IT-Monitoring? IT-Systemüberwachung erklärt

Ob in der Cloud oder vor Ort: Einsichten in das Innenleben unserer IT-Dienste und -Infrastrukturen zählen zu den wesentlichen Bestandteilen eines gut funktionierenden IT-Systems.

Das Streben nach digitaler Transformation als strategisches Kernziel hat für die meisten modernen Unternehmen dazu geführt, dass die Sicherstellung gut funktionierender, sicherer und kostengünstiger IT-Systeme eine entscheidende Aufgabe ist. Die Überwachung von IT-Status und -Leistung spielt eine extrem wichtige Rolle bei:

Laut der jährlichen Ausfallanalyse des Uptime Institute verursachen mehr als zwei Drittel (67 Prozent) aller Ausfälle Kosten von über 100.000 Dollar für ein Unternehmen. Die Schlussfolgerung? Die Fähigkeit, Systemanomalien schnell zu erkennen und zu beheben, zählt zum Pflichtprogramm.

In diesem Artikel erklären wir euch, was überwacht wird, wie die Überwachung abläuft und welche Trends sich abzeichnen.


Splunk ITSI ist ein Branchenführer im Bereich AIOps

Splunk IT Service Intelligence (ITSI) ist eine AIOps-, Analyse- und IT-Management-Lösung, die Teams dabei unterstützt, Vorfälle vorherzusagen, bevor sie sich auf Kunden auswirken.

Unter Einsatz von KI und maschinellem Lernen korreliert ITSI Daten aus Überwachungsquellen und liefert eine einheitliche Echtzeitansicht relevanter IT- und Geschäftsdienste, reduziert die Alarmmenge und verhindert proaktiv Ausfälle.

Erfahre mehr über Splunk ITSI ›

Was ist IT-Systemüberwachung?

Vereinfacht ausgedrückt bezeichnet der Begriff „IT-Monitoring“ alle Prozesse und Werkzeuge, die bei der Überprüfung helfen, ob die IT-Ausstattung und digitalen Dienste einer Organisation ordnungsgemäß funktionieren. Überwachung hilft bei der Erkennung und Lösung von Problemen, und zwar bei allen möglichen Problemen.

Monitoring ist heutzutage eine komplexe Angelegenheit. Der Grund dafür liegt in der Komplexität unserer Systeme und Architekturen – die verwendeten IT-Systeme sind verteilt. (Genau wie die Menschen, mit denen wir zusammenarbeiten.)

Betrachten wir einige offizielle Definitionen.

Das SRE-Book von Google definiert Monitoring als „das Sammeln, Verarbeiten, Aggregieren und Anzeigen von quantitativen Echtzeitdaten über ein System verteilt“. Diese Daten können Abfragezahlen und -typen, Fehlerzahlen und -typen, Verarbeitungszeiten und Server-Laufzeiten umfassen.

In ITIL® 4 fallen Informationen über den Zustand und die Leistung von Services in die Kategorie „Monitoring und Event Management“. Sie definieren Überwachung als eine Fähigkeit, die es Organisationen ermöglicht:

  • Angemessen auf vergangene servicerelevante Ereignisse zu reagieren.
  • Proaktive Maßnahmen zur Vermeidung zukünftiger Negativereignisse zu ergreifen.

Monitoring ist eng mit vielen IT-Service-Management-Praktiken (ITSM) verknüpft, darunter Vorfall-Management, Problem-Management, Verfügbarkeits-Management, Kapazitäts- und Leistungs-Management, Informationssicherheits-Management, Service-Kontinuitäts-Management, Konfigurations-Management, Bereitstellungs-Management und Change Enablement.

Monitoring kann verschiedene Ausprägungen haben. Obwohl dieser Artikel IT-Systemüberwachung im großen Rahmen behandelt, können wir auch spezifischere Untergruppen des Monitorings unterscheiden, etwa:

(Splunk kann bei all dem unterstützen. Wir bieten auch anbieterspezifisches Monitoring: AWS, SAP, GCP and more.)


Ein Beispiel: Splunk Infrastructure Monitoring zeigt ein AWS-Services-Dashboard

Das EC2-Dashboard zeigt vorkonfigurierte Metriken an und weist auf kritische Festplattenspeicherprobleme hin


Was in IT-Systemen zu überwachen ist

IT-Systemüberwachung beantwortet zwei grundlegende Fragen: Was geschieht und warum geschieht es?

Um diese Fragen zu beantworten, müsst ihr Systembestandteile kontinuierlich auf Anomalien, Probleme oder Warnungen für Wartungsaktivitäten überprüfen. Das stellt sicher, dass die Dienste auf Basis vereinbarter Leistungsniveaus funktionieren und genutzt werden können.

Metriken sind die Quellen für Rohmessdaten, die von Überwachungssystemen gesammelt, aggregiert und analysiert werden. IT-Systemmetriken erstrecken sich über mehrere Ebenen, darunter:

  • Infrastrukturmetriken auf niedriger Ebene: Ihre Messung erfolgt auf der Ebene von Host, Server, Netzwerk und Einrichtungen. Das umfasst unter anderem CPU, Festplattenspeicher, Stromversorgung und Schnittstellenstatus.
  • Anwendungsmetriken: Diese werden auf Software-Ebene gemessen und beinhalten beispielsweise Antwortzeit, Fehlerrate und Ressourcennutzung.
  • Service-Level-Metriken: Diese basieren auf Infrastruktur, Konnektivität, Anwendungen und Serviceaktionen, wo zutreffend.

Monitoring basierend auf niedrigstufigen Infrastrukturmetriken heißt auch „Black-Box-Monitoring“. Dies liegt üblicherweise im Aufgabenbereich von Systemadministratoren und DevOps-Ingenieuren. Auf Anwendungsebene gilt der Begriff „White-Box-Monitoring“, was normalerweise zum Aufgabenbereich von Entwicklern und Application-Support-Ingenieuren gehört.

IT-System-Monitoring-Metriken stammen normalerweise aus nativen Überwachungsfunktionen, die in die beobachteten IT-Komponenten integriert sind.

Darüber hinaus setzen einige IT-Überwachungssysteme auf maßgeschneiderte Lösungen (wie leichte Software-Agenten), die fortgeschrittenere Service-Level-Metriken extrahieren können.

Vier goldene Signale

Laut Google gibt es vier goldene Signale, auf die sich die IT-Systemüberwachung konzentrieren sollte:

  1. Latenz.Die Zeitspanne für die Bearbeitung einer Anfrage, also die Umlaufzeit (normalerweise in Millisekunden). Je höher die Latenz, desto niedriger das Serviceniveau – hier beklagen sich Nutzer über Trägheit und mangelnde Reaktionsfähigkeit.
  2. Traffic (Datenverkehr).Ein Maß dafür, wie viel Nachfrage herrscht, also die Anzahl der bearbeiteten Anfragen oder Sitzungen innerhalb eines bestimmten Zeitraums, die die konfigurierte Kapazität beanspruchen. Mit zunehmendem Traffic steigt auch die Belastung der IT-Systeme. Das beeinträchtigt zunehmend die Customer Experience.
  3. Fehler (Fehlerrate). Der Anteil fehlgeschlagener Anfragen, sei es explizit, implizit oder regelbasiert. Fehler deuten auf Konfigurationsprobleme oder Ausfälle von Elementen im Servicemodell hin.
  4. Sättigung. Ein Maß, das zeigt, wo die am stärksten eingeschränkten Ressourcen liegen. Sie veranschaulicht, wie „voll“ oder beschäftigt der Dienst ist. Ein Überschreiten der festgelegten Auslastungsgrenzen führt wahrscheinlich zu Leistungseinbußen.

Best Practices zur Vermeidung von Alarmmüdigkeit

Wenn Systemadministratoren Überwachungssysteme zur Erfassung von mehr Daten einrichten, besteht die Gefahr von Überforderung durch:

  • Die Menge der ausgelösten Alarmmeldungen.
  • Die Komplexität bei der Verknüpfung von Alarmen und Protokollen.

Es empfiehlt sich, einfache, vorhersehbare und zuverlässige Regeln aufzustellen, die echte Probleme in den meisten Fällen erkennen.

Darüber hinaus können regelmäßige Überprüfungen der Schwellenwerteinstellungen (informativ vs. Warnung vs. Ausnahme) sowie die effektive Konfiguration automatisierter Korrelationsmechanismen, wie sie AIOps ermöglicht, übermäßige Alarmhäufungen verhindern.

(Erfahrt mehr über adaptive Schwellenwerte, die eine intelligentere Überwachung ermöglichen.)


Aktivitäten in der IT-Systemüberwachung

Lasst uns nun vor diesem Hintergrund die sechs Hauptaktivitäten der IT-Systemüberwachung betrachten:

Phase 1: Planung

Die Auswahl eines zu überwachenden IT-Systems erfordert mehrere Planungsschritte, darunter: Festlegung der Priorität, Auswahl zu überwachender Merkmale, Festlegung von Metriken und Schwellenwerten zur Event-Klassifizierung, Definition eines „gesunden“ Servicemodells (End-to-End-Ereignisse), Festlegung von Ereigniskorrelationen und Regelsätzen sowie Zuordnung von Ereignissen zu Aktionsplänen und verantwortlichen Teams.

Wesentliche Ergebnisse der Planung umfassen:

  • Einen Überwachungsplan für das IT-System
  • Ein gesundes Servicemodell
  • Definierte Ereignistypen
  • Kriterien bei der Ereigniserkennung
  • Priorität und Reaktion auf die Ereignisse
  • Eine Verantwortlichkeitsmatrix für das Ereignismanagement

Phase 2: Erkennung und Protokollierung

Dies ist die erste Stufe, die sich mit einem Ereignis beschäftigt. Hier finden IT-System-Alarmmeldungen Beachtung, wenn die festgelegten Schwellenwerte und Kriterien überschritten werden. Ein IT-Monitoring-System erfasst Alarme, wo sie angezeigt, zusammengefasst und analysiert werden können.

Phase 3: Filterung und Korrelation

Auf Basis der festgelegten Regeln filtert und korreliert das Überwachungssystem den empfangenen Alarm. Die Filterung kann auf folgenden Kriterien basieren:

  • Quelle
  • Erzeugungszeitpunkt
  • Stufe

Die Korrelation überprüft Muster unter anderen Alarmen, um Anomaliequellen und potenzielle Auswirkungen zu ermitteln.

Phase 4: Klassifizierung

In dieser Phase erfolgt die Einordnung des Ereignisses nach festgelegten Kriterien (wie Typ und Priorität), um die richtige Reaktion auf es zu ermitteln. Beispielsweise würden Alarme im Zusammenhang mit Eindringversuchen oder Ransomware als Sicherheitsereignisse klassifiziert – und dies informiert ein SOC-Team, dass es handeln muss.

Phase 5: Reaktion

Basierend auf dem zuvor definierten Aktionsplan und Verantwortlichkeiten wird das zuständige Team per E-Mail, Textnachricht, Online-Kollaborationssystem oder einem anderen vereinbarten Kanal benachrichtigt.

In manchen IT-Umgebungen kann die Ereignisreaktion automatisiert erfolgen. Das bedeutet, dass Maßnahmen ohne menschliches Eingreifen erfolgen, etwa ein Neustart von Instanzen oder die Umleitung von Datenverkehr.

Phase 6: Überprüfung

Basierend auf dem Handling von Ereignissen und deren Auswirkungen auf die Qualität der IT-Systeme sollte eine regelmäßige Überprüfung der Überwachungsplanung erfolgen. Das stellt sicher, dass die festgelegten Metriken und Schwellenwerte noch den Anforderungen entsprechen.Diese Überprüfung sollte auch:

  • Reaktionsverfahren und Verantwortlichkeiten aktualisieren.
  • Die Leistung der Metriken im Zusammenhang mit dem Ereignismanagementprozess überprüfen (beispielsweise Datenqualität und fehlgeschlagene Erkennungen), die zu Serviceausfällen führen.

Zukünftige Trends in der IT-Systemüberwachung

Durch die zunehmende Komplexität von IT-Systemen müssen Unternehmen in Überwachungsinstrumente investieren, die mit der technologischen Entwicklung und dem Umfang der Änderungen Schritt halten können.

Eine Umfrage von 451 Research ergab, dass 39 Prozent der Befragten zwischen 11 und 30 Monitoring-Tools für ihre Anwendungs-, Infrastruktur- und Cloud-Umgebungen einsetzen. Diese Tool-Vielfalt führt schnell zu:

  • Ineffizienz
  • Geldverschwendung
  • Verpassten Chancen

Tools, die die gesamte Technologielandschaft abdecken und Ereignisse über zahlreiche Systeme und Umgebungen hinweg konsolidieren, werden Unternehmen, die ein gutes Preis-Leistungs-Verhältnis suchen, zwangsläufig attraktiver finden.

Durch die Zusammenarbeit mit Kunden in den letzten Jahren und jährliche Forschung zeichnen sich zwei Haupttrends ab.

Einfluss von ML und KI

Der Einfluss von KI/ML auf die IT-Systemüberwachung wird weiter zunehmen, insbesondere angesichts der wachsenden Fähigkeiten großer Sprachmodelle (LLMs). Moderne Tools mit integrierter KI können nun den gesamten Prozesslebenszyklus von der Erkennung bis zur Reaktion abdecken. Dies gilt insbesondere für die Analyse großer Ereignisdatenmengen sowie für mühsame Aufgaben wie Ereigniskorrelation und Protokollanalyse in verteilten Systemen.

Mit entsprechendem Training eignen sich diese Tools perfekt dazu, schneller und effektiver als jedes menschliche Team durch den Alarmdschungel und Falschmeldungen zu navigieren. Dies bedeutet jedoch nicht, dass Menschen vollständig aus dem IT-System-Monitoring verschwinden. Vielmehr verlagert sich ihr Fokus auf die Entwicklung besserer Orchestrierungs- und Automatisierungstools zur Reaktion auf und Lösung von Alarmmeldungen.

Einheitliche Beobachtbarkeit

Der andere Trend, der das IT-System-Monitoring beeinflusst, ist das Aufkommen einheitlicher Beobachtbarkeit. Der Aufstieg von Plattformen, die eine einheitliche Sicht auf Infrastruktur, Anwendungen und Benutzererfahrung bieten, indem sie Protokolle, Metriken und Traces analysieren, stellt euch eine wertvolle Lupe zur Verfügung. Sie ermöglicht eine gründlichere Analyse von Alarmen, um die genauen Probleme zu identifizieren, mit denen sich Benutzer in komplexen Umgebungen konfrontiert sehen.

(Splunk ist die erste Plattform, die vollständige Beobachtbarkeit mit Cybersicherheit vereint. Erfahrt hier, wie es funktioniert.)

Überwacht die Gesundheit eures Unternehmens

Für Unternehmen jeder Größe stellt IT-Systemüberwachung eine entscheidende Möglichkeit dar, um die Funktionalität, Leistung und Sicherheit von IT-Diensten zu gewährleisten. Das Feld des IT-System-Monitorings wird sich weiterentwickeln, um neue Herausforderungen zu bewältigen und mehr Vorteile zu bieten, sofern sich die Technologie auch weiterhin verändert.

Die Bedeutung kontinuierlicher Verbesserung kann nicht hoch genug eingeschätzt werden. Unternehmen können nur durch einen proaktiven, datengesteuerten Ansatz beim IT-System-Monitoring garantieren, dass ihre Dienste Mehrwerte liefern.

 

Ihr habt einen Fehler entdeckt oder eine Anregung? Bitte lasst es uns wissen und schreibt eine E-Mail an ssg-blogs@splunk.com.

 

Dieser Beitrag spiegelt nicht zwingend die Position, Strategie oder Meinung von Splunk wider.

 

Joseph Nduhiu Picture

Joseph is an ICT consultant and trainer with over 18 years of global experience across multiple sectors. His passion is assisting business units and IT departments in executing their digital transformation strategies and streamlining their operations in line with global standards and best practices. His areas of expertise include business process reengineering, IT service management, project management and cyber resilience. You can connect with Joseph @josephnduhio and on LinkedIn.

Ähnliche Artikel

Über Splunk

Weltweit führende Unternehmen verlassen sich auf Splunk, ein Cisco-Unternehmen, um mit unserer Plattform für einheitliche Sicherheit und Observability, die auf branchenführender KI basiert, kontinuierlich ihre digitale Resilienz zu stärken.

 

Unsere Kunden vertrauen auf die preisgekrönten Security- und Observability-Lösungen von Splunk, um ihre komplexen digitalen Umgebungen ungeachtet ihrer Größenordnung zuverlässig zu sichern und verbessern.

Erfahrt hier mehr über Splunk