false
17. April 2024
 | 
14 Minuten Lesedauer

SOC-Metriken: Security-Metriken und -KPIs zur Messung des SOC-Erfolgs

Das Security Operations Center (SOC) ist eine zentrale Einheit, die für das gesamte Sicherheitsniveau eines Unternehmens zuständig ist. Ihr solltet wissen, was euer SOC leistet, damit eure Security-Teams einschätzen können, wie effektiv ihre Arbeit ist.

In diesem Artikel sehen wir uns an, was SOC-Metriken sind, warum sie wichtig sind, welche gängigen SOC-Metriken es gibt und wie euer SOC-Team diese Kennzahlen verbessern kann. 

SOC-Metriken und -KPIs

Moderne Unternehmen benötigen unbedingt ein Security Operations Center (SOC), das folgende Aufgaben übernimmt:

  • Überwachung von Systemen, Netzwerken und Daten auf mögliche Bedrohungen
  • Reaktion auf Sicherheitsvorfälle

Das Hauptziel eines SOC besteht darin, für sein Unternehmen ein hohes allgemeines Cybersicherheitsniveau zu gewährleisten. Dazu muss es wirksame Sicherheitsvorkehrungen und Richtlinien umsetzen.

SOC-Metriken und -KPIs sind messbare Indikatoren, mit deren Hilfe das SOC die Performance, Effektivität und Effizienz seiner Cybersecurity-Maßnahmen einschätzen kann. Metriken gibt es viele, einige davon haben sich in Unternehmen weltweit durchgesetzt. Welche Metriken im Einzelfall sinnvoll sind, hängt u. a. von folgenden Faktoren ab:

  • Unternehmensziele
  • Branche
  • Reifegrad der Security-Programme des Unternehmens

(Mit Splunk setzt ihr auf umfassende Transparenz und starkes Security-Monitoring für euer SOC..)

Warum Security-Metriken wichtig sind

SOC-Metriken sind für SOC-Teams und das Unternehmen insgesamt aus verschiedenen Gründen essenziell. Zum einen zeigen sie auf, in welchen Bereichen Nachholbedarf herrscht, zum anderen sind sie nützliche Indikatoren zur Bewertung des Sicherheitsniveaus eines Unternehmens im Vergleich zu dessen Mitbewerbern. (Falls ihr mit einigen Begrifflichkeiten nichts anfangen könnt, lest einfach weiter: Unten findet ihr Definitionen und Erklärungen dazu.)

  • Messung der Effektivität des Incident Managements: SOC-Metriken geben Aufschluss über die Effektivität der Incident-Response- und Problembehebungsmaßnahmen der SOC-Teams. Beispielsweise könnt ihr anhand der Mean Time to Resolve (MTTR) beurteilen, wie schnell euer Unternehmen Sicherheitsvorfälle erkennen und vollständig beseitigen kann. Je niedriger die MTTR, desto geringer sind die Auswirkungen auf eure Kundschaft. 
  • Priorisierung von Verbesserungen: Mithilfe von Metriken können Unternehmen Bereiche mit Verbesserungspotenzial ausmachen. So vermitteln etwa Metriken wie die Anzahl der behobenen Vorfälle, die MTTR und die Mean Time to Detect (MTTD) ein Bild von der Performance und Effektivität der Sicherheitsmaßnahmen im Unternehmen.
  • Vergleich gegenüber Mitbewerbern: SOC-Metriken ermöglichen Unternehmen, ihre eigenen Security-Praktiken mit denen ihrer Konkurrenten zu vergleichen. Dadurch wird sichtbar, wo ein Unternehmen hinterherhinkt und nachbessern muss. 
  • Erfüllung von Compliance-Vorgaben: Unternehmen müssen verschiedene gesetzliche Vorschriften bezüglich der Cybersecurity erfüllen. Möglicherweise benötigen sie auch einen Nachweis, wie sie vorgeschriebene Sicherheitsmaßnahmen umgesetzt haben. SOC-Metriken können dabei helfen, Berichte zu erstellen und Prüfern, Aufsichtsbehörden und geschäftlichen Stakeholdern die Effektivität der Sicherheitsmaßnahmen zu demonstrieren.
  • Optimierung der Team- und Personalplanung: SOC-Metriken sind hilfreich, wenn ihr die Personalplanung eurer SOC-Teams optimieren wollt. Beispielsweise könnt ihr analysieren, wie viele Incidents eine einzelne Person bearbeiten kann, und dies der Gesamtzahl der Incidents gegenüberstellen. Personelle Ressourcen können dann entsprechend geplant und bereitgestellt werden.
  • Verbesserung von Security-Schulungen: SOC-Metriken sind auch dann nützlich, wenn ihr einschätzen möchtet, wie effektiv eure Schulungs- und Weiterbildungsprogramme für SOC-Teams sind. Teammitglieder können ermitteln, in welchen Bereichen sie zusätzlichen Schulungsbedarf haben, indem sie Metriken zur Vorfallbehebung überwachen und die Genauigkeit der Bedrohungsanalyse messen.

Gängige SOC-Metriken

Aktuell gibt es mehrere gängige Incident-Response-Metriken, die von SOC-Teams in aller Welt verwendet werden. Im Folgenden sehen wir uns an, welche das sind, welche Bedeutung sie haben und wie ihr sie verbessern könnt.

Mean Time to Detect (MTTD)

Die MTTD entspricht der durchschnittlichen Zeit, die vergeht, bis das SOC-Team einen Vorfall oder eine Sicherheitsverletzung entdeckt hat. Je kürzer dieser Wert ist, desto besser ist die Performance. Eine kurze MTTD bedeutet, dass das SOC-Team Vorfälle schnell erkennen und darauf reagieren kann, um die Auswirkungen für die Kundschaft gering zu halten.

Außerdem könnt ihr anhand der MTTD bewerten, wie effektiv eure Monitoring-Tools und wie effizient eure Erkennungsfähigkeiten sind.

Mean Time to Investigate (MTTI)

Die MTTI ist die durchschnittliche Zeit, die von der Erkennung eines Fehlers bis zur Einleitung einer Untersuchung durch das IT-Team verstreicht. Sie füllt die Lücke zwischen der MTTD und der MTTR (Mean Time to Resolution) und umfasst somit die frühe Incident-Response-Phase.

Mean Time to Resolution (MTTR)

Die MTTR ist eine Maßzahl für den mittleren zeitlichen Abstand zwischen der Erkennung eines Vorfalls und dessen vollständiger Behebung durch das SOC-Team. Ein niedriger MTTR-Wert ist ein Indiz für einen schnellen, hocheffektiven Incident-Response-Prozess. In der Regel umfasst die MTTR den Zeitaufwand für

Unternehmen können anhand dieser Kennzahl Schwerpunktbereiche ermitteln und ihre Incident-Response-Strategie optimieren.

Mean Time to Restore Service (MTRS)

Die MTRS ist die durchschnittliche Zeit von der Fehlererkennung bis zur vollständigen Wiederherstellung des Service. Sie ist also ein Maß für die Wiederherstellungszeit nach der Behebung und damit vor allem für User relevant. Anders als die MTTR, mit der nur die Behebungsdauer gemessen wird, umfasst die MTRS den gesamten Prozess bis zu dem Punkt, an dem der Service wieder voll einsatzfähig ist.

Mean Time between Failures (MTBF)

Der MTBF-Wert gibt Aufschluss über die Häufigkeit von Ausfällen. Er misst die mittlere Zeit zwischen zwei Ausfällen, also das zu erwartende Intervall bis zum nächsten Ausfall. Diese vielseitige Metrik lässt sich auf einzelne Komponenten ebenso wie auf ganze Systeme anwenden. Sie gibt Aufschluss über die Zuverlässigkeit und Leistung eines Systems insgesamt. Neben der MTTR spielt die MTBF eine wesentliche Rolle bei der Bestimmung der Systemverfügbarkeit. Im Idealfall hat ein Unternehmen einen niedrigen MTTR- und einen hohen MTBF-Wert, denn das ist gleichbedeutend mit minimaler Downtime und effizienten Wiederherstellungsfähigkeiten.

Mean Time between System Incidents (MTBSI)

Die MTBSI ist das durchschnittliche Intervall zwischen zwei aufeinanderfolgenden Vorfällen und entspricht der MTBF plus der MTRS. Dieser Wert misst die Systemstabilität und betriebliche Kontinuität im Laufe der Zeit.

Mean Time to Attend and Analyze (MTTA&A)

Die MTTA ist ein Maß für die durchschnittliche Zeit, die das SOC-Team benötigt, um auf einen Incident zu reagieren und ihn zu analysieren. Sie beginnt mit der Erkennung eines Vorfalls und endet, wenn das Team dessen Priorität, Auswirkungen und mögliche Behebung bestätigt und gründlich analysiert hat.

Dieser Wert ist daher hilfreich, wenn ihr die Effizienz und Effektivität des Incident-Response-Prozesses eures SOC-Teams beurteilen möchtet.

Die MTTA&A beginnt, wenn ein Vorfall erkannt oder gemeldet wurde. Sie endet, wenn das Incident-Response-Team diesen Vorfall bestätigt, bewertet und analysiert hat, um dessen Ausmaß, Folgen und mögliche Behebungsmaßnahmen zu ermitteln. Der MTTA&A-Wert ist extrem wichtig, da er Aufschluss über die Effizienz und Effektivität des Incident-Response-Prozesses gibt. 

Anzahl der Sicherheitsvorfälle

Dieser Wert misst die Anzahl der Sicherheitsvorfälle, die innerhalb eines bestimmten Zeitraums erkannt und gemeldet wurden. Unternehmen können so Muster oder Trends bezüglich Sicherheitsvorfällen erkennen.

Nehmen wir beispielsweise an, dass bestimmte Vorfälle mit zunehmender Häufigkeit auftreten. Dies könnte dem Unternehmen signalisieren, dass es seine bestehenden Sicherheitsmaßnahmen verbessern muss. Zudem kann das Unternehmen, das weiß, welche Typen von Vorfällen besonders oft vorkommen, entsprechende Prioritäten setzen.

(Hier erfahrt ihr mehr über das Incident Management.)

False Positive Rates (FPR) und False Negative Rates (FNR)

Die False Positive Rate (FPR) misst den prozentualen Anteil der Vorfälle, die fälschlich als Cybersecurity-Vorfälle klassifiziert werden, obwohl es sich nicht um Bedrohungen handelt. Ein hoher FPR-Wert deutet darauf hin, dass das System viele Fehlalarme meldet.

Umgekehrt misst die False Negative Rate (FPR) den prozentualen Anteil der Vorfälle, die irrtümlich nicht als Bedrohungen eingestuft werden, obwohl es sich um Cyberbedrohungen handelt. Ein hoher FPR-Wert bedeutet, dass dem System viele reale Security-Bedrohungen entgehen. 

Kosten eines Vorfalls

Mit dieser Kennzahl können Organisationen die direkten und indirekten Kosten eines Vorfalls messen:

  • Direkte Kosten umfassen den Zeit- und Ressourcenaufwand zur Erkennung und Behebung sowie Rechtskosten.
  • Indirekte Kosten schließen Umsatzausfälle durch Kundenfluktuation, behördliche Strafen, Rufschäden usw. ein. Daneben können weitere Kosten anfallen, z. B. im Zusammenhang mit Software-Updates oder Maßnahmen zur Prävention künftiger Vorfälle.

Verbesserung von Security- und SOC-Metriken

Angenommen, ihr habt euch einen Überblick über eure SOC-Metriken verschafft und seid vom Ergebnis nicht gerade angetan. Dann ist es an der Zeit, eure Werte zu verbessern. Das bedeutet nichts anderes, als dass ihr eure Aktivitäten und Prozesse verbessern müsst, denn die Metriken sind lediglich ein Maß für den Output.

Am besten sehen wir uns das genauer an.

So verbessert ihr die MTTD

Implementiert zuverlässige Monitoring- und Warnmeldungs-Tools, damit ihr Probleme schneller erkennen könnt. Diese Tools sollten in der Lage sein, involvierte Einzelpersonen und Teams über Vorfälle zu benachrichtigen, inklusive ausführlicher Informationen.

Außerdem sollten die Tools Vorfälle automatisch an die nächsthöhere Ebene weiterleiten, wenn auf den unteren Incident-Response-Ebenen nichts passiert.

  • Prüft eure Systeme regelmäßig auf Schwachstellen. Dazu eignen sich Schwachstellenscans, Penetrationstests und ähnliche Methoden, die euch helfen, potenzielle Bedrohungen proaktiv zu erkennen.
  • Schult eure Mitarbeiter, wie sie verdächtige Aktivitäten und unübliches Systemverhalten proaktiv erkennen und melden können. So verbessert ihr eure Fähigkeit, potenzielle Sicherheitsbedrohungen frühzeitig zu identifizieren und darauf zu reagieren.

So verbessert ihr die MTTR

Wenn ihr bekannte Probleme, Lösungen und Troubleshooting-Schritte dokumentiert, habt ihr eine bessere Grundlage, auf der eure SOC-Teams Vorfälle effizient beheben können.

  • Fördert die effektive Kommunikation und Zusammenarbeit, indem ihr Tools zur Zusammenarbeit nutzt und Informationen unternehmensweit zugänglich macht. Dies trägt dazu bei, Vorfälle schneller zu beheben.
  • Automatisiert manuelle Aufgaben wie z. B. Datenkorrekturen, Tests und die Erstbeurteilung von Vorfällen. Dadurch spart ihr Zeit, schließt menschliche Fehlerquellen aus und beschleunigt den gesamten Behebungsprozess.

So verbessert ihr die MTTA&A

  • Richtet spezielle Kommunikationskanäle ein, über die eure SOC-Teams Vorfälle gemeinsam untersuchen und Informationen einfach austauschen können. Hierfür bieten sich beispielsweise Messaging-Plattformen oder spezielle Incident-Response-Kanäle an.
  • Verwendet automatisierte Tools zur Erstbeurteilung und Priorisierung von Vorfällen. Definiert dafür geeignete Kriterien, z. B. Quelle und Art des Vorfalls und Kundentypen.
  • Nutzt Analytics-Tools zur Unterstützung von Vorfallanalysen. Anomalieerkennungs-Tools und Systeme für Bedrohungsinformationen erleichtern beispielsweise die Erkennung bekannter Bedrohungsmuster. Dadurch lässt sich der Analysevorgang insgesamt beschleunigen. 
  • Haltet eure Dokumentation jederzeit aktuell. Diese sollte leicht zugänglich sein und aussagekräftige Informationen enthalten, etwa zu Datenanalyseverfahren, Richtlinien zur Vorfalluntersuchung und zu den ersten Analyseschritten.
  • Optimiert Warnmeldungen so, dass eure Incident-Response-Teams schneller über neue Probleme informiert werden.
  • Erstellt Bereitschaftspläne, um sicherzustellen, dass rund um die Uhr ausreichend Personal für Vorfalluntersuchungen und -reaktionen bereitsteht.

So reduziert ihr die Anzahl der Sicherheitsvorfälle

  • Prüft eure Systeme regelmäßig auf Schwachstellen. Dadurch versetzt ihr euer Unternehmen in die Lage, neue Sicherheitsbedrohungen oder potenzielle Angriffspunkte im System frühzeitig zu erkennen und zu handeln, bevor es zu Incidents kommt.
  • Schult eure Belegschaft und Kundschaft über Cyberbedrohungen, um Risiken für euer Unternehmen durch Cyberkriminalität zu vermeiden.  
  • Nutzt proaktive Monitoring-Tools und Warnmeldungen, damit ihr Vorfälle erkennt, bevor sie sich auf das ganze Unternehmen auswirken.

So verbessert ihr die FPR

  • Passt fortlaufend die Regeln und Schwellenwerte für die Bedrohungserkennung an, damit ihr jederzeit passende Warnmeldungen mit aktuellen Bedrohungsinformationen erhaltet.
  • Nutzt innovative Technologien wie künstliche Intelligenz (KI) und Machine Learning (ML), um die Genauigkeit eurer SOC-Metriken zu verbessern.
  • Verbessert die Datenqualität, denn ungenaue und uneinheitliche Daten können die Ursache für mehr Fehlalarme sein.
  • Führt Bedrohungssuchen durch, um potenzielle Bedrohungen frühzeitig aufzuspüren. Dies hilft euch dabei, falsch positive Warnmeldungen ausfindig zu machen und die Genauigkeit eurer Bedrohungserkennungssysteme insgesamt zu verbessern.

(Hier erfahrt ihr mehr über die Unterschiede zwischen Bedrohungssuche und Bedrohungserkennung.)

So verbessert ihr die FNR 

  • Behaltet sämtliche Prozesse im Unternehmen im Auge, einschließlich aller Anwendungen, Systeme und Netzwerke, und das rund um die Uhr. So reduziert ihr die Wahrscheinlichkeit, dass Cyberangriffe unbemerkt bleiben. 
  • Entwickelt eure Systeme weiter. Nutzt nach Möglichkeit fortschrittlichere Methoden zur Bedrohungserkennung, wie Bedrohungsinformationen, KI und ML-basierte Bedrohungserkennung, und erweitert so eure Fähigkeiten. 
  • Investiert regelmäßig in Schulungsprogramme und Sensibilisierungskampagnen, damit eure Teams immer über die neuesten Trends und Angriffsmethoden auf dem Laufenden sind. Sicherheitslücken lassen sich so leichter erkennen und schließen.

(Diese Security-Veranstaltungen und -Konferenzen könnten für euch interessant sein.)

So senkt ihr die Kosten pro Vorfall

Wenn ihr die Gesamtkosten eines Vorfalls reduzieren wollt, kommt ihr an proaktivem Monitoring, beschleunigter Incident Response und effektiveren Behebungsmaßnahmen nicht vorbei.  Implementiert robuste Security-Mechanismen wie Antiviren-Software, eine strenge Zugriffssteuerung und regelmäßige Software-Updates, damit es gar nicht erst zu Sicherheitsvorfällen kommt. 

Prüft eure Systeme regelmäßig auf Sicherheitsschwachstellen, sodass ihr sie proaktiv beseitigen könnt.

Fazit: Das braucht ein erfolgreiches SOC

SOC-Metriken sind Kennzahlen, anhand derer SOC-Teams die Effektivität, Effizienz und Gesamtleistung ihrer SecOps-Aktivitäten, einschließlich der Incident Response, messen können.

Es gibt verschiedene SOC-Metriken, die Unternehmen je nach ihren konkreten Anforderungen zur Verfügung stehen.

 

Ihr habt einen Fehler entdeckt oder eine Anregung? Bitte lasst es uns wissen und schreibt eine E-Mail an ssg-blogs@splunk.com.

 

Dieser Beitrag spiegelt nicht zwingend die Position, Strategie oder Meinung von Splunk wider.

 

Shanika Wickramasinghe Picture

Shanika Wickramasinghe is a software engineer by profession and a graduate in Information Technology. Her specialties are Web and Mobile Development. Shanika considers writing the best medium to learn and share her knowledge. She is passionate about everything she does, loves to travel and enjoys nature whenever she takes a break from her busy work schedule. She also writes for her Medium blog sometimes. You can connect with her on LinkedIn.

Ähnliche Artikel

Über Splunk

Weltweit führende Unternehmen verlassen sich auf Splunk, ein Cisco-Unternehmen, um mit unserer Plattform für einheitliche Sicherheit und Observability, die auf branchenführender KI basiert, kontinuierlich ihre digitale Resilienz zu stärken.

 

Unsere Kunden vertrauen auf die preisgekrönten Security- und Observability-Lösungen von Splunk, um ihre komplexen digitalen Umgebungen ungeachtet ihrer Größenordnung zuverlässig zu sichern und verbessern.

Erfahrt hier mehr über Splunk