Das Security Operations Center (SOC) ist eine zentrale Einheit, die für das gesamte Sicherheitsniveau eines Unternehmens zuständig ist. Ihr solltet wissen, was euer SOC leistet, damit eure Security-Teams einschätzen können, wie effektiv ihre Arbeit ist.
In diesem Artikel sehen wir uns an, was SOC-Metriken sind, warum sie wichtig sind, welche gängigen SOC-Metriken es gibt und wie euer SOC-Team diese Kennzahlen verbessern kann.
Moderne Unternehmen benötigen unbedingt ein Security Operations Center (SOC), das folgende Aufgaben übernimmt:
Das Hauptziel eines SOC besteht darin, für sein Unternehmen ein hohes allgemeines Cybersicherheitsniveau zu gewährleisten. Dazu muss es wirksame Sicherheitsvorkehrungen und Richtlinien umsetzen.
SOC-Metriken und -KPIs sind messbare Indikatoren, mit deren Hilfe das SOC die Performance, Effektivität und Effizienz seiner Cybersecurity-Maßnahmen einschätzen kann. Metriken gibt es viele, einige davon haben sich in Unternehmen weltweit durchgesetzt. Welche Metriken im Einzelfall sinnvoll sind, hängt u. a. von folgenden Faktoren ab:
(Mit Splunk setzt ihr auf umfassende Transparenz und starkes Security-Monitoring für euer SOC..)
SOC-Metriken sind für SOC-Teams und das Unternehmen insgesamt aus verschiedenen Gründen essenziell. Zum einen zeigen sie auf, in welchen Bereichen Nachholbedarf herrscht, zum anderen sind sie nützliche Indikatoren zur Bewertung des Sicherheitsniveaus eines Unternehmens im Vergleich zu dessen Mitbewerbern. (Falls ihr mit einigen Begrifflichkeiten nichts anfangen könnt, lest einfach weiter: Unten findet ihr Definitionen und Erklärungen dazu.)
Aktuell gibt es mehrere gängige Incident-Response-Metriken, die von SOC-Teams in aller Welt verwendet werden. Im Folgenden sehen wir uns an, welche das sind, welche Bedeutung sie haben und wie ihr sie verbessern könnt.
Die MTTD entspricht der durchschnittlichen Zeit, die vergeht, bis das SOC-Team einen Vorfall oder eine Sicherheitsverletzung entdeckt hat. Je kürzer dieser Wert ist, desto besser ist die Performance. Eine kurze MTTD bedeutet, dass das SOC-Team Vorfälle schnell erkennen und darauf reagieren kann, um die Auswirkungen für die Kundschaft gering zu halten.
Außerdem könnt ihr anhand der MTTD bewerten, wie effektiv eure Monitoring-Tools und wie effizient eure Erkennungsfähigkeiten sind.
Die MTTI ist die durchschnittliche Zeit, die von der Erkennung eines Fehlers bis zur Einleitung einer Untersuchung durch das IT-Team verstreicht. Sie füllt die Lücke zwischen der MTTD und der MTTR (Mean Time to Resolution) und umfasst somit die frühe Incident-Response-Phase.
Die MTTR ist eine Maßzahl für den mittleren zeitlichen Abstand zwischen der Erkennung eines Vorfalls und dessen vollständiger Behebung durch das SOC-Team. Ein niedriger MTTR-Wert ist ein Indiz für einen schnellen, hocheffektiven Incident-Response-Prozess. In der Regel umfasst die MTTR den Zeitaufwand für
Unternehmen können anhand dieser Kennzahl Schwerpunktbereiche ermitteln und ihre Incident-Response-Strategie optimieren.
Die MTRS ist die durchschnittliche Zeit von der Fehlererkennung bis zur vollständigen Wiederherstellung des Service. Sie ist also ein Maß für die Wiederherstellungszeit nach der Behebung und damit vor allem für User relevant. Anders als die MTTR, mit der nur die Behebungsdauer gemessen wird, umfasst die MTRS den gesamten Prozess bis zu dem Punkt, an dem der Service wieder voll einsatzfähig ist.
Der MTBF-Wert gibt Aufschluss über die Häufigkeit von Ausfällen. Er misst die mittlere Zeit zwischen zwei Ausfällen, also das zu erwartende Intervall bis zum nächsten Ausfall. Diese vielseitige Metrik lässt sich auf einzelne Komponenten ebenso wie auf ganze Systeme anwenden. Sie gibt Aufschluss über die Zuverlässigkeit und Leistung eines Systems insgesamt. Neben der MTTR spielt die MTBF eine wesentliche Rolle bei der Bestimmung der Systemverfügbarkeit. Im Idealfall hat ein Unternehmen einen niedrigen MTTR- und einen hohen MTBF-Wert, denn das ist gleichbedeutend mit minimaler Downtime und effizienten Wiederherstellungsfähigkeiten.
Die MTBSI ist das durchschnittliche Intervall zwischen zwei aufeinanderfolgenden Vorfällen und entspricht der MTBF plus der MTRS. Dieser Wert misst die Systemstabilität und betriebliche Kontinuität im Laufe der Zeit.
Die MTTA ist ein Maß für die durchschnittliche Zeit, die das SOC-Team benötigt, um auf einen Incident zu reagieren und ihn zu analysieren. Sie beginnt mit der Erkennung eines Vorfalls und endet, wenn das Team dessen Priorität, Auswirkungen und mögliche Behebung bestätigt und gründlich analysiert hat.
Dieser Wert ist daher hilfreich, wenn ihr die Effizienz und Effektivität des Incident-Response-Prozesses eures SOC-Teams beurteilen möchtet.
Die MTTA&A beginnt, wenn ein Vorfall erkannt oder gemeldet wurde. Sie endet, wenn das Incident-Response-Team diesen Vorfall bestätigt, bewertet und analysiert hat, um dessen Ausmaß, Folgen und mögliche Behebungsmaßnahmen zu ermitteln. Der MTTA&A-Wert ist extrem wichtig, da er Aufschluss über die Effizienz und Effektivität des Incident-Response-Prozesses gibt.
Dieser Wert misst die Anzahl der Sicherheitsvorfälle, die innerhalb eines bestimmten Zeitraums erkannt und gemeldet wurden. Unternehmen können so Muster oder Trends bezüglich Sicherheitsvorfällen erkennen.
Nehmen wir beispielsweise an, dass bestimmte Vorfälle mit zunehmender Häufigkeit auftreten. Dies könnte dem Unternehmen signalisieren, dass es seine bestehenden Sicherheitsmaßnahmen verbessern muss. Zudem kann das Unternehmen, das weiß, welche Typen von Vorfällen besonders oft vorkommen, entsprechende Prioritäten setzen.
(Hier erfahrt ihr mehr über das Incident Management.)
Die False Positive Rate (FPR) misst den prozentualen Anteil der Vorfälle, die fälschlich als Cybersecurity-Vorfälle klassifiziert werden, obwohl es sich nicht um Bedrohungen handelt. Ein hoher FPR-Wert deutet darauf hin, dass das System viele Fehlalarme meldet.
Umgekehrt misst die False Negative Rate (FPR) den prozentualen Anteil der Vorfälle, die irrtümlich nicht als Bedrohungen eingestuft werden, obwohl es sich um Cyberbedrohungen handelt. Ein hoher FPR-Wert bedeutet, dass dem System viele reale Security-Bedrohungen entgehen.
Mit dieser Kennzahl können Organisationen die direkten und indirekten Kosten eines Vorfalls messen:
Angenommen, ihr habt euch einen Überblick über eure SOC-Metriken verschafft und seid vom Ergebnis nicht gerade angetan. Dann ist es an der Zeit, eure Werte zu verbessern. Das bedeutet nichts anderes, als dass ihr eure Aktivitäten und Prozesse verbessern müsst, denn die Metriken sind lediglich ein Maß für den Output.
Am besten sehen wir uns das genauer an.
Implementiert zuverlässige Monitoring- und Warnmeldungs-Tools, damit ihr Probleme schneller erkennen könnt. Diese Tools sollten in der Lage sein, involvierte Einzelpersonen und Teams über Vorfälle zu benachrichtigen, inklusive ausführlicher Informationen.
Außerdem sollten die Tools Vorfälle automatisch an die nächsthöhere Ebene weiterleiten, wenn auf den unteren Incident-Response-Ebenen nichts passiert.
Wenn ihr bekannte Probleme, Lösungen und Troubleshooting-Schritte dokumentiert, habt ihr eine bessere Grundlage, auf der eure SOC-Teams Vorfälle effizient beheben können.
(Hier erfahrt ihr mehr über die Unterschiede zwischen Bedrohungssuche und Bedrohungserkennung.)
(Diese Security-Veranstaltungen und -Konferenzen könnten für euch interessant sein.)
Wenn ihr die Gesamtkosten eines Vorfalls reduzieren wollt, kommt ihr an proaktivem Monitoring, beschleunigter Incident Response und effektiveren Behebungsmaßnahmen nicht vorbei. Implementiert robuste Security-Mechanismen wie Antiviren-Software, eine strenge Zugriffssteuerung und regelmäßige Software-Updates, damit es gar nicht erst zu Sicherheitsvorfällen kommt.
Prüft eure Systeme regelmäßig auf Sicherheitsschwachstellen, sodass ihr sie proaktiv beseitigen könnt.
SOC-Metriken sind Kennzahlen, anhand derer SOC-Teams die Effektivität, Effizienz und Gesamtleistung ihrer SecOps-Aktivitäten, einschließlich der Incident Response, messen können.
Es gibt verschiedene SOC-Metriken, die Unternehmen je nach ihren konkreten Anforderungen zur Verfügung stehen.
Ihr habt einen Fehler entdeckt oder eine Anregung? Bitte lasst es uns wissen und schreibt eine E-Mail an ssg-blogs@splunk.com.
Dieser Beitrag spiegelt nicht zwingend die Position, Strategie oder Meinung von Splunk wider.
Weltweit führende Unternehmen verlassen sich auf Splunk, ein Cisco-Unternehmen, um mit unserer Plattform für einheitliche Sicherheit und Observability, die auf branchenführender KI basiert, kontinuierlich ihre digitale Resilienz zu stärken.
Unsere Kunden vertrauen auf die preisgekrönten Security- und Observability-Lösungen von Splunk, um ihre komplexen digitalen Umgebungen ungeachtet ihrer Größenordnung zuverlässig zu sichern und verbessern.