In unserer serviceorientierten Welt müssen Unternehmen die bestmögliche Nutzererfahrung bieten. Exzellenter Service hilft, Langzeitkunden zu binden und gleichzeitig den Kundenkreis zu erweitern. Um die Serviceleistung zu überwachen, spielen einige wichtige Kennzahlen und Indikatoren eine Rolle.
Service Level Agreements (SLAs), Service Level Objectives (SLOs) und Service Level Indicators (SLIs) sind Metriken, die Auskunft über die von Unternehmen angebotenen Produkte und Services sowie die Art und Weise geben, in der diese Unternehmen durch Monitoring die Einhaltung ihrer Leistungs- und Qualitätsziele kontrollieren.
In diesem Artikel befassen wir uns mit den Unterschieden zwischen SLAs, SLOs und SLIs und betrachten zudem die Herausforderungen und bewährten Verfahren im Zusammenhang mit ihrer Implementierung in Unternehmen.
Splunk IT Service Intelligence (ITSI) ist eine AIOps-, Analyse- und IT-Management-Lösung, die Teams dabei unterstützt, Vorfälle vorherzusagen, bevor sie sich auf Kunden auswirken.
Unter Einsatz von KI und maschinellem Lernen korreliert ITSI Daten aus Überwachungsquellen und liefert eine einheitliche Echtzeitansicht relevanter IT- und Geschäftsdienste, reduziert die Alarmmenge und verhindert proaktiv Ausfälle.
Ein Service Level Agreement (SLA) ist eine Vereinbarung zwischen einem Serviceanbieter und seinen Kunden. Es basiert auf spezifischen Serviceverpflichtungen wie Lösungszeiten bei Kundenanfragen, Serviceverfügbarkeit und Reaktionsfähigkeit der Website. Jedes SLA ist ein spezifisches „Versprechen“ an den Kunden, aber nicht alle SLAs sind gleich.
SLAs können je nach Branche und Serviceanbieter stark variieren. Die Business- oder Rechtsteams des Serviceanbieters erstellen in der Regel SLAs für bezahlte und verfügbare Services des Unternehmens. Diese SLAs umfassen die folgenden Hauptbestandteile:
SLAs werden vom Business- oder Rechtsteam eines Unternehmens verfasst. Hierbei ist die Zusammenarbeit mit den technischen Teams wichtig, um technische Lücken bei der SLA-Definition zu vermeiden.
Ein Service Level Objective (SLO) ist das, was der Service den Benutzern hinsichtlich bestimmter Messwerte zusagt. Zu diesen Messwerten gehören Metriken wie z. B.:
Im Gegensatz zu SLAs definieren SLOs einen spezifischen Wert für jedes dieser einzelnen Versprechen. Ein SLA ist eine formelle Vereinbarung, die von einem Serviceanbieter hinsichtlich der Leistung oder Qualität eines Service festgelegt wird. SLOs dagegen sind konkrete Ziele, die ihr als Anbieter intern festlegt, um zu bewerten, ob die SLAs eingehalten werden.
Das folgende Beispiel zeigt einen Auszug aus einem SLO von AWS für seine einzelne EC2-Instanz.
Service Level Indicators (SLIs) sind die Schlüsselindikatoren zur Messung der Service-Leistung. SLIs helfen zu beurteilen, ob das Unternehmen die definierten SLOs erreicht hat.
Im Vergleich zu definierten SLAs handelt es sich bei SLIs um die tatsächlichen oder historischen Werte. Liegen die Werte unter den definierten SLOs, gibt es ein Problem mit dem Service. Ihr könnt den Service dann also entweder optimieren, um das SLO zu erreichen, oder den SLO-Wert so anpassen, dass er mehr Spielraum lässt.
Im vorherigen Beispiel zur EC2-Instanz von AWS ist das SLO kleiner als 99,5 %, aber größer oder gleich 99,0 %; der SLI wäre der tatsächliche Messwert der Serviceverfügbarkeit, könnte also beispielsweise bei 99,26 % liegen.
In der folgenden Tabelle haben wir die wichtigsten Unterschiede zwischen SLAs, SLOs und SLIs zusammengefasst.
SLA | SLO | SLI | |
Zweck | Mit den Kunden vereinbarte Serviceverpflichtungen | Intern gesetzte Ziele, die der Service den Kunden bieten will. Dienen als Benchmark zur Leistungsbewertung. | Tatsächliche Werte von SLOs als Maß für die Service-Leistung |
Verwendung | Geeignet für kostenpflichtige Services | Sowohl für kostenlose als auch kostenpflichtige Services | Erforderlich zur Leistungsmessung, wenn SLOs definiert wurden |
Fokus | Umfang, Metriken, rechtliche und finanzielle Folgen | Spezifisches Ziel zum Erfüllen der SLAs | Konkrete Daten zum Beurteilen der Leistung |
Beispiele | Uptime in Prozent, Verfügbarkeit, Problembehebungsdauer | Reaktionszeit kleiner gleich 300 ms, Fehlerrate unter 2 % | Durchschnittliche Reaktionszeit = 250,1 ms Uptime in Prozent = 98,9 % |
Flexibilität | Geringe Flexibilität, da Änderungen zwischen Serviceanbietern, Rechtsteams und Kunden vereinbart werden müssen | Flexibler als SLAs. Änderungen aufgrund technologischer und Service-bezogener Anforderungen möglich. | Flexibler als SLOs. Änderungen aufgrund geänderter Leistungsanforderungen möglich. |
Obwohl diese Metriken Anwendung bei verschiedenen Unternehmen und Diensten finden können, tauchen sie häufig im Site-Reliability-Engineering-Kontext (SRE) auf. Da es ohne Verfügbarkeit keinen SRE-Erfolg gibt, sind SLIs, SLOs und SLAs wichtige Werkzeuge für SREs, um die Zuverlässigkeit eines Systems über die Zeit zu bewerten.
Ganz unabhängig vom Kontext gibt es jedoch einige Herausforderungen bei der effektiven Messung und Anwendung dieser Metriken in einer Organisation.
Sehen wir uns nun einige der Herausforderungen an, mit denen ihr im Zusammenhang mit diesen Metriken möglicherweise konfrontiert werdet:
Eine unzureichende Zusammenarbeit zwischen Juristen und Technikabteilungen kann zu unrealistischen SLAs führen.
SLAs werden von den Rechts- oder Geschäftsteams eines Unternehmens erstellt und definiert, denen normalerweise technisches Hintergrundwissen bei diesem Service fehlt. Dies kann zu unrealistischen, schwer zu erreichenden SLOs führen.
Nehmen wir an, dass Juristen die Verfügbarkeit bei 99,999 % der Zeit festlegen. Dieser Wert kann ausschließlich die Wahrnehmung des Rechtsteams von hoher Verfügbarkeit widerspiegeln. Dabei übersieht es allerdings potenzielle Herausforderungen, die bei der Erreichung auftreten können, etwa Software-, Hardware-, Netzwerkausfälle und Abhängigkeiten von Drittanbieterdiensten.
SLAs an sich ändernde Kundenbedürfnisse und technologische Entwicklungen anpassen.
Da sich die Technologie rasant verändert, kann es mit den verfügbaren Ressourcen des Serviceanbieters und Budgetbeschränkungen schwierig sein, mit solch drastischen Änderungen Schritt zu halten. Dies gilt ebenso für sich ändernde Kundenbedürfnisse, die ständige Anpassungen und Neuverhandlungen erfordern.
Kosten
Unternehmen müssen in Personal und neue Technologien investieren, um SLAs wie geplant zu erfüllen. Dies kann zusätzliche Kosten verursachen.
Die richtige Balance zwischen Komplexität und Einfachheit finden.
SLOs können manchmal zu kompliziert sein, um sie zu messen. Wenn sie von Beginn an nicht gut definiert sind, müssen die Teams Zeit mit Ursachenforschung verschwenden, um herauszufinden, wie sie erreicht werden können. Außerdem helfen leicht zu erfüllende SLOs nicht dabei, die gewünschten Kundenerwartungen zu erreichen. Deshalb kann die Definition eines ausgewogenen SLO eine Herausforderung darstellen.
Auswahl der richtigen Metriken.
Angenommen, ihr wählt nicht die Metriken, die mit dem Geschäftsziel und den Kundenerwartungen des Unternehmens übereinstimmen. Dann spiegeln diese SLOs nicht das wider, was die Firma ihren Kunden verspricht.
Es kann schwierig sein, mit externen Abhängigkeiten Schritt zu halten.
Dienste hängen oft von Komponenten oder Diensten Dritter ab. Fallen diese externen Abhängigkeiten einmal aus, kann die SLO-Einhaltung des Dienstes beeinträchtigt werden, auch wenn die internen Komponenten einwandfrei funktionieren.
Zu viele Metriken
Während zu viele Metriken die Dinge verkomplizieren können, machen sie für den Benutzer kaum einen Unterschied.
Einige Metriken können schwer zu messen sein.
Manche Leistungskennzahlen lassen sich nur sehr schwer genau messen. Beispielsweise kann sich die Messung von Nutzerengagement, Latenz in Echtzeit-Anwendungen und allgemeiner Nutzerzufriedenheit schwierig gestalten.
Die präzise Messung der Werte kann herausfordernd sein.
Es ist wichtig, die Performance jeder SLO-Metrik korrekt zu messen. Das erfordert genaue und zuverlässige Test- und Überwachungsstrategien.
Auch wenn sie Herausforderungen mit sich bringen können, sind SLAs, SLIs und SLOs bei der Bereitstellung von Services oder Produkten unglaublich wertvoll. Mit den folgenden bewährten Methoden setzt ihr diese Kennzahlen optimal ein:
Kurz zusammenfasst, sind SLAs die allgemeinen Vereinbarungen zwischen Anbietern, SLOs sind die konkreten Versprechen, die die Services den Kunden geben, und SLIs sind die tatsächlichen Werte, die zur Leistungsmessung herangezogen werden.
Wie bei den meisten Unternehmens- oder IT-Konzepten lassen sich typische Herausforderungen bei SLAs, SLOs und SLIs durch Befolgen bewährter Methoden meistern. Wenn ihr diese Metrik effizient nutzt, könnt ihr sicherstellen, dass euer Unternehmen einen möglichst zuverlässigen und nützlichen Service bietet.
Ihr habt einen Fehler entdeckt oder eine Anregung? Bitte lasst es uns wissen und schreibt eine E-Mail an ssg-blogs@splunk.com.
Dieser Beitrag spiegelt nicht zwingend die Position, Strategie oder Meinung von Splunk wider.
Weltweit führende Unternehmen verlassen sich auf Splunk, ein Cisco-Unternehmen, um mit unserer Plattform für einheitliche Sicherheit und Observability, die auf branchenführender KI basiert, kontinuierlich ihre digitale Resilienz zu stärken.
Unsere Kunden vertrauen auf die preisgekrönten Security- und Observability-Lösungen von Splunk, um ihre komplexen digitalen Umgebungen ungeachtet ihrer Größenordnung zuverlässig zu sichern und verbessern.