Lernen Sie Strategien kennen, mit denen Sie die digitale Resilienz Ihres Unternehmens steigern.
Seitdem wir Splunk nutzen, ist unsere Website resilienter.
Das Engineering-Team von Rent the Runway hatte nur begrenzten Einblick in seine komplexe Microservice-Architektur, was zu Ausfällen und Beeinträchtigungen des Kundenerlebnisses führte.
Mit Splunk kann Rent the Runway seine gesamte Multi-Cloud-Umgebung über eine einzige Konsole im Auge behalten. Dadurch sank die MTTR um ganze 94 %, und die Teams sind nun in der Lage, ungeplante Ausfälle zu vermeiden und herausragende Kundenerlebnisse zu bieten.
Designermode ausleihen, stilvoll auftreten und einfach wieder zurückgeben – unkompliziert über den ersten „Kleiderschrank in der Cloud“. Mit diesem bahnbrechenden Konzept ist Rent the Runway 2009 an den Start gegangen und hat damit die Karten in einer Billionen-Dollar-Branche völlig neu gemischt. Aus dem Start-up, das als digitaler Verleih von Cocktailkleidern begann, ist inzwischen der erste und größte gemeinsam genutzte Kleiderschrank für Designermode und eine an der NASDAQ gehandelte Aktiengesellschaft geworden. So bietet Rent the Runway heute Mode und Accessoires für jeden Anlass einzeln zum Ausleihen, via Abonnement oder auch zum Kauf an: Hunderttausende modebewusste Frauen nutzen die Website und App, um sich mit Hunderten Top-Marken einzukleiden.
Unabdingbar für diese Wachstumsstory war eine präzise Überwachung der Anwendungsperformance (Application Performance Monitoring, APM). Für die umgekehrte Logistik, auf der das Geschäftsmodell des Unternehmens basiert, entwickelte man ein hochgradig effizientes Bestandsmanagement-System. Im Zuge des rasanten Wachstums wurde es jedoch umso wichtiger, stets reibungslose Prozesse zu gewährleisten und Ausfallzeiten zu minimieren. Bereits vor einigen Jahren hat Rent the Runway dazu seine APM-Systeme auf Splunk umgestellt. Mit großem Erfolg: Durch umfassende Observability macht das Unternehmen Engstellen in seiner Infrastruktur punktgenau aus und behebt diese und andere Probleme proaktiv. Neben deutlich verbesserter App-Verfügbarkeit ließen sich so auch die Prozesse rund um das Bestandsmanagement nahtloser gestalten.
Dank Splunk erkennen und beheben die Engineering-, Operations- und Infrastruktur-Teams des Unternehmens Probleme schneller. Digitale Systeme sind dadurch resilienter geworden, sodass sich Kundenwünsche stets nahtlos und effizient erfüllen lassen.
Mit seinem Konzept für Umkehr- bzw. Kreislauflogistik steht Rent the Runway bereits seit seiner Gründung für ein einzigartiges Geschäftsmodell. „Klassischer E-Commerce bedeutet in aller Regel, dass die Ware nach ihrem Versand beim Kunden verbleibt“, kommentiert Stephanus Meiring, VP Engineering bei Rent the Runway. „Unsere Teile kommen dagegen größtenteils wieder zu uns zurück. Dann gilt es, sie für die nächste Kundin versandbereit zu machen.“
Um dies reibungslos zu gestalten, hat Rent the Runway ein komplexes Geflecht aus Dutzenden Services in einer Multi-Cloud-Architektur im Einsatz. Denn es gilt, sämtliche Abläufe klar im Blick zu behalten: von User Journeys auf der Website bis hin zu Teilen, die repariert oder in die Reinigung gegeben werden müssen. In Splunk-Dashboards lässt sich all dies ohne Umschweife visualisieren. Damit erhalten alle Teams eine zentrale Anlaufstelle, in der sie wichtige Kennzahlen zu sämtlichen Elementen der Umgebung einsehen können. So erkennen und beheben sie potenzielle Probleme direkt, bevor das Kundenerlebnis leidet.
„Nur wenn wir wissen, ob eine Kundin ihr gewünschtes Kleid nicht bekommt oder etwa ein Problem im Kassensystem den Zahlungsabschluss verhindert, können wir schnell entsprechend reagieren“, erklärt Shane Ryan vom Software-Engineering-Team. „Mit Splunk haben wir das dazu nötige Monitoring in den letzten vier, fünf Jahren umfassend verbessert: Wir erhalten Warnmeldungen über alle unsere Front- und Backend-Systeme hinweg, statt darauf warten zu müssen, dass uns User-seitige Systeme über Probleme benachrichtigen. Wenn etwas im Argen liegt, gehen wir es proaktiv an. Zudem müssen wir im Incident-Fall nicht gleich das ganze Team mobilisieren.“
In der Vergangenheit mussten für die Incident Response dagegen nicht selten zwei Dutzend Entwickler auf Abruf bereitstehen, wie sich Aki Yamada als eines der Mitglieder vom Engineering-Team der ersten Stunde bei Rent the Runway erinnert: „Bei jedem Vorfall mussten wir uns zunächst beim Produktionssystem anmelden, die Logs einzeln analysieren und Skripte ausführen. Seit wir Splunk nutzen, erhalten wir dagegen einfach über Datenabfragen klare Antworten auf Fragen zur App-Historie.“
Auch die Lager- und Verbraucheranwendungen haben die Teams nun jederzeit im Blick. So können sie Managementaufgaben leicht überwachen und benötigen weniger Personal für die Incident Response. Unterm Strich hat Rent the Runway nicht nur das Kundenerlebnis, sondern auch die Zufriedenheit seiner Mitarbeitenden verbessert. „Ich kann mich nicht erinnern, wann jemand zum letzten Mal nachts aufstehen musste, um während Thanksgiving einen Ausfall zu beheben”, kommentiert Meiring. „Früher war die Feiertagssaison aus technischer Sicht turbulent, weil die Kundennachfrage nach oben ging. Seitdem wir unsere Splunk-Nutzung ausgeweitet haben, hatten wir nicht einen einzigen großen Ausfall, und der letzte kritische Vorfall war in weniger als 15 Minuten behoben.“
Seitdem wir unsere Splunk-Nutzung ausgeweitet haben, hatten wir nicht einen einzigen großen Ausfall, und der letzte kritische Vorfall war in weniger als 15 Minuten behoben.“
Seitdem wir Splunk nutzen, ist unsere Website resilienter.
Vor Splunk hatten die Teams für das Infrastruktur-Monitoring einen Flickenteppich unterschiedlichster Tools im Einsatz. Entsprechend groß waren die betrieblichen Risiken: Selbst ein Ausfall von nur 10 Minuten zog potenziell bereits erheblichen Arbeitsaufwand und negative Auswirkungen auf das Kundenerlebnis nach sich. Mit Splunk Synthetic Monitoring lassen sich dagegen Integrationen mit CI/CD-Plattformen einrichten, durch die die Teams fehlerhafte Releases schnell zurücksetzen können, bevor sie sich auf Kundenseite bemerkbar machen oder Abläufe im Bestandsmanagement beeinträchtigen.
Manuelle Prozesse rund um die Problembehebung sind dabei ebenfalls passé. Denn sobald sich ein Problem auftut, lässt sich mit der umfassenden Security- und Observability-Plattform von Splunk direkt alles Nötige in Gang setzen. So befindet auch Matt Pumphrey vom Engineering-Team treffend: „Dank Observability können wir unseren Kundinnen klar vermitteln, dass sie bei uns wirklich im Mittelpunkt stehen.“
Mithilfe von Splunk konnte Rent the Runway seine Systeme resilienter gestalten. So beheben seine Teams nicht nur Probleme schneller, sondern begeistern die Kundinnen auch durch herausragende Erlebnisse. „Splunk fördert unseren Erfolg auf ganzer Linie“, so Meiring. „Denn damit können bei der Optimierung unserer Geschäftsprozesse alle an einem Strang ziehen. Im Engineering-Team macht sich das enorm bemerkbar: Unsere Website ist heute widerstandsfähiger als je zuvor.“
Künftig will Rent the Runway die Lösungen von Splunk für noch mehr Use Cases einsetzen. So sollen etwa Machine Learning und künstliche Intelligenz im Incident-Management-Prozess dazu beitragen, Kundenerlebnisse noch weiter zu verbessern und dabei den Zeitaufwand für die Teams zu reduzieren. „Dies soll dabei helfen, im Rauschen der Warnmeldungen die wirklich relevanten Signale zu erkennen und so noch schneller die Ursache von Problemen aufzudecken“, fügt Pumphrey hinzu.
Geplant sind zudem Self-Service-Möglichkeiten, mit denen sich Neuzugänge im Engineering-Team selbstständig einarbeiten können, damit sie innerhalb weniger Wochen startklar für die Entwicklung neuer Services sind. „Mithilfe der Tools von Splunk können unsere Engineers viel mehr in Eigeninitiative agieren. Unsere Unternehmenskultur profitiert davon enorm“, stellt Meiring abschließend fest.