Während der Pandemie verzeichnete Rappi einen sprunghaften Anstieg der Nachfrage nach seinen Lieferservices und benötigte daher leistungsstarke, skalierbare Observability-Tools, um seinen Kunden ein schnelles, zuverlässiges Bestellerlebnis bieten zu können.
Dank der Splunk-Plattform erfüllt Rappi die hohen Erwartungen seiner Kunden an reibungslose Bestellungen per App oder Website und ermöglicht in 9 Ländern schnelle Lieferungen direkt bis zur Haustür.
Wer liefert warme Churros, kaltes Bier, neue Batterien und stylische Mode in Minutenschnelle?
Ganz einfach: Rappi. Das kolumbianische Unternehmen bietet seinen Kunden in über 250 Städten in Lateinamerika einen On-Demand-Lieferservice für Waren und Dienstleistungen lokaler Anbieter, seien es warme Mahlzeiten aus dem Restaurant oder frische Lebensmittel aus dem Supermarkt. Seit seiner Gründung 2015 hat das Unternehmen auch in den Reise- und Finanzsektor expandiert und ist mittlerweile neben Kolumbien in acht weiteren Ländern vertreten: Argentinien, Brasilien, Chile, Costa Rica, Ecuador, Mexiko, Peru und Uruguay.
Rappis Kunden stellen hohe Ansprüche an Geschwindigkeit und Komfort, auf die sich das Unternehmen mit der Zeit immer besser eingestellt hat – von der zuverlässigen Performance seiner Apps und Websites bis zur schnellen Lieferung, oft in weniger als 30 Minuten. Doch als die Nachfrage während der Coronapandemie um 300 % in die Höhe schnellte, stieß das IT-Team von Rappi an seine Grenzen.
Vor 2019 lag die Zahl der AWS-Hosts von Rappi im dreistelligen Bereich. Je größer die Umgebung wurde, desto mehr Schwierigkeiten hatte das DevOps-Team, mit seiner alten Software die App-Leistung zu überwachen. Warnmeldungen trafen erst nach Minuten ein, und die unzureichenden Sampling-Funktionen der Software erschwerten die Erkennung von Problemen. Deren Behebung konnte sich Stunden oder sogar länger hinziehen.
Um schneller zu wachsen und resilienter zu werden, suchte Rappi nach einer robusteren Lösung für sein Infrastruktur-Monitoring und Troubleshooting, die Überwachung der Anwendungsperformance sowie für Real User Monitoring und Synthetic Monitoring. Die Wahl fiel letztlich auf Splunk Observability Cloud.
Ergebnisse
Einfacher Blick in ein komplexes Ökosystem
„Je komplexer unsere Architektur wurde, desto schwieriger wurde es für uns, Probleme zu erkennen“, erläutert Alejandro Comisario, Executive Vice President of Engineering bei Rappi. Seit dem Wechsel zu Splunk Observability Cloud profitiert Rappi von End-to-End-Transparenz innerhalb seiner verteilten, auf Microservices basierenden Architektur, die auch Amazon Elastic Container Service und Kubernetes-Cluster einschließt. Splunk ermöglichte einen agileren Ansatz und Observability in Echtzeit, sodass das Rappi-IT-Team nun mehr als 1.000 Microservices, 6.000 Hosts und 15.000 Container effizient verwalten kann – und das bei gleichzeitiger Reduktion der Mean-Time-to-Resolution (MTTR) um über 90 %.
Die gestiegene Nachfrage bedeutet für Rappi auch höhere Ansprüche an die Zuverlässigkeit und Resilienz seiner App und Infrastruktur. Und genau dazu leistet Splunk Observability Cloud einen wesentlichen Beitrag: Mit der Lösung kann das Rappi-Team Echtzeit-Daten zentral überwachen, analysieren und entsprechend auf sie reagieren.
„Ein einziges Dashboard zeigt Daten für Engineering, DevOps, Site Reliability Engineering, SecOps, Peer Engineering und Microservices sowie betriebliche und geschäftliche Metriken“, so Comisario. „Wenn bei Rappi etwas passiert, das wir nicht im Splunk-Dashboard sehen, dann passiert es auch nicht wirklich.“
Da wir die möglichen geschäftlichen Auswirkungen von App-Fehlern oder schlechter Performance nur zu gut kennen, sind wir froh, dass Splunk Observability Cloud uns mit durchgängigen Echtzeit-Einblicken in unsere Umgebung hilft, proaktiv für Zuverlässigkeit und Resilienz zu sorgen.
Lösungen:
Reibungslose Bestellabwicklung für 7,5 Millionen Kunden pro Woche
Rappi misst seinen Erfolg – wie andere E-Commerce-Unternehmen auch – vor allem daran, wie gut es gelingt, Leads in bestellende Kunden zu konvertieren. 7,5 Millionen aktive User pro Woche erwarten ein reibungsloses Bestellerlebnis – und dafür sorgen die Observability-Tools von Splunk. Mit ihnen kann das IT-Team Probleme in der App, der Infrastruktur oder den Backend-Services des Unternehmens im Handumdrehen aufspüren.
„Mit Splunk Observability Cloud treffen wir Entscheidungen blitzschnell“, so Comisario. Schnell ladende Webseiten und reibungslose Transaktionen in der mobilen App haben dazu beigetragen, dass Rappi heute über 8,8 Millionen Bestellungen pro Monat abwickelt.
José Felipe López, Engineering Manager bei Rappi: „Wenn wir feststellen, dass die Startseite einer wichtigen Geschäftssparte mehr als zwei Sekunden zum Laden braucht, läuten bei uns die Alarmglocken. Mit Splunk Observability Cloud kann unser Entwicklungsteam dann sofort Informationen abrufen, um unser Ziel, Kunden stets herausragenden Service zu bieten, zu erfüllen.“
Verfügbarkeit rund um die Uhr durch schnelle Incident Response
Für das IT-Team von Rappi war es ein riesiger Erfolg, Probleme mehr als 90 % schneller beheben zu können – doch damit gab sich das Team noch nicht zufrieden. Um die Uptime und Performance noch weiter zu verbessern, führte Rappi Splunk On-Call ein, das mit Metadaten angereicherte Benachrichtigungen an Mobilgeräte sendet. Mit Automatisierungen für die Planung und Eskalation trägt Splunk On-Call dazu bei, dass die richtigen Mitglieder des Incident-Response-Teams von Rappi sofort über Probleme informiert werden. Da die Incident-Response-Spezialisten von Rappi damit Incident-Kontext und Audit-Trails auf ihren Smartphones sehen, können sie Probleme sogar noch schneller beheben, bevor diese sich auf das Kundenerlebnis oder den Umsatz auswirken.
Das App-Entwicklungsteam von Rappi hat zum Ziel, alle zwei Wochen phasenweise neue App-Versionen einzuführen. In jeder Roll-out-Phase hält López‘ Team Ausschau nach Problemen – insbesondere nach gehäuften App-Abstürzen. „Wenn unsere App bei vielen Benutzern abstürzt, kann das Folgen für unser Bestellvolumen, unseren Umsatz, den NPS-Wert und die Kundenbindung haben“, erklärt López. „Da wir die möglichen geschäftlichen Auswirkungen von App-Fehlern oder schlechter Performance nur zu gut kennen, sind wir froh, dass Splunk Observability Cloud uns mit durchgängigen Echtzeit-Einblicken in unsere Umgebung hilft, proaktiv für Zuverlässigkeit und Resilienz zu sorgen.“
Genau diese Erfahrung machte das Rappi-Team, als ausgerechnet an einem Wochenende ein Crash auftrat, den es mithilfe von Splunk On-Call beheben konnte. Ein Teammitglied erhielt eine Benachrichtigung auf dem Smartphone und untersuchte den Vorfall sofort. Tatsächlich war eine große Zahl von Rappi-Usern betroffen. Eine Datenanalyse brachte dann den Übeltäter ans Licht: eine leere Codezeichenkette. Mit einer Änderung an einer API konnte das Teammitglied den Fehler im Nu und ohne Update der App beheben – und schon funktionierten die Wochenendbestellungen wieder reibungslos.