Perfekt vorbereitet auf das Black Weekend – mit Site Reliability Engineering

andreasfenchel

Perfekt vorbereitet auf das Black Weekend –  mit Site Reliability Engineering

Das Black Weekend und andere sogenannte Skalierungsereignisse im Einzelhandel sind riesige Umsatzmöglichkeiten. Sie können aber auch riskant für Ihr Unternehmen sein. Im Zuge solcher Ereignisse gerät Ihre Marke nicht nur verstärkt in das öffentliche Bewusstsein, sondern ist auch am anfälligsten. In kürzester Zeit besuchen viele Kunden Ihre Website. Dies führt zu einem größeren Potenzial für Probleme durch eingeschränkte Ressourcen und unerkannte Softwarefehler. Berichte über solche Vorkommnisse können sich schnell über die sozialen Netzwerke und klassische Medien verbreiten und so Ihrem Ruf schaden. Darüber hinaus geben Kunden während dieser Zeit in der Regel mehr Geld pro Transaktion aus. Damit hat jede entgangene Bestellung einen größeren negativen Einfluss auf Ihr Betriebsergebnis.

Ziele bestimmen. Risiken bewerten. Daten analysieren. Prozesse adaptieren. Wiederholen.

Es mag den Anschein haben, dass die Lösung ganz einfach darin besteht, übertriebene Vorsorge zu treffen und auf das Beste zu hoffen. Es gibt jedoch einen besseren Weg, sich auf derartige Skalierungsereignisse vorzubereiten: Site Reliability Engineering (SRE). SRE verwendet einen klar definierten DevOps-Ansatz, um einen iterativen Zyklus datengetriebener Verbesserungen für Ihre Website und deren Betrieb zu schaffen. Damit soll sichergestellt werden, dass auch die größten Skalierungsereignisse unterstützt werden können.

Jeder SRE-Zyklus umfasst logische Schritte zur Förderung Ihres Unternehmenserfolgs.

  1. Bestimmen Sie Ihre Ziele.
  2. Bewerten Sie Ihre Risiken.
  3. Analysieren Sie Ihre Daten.
  4. Passen Sie Ihre Abläufe an.
  5. Wiederholen.

„SRE ist eine konkrete Umsetzung der Devops-Prinzipien mit durchdachten Tools und Praktiken, die für Unternehmen von unschätzbarem Wert sind.“ – Derek Remund, Rackspace Principal Customer Reliability Engineer

Schritt 1: Bestimmung Ihrer Ziele

Service-Level-Ziele (auch Service Level Objectives, kurz SLOs) sind das Herzstück des SRE. Die Definition klarer Erfolgsziele kann Ihnen helfen, Betriebsabläufe, Entwicklung und Ihr Geschäft im Allgemeinen aufeinander abzustimmen. Sie können auch als Kommunikationsinstrument dienen, um interne Unterstützung zu gewinnen und den Fokus auf die Unternehmensziele zu stärken.

Gute SLOs basieren auf Markt- und Kundenerwartungen und korrelieren direkt mit der Kundenzufriedenheit und dem wirtschaftlichen Erfolg. Sie sollten messbare Service-Level-Indikatoren (SLI) sowie Warnhinweise für unerwünschte Entwicklungen umfassen.

Schritt 2: Bewerten Ihrer tatsächlichen Risiken

SLOs können Ihnen helfen, Risiken zu vermeiden und zu begegnen, indem sie Ihren Problembereich klar umreißen und die damit verbundenen Risiken quantifizieren. Eine gute Performance in Bezug auf Ihre SLOs kann Ihnen helfen, Dinge wie eine schnellere Entwicklung zu rechtfertigen. Eine schlechte Performance kann dagegen Ihre Aufmerksamkeit wieder auf Initiativen für mehr Zuverlässigkeit und Stabilität lenken.

Das Verständnis Ihrer tatsächlichen, realen Risiken ist ein entscheidender und kontinuierlicher Prozess. SRE kann Ihnen bei der Identifizierung und Einordnung von Risiken helfen – basierend auf Kriterien wie Zeit bis zur Erkennung, Zeit bis zur Behebung oder Zeit zwischen den Ausfällen. Es kann Ihnen auch helfen zu sehen, wie sich die damit verbundenen Auswirkungen bei größerem Maßstab ändern.

Schritt 3: Erheben und Analysieren Ihrer Daten

Um eine Feedbackschleife zu erstellen, benötigen Sie Daten. Daten geben Aufschluss darüber, ob Sie Ihre SLOs umgesetzt haben, unterstützen Risikobewertungen und ermöglichen eine fundierte Entscheidungsfindung. Dies erfordert Instrumente zur Automatisierung der Datenerfassung, zur Überwachung der Ergebnisse und zur kontinuierlichen Datenanalyse. Ihr System sollte Informationen mit mehreren Detail- und Komplexitätsebenen ausgeben, die problemlos über Dashboards zugänglich sind. Benutzer sollten in der Lage sein, Daten nach einzelnen SLIs aufzuschlüsseln und Rollup-Zusammenfassungen zu erstellen. Rohdaten sollten als Backup sowie für spezielle Anwendungszwecke gespeichert werden.

Schritt 4: Anpassen Ihrer Betriebsabläufe

Datenerhebung und -analyse fördern die Transparenz Ihrer Prozesse, müssen jedoch auch Maßnahmen nach sich ziehen. Auf Daten und SLOs basierende Fehlerbudgets helfen Ihnen, bessere Entscheidungen im Hinblick auf Ihre Betriebsabläufe zu treffen. Fehlerbudgets beschreiben den Zeitanteil, während dessen Ihr SLO voraussichtlich nicht eingehalten werden kann.

SLOs und Fehlerbudgets werden in der Regel über einen bestimmten Zeitraum – beispielsweise einen Monat – berechnet. Die Nachverfolgung Ihres Fehlerbudgets über diesen Zeitraum hinweg hilft Ihnen zu bestimmen, wann Sie Risiken eingehen können und wann Sie sich auf Zuverlässigkeit konzentrieren sollten.

Mit SRE ein neues Niveau erreichen

Mit SRE können Skalierungsereignisse zu normalen, geschäftsüblichen Aktivitäten werden. Selbst wenn Sie SRE noch nicht im Einsatz haben, können Sie ein paar Dinge tun, um Ihre nächstes Ereignis einfacher zu machen:

  1. Bestimmen Sie jetzt Ihre Ziele.
  2. Planen Sie Ihre Strategien für Mobile, Kampagnen und Conversions.
  3. Führen Sie Belastungstests und Simulationen durch.
  4. Erstellen Sie einen Vorfallsreaktionsplan.
  5. Richten Sie für alles ein Monitoring ein.
  6. Bewerten Sie und nehmen Sie für Ihr nächstes Ereignis entsprechende Anpassungen vor.

Sie möchten weitere Informationen zum Site Reliability Engineering? Dann laden Sie sich das Whitepaper zum Thema hier herunter.

Fühlen Sie sich überfordert? Rackspace kann Sie unterstützen.

Wir haben mehr als 2,5 Millionen Stunden mit dem Support von Skalierungsereignissen verbracht und verwalten über 8.000 E-Commerce-Websites. Unsere Engineers haben fast 55.000 Skalierungsereignisse unterstützt, darunter Produkteinführungen und Feiertage. Unter Verwendung von Google Cloud Platform und der SRE-Prinzipien bieten unsere Customer Reliability Engineers maßgeschneiderte SRE-Services, um Ihr Black Weekend (und alle anderen Skalierungsereignisse) jedes Jahr aufs Neue zu einem Erfolg zu machen.

Es ist an der Zeit, mit der Planung für Ihr nächstes Skalierungsereignis zu beginnen.

Mit SRE unterstützen Sie Ihr Unternehmen dabei schwarze Zahlen zu schreiben. Lassen Sie Ihr Black-Weekend-Setup von einem Rackspace Customer Reliability Engineer beurteilen.

Registrieren Sie sich, um sich mit einem Rackspace Customer Reliability Engineer auszutauschen, bei dem Sie eine kostenlose Beratung zu Rackspace und Google Cloud CRE erhalten können, die auf SRE-Best-Practices basiert: /de-de/lp/black-weekend-offer