Cloud Talk - AWS Ouage - Service Outage Resiliency

Wie sich Dienstausfälle auf Organisationen auswirken und wie man sich darauf vorbereitet

Das Letzte, was ein E-Commerce-Unternehmen kurz vor dem Black Friday hören möchte, ist „AWS ist down“.

Das Letzte, was ein E-Commerce-Unternehmen kurz vor dem Black Friday hören möchte, ist „AWS ist down“. Doch genau das passierte am Mittwoch, den 25. November 2020, dem Tag vor Thanksgiving und zwei Tage vor dem ersten großen Einkaufstag der Feiertage, in den frühen Morgenstunden. Der Ausfall hatte Auswirkungen auf Tausende von Online-Diensten von Drittanbietern und wurde schließlich um 22:23 Uhr PST behoben.

Amazon Web Services (AWS) teilte mit, dass der Ausfall in seiner Region Northern Virginia, US-East-1, auftrat. Der Vorfall ereignete sich während einer „kleinen Kapazitätserweiterung“ seiner Front-End-Flotte von Amazon Kinesis-Servern, nachdem alle Server begannen, die von der aktuellen Betriebssystemkonfiguration zugelassene maximale Anzahl von Threads zu überschreiten.  

In dieser Folge von Cloud Talk erörtern drei Experten von Rackspace Technology diesen Ausfall, die Ursache, die Auswirkungen auf Unternehmen – und welche Maßnahmen diese ergreifen können, um nicht von zukünftigen Ausfällen betroffen zu sein. Gastgeber Jeff DeVerter, CTO, spricht mit Myles Anderson, Vice President of Professional Services, und Ethan Schumann, Senior Manager of Architecture and Engineering.

„Serviceausfälle kommen nur selten vor, können aber verheerende Folgen haben“, so Anderson. „Aber AWS ist ein Spitzenunternehmen und hat schnell reagiert und diesen Ausfall behoben.“

In dieser Folge beschäftigen sich der Gastgeber und seine Gäste mit vielen Themen, darunter:

  • Die Funktionsweise von AWS als Dienstleistungsunternehmen mit Tausenden von Kunden
  • Schritte, die Organisationen unternehmen können, um zu vermeiden, Opfer des nächsten großen Dienstausfalls zu werden
  • Wie sich die Notfallwiederherstellung verändert hat und warum Datenverlust nicht mehr so relevant ist
  • Warum Organisationen Änderungen der Architektur nicht mehr nur nachts und am Wochenende vornehmen
  • Warum die Planung von Redundanz und Verfügbarkeit einen Zero-Day-Ansatz erfordert
  • Warum Sie den ROI des Aufbaus hochverfügbarer Systeme bestimmen müssen

Eine der Schlüsselfragen nach dem Ausfall lautete: „Warum hat er so viele Unternehmen außer Gefecht gesetzt?“, fragte DeVerter.

Die Antwort spricht für „eine der weniger bekannten Informationen über die Funktionsweise von AWS“, so Schumann. „AWS betreibt seine eigenen Dienste auf seinen eigenen Diensten. Es verwaltet also seine eigenen Dienste auf die gleiche Weise wie die Dienste seiner Kunden. Jedes Mal, wenn einer der zentralen Backbone-Dienste wie beispielsweise Kinesis ausfällt, hat dies einen Welleneffekt zur Folge, der sich auf alle Kunden und viele andere zusätzliche Dienste auswirkt.“

Ein weiterer Faktor ist, dass AWS in 22 Zonen im ganzen Land betrieben wird. „Wenn man mit der Bereitstellung einer Lösung beginnt, fängt man mit den Kerndiensten an“, so Schumann. „Sie befinden sich innerhalb einer geografischen Region. Innerhalb der Regionen gibt es Verfügbarkeitszonen. Der Aufbau von Redundanz und Zuverlässigkeit innerhalb einer Verfügbarkeitszone ist ziemlich einfach und unkompliziert.

„Schwieriger wird es, wenn es darum geht, das Scheitern eines Dienstes zu vermeiden, der eine gesamte Region unterstützt. Dafür ist es notwendig, Lösungen in anderen Regionen zur Verfügung zu haben und ziemlich schnell auf diese umzustellen. Das könnte jedoch eine Replizierung von Daten und Lösungen in mehr als einer Region mit sich bringen – und es geht nicht einfach per Knopfdruck.“

Einige Unternehmen könnten den Zeitpunkt des Kinesis-Upgrades von AWS in Frage stellen. Schließlich wurden Updates und Änderungen an der Rechenzentrumsinfrastruktur bislang für die Nachtstunden geplant.

„Es war mutig, mitten am Tag eine große Änderung vorzunehmen“, sagte Anderson. „Aber dieser Schritt ist ganz klar ein Produkt der Kultur von AWS. Dabei geht es um die Modernisierung, auch um die Erweiterung der Kapazitäten für die Verfügbarkeit und die Erhöhung der Geschwindigkeit, wann immer es nötig ist. Das November-Update sollte nur wieder eine von hunderten von unbedeutenden Kapazitätsänderungen bringen. Sie nehmen erfolgreich hunderte am Tag vor, ohne dass wir es merken.“

Listen & Follow

 

Join the Conversation: Find Solve on Twitter and LinkedIn, or follow along via RSS.

Stay on top of what's next in technology

Learn about tech trends, innovations and how technologists are working today.

Subscribe
Disaster Recovery

Sie können die Zukunft nicht vorhersagen – aber Sie können sich darauf vorbereiten

About the Authors

rackspace logo

Rackspace Technology Staff - Solve

The Solve team is made up of a curator team, an editorial team and various technology experts as contributors. The curator team: Srini Koushik, CTO, Rackspace Technology Jeff DeVerter, Chief Technology Evangelist, Rackspace Technology The editorial team:  Gracie LePere, Program Manager Royce Stewart, Chief Designer  Simon Andolina, Design Tim Mann, Design Abi Watson, Design Debbie Talley, Production Manager  Chris Barlow, Editor  Tim Hennessey Jr., Writer Stuart Wade, Writer Karen Taylor, Writer Meagan Fleming, Social Media Specialist Daniel Gibson, Project Manager

Read more about Rackspace Technology Staff - Solve