Podcast (Hördauer: 43 Min.)

Wie sich Dienstausfälle auf Organisationen auswirken und wie man sich darauf vorbereitet

Das Letzte, was ein E-Commerce-Unternehmen kurz vor dem Black Friday hören möchte, ist „AWS ist down“.

Rackspace Staff - Cloud Talk / Rackspace

Das Letzte, was ein E-Commerce-Unternehmen kurz vor dem Black Friday hören möchte, ist „AWS ist down“. Doch genau das passierte am Mittwoch, den 25. November 2020, dem Tag vor Thanksgiving und zwei Tage vor dem ersten großen Einkaufstag der Feiertage, in den frühen Morgenstunden. Der Ausfall hatte Auswirkungen auf Tausende von Online-Diensten von Drittanbietern und wurde schließlich um 22:23 Uhr PST behoben.

Amazon Web Services (AWS) teilte mit, dass der Ausfall in seiner Region Northern Virginia, US-East-1, auftrat. Der Vorfall ereignete sich während einer „kleinen Kapazitätserweiterung“ seiner Front-End-Flotte von Amazon Kinesis-Servern, nachdem alle Server begannen, die von der aktuellen Betriebssystemkonfiguration zugelassene maximale Anzahl von Threads zu überschreiten.  

In dieser Folge von Cloud Talk erörtern drei Experten von Rackspace Technology diesen Ausfall, die Ursache, die Auswirkungen auf Unternehmen – und welche Maßnahmen diese ergreifen können, um nicht von zukünftigen Ausfällen betroffen zu sein. Gastgeber Jeff DeVerter, CTO, spricht mit Myles Anderson, Vice President of Professional Services, und Ethan Schumann, Senior Manager of Architecture and Engineering.

„Serviceausfälle kommen nur selten vor, können aber verheerende Folgen haben“, so Anderson. „Aber AWS ist ein Spitzenunternehmen und hat schnell reagiert und diesen Ausfall behoben.“

In dieser Folge beschäftigen sich der Gastgeber und seine Gäste mit vielen Themen, darunter:

  • Die Funktionsweise von AWS als Dienstleistungsunternehmen mit Tausenden von Kunden
  • Schritte, die Organisationen unternehmen können, um zu vermeiden, Opfer des nächsten großen Dienstausfalls zu werden
  • Wie sich die Notfallwiederherstellung verändert hat und warum Datenverlust nicht mehr so relevant ist
  • Warum Organisationen Änderungen der Architektur nicht mehr nur nachts und am Wochenende vornehmen
  • Warum die Planung von Redundanz und Verfügbarkeit einen Zero-Day-Ansatz erfordert
  • Warum Sie den ROI des Aufbaus hochverfügbarer Systeme bestimmen müssen

Eine der Schlüsselfragen nach dem Ausfall lautete: „Warum hat er so viele Unternehmen außer Gefecht gesetzt?“, fragte DeVerter.

Die Antwort spricht für „eine der weniger bekannten Informationen über die Funktionsweise von AWS“, so Schumann. „AWS betreibt seine eigenen Dienste auf seinen eigenen Diensten. Es verwaltet also seine eigenen Dienste auf die gleiche Weise wie die Dienste seiner Kunden. Jedes Mal, wenn einer der zentralen Backbone-Dienste wie beispielsweise Kinesis ausfällt, hat dies einen Welleneffekt zur Folge, der sich auf alle Kunden und viele andere zusätzliche Dienste auswirkt.“

Ein weiterer Faktor ist, dass AWS in 22 Zonen im ganzen Land betrieben wird. „Wenn man mit der Bereitstellung einer Lösung beginnt, fängt man mit den Kerndiensten an“, so Schumann. „Sie befinden sich innerhalb einer geografischen Region. Innerhalb der Regionen gibt es Verfügbarkeitszonen. Der Aufbau von Redundanz und Zuverlässigkeit innerhalb einer Verfügbarkeitszone ist ziemlich einfach und unkompliziert.

„Schwieriger wird es, wenn es darum geht, das Scheitern eines Dienstes zu vermeiden, der eine gesamte Region unterstützt. Dafür ist es notwendig, Lösungen in anderen Regionen zur Verfügung zu haben und ziemlich schnell auf diese umzustellen. Das könnte jedoch eine Replizierung von Daten und Lösungen in mehr als einer Region mit sich bringen – und es geht nicht einfach per Knopfdruck.“

Einige Unternehmen könnten den Zeitpunkt des Kinesis-Upgrades von AWS in Frage stellen. Schließlich wurden Updates und Änderungen an der Rechenzentrumsinfrastruktur bislang für die Nachtstunden geplant.

„Es war mutig, mitten am Tag eine große Änderung vorzunehmen“, sagte Anderson. „Aber dieser Schritt ist ganz klar ein Produkt der Kultur von AWS. Dabei geht es um die Modernisierung, auch um die Erweiterung der Kapazitäten für die Verfügbarkeit und die Erhöhung der Geschwindigkeit, wann immer es nötig ist. Das November-Update sollte nur wieder eine von hunderten von unbedeutenden Kapazitätsänderungen bringen. Sie nehmen erfolgreich hunderte am Tag vor, ohne dass wir es merken.“

Listen & Subscribe:
Subscribe via Apple Podcasts Subscribe via Google Podcasts Subscribe via Spotify Subscribe via Stitcher Subscribe via TuneIn

Beteiligen Sie sich am Gespräch: Finden Sie Solve auf Twitter and LinkedIn, oder folgen Sie über RSS.

Über den Verfasser

Rackspace Staff - Cloud Talk

Cloud Talk is produced by a team of dedicated Rackspace Technology employees. The core team includes:

Jeff DeVerter: Host
As host of Cloud Talk, Jeff...

Erfahren Sie mehr

Solve Strategy Series

Registrieren Sie sich für eine oder alle dieser globalen Veranstaltungen, an denen Branchen-Influencer, Experten, Technologen und Führungskräfte teilnehmen.

Jetzt registrieren