5 Erkenntnisse aus AWS Well-Architected Reviews

By maiellerbrock -

Binqi Zhang, Chris Buckley und Steve Robins trugen zu diesem Bericht bei.

________________________________________

AWS entwickelte sein Well-Architected Framework, um Cloud-Architekten beim Aufbau einer sicheren, hochperformanten, robusten und effizienten Infrastruktur für Anwendungen zu unterstützen. Das Framework bietet den Kunden zudem eine einheitliche Möglichkeit, bestehende Architekturen zu überprüfen.

Rackspace wurde kürzlich von AWS als eines von nur 34 Unternehmen weltweit ausgewählt, Teil des Well-Architected Partner Program zu werden. Als langjähriger Premier-Consulting-Partner hat Rackspace zahlreiche AWS Well-Architected Reviews ("WARs") für unsere gemeinsamen Kunden erstellt. Dieser Beitrag enthält einige der häufigsten Erkenntnisse, die während unserer Reviews gewonnen wurden, mit Vorschlägen, wie man diese verbessern kann.

Wir halten es zum Beispiel für entscheidend, dass Führungskräfte der Fachbereiche zusammen mit technischen Experten an diesen Reviews teilnehmen, und zwar aus zwei Hauptgründen: Erstens sollte Ihre Architektur und Ihr Design von den Unternehmenszielen bestimmt sein, und zweitens vermittelt es den Fachbereichsleitern ein tieferes Verständnis für die Kompromisse zwischen Funktionalität und Kosten.

Hohe Verfügbarkeit im Vergleich zu Funktionalität und Kosten

Nirgendwo sind diese Kompromisse offensichtlicher als bei der Gegenüberstellung von Verfügbarkeit versus Kosten. Bei einer Architektur nach den Prinzipien der Hochverfügbarkeit kann eine Infrastruktur mehrere Ausfälle erleiden ohne den Endanwender stark negativ zu beeinträchtigen.

Während die meisten Kunden gerne eine 100-prozentige Verfügbarkeit hätten, ist es sehr schwierig und teuer, dies in der Praxis umzusetzen. Selbst kleinste Architekturfehleinschätzungen können schwerwiegende Auswirkungen nach sich ziehen.

Wir fragen Kunden:

  • Wie lange kann ein System ausfallen und was sind die Kosten die den Kunde dadurch pro Stunde entstehen?
  • Wie lange darf eine Systemwiederherstellung nach einem Ausfall maximal dauern?
  • Was ist die Zeitspanne in der ein Datenverlust akzeptabel ist?

Diese Fragen können schwer zu beantworten sein aber es ist wichtig, die Gegebenheiten von IT-Systemen zu verstehen um entsprechend planen und sich auf Fehler vorbereiten zu können.

Festlegung der Infrastrukturanforderungen nach genauen Kennzahlen

Wir beobachten leider viel zu häufig, dass Unternehmen Infrastrukturentscheidungen auf der Grundlage von Schätzwerten und nicht nach genauen Kennzahlen treffen.

Situationen können sich ändern und das Unternehmen und dessen Anforderungen wachsen. Das ursprüngliche Design Ihrer Infrastruktur wird Ihnen anfänglich gute Dienste leisten, aber Ressourcen reichen möglicherweise irgendwann entweder nicht mehr aus, was bedeutet, dass die Benutzerfreundlichkeit leidet, oder sie sind überdimensioniert und Sie geben unnötig viel Geld für ungenutzte Ressourcen aus. Die Architektur sollte sich daher entsprechend der Unternehmensanforderungen anpassen um einen geschäftlicher Mehrwert liefern zu können.

Änderungen an der Infrastruktur sollten basierend auf Metriken erfolgen.

Dies sind einige Kennzahlen, die jedes Unternehmen erfassen und regelmäßig überprüfen sollte:

  • Betriebszeit der Ressourcen
  • Ziele der Wiederherstellungszeit (RTO)
  • Ziele der Wiederherstellungspunkte (RPO)
  • Ressourcennutzung
  • Infrastrukturkosten und -prognosen
  • Lasttestergebnisse
  • APM-Kennzahlen (Application Performance Monitoring) (z.B. durchschnittliche Anforderungszeit, Transition Completion Time, Database Query Time etc.)
  • Geschäftsprozessmetriken

Erweiterung von DevOps mit DevSecOps

Zu viele Unternehmen haben bislang noch keine Security in ihren DevOps-Prozess integriert.

Mit der zunehmenden Verbreitung von DevOps automatisieren Engineers heute viele Aufgaben, und die IT-Sicherheit sollte davon nicht ausgenommen sein. Automatisierung basierend auf dem Eintreten von Sicherheitsvorfällen kann Dinge beinhalten wie:

  • Automatisiertes Auditing von Zugriffsprotokollen und API-Aufrufen mit Benachrichtigung
  • Automatisiertes und optimiertes Patch-Management
  • Automatisierte Infrastructure as Code Sicherheitsprüfungen sowie Überprüfung der Einhaltung von Firmenrichtlinien
  • Automatisierte Fehlereinschleusung (Chaos Engineering) zur Überprüfung und Optimierung der Ausfallsicherheit

Erstellen eines Datenklassifikationsschemas

Wir stoßen oft auf Anwender, die alle Daten, die sie in AWS speichern, als gleichermaßen wichtig betrachten. Auf diese Weise hat man entweder die Infrastruktur zu komplex und teuer werden lassen oder ist das Risiko eingegangen, dass sie nicht den regulatorischen Anforderungen entspricht. Die folgenden Fragen können Kunden dabei helfen, das Infrastrukturdesign und das Betriebsmodell richtig zu gestalten:

  • Welche Art von Daten werden in meiner AWS-Umgebung gespeichert?
  • Welche regulatorischen Anforderungen gibt es für diese Daten?
  • Sind der Schutz, die Zugangskontrolle und die Verschlüsselung der Daten ausreichend?
  • Wie viele Daten werden aktuell gespeichert und wie viele sollen in Zukunft gespeichert werden?
  • Wie lange soll ich die Daten aufbewahren?

Genau wie bei der Festlegung des SLA einer Anwendung ist es von entscheidender Bedeutung, dass der Business Owner der Anwendung an der Beantwortung dieser Fragen beteiligt ist.

Implementierung einer effektiven Kostenkontrolle

Die Kostenkontrolle ist entscheidend, insbesondere da die AWS-Umgebung eines Unternehmens immer komplexer wird. Als AWS-Partner bietet Rackspace umfassende Tools für Cost Governance. Wir schlagen die folgenden Grundlagen für die Kostenoptimierung vor:

  • Prinzip des Zugangs mit den geringsten Rechten: Indem Sie nur die Berechtigungen erteilen, die ein Benutzer benötigt, um seine Arbeit zu erledigen, und nicht mehr, können Sie verhindern, dass Mitarbeiter versehentlich Ressourcen anlegen, zu denen sie nicht berechtigt sind.
  • Tagging-Strategie: Es ist fast unmöglich, alle Ressourcen manuell zu verfolgen. Tags bilden die Grundlage für ein automatisiertes Ressourcenmanagement.
  • Garbage Collection und Bereinigung: Die Bereinigung ungenutzter Ressourcen sollte automatisiert durch den Einsatz von Tags und in regelmäßigen Abständen erfolgen. Wenn Sie keine automatisierten Tools zur Verfügung haben, beginnen Sie noch heute damit, diese manuell auszuführen, und stellen Sie das Tooling im Laufe der Zeit um.
  • Angemessene Preismodelle: Ziehen Sie  die Nutzung von Reserved oder Spot Instances für Ihre Workloads in Betracht um langfristig Kosten einzusparen.

Eine weiterreichende Kostenkontrolle ist immer auf Automatisierung angewiesen. Automatisiertes Kostenmanagement ist eine wichtige Basis für jedes DevOps-fähige Unternehmen, insbesondere für diejenigen, die in der Cloud mit flexiblen Preisstrukturen arbeiten.

Wir hoffen, dass diese allgemeinen Erkenntnisse Ihnen helfen, die Herausforderungen eines effizienten Cloud-Betriebs besser zu verstehen. Mit einem AWS Well-Architected Review erhält Ihr Team ein tieferes Verständnis dafür, wie Sie die optimale AWS-Umgebung für Ihre individuellen Geschäftsanforderungen schaffen können.

Rackspace kann nicht nur das Review durchführen sondern auch bei der Umsetzung und Implementierung der neu gewonnen Erkenntnisse unterstützen.

Erfahren Sie mehr darüber, wie unsere Experten Ihnen auf AWS behilflich sein können.