Cloud Talk - AWS Ouage - Service Outage Resiliency

Como as interrupções de serviço afetam as organizações e como se preparar

A última coisa que uma operação de comércio eletrônico quer ouvir pouco antes da Black Friday é "a AWS caiu".

A última coisa que uma operação de comércio eletrônico quer ouvir pouco antes da Black Friday é "a AWS caiu". Mas foi exatamente isso que aconteceu nas primeiras horas da manhã de quarta-feira, 25 de novembro de 2020, véspera do Dia de Ação de Graças e antevéspera do primeiro grande dia de compras dos feriados. A interrupção afetou milhares de serviços on-line de terceiros e foi definitivamente resolvida às 22h23 PST.

A Amazon Web Services (AWS) informou que a interrupção ocorreu na região US-East-1, na Virgínia do Norte. Ela se deu durante uma "pequena adição de capacidade" na frota de front-end dos servidores Amazon Kinesis, depois que todos os servidores começaram a exceder o número máximo de threads permitido pela configuração vigente do sistema operacional.  

Neste episódio do Cloud Talk, três especialistas em tecnologia da Rackspace discutem essa interrupção, por que ela ocorreu, o impacto dela nos negócios e o que as empresas podem fazer para não ser afetadas por futuras interrupções. O apresentador Jeff DeVerter, CTO, recebe Myles Anderson, vice-presidente de Professional Services, e Ethan Schumann, gerente sênior de arquitetura e engenharia.

"Apesar de muito raras, as interrupções de serviço podem ser devastadoras quando acontecem", comentou Anderson. "Mas a AWS é uma organização de nível internacional, e eles reagiram rapidamente para corrigir a interrupção."

Durante este episódio, apresentador e convidados exploram vários aspectos do tema, incluindo:

  • O funcionamento da AWS como uma empresa de serviços que atende milhares de clientes
  • As providências que as organizações podem tomar para não se tornar vítimas da próxima grande interrupção de serviço
  • Como a natureza da recuperação de desastres mudou e por que a perda de dados não é mais tão relevante
  • Por que as organizações não fazem mais alterações de arquitetura apenas à noite ou em fins de semana
  • Por que o planejamento de redundância e disponibilidade requer uma abordagem de Dia Zero
  • Por que é preciso determinar o ROI da construção de sistemas altamente disponíveis

Após a interrupção, um dos principais questionamentos foi "por que ela nocauteou tantas empresas?", dúvida também ecoada por DeVerter.

A resposta passa por "um dos factoides menos conhecidos sobre o modo de operar da AWS", diz Schumann. "A AWS roda serviços próprios em seus próprios serviços. Portanto, ela gerencia os serviços próprios da mesma maneira que gerencia os serviços dos clientes. Sempre que um dos serviços intrínsecos de backbone, como o Kinesis, cai, o efeito se propaga para todos os clientes e muitos outros serviços auxiliares."

Outro fator é que a AWS opera em 22 zonas distribuídas pelo país. "Quando você começa a implantar uma solução, começa pelos serviços principais", disse Schumann. "Eles residem dentro de uma região geográfica. Dentro das regiões, existem zonas de disponibilidade. A criação de redundância e confiabilidade dentro de uma zona de disponibilidade é bastante fácil e direta.

"A parte mais complicada está em evitar a falha de um serviço que sustenta toda uma região. Para tanto, é necessário ter soluções disponíveis em outras regiões e comutá-las com extrema rapidez. No entanto, isso pode envolver a replicação de dados e soluções em mais de uma região — e não há um botão fácil para isso."

Algumas organizações podem questionar o momento certo para se atualizar o Kinesis da AWS. Afinal, atualizações e alterações na infraestrutura do centro de dados costumavam ser agendadas para o meio da noite.

“Foi uma manobra ousada fazer uma grande mudança no meio do dia", disse Anderson. "Mas essa manobra é fruto direto da cultura da AWS. Eles são focados em modernizar, inclusive adicionando mais capacidade à disponibilidade existente e aumentando a velocidade sempre que necessário. A atualização de novembro deveria ser apenas mais uma entre as inúmeras mudanças corriqueiras de capacidade. Eles fazem centenas delas por dia sem a gente nem perceber."

Listen & Follow

 

Join the Conversation: Find Solve on Twitter and LinkedIn, or follow along via RSS.

Stay on top of what's next in technology

Learn about tech trends, innovations and how technologists are working today.

Subscribe
Disaster Recovery

Não se pode prever o futuro, mas pode-se preparar para ele

About the Authors

rackspace logo

Rackspace Technology Staff - Solve

The Solve team is made up of a curator team, an editorial team and various technology experts as contributors. The curator team: Srini Koushik, CTO, Rackspace Technology Jeff DeVerter, Chief Technology Evangelist, Rackspace Technology The editorial team:  Gracie LePere, Program Manager Royce Stewart, Chief Designer  Simon Andolina, Design Tim Mann, Design Abi Watson, Design Debbie Talley, Production Manager  Chris Barlow, Editor  Tim Hennessey Jr., Writer Stuart Wade, Writer Karen Taylor, Writer Meagan Fleming, Social Media Specialist Daniel Gibson, Project Manager

Read more about Rackspace Technology Staff - Solve