Podcast (áudio de 43 minutos)

Como as interrupções de serviço afetam as organizações e como se preparar

A última coisa que uma operação de comércio eletrônico quer ouvir pouco antes da Black Friday é "a AWS caiu".

Rackspace Staff - Cloud Talk / Rackspace

A última coisa que uma operação de comércio eletrônico quer ouvir pouco antes da Black Friday é "a AWS caiu". Mas foi exatamente isso que aconteceu nas primeiras horas da manhã de quarta-feira, 25 de novembro de 2020, véspera do Dia de Ação de Graças e antevéspera do primeiro grande dia de compras dos feriados. A interrupção afetou milhares de serviços on-line de terceiros e foi definitivamente resolvida às 22h23 PST.

A Amazon Web Services (AWS) informou que a interrupção ocorreu na região US-East-1, na Virgínia do Norte. Ela se deu durante uma "pequena adição de capacidade" na frota de front-end dos servidores Amazon Kinesis, depois que todos os servidores começaram a exceder o número máximo de threads permitido pela configuração vigente do sistema operacional.  

Neste episódio do Cloud Talk, três especialistas em tecnologia da Rackspace discutem essa interrupção, por que ela ocorreu, o impacto dela nos negócios e o que as empresas podem fazer para não ser afetadas por futuras interrupções. O apresentador Jeff DeVerter, CTO, recebe Myles Anderson, vice-presidente de Professional Services, e Ethan Schumann, gerente sênior de arquitetura e engenharia.

"Apesar de muito raras, as interrupções de serviço podem ser devastadoras quando acontecem", comentou Anderson. "Mas a AWS é uma organização de nível internacional, e eles reagiram rapidamente para corrigir a interrupção."

Durante este episódio, apresentador e convidados exploram vários aspectos do tema, incluindo:

  • O funcionamento da AWS como uma empresa de serviços que atende milhares de clientes
  • As providências que as organizações podem tomar para não se tornar vítimas da próxima grande interrupção de serviço
  • Como a natureza da recuperação de desastres mudou e por que a perda de dados não é mais tão relevante
  • Por que as organizações não fazem mais alterações de arquitetura apenas à noite ou em fins de semana
  • Por que o planejamento de redundância e disponibilidade requer uma abordagem de Dia Zero
  • Por que é preciso determinar o ROI da construção de sistemas altamente disponíveis

Após a interrupção, um dos principais questionamentos foi "por que ela nocauteou tantas empresas?", dúvida também ecoada por DeVerter.

A resposta passa por "um dos factoides menos conhecidos sobre o modo de operar da AWS", diz Schumann. "A AWS roda serviços próprios em seus próprios serviços. Portanto, ela gerencia os serviços próprios da mesma maneira que gerencia os serviços dos clientes. Sempre que um dos serviços intrínsecos de backbone, como o Kinesis, cai, o efeito se propaga para todos os clientes e muitos outros serviços auxiliares."

Outro fator é que a AWS opera em 22 zonas distribuídas pelo país. "Quando você começa a implantar uma solução, começa pelos serviços principais", disse Schumann. "Eles residem dentro de uma região geográfica. Dentro das regiões, existem zonas de disponibilidade. A criação de redundância e confiabilidade dentro de uma zona de disponibilidade é bastante fácil e direta.

"A parte mais complicada está em evitar a falha de um serviço que sustenta toda uma região. Para tanto, é necessário ter soluções disponíveis em outras regiões e comutá-las com extrema rapidez. No entanto, isso pode envolver a replicação de dados e soluções em mais de uma região — e não há um botão fácil para isso."

Algumas organizações podem questionar o momento certo para se atualizar o Kinesis da AWS. Afinal, atualizações e alterações na infraestrutura do data center costumavam ser agendadas para o meio da noite.

“Foi uma manobra ousada fazer uma grande mudança no meio do dia", disse Anderson. "Mas essa manobra é fruto direto da cultura da AWS. Eles são focados em modernizar, inclusive adicionando mais capacidade à disponibilidade existente e aumentando a velocidade sempre que necessário. A atualização de novembro deveria ser apenas mais uma entre as inúmeras mudanças corriqueiras de capacidade. Eles fazem centenas delas por dia sem a gente nem perceber."

Listen & Subscribe:
Subscribe via Apple Podcasts Subscribe via Google Podcasts Subscribe via Spotify Subscribe via Stitcher Subscribe via TuneIn

Participe da conversa: encontre o Solve em Twitter and LinkedIn, ou siga através de RSS.

Sobre o autor

Rackspace Staff - Cloud Talk

Cloud Talk is produced by a team of dedicated Rackspace Technology employees. The core team includes:

Jeff DeVerter: Host
As host of Cloud Talk, Jeff...

Leia mais

Série sobre soluções para estratégia

Inscreva-se em um ou todos os eventos globais com influenciadores, especialistas, técnicos e líderes do setor

Crie sua conta já