Podcast (áudio de 43 minutos)

Como as interrupções de serviço afetam as organizações e como se preparar

A última coisa que uma operação de comércio eletrônico quer ouvir pouco antes da Black Friday é "a AWS caiu".

Rackspace Technology Staff - Solve / Rackspace Technology

A última coisa que uma operação de comércio eletrônico quer ouvir pouco antes da Black Friday é "a AWS caiu". Mas foi exatamente isso que aconteceu nas primeiras horas da manhã de quarta-feira, 25 de novembro de 2020, véspera do Dia de Ação de Graças e antevéspera do primeiro grande dia de compras dos feriados. A interrupção afetou milhares de serviços on-line de terceiros e foi definitivamente resolvida às 22h23 PST.

A Amazon Web Services (AWS) informou que a interrupção ocorreu na região US-East-1, na Virgínia do Norte. Ela se deu durante uma "pequena adição de capacidade" na frota de front-end dos servidores Amazon Kinesis, depois que todos os servidores começaram a exceder o número máximo de threads permitido pela configuração vigente do sistema operacional.  

Neste episódio do Cloud Talk, três especialistas em tecnologia da Rackspace discutem essa interrupção, por que ela ocorreu, o impacto dela nos negócios e o que as empresas podem fazer para não ser afetadas por futuras interrupções. O apresentador Jeff DeVerter, CTO, recebe Myles Anderson, vice-presidente de Professional Services, e Ethan Schumann, gerente sênior de arquitetura e engenharia.

"Apesar de muito raras, as interrupções de serviço podem ser devastadoras quando acontecem", comentou Anderson. "Mas a AWS é uma organização de nível internacional, e eles reagiram rapidamente para corrigir a interrupção."

Durante este episódio, apresentador e convidados exploram vários aspectos do tema, incluindo:

  • O funcionamento da AWS como uma empresa de serviços que atende milhares de clientes
  • As providências que as organizações podem tomar para não se tornar vítimas da próxima grande interrupção de serviço
  • Como a natureza da recuperação de desastres mudou e por que a perda de dados não é mais tão relevante
  • Por que as organizações não fazem mais alterações de arquitetura apenas à noite ou em fins de semana
  • Por que o planejamento de redundância e disponibilidade requer uma abordagem de Dia Zero
  • Por que é preciso determinar o ROI da construção de sistemas altamente disponíveis

Após a interrupção, um dos principais questionamentos foi "por que ela nocauteou tantas empresas?", dúvida também ecoada por DeVerter.

A resposta passa por "um dos factoides menos conhecidos sobre o modo de operar da AWS", diz Schumann. "A AWS roda serviços próprios em seus próprios serviços. Portanto, ela gerencia os serviços próprios da mesma maneira que gerencia os serviços dos clientes. Sempre que um dos serviços intrínsecos de backbone, como o Kinesis, cai, o efeito se propaga para todos os clientes e muitos outros serviços auxiliares."

Outro fator é que a AWS opera em 22 zonas distribuídas pelo país. "Quando você começa a implantar uma solução, começa pelos serviços principais", disse Schumann. "Eles residem dentro de uma região geográfica. Dentro das regiões, existem zonas de disponibilidade. A criação de redundância e confiabilidade dentro de uma zona de disponibilidade é bastante fácil e direta.

"A parte mais complicada está em evitar a falha de um serviço que sustenta toda uma região. Para tanto, é necessário ter soluções disponíveis em outras regiões e comutá-las com extrema rapidez. No entanto, isso pode envolver a replicação de dados e soluções em mais de uma região — e não há um botão fácil para isso."

Algumas organizações podem questionar o momento certo para se atualizar o Kinesis da AWS. Afinal, atualizações e alterações na infraestrutura do centro de dados costumavam ser agendadas para o meio da noite.

“Foi uma manobra ousada fazer uma grande mudança no meio do dia", disse Anderson. "Mas essa manobra é fruto direto da cultura da AWS. Eles são focados em modernizar, inclusive adicionando mais capacidade à disponibilidade existente e aumentando a velocidade sempre que necessário. A atualização de novembro deveria ser apenas mais uma entre as inúmeras mudanças corriqueiras de capacidade. Eles fazem centenas delas por dia sem a gente nem perceber."

Listen & Follow
Follow via Amazon Music Follow via Apple Podcasts Follow via Google Podcasts Follow via Spotify Follow via Stitcher Follow via TuneIn

Participe da conversa: encontre o Solve em Twitter and LinkedIn, ou siga através de RSS.

Stay on top of what's next in technology

Learn about tech trends, innovations and how technologiest are working today.

Subscribe

Sobre o autor

Equipe da Rackspace Technology — Solve

A equipe Solve é composta por uma equipe organizadora, uma equipe de editorial e diversos especialistas em tecnologia como contribuidores.

A equipe organizadora:

  • Eric Miller, CTO, Rackspace Technology
  • Jeff...

Leia mais

Série sobre soluções para estratégia

Inscreva-se em um ou todos os eventos globais com influenciadores, especialistas, técnicos e líderes do setor

Crie sua conta já