Instabilidade na AWS Afeta Diversos Serviços
A Amazon Web Services (AWS) enfrentou uma instabilidade significativa na manhã de 20 de outubro, impactando tanto seus serviços quanto os de clientes em vários países. Os primeiros relatos de usuários começaram a surgir por volta das 3h30, horário de Brasília, com um aumento nas reclamações registrado em plataformas de monitoramento. A empresa confirmou um aumento nas taxas de erro em diversos serviços de sua nuvem, afetando especialmente sites e aplicativos de alto tráfego no Brasil.
Quem foi afetado
Dentre os serviços impactados estão a assistente virtual Alexa, que deixou de responder a comandos, e aplicativos populares como Snapchat, Fortnite, Airtable e Canva. Usuários também relataram dificuldades em plataformas como Mercado Livre, Wellhub, Hotmart e iFood. A empresa de inteligência artificial Perplexity associou a inoperância a este incidente da nuvem da Amazon, evidenciando um efeito cascata em ecossistemas que dependem de APIs e serviços de dados hospedados na mesma infraestrutura.
Quando começou e como evoluiu
Os primeiros sinais de instabilidade foram notados na madrugada, com um aumento constante nas reclamações ao longo da manhã. A confirmação da falha veio logo em seguida, acompanhada de relatos de erros elevados em componentes da nuvem. Às 5h44, as menções a falhas em sites e aplicativos continuavam altas, e até o fechamento deste texto, não havia informações oficiais sobre o tempo necessário para a normalização completa dos serviços.
Possíveis causas e histórico
A causa exata do incidente ainda não foi divulgada. Eventos anteriores de grande porte na AWS tiveram origem em serviços críticos de rede e autenticação na região US-EAST-1, que historicamente concentra um volume significativo de cargas de trabalho. Em anos anteriores, como 2023, 2021 e 2020, ocorreram falhas semelhantes que deixaram serviços fora do ar por várias horas, sugerindo que o problema pode estar relacionado a componentes centrais que suportam múltiplas aplicações.
Por que a falha reverbera tanto
O modelo de computação em nuvem da AWS é baseado em serviços compartilhados e altamente integrados. Quando um componente crítico apresenta falhas, o efeito se propaga para diversas aplicações dependentes. Em horários de alta demanda, como durante automações e integrações, o impacto para o usuário final se torna mais evidente, afetando serviços como assistentes virtuais, aplicativos de entrega e plataformas de comércio eletrônico.
O que as empresas podem fazer agora
As equipes técnicas que utilizam a AWS devem implementar planos de continuidade e adotar medidas táticas até que a situação se normalize:
- Verificar o status dos serviços e comunicar os clientes sobre os impactos e alternativas temporárias.
- Redirecionar tráfego crítico para regiões e zonas que estejam operando normalmente, quando possível.
- Minimizar a dependência de integrações não essenciais durante o período de instabilidade.
- Ativar filas e mecanismos de retry para mitigar erros intermitentes entre serviços.
- Monitorar indicadores de latência, taxa de erro e quedas de sessão, priorizando os fluxos de receita.
- Registrar evidências para análise posterior, incluindo logs e decisões de mitigação.
Impacto para o usuário e para o varejo digital
As instabilidades em serviços amplamente utilizados afetam diretamente as jornadas de compra, consultas de pedidos, autenticações e pagamentos. Em marketplaces e aplicativos de entrega, pequenos aumentos na latência podem resultar em abandonos de carrinho. Ferramentas de produtividade também enfrentam perdas de sessão e erros de salvamento. Para minimizar o atrito, muitas plataformas têm utilizado mensagens de status in-app e implementado degradação controlada de funcionalidades não críticas.
O que acompanhar nas próximas horas
A normalização dos serviços geralmente ocorre de forma gradual, variando por serviço e região. As empresas devem ficar atentas a atualizações do provedor de nuvem, ao retorno das APIs de autenticação e dados, à estabilidade de filas e mensageria, além da recuperação das taxas de sucesso em checkouts e logins. Em situações como essa, é crucial manter uma comunicação transparente com os clientes, incluindo estimativas de disponibilidade e prazos para compensações, quando necessário.
Contexto e relevância
A AWS é uma das principais plataformas de nuvem globalmente, com presença em mais de 190 países e uma ampla gama de serviços, incluindo armazenamento, hospedagem e inteligência artificial. Essa capilaridade explica como falhas isoladas podem gerar instabilidades em aplicações de grande audiência. Para líderes de tecnologia, este episódio destaca a importância de uma arquitetura resiliente e a necessidade de revisar dependências críticas e estratégias de comunicação em incidentes.
Fonte por: Its Show