No último dia 28 de fevereiro, enquanto boa parte dos brasileiros aproveitava o último dia de carnaval, os servidores da Amazon ficaram fora do ar por algumas horas. Mais especificamente, o serviço de computação em nuvem S3, oferecido pela Amazon Web Services, ou simplesmente AWS.
Essa queda afetou boa parte da internet, deixando indisponíveis sites como Trello, Slack, Imgur e até mesmo parte da loja de aplicativos da Apple. Outras grandes empresas, como Netflix e Wix, também contam com a infraestrutura da AWS, no entanto não foram afetadas.
Para que se tenha uma noção da dimensão do problema, a Amazon é líder mundial no mercado de computação e hospedagem em nuvem desde 2006. Ela é responsável por 31% deste mercado, estando à frente de empresas como Google e Microsoft, segundo estudo divulgado pela Forbes.
Quanto à causa do problema, por mais incrível que pareça, ele foi causado por um erro de digitação, segundo declaração da própria empresa. Eles informaram que um dos engenheiros responsáveis pela manutenção do serviço estava executando um procedimento padrão de remoção de contas inativas e enviou um comando incorreto para o sistema. Assim, diversas contas ativas também foram removidas. Os dados de todas as contas foram recuperados, mas os serviços dessas empresas ficaram indisponíveis por várias horas até que tudo fosse normalizado.
Apesar de terem sido apenas algumas horas de instabilidade, o problema teve repercussão mundial. A Amazon divulgou um comunicado informando que irá rever processos e sistemas, a fim de evitar problemas como esse no futuro.
E nós, simples mortais, que lições podemos tirar deste ocorrido? Se uma companhia do porte da Amazon está sujeita a esse tipo de problema, o que posso esperar da empresa que hospeda o meu site? Acompanhe-nos a seguir e descubra alguns ensinamentos valiosos que podemos tirar deste episódio.
Erros humanos podem acontecer (em qualquer empresa)
Esta foi a maior pane registrada em toda a história da Amazon AWS. Segundo comunicado oficial, o problema foi causado por um membro autorizado da equipe de manutenção dos serviços. Em outras palavras, não se tratava de um curioso ou de um aventureiro, mas de um administrador de sistemas capaz, e provavelmente competente, caso contrário não estaria ocupando esta posição na empresa.
Com isso, podemos concluir que, apesar de toda a tecnologia e sistemas de segurança que nos rodeiam, nenhuma empresa está livre de erros causados por seres humanos.
Há alguns meses, história semelhante ocorreu em uma pequena empresa de hospedagem americana. O responsável pela manutenção do sistema rodou – sem ter consciência disso – um comando que removeu todos os arquivos e diretórios do servidor. Assim, ele mandou para o espaço, sem chance de recuperação, cerca de 1500 contas de clientes. Até mesmo os backups foram removidos. Ao tentar pedir ajuda técnica em um fórum, ele foi aconselhado a procurar um advogado, ao invés de suporte especializado. Triste, não é mesmo?
É claro que este tipo de situação não é regra, mas sim exceção. De qualquer modo, é importante ter a consciência de que erros humanos acontecem em qualquer empresa. Independente do tamanho.
Não existe 100% de uptime
A situação experimentada pelos sites hospedados na AWS foi uma exceção. Esse tipo de coisa não acontece todos os dias. No entanto, esse caso nos remete à questão do uptime, ou disponibilidade, que é o percentual de tempo no qual um servidor estará disponível para uso.
A taxa de uptime está declarada no contrato de serviço das empresas de hospedagem. A Amazon informa que o S3 (o serviço que falhou) foi projetado para ter 99,999999999% de disponibilidade. No entanto, nos termos de uso da ferramenta, eles possuem uma tabela de reembolso, para calcular o quanto seria devolvido ao cliente em situações como essa. O percentual de créditos devolvidos varia de acordo com o percentual de indisponibilidade.
Esse tipo de promessa nos lembra que não existe 100% de uptime. Raras são as empresas que prometem essa disponibilidade, e as que prometem, não a garantem. Se você pesquisar, é possível verificar que o chamado SLA (Service Level Agreement ou, em português, acordo do nível de serviço) varia de empresa para empresa. E mesmo que ele seja de 100%, haverá alguma cláusula no contrato informando que a empresa fará uma devolução proporcional ao tempo fora do ar.
É importante destacar que não estamos falando apenas de quedas imprevistas. Os servidores de internet são computadores que, de tempos em tempos, precisam ser reiniciados. Em geral, servidores são reiniciados quando uma atualização de sistema precisa ser feita. Mas outras questões também podem exigir uma reinicialização, como a correção de um travamento, por exemplo. As empresas costumam avisar antecipadamente quando o serviço estará indisponível e por quanto tempo. Geralmente esse tipo de manutenção é feita de madrugada, em horários de menos movimento.
Postagens Recentes
- Como faço para obter a nota fiscal? junho 17, 2017 12:41 am
- 7 sinais de que você precisa trocar de hospedagem março 14, 2017 6:57 pm
- Hospedagem WordPress ou compartilhada: qual escolher? março 14, 2017 6:43 pm
- O que podemos aprender com a queda dos servidores da Amazon AWS março 14, 2017 6:32 pm