Muitas pessoas tiveram problemas no dia 14/06/2012 com suas instâncias disponibilizadas no Amazon EC2 na região us-east-1. Com sorte, felizmente, não fui um dos afetados. Mesmo assim tive o interesse de ler o relatório que a Amazon disponibilizou sobre as causas do incidente.
Se errar (e falhar) é humano, então certamente não há uma outra disciplina tão humana quanto a Tecnologia da Informação. Nossa área de atuação possui tantos fatores interligados que torna o improvável muito mais plausível.
Notem a sequência de eventos da falha:
- Um cabo de alta tensão que fornecia energia ao datacenter falhou.
- Duas subestações de energia desligaram.
- Imediatamente os geradores do datacenter foram ligados e o sistema de energia foi trocado sem interrupções.
- Após um tempo de operação, um dos geradores superaqueceu graças a um cooler defeituoso, e desligou-se.
- Automaticamente todos os equipamentos que estavam ligados àquele gerador tiveram seu circuito de energia trocado para o conjunto de geradores secundário, que também foi ligado de modo imediato.
- Infelizmente o disjuntor que ligava o circuito ao conjunto de geradores secundários estava configurado com uma amperagem muito baixa, e desligou no momento da troca.
- A partir deste instante os equipamentos conectados àquele gerador ficaram sem energia e foram desligados.
Notem que mesmo com uma falha deste porte, somente uma pequena quantidade de equipamentos ficou sem energia (somente os ligados ao gerador com cooler defeituoso).
Para garantir a continuidade do negócio, é necessário seguir o manual à risca: replicar os dados e o serviço em datacenters em regiões geográficas distintas. Os clientes da Amazon que utilizaram o multi-AZ não foram afetados pela falha.
Nenhum comentário:
Postar um comentário