Interrupções de rede: Preparando-se para o grande problema (e se você deveria)

September 29, 2015 5 minutos de leitura

Por Leon Adato, gerente técnico da SolarWinds

Durante a Copa do Mundo da FIFA de 2014, Nate Silver, um estatístico americano famoso por prever com precisão os resultados de vários eventos esportivos e políticos, errou os resultados. Errou feio. Ele ficou totalmente surpreendido com a vitória da Alemanha sobre o Brasil. Como Silver descreveu, foi um evento totalmente imprevisível.

No esporte, e em menor medida na política, a tendência perante essas coisas é aceitar a derrota, culpar a sorte — um “cisne negro” no jargão de estatísticas — e bola pra frente.

Mas sabemos que não é assim que funciona em TI.

Não, na minha experiência, quando um evento imprevisível (cisne negro), afeta os sistemas de TI, normalmente a administração se torna muito obcecada com o evento. Reuniões são marcadas com o pretexto de “fazer exercícios sobre lições aprendidas” com a intenção expressa de assegurar que isso nunca mais se repita.

Mas, é claro, eu não estou sugerindo que, após uma falha, as organizações devam simplesmente ignorar de forma displicente quaisquer lições que poderiam ser aprendidas. Longe disso, na verdade, é assim que se evitam novas falhas no futuro. Uma das primeiras coisas que uma organização de TI deveria fazer após um evento desse tipo é determinar se a falha era previsível, ou se foi apenas um daqueles casos em que não havia dados históricos suficientes para determinar uma probabilidade plausível.

Se a última opção for o caso, então eu gostaria de dizer a você que seus esforços são mais bem empregados em outro lugar, especificamente procurando detectar e até contornar “contratempos” de TI comuns do dia a dia, algo que é negligenciado com muita frequência.

Você não acredita em mim? Bem, vamos ver o exemplo de uma empresa não tão fictícia que conheço que, em uma única falha de TI espetacular, teve custos em torno de R$ 350.000. A gerência ficou preocupada, como era de se esperar. Eles montaram imediatamente uma força-tarefa para identificar a causa raiz da falha e recomendar medidas para evitá-la no futuro. Parece razoável, certo?

A força-tarefa — 5 especialistas selecionados das equipes de servidores, redes, armazenamentos, bancos de dados e aplicativos — levou mais de 100 homens-horas para investigar a causa raiz. Sem exagerar, vamos dizer que o custo por hora para a empresa foi de R$ 175. Agora, multiplique isso por 5 pessoas, depois por 100 horas. Dá um total de R$ 87.500.

Sim, no fim das contas o problema raiz não só foi identificado (pelo menos no tanto que isso era possível) como também uma regra foi criada para, provavelmente, prever a próxima vez em que um evento exatamente igual poderia ocorrer. Não parece mau. Claro, eles gastaram R$ 87.500 — um quarto do custo da falha original — para criar uma solução que pode ou não prever a ocorrência de um cisne negro exatamente como aquele que ocorreu anteriormente.

Talvez não tenha sido tão razoável assim.

Você pode estar pensando: “Mas em que mais você está dizendo que a TI deveria estar se concentrando? Acima de tudo, nós também temos responsabilidade sobre a margem de lucro como qualquer outra pessoa na empresa”. Verdade, e é exatamente esse o meu ponto. Vamos comparar o exemplo anterior de identificar um “cisne negro” com outro problema muito mais comum: falhas de cartão de rede.

Neste exemplo, outra empresa não tão fictícia observou picos no uso da largura de banda que se mantinham altos. Os controladores de interface de rede (NICs) apresentavam erros até as taxas de transmissão atingirem o mais baixo nível e, finalmente, um dia o cartão parou de funcionar de uma hora para outra. O problema foi que enquanto o uso da largura de banda estava sendo monitorado, não havia nenhum alerta em vigor para as interfaces que paravam de responder ou desapareciam — eles estavam monitorando o endereço IP no final da conexão, ou seja, os links da WAN ficavam sem alertas até a outra extremidade “falhar”.

Vamos supor que uma falha de NIC leve 1 hora para ser identificada e diagnosticada corretamente, e depois 2 horas para ser corrigida pelos administradores de rede que custam para a empresa um total de R$ 185 por hora. Enquanto o circuito está inativo, a empresa perde cerca de R$ 3.500 por hora em receita, oportunidades etc. Ou seja, uma única falha pode custar R$ 10.870 para a empresa.

Agora, considere que em minha experiência, o monitoramento e a geração de alertas de rede apropriados reduzem o tempo de detecção e diagnóstico de problemas, como falhas de NIC, para até 15 minutos. É isso. Nada mais complicado, pelo menos não nesse cenário. Mas essa simples medida pode reduzir o custo da falha para até R$ 2.625.

Eu sei que esses valores não parecem muito impressivos. Não são até você perceber que uma empresa razoavelmente grande pode facilmente sofrer 100 falhas de NIC por ano. Isso significa quase R$ 1.087.000 em receita perdida se o problema não for monitorado, e uma economia anual de R$ 262.500 se houver alertas em vigor.

E isso não leva em conta a capacidade de prever falhas de NIC e substituir o cartão com antecedência. Se estimarmos que 50% das falhas podem ser evitadas com monitoramento preditivo, as economias podem ultrapassar o dobro do número acima citado.

De novo, eu não estou dizendo que se preparar para um evento “cisne negro” não seja uma medida eficaz, mas quando for necessário tomar decisões difíceis de orçamento, alguns simples alertas sobre problemas comuns podem economizar mais do que tentar prever e evitar “o grande problema” que pode ou não acontecer (repetindo, no caso de algumas organizações).

Afinal de contas, as falhas de NIC não são imprevisíveis. Acho que até Nate Silver concordaria que elas são previsíveis.