A empresa CrowdStrike atribuiu a uma falha no software de teste a atualização problemática que causou o travamento de 8,5 milhões de máquinas com Windows ao redor do mundo. Segundo eles, o problema aconteceu devido a um bug no Validador de Conteúdo, que permitiu que uma das atualizações passasse na validação mesmo contendo dados problemáticos. Em resposta, a empresa prometeu uma série de novas medidas para evitar a repetição do problema.
O impacto massivo da queda (conhecida como “tela azul da morte”) afetou diversas empresas ao redor do mundo, incluindo companhias aéreas, emissoras, a Bolsa de Valores de Londres e muitas outras. O problema forçou as máquinas com Windows a entrar em um loop de inicialização, sendo necessário o acesso local dos técnicos para a recuperação (máquinas Apple e Linux não foram afetadas). Muitas empresas, como a Delta Airlines, ainda estão se recuperando.
Para prevenir ataques DDoS e outros tipos de ameaças, a CrowdStrike possui uma ferramenta chamada Falcon Sensor. Ela inclui um conteúdo que funciona no nível do kernel (chamado Sensor Content) e usa um “Tipo de Modelo” para definir como se defende das ameaças. Quando algo novo surge, é enviado “Conteúdo de Resposta Rápida” na forma de “Instâncias de Modelo”.
Um novo Tipo de Modelo para um novo sensor foi lançado em 5 de março de 2024 e se comportou conforme o esperado. No entanto, em 19 de julho, duas novas Instâncias de Modelo foram lançadas e uma delas (com apenas 40KB) passou na validação mesmo contendo “dados problemáticos”. Isso resultou em uma leitura de memória fora dos limites ao ser recebida pelo sensor, causando uma exceção inesperada que levou ao travamento do sistema operacional Windows.
Para evitar a repetição do incidente, a CrowdStrike prometeu adotar várias medidas. Será feito um teste mais rigoroso do Conteúdo de Resposta Rápida, incluindo teste local de desenvolvedores, teste de atualização e reversão de conteúdo, teste de estresse, teste de estabilidade, entre outros. Também serão adicionadas verificações de validação e aprimoramento do tratamento de erros.
Além disso, a empresa adotará uma estratégia de implantação escalonada para o Conteúdo de Resposta Rápida, evitando assim uma repetição da queda global. Também dará aos clientes maior controle sobre a entrega desse conteúdo, além de fornecer notas de lançamento para as atualizações.
No entanto, alguns analistas e engenheiros acreditam que a empresa deveria ter implementado tais medidas desde o início. “A CrowdStrike deve ter tido consciência de que essas atualizações são interpretadas pelos drivers e poderiam causar problemas”, afirmou o engenheiro Florian Roth. “Eles deveriam ter implementado uma estratégia de implantação escalonada para o Conteúdo de Resposta Rápida desde o início.”
Redação Confraria Tech
Referências:
Matéria Original