Por Portal do Pixel
A CrowdStrike está implementando melhorias no manuseio de erros e nas implantações de software após um incidente que afetou milhões de usuários.
Revisão do Incidente
A CrowdStrike publicou uma revisão detalhada do incidente (PIR) referente a uma atualização defeituosa que derrubou 8,5 milhões de máquinas Windows na semana passada. O relatório detalha que o problema surgiu devido a um bug no software de teste que não validou corretamente a atualização de conteúdo enviada para milhões de máquinas na sexta-feira. Em resposta, a CrowdStrike está prometendo testar mais rigorosamente suas atualizações de conteúdo, aprimorar o manuseio de erros e implementar uma implantação escalonada para evitar a repetição desse desastre.
Atualização Problemática
O software Falcon da CrowdStrike é utilizado por empresas ao redor do mundo para proteger contra malware e invasões de segurança em milhões de máquinas Windows. Na sexta-feira, a CrowdStrike emitiu uma atualização de configuração de conteúdo para seu software com o objetivo de “coletar telemetria sobre possíveis novas técnicas de ameaça”. Essas atualizações são entregues regularmente, mas essa atualização específica causou falhas no Windows.
A CrowdStrike normalmente emite atualizações de configuração de duas formas diferentes. Existe o chamado Sensor Content, que atualiza diretamente o sensor Falcon da CrowdStrike que opera no nível do kernel no Windows, e separadamente, há o Rapid Response Content, que atualiza como esse sensor se comporta para detectar malware. Um pequeno arquivo Rapid Response Content de 40KB foi o responsável pelo problema na sexta-feira.
Mecanismos de Atualização
As atualizações para o sensor real não vêm da nuvem e geralmente incluem modelos de IA e aprendizado de máquina que permitem à CrowdStrike melhorar suas capacidades de detecção a longo prazo. Algumas dessas capacidades incluem algo chamado Template Types, que é um código que permite novas detecções e é configurado pelo tipo de Rapid Response Content que foi entregue na sexta-feira.
No lado da nuvem, a CrowdStrike gerencia seu próprio sistema que realiza verificações de validação no conteúdo antes de ser liberado para evitar incidentes como o da sexta-feira. Na semana passada, a CrowdStrike liberou duas atualizações de Rapid Response Content, ou como também são chamadas, Template Instances. “Devido a um bug no Content Validator, uma das duas Template Instances passou na validação, apesar de conter dados problemáticos,” diz a CrowdStrike.
Falhas na Validação e Testes
Embora a CrowdStrike realize testes automatizados e manuais no Sensor Content e nos Template Types, não parece realizar testes tão rigorosos no Rapid Response Content entregue na sexta-feira. Uma implantação de novos Template Types em março forneceu “confiança nas verificações realizadas pelo Content Validator,” então a CrowdStrike parece ter assumido que a implantação do Rapid Response Content não causaria problemas.
Essa suposição levou o sensor a carregar o Rapid Response Content problemático em seu Content Interpreter, desencadeando uma exceção de memória fora dos limites. “Essa exceção inesperada não pôde ser tratada graciosamente, resultando em uma falha do sistema operacional Windows (BSOD),” explica a CrowdStrike.
Medidas Preventivas
Para evitar que isso aconteça novamente, a CrowdStrike promete melhorar seus testes de Rapid Response Content usando testes de desenvolvedores locais, testes de atualização e reversão de conteúdo, juntamente com testes de estresse, fuzzing e injeção de falhas. A CrowdStrike também realizará testes de estabilidade e interface de conteúdo no Rapid Response Content.
A CrowdStrike também está atualizando seu Content Validator baseado em nuvem para verificar melhor as liberações de Rapid Response Content. “Uma nova verificação está em processo para proteger contra esse tipo de conteúdo problemático sendo implantado no futuro,” diz a CrowdStrike.
Melhoria no Mecanismo de Erro e Implantação
No lado do driver, a CrowdStrike “melhorará o manuseio de erros existente no Content Interpreter,” que faz parte do sensor Falcon. A CrowdStrike também implementará uma implantação escalonada do Rapid Response Content, garantindo que as atualizações sejam gradualmente implantadas para porções maiores de sua base instalada em vez de um envio imediato para todos os sistemas. Tanto as melhorias no driver quanto as implantações escalonadas foram recomendadas por especialistas em segurança nos últimos dias.
A resposta rápida e detalhada da CrowdStrike ao incidente demonstra um compromisso em evitar futuras falhas e melhorar a segurança e estabilidade de seus produtos. Essas medidas proativas são cruciais para manter a confiança de seus clientes e garantir que suas soluções de segurança continuem protegendo de forma eficaz contra ameaças cibernéticas.
Fonte: https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/
O post CrowdStrike Culpa Software de Teste por Queda de 8,5 Milhões de Máquinas Windows apareceu primeiro em Portal do Pixel.