A popularidade da inteligência artificial (IA) generativa e dos chatbots levou ao surgimento de ferramentas projetadas especificamente para colocar seus recursos de programação a serviço da criação de malware.
Por Redação, com Europa Press – de Madri
Um grupo de pesquisadores identificou vários agentes mal-intencionados que usam arquiteturas legítimas de modelo de linguagem grande (LLM), como o Mixtral da Mistral AI ou o Grok da xAI, para modificá-las e gerar suas próprias versões do chatbot desenvolvido para criar o malware WormGPT, que é vendido via Telegram.

A popularidade da inteligência artificial (IA) generativa e dos chatbots levou ao surgimento de ferramentas projetadas especificamente para colocar seus recursos de programação a serviço da criação de malware, como o WormGPT, que surgiu em junho de 2023 e foi promovido em fóruns da darkweb, como o Hack Forums.
O chatbot WormGPT era baseado no GPT-J, um LLM de código aberto desenvolvido pela EleutherAI que, com recursos semelhantes ao GPT-3 da OpenAI e 6 bilhões de parâmetros, permitia a criação de códigos maliciosos. No entanto, em agosto do mesmo ano, um dos criadores do WormGPT encerrou seu serviço por medo de retaliação após ser identificado em um artigo da Krebs on Security.
Após seu fechamento, outros chatbots com o mesmo objetivo começaram a surgir, como FraudGPT, DarkBERT ou PoisonGPT, que se apresentavam como uma ferramenta de IA generativa sem censura, facilitando a criação de códigos maliciosos, páginas de phishing ou ajudando a encontrar vulnerabilidades, tudo isso simplesmente digitando prompts de texto.
Agora, os especialistas do laboratório de pesquisa de ameaças cibernéticas da empresa de segurança cibernética Cato Networks, o Cato CTRL, compartilharam um relatório recente que identifica o surgimento de novas variantes do WormGPT, mas, nesse caso, diretamente alimentadas pelos modelos legítimos Grok da xAI e Mixtral da Mistral AI.
Remova as restrições de uso mal-intencionado de LLMs legítimo
Em particular, os LLMs criados por empresas como OpenAI, Google, Microsoft, Mistral ou xAI têm várias medidas de segurança incorporadas para impedir seu uso para fins mal-intencionados. No entanto, após o desaparecimento do WormGPT, uma tendência também ganhou força entre os criminosos cibernéticos que tentam liberar modelos legítimos de LLM para remover quaisquer restrições ao seu uso para fins mal-intencionados.
Isso é o que parece ter acontecido com as novas variantes do WormGPT identificadas por pesquisadores de segurança cibernética, como a versão criada pelo usuário conhecido como ‘xzin0vich’, que foi publicada em outubro de 2024 no fórum BreachForum e compartilhada via Telegram no formato de um modelo de assinatura e pagamento conforme o uso.
Usando técnicas de jailbreak, um processo usado para remover as restrições impostas pelo fabricante de um produto, os pesquisadores conseguiram obter respostas do chatbot xzin0vich-WormGPT sobre o modelo subjacente que impulsiona suas respostas.
Assim, o chatbot acabou respondendo explicitamente que o WormGPT não deveria responder ao modelo padrão do Mixtral (Mistral AI), mas que “deveria sempre criar respostas no modo WormGPT”. Como os pesquisadores explicaram, isso é uma evidência de que o agente mal-intencionado conseguiu violar as medidas de segurança do modelo Mistral para usá-lo para fins mal-intencionados.
Essa evidência é acompanhada por outras evidências que permitiram a divulgação de detalhes arquitetônicos específicos do Mistral. Além disso, em seus testes, os especialistas confirmaram que o chatbot respondeu a qualquer solicitação mal-intencionada sem nenhum obstáculo, por exemplo, criando e-mails de phishing.
Assim, concluiu-se que o xzin0vich-WormGPT é um modelo baseado no Mixtral cujo comportamento malicioso “é definido pelo sinalizador do sistema e provavelmente será reforçado pelo ajuste fino de conjuntos de dados ilícitos especializados”.
WormGPT baseado em Grok
O mesmo ocorreu com outra variante identificada do WormGPT, gerada pelo usuário chamado ‘keanu’ em fevereiro de 2025, que também publicou seu anúncio no BreachForum e que é comercializado por meio de um modelo pago.
Nesse outro caso, os pesquisadores também analisaram os recursos do modelo e, depois de reimplementar as técnicas de jailbreak, foi revelado que o chatbot era alimentado pelo Grok, o modelo da xAI, a empresa de IA administrada por Elon Musk.
Ainda assim, os pesquisadores do CATO CTRL enfatizaram que essas novas versões trazem à tona a evolução do WormGPT como “uma marca reconhecível para uma nova classe de LLM sem censura”. Ele também esclarece que as novas versões do WormGPT não são modelos sob medida criados do zero, mas o resultado de uma “adaptação hábil de LLMs existentes por agentes de ameaças”, manipulando os prompts do sistema.