Bom Demais pra Lançar: Quando Sua IA Encontra a Fraqueza de Toda Fechadura

Imagina que você constrói um robô chaveiro. Ele é brilhante — abre qualquer fechadura, encontra falhas em qualquer cofre, identifica fraquezas em qualquer câmara-forte. Aí você percebe: se vender essa coisa, qualquer um pode roubar um banco.

É basicamente isso que a Anthropic acabou de fazer com o Claude Mythos.

O que aconteceu

A Anthropic anunciou o Project Glasswing essa semana — e a manchete não é o que o modelo consegue fazer. É o que eles não vão deixar você fazer com ele.

O Claude Mythos é um modelo de propósito geral, similar ao Opus 4.6, mas com habilidades em cibersegurança que fizeram a Anthropic pisar no freio. Segundo o system card:

O Mythos Preview já encontrou milhares de vulnerabilidades de alta severidade, incluindo em todos os principais sistemas operacionais e navegadores web.

Lê de novo. Todos. Os principais. SOs. E navegadores.

Em um teste, o Mythos encadeou quatro vulnerabilidades em um exploit de navegador funcional — escape de sandbox do renderer, escape de sandbox do SO, o pacote completo. Autonomamente. Ele encontrou race conditions no kernel e burlou KASLR sozinho.

A decisão: não lançar

Em vez de lançar o Mythos pra todo mundo, a Anthropic criou o Project Glasswing — um programa restrito onde apenas parceiros de segurança verificados ganham acesso. A ideia: deixar os mocinhos encontrarem e corrigirem as vulnerabilidades antes que o modelo (ou algo parecido) chegue ao mundo.

Na prática, funciona assim:

Quem tem acesso	O que fazem
Fabricantes de SO	Corrigir vulnerabilidades no kernel
Times de navegadores	Consertar escapes de sandbox
Empresas de infraestrutura	Fortalecer endpoints
Pesquisadores de segurança	Red-team em sistemas críticos

O resto? Espera.

Por que isso importa — e por que é complicado

Eu acho que é a decisão certa. Meu raciocínio: um modelo que consegue autonomamente escrever exploits funcionais contra todas as principais plataformas não é uma "demo legal." É uma arma. Lançar abertamente seria como publicar as chaves da internet e torcer pra que os chaveiros sejam mais rápidos que os ladrões.

Mas — e esse é um grande mas — isso abre um precedente.

Quem decide o que é "perigoso demais"? Agora, é a Anthropic decidindo sobre o próprio modelo. Tudo bem. Mas o que acontece quando:

Um concorrente alega que seu modelo é "capaz demais" para ser open-source (convenientemente protegendo seu modelo de negócio)?
Governos começam a exigir licenças para certas capacidades de IA?
A definição de "capacidade perigosa" se expande de exploits de segurança para, digamos, biotech ou persuasão?

A linha entre cautela responsável e gatekeeping é mais fina do que parece.

A tensão do open-source

Isso acontece num momento interessante. A Meta acabou de ir pro fechado com o Muse Spark depois de anos de modelos Llama open-source. Agora a Anthropic restringe um modelo por questões de segurança. A tendência não é sutil.

Tem um argumento razoável de que a galera do open-weights deveria prestar atenção: se modelos de IA continuam ficando mais capazes, a abordagem "lança tudo, deixa a comunidade resolver" tem um teto. E talvez a gente acabou de bater nele.

Tem um argumento igualmente razoável do outro lado: acesso concentrado aos modelos mais poderosos cria um mundo onde só algumas empresas e seus parceiros conseguem encontrar vulnerabilidades. Isso não é necessariamente mais seguro — é só um tipo diferente de risco.

Minha opinião

Não acho que a Anthropic está sendo cínica aqui. A evidência técnica no relatório do red team é específica e verificável — não é aquele papo vago sobre "potenciais danos." São exploits funcionais contra sistemas reais.

Mas eu acho que a indústria precisa resolver a governança disso rápido. Agora, é contenção voluntária de uma empresa. É um bom começo e um péssimo plano de longo prazo.

A questão não é "a Anthropic deveria restringir o Mythos?" — é "o que acontece quando a próxima empresa constrói algo similar e não restringe?"

Essa é a fechadura que ninguém abriu ainda.

Fontes

Project Glasswing — Anthropic — anúncio oficial do programa de acesso restrito
Claude Mythos System Card (PDF) — relatório técnico do red team com as vulnerabilidades encontradas
Cobertura do Simon Willison — análise e contexto sobre o anúncio do Glasswing