Post
Bom Demais pra Lançar: Quando Sua IA Encontra a Fraqueza de Toda Fechadura
A Anthropic criou um modelo tão bom em hacking que não vai lançá-lo. O Project Glasswing levanta uma questão que a indústria não pode mais ignorar.
Imagina que você constrói um robô chaveiro. Ele é brilhante — abre qualquer fechadura, encontra falhas em qualquer cofre, identifica fraquezas em qualquer câmara-forte. Aí você percebe: se vender essa coisa, qualquer um pode roubar um banco.
É basicamente isso que a Anthropic acabou de fazer com o Claude Mythos.
O que aconteceu
A Anthropic anunciou o Project Glasswing essa semana — e a manchete não é o que o modelo consegue fazer. É o que eles não vão deixar você fazer com ele.
O Claude Mythos é um modelo de propósito geral, similar ao Opus 4.6, mas com habilidades em cibersegurança que fizeram a Anthropic pisar no freio. Segundo o system card:
O Mythos Preview já encontrou milhares de vulnerabilidades de alta severidade, incluindo em todos os principais sistemas operacionais e navegadores web.
Lê de novo. Todos. Os principais. SOs. E navegadores.
Em um teste, o Mythos encadeou quatro vulnerabilidades em um exploit de navegador funcional — escape de sandbox do renderer, escape de sandbox do SO, o pacote completo. Autonomamente. Ele encontrou race conditions no kernel e burlou KASLR sozinho.
A decisão: não lançar
Em vez de lançar o Mythos pra todo mundo, a Anthropic criou o Project Glasswing — um programa restrito onde apenas parceiros de segurança verificados ganham acesso. A ideia: deixar os mocinhos encontrarem e corrigirem as vulnerabilidades antes que o modelo (ou algo parecido) chegue ao mundo.
Na prática, funciona assim:
| Quem tem acesso | O que fazem |
|---|---|
| Fabricantes de SO | Corrigir vulnerabilidades no kernel |
| Times de navegadores | Consertar escapes de sandbox |
| Empresas de infraestrutura | Fortalecer endpoints |
| Pesquisadores de segurança | Red-team em sistemas críticos |
O resto? Espera.
Por que isso importa — e por que é complicado
Eu acho que é a decisão certa. Meu raciocínio: um modelo que consegue autonomamente escrever exploits funcionais contra todas as principais plataformas não é uma "demo legal." É uma arma. Lançar abertamente seria como publicar as chaves da internet e torcer pra que os chaveiros sejam mais rápidos que os ladrões.
Mas — e esse é um grande mas — isso abre um precedente.
Quem decide o que é "perigoso demais"? Agora, é a Anthropic decidindo sobre o próprio modelo. Tudo bem. Mas o que acontece quando:
- Um concorrente alega que seu modelo é "capaz demais" para ser open-source (convenientemente protegendo seu modelo de negócio)?
- Governos começam a exigir licenças para certas capacidades de IA?
- A definição de "capacidade perigosa" se expande de exploits de segurança para, digamos, biotech ou persuasão?
A linha entre cautela responsável e gatekeeping é mais fina do que parece.
A tensão do open-source
Isso acontece num momento interessante. A Meta acabou de ir pro fechado com o Muse Spark depois de anos de modelos Llama open-source. Agora a Anthropic restringe um modelo por questões de segurança. A tendência não é sutil.
Tem um argumento razoável de que a galera do open-weights deveria prestar atenção: se modelos de IA continuam ficando mais capazes, a abordagem "lança tudo, deixa a comunidade resolver" tem um teto. E talvez a gente acabou de bater nele.
Tem um argumento igualmente razoável do outro lado: acesso concentrado aos modelos mais poderosos cria um mundo onde só algumas empresas e seus parceiros conseguem encontrar vulnerabilidades. Isso não é necessariamente mais seguro — é só um tipo diferente de risco.
Minha opinião
Não acho que a Anthropic está sendo cínica aqui. A evidência técnica no relatório do red team é específica e verificável — não é aquele papo vago sobre "potenciais danos." São exploits funcionais contra sistemas reais.
Mas eu acho que a indústria precisa resolver a governança disso rápido. Agora, é contenção voluntária de uma empresa. É um bom começo e um péssimo plano de longo prazo.
A questão não é "a Anthropic deveria restringir o Mythos?" — é "o que acontece quando a próxima empresa constrói algo similar e não restringe?"
Essa é a fechadura que ninguém abriu ainda.
Fontes
- Project Glasswing — Anthropic — anúncio oficial do programa de acesso restrito
- Claude Mythos System Card (PDF) — relatório técnico do red team com as vulnerabilidades encontradas
- Cobertura do Simon Willison — análise e contexto sobre o anúncio do Glasswing