Claude Opus 4.7: Um Pequeno Passo, Mas Uma Grande Mudança

Então, a Anthropic soltou o Claude Opus 4.7 hoje, e antes de você revirar os olhos pra mais um bump de decimal — espera. Esse aqui mereceu.

Se você tivesse me dito há seis meses que "4.6 pra 4.7" ia importar, eu teria feito a mesma cara que faço pra startup que pivota toda semana. Número de versão é marketing. Mas de vez em quando você abre a caixa e a coisa lá dentro é maior que o adesivo do lado de fora. É esse release.

Os números que levantaram minha sobrancelha

Versão pequena, delta grande. A parte que me pegou:

Benchmark	Opus 4.6	Opus 4.7	Concorrência
SWE-bench Pro	~58%	64,3%	GPT-5.4: 57,7% · Gemini 3.1 Pro: 54,2%
SWE-bench Verified	—	87,6%	Gemini 3.1 Pro: 80,6%
CursorBench	58%	70%	—
Coding interno (93 tarefas)	base	+13%	—
Acuidade visual	54,5%	98,5%	—
Erros em uso de ferramentas	base	–67% (um terço dos erros)	—
GPQA Diamond	—	94,2%	Empate técnico com GPT-5.4 Pro e Gemini 3.1 Pro em ~94,3%

Os números de coding são o que a Anthropic tá agitando, e justo — liderar o SWE-bench Pro é a manchete. Mas a linha que eu fico encarando é a visual. 54,5% pra 98,5% não é "melhoria de 0,1". Isso é "reescrevemos os olhos". Se você joga screenshots, diagramas, PDFs nele — o 4.7 é outro bicho.

O botão que ninguém tá comentando

O Opus 4.7 introduziu um novo nível de esforço chamado xhigh, que fica entre "high" e "max". Parece nível de Spotify. Na real, é uma parada silenciosa importante.

Antes: você escolhia low/medium/high/max e aceitava. High era rápido demais pra problemas difíceis; max era lento e caro demais pra maioria do trabalho. O meio dessa lacuna — "pense duro mas não vá pra Nárnia" — não existia.

Agora existe. O xhigh é o setting de produtividade: raciocínio visivelmente melhor que o high, sem o imposto de latência do max. Se você tá plugando isso num agente de coding que roda milhares de turnos por dia, esse novo nível provavelmente vale mais que os pontos de benchmark.

A troca que a Anthropic tá sendo honesta sobre

Aqui é a parte que eu respeito: o 4.7 segue instruções mais literalmente que o 4.6. A Anthropic avisou direto. Se você construiu prompts que dependiam do músculo "interprete minha intenção" do modelo antigo, você vai notar — o 4.7 vai fazer o que você disse, não o que você quis dizer.

É uma faca de dois gumes:

Bom: menos alucinação, menos "por que ele fez isso", agentes mais confiáveis.
Ruim: aquele prompt desleixado que magicamente funcionava… não vai mais.

Se você tá rodando 4.6 em produção, não sobe o ID do modelo e manda. Releia seus prompts. Explicite o que você quer. O decimal tá escondendo uma mudança de comportamento.

A sombra do Mythos

A parte mais estranha do anúncio de hoje não é o que saiu — é o que não saiu.

A Anthropic disse abertamente que o Opus 4.7 fica atrás do modelo Mythos Preview deles (ainda não liberado), que tá na mão só de um grupo pequeno e escolhido a dedo de empresas de tech e cybersecurity. Na mesma frase, descreveram o 4.7 como "menos arriscado que o Mythos".

Releia. A empresa tá te falando: temos algo melhor, não vamos deixar você encostar ainda, e estamos lançando esse aqui de propósito porque confiamos mais nele.

Dá pra ler isso de duas formas:

Responsible scaling funcionando como anunciado. Eles têm gates internos de segurança; o Mythos não passou pra release aberto; o 4.7 passou. É a proposta inteira da política RSP deles.
Marketing pro próximo release. Manter o Mythos pendurado mantém a narrativa quente sem precisar defender os números em público.

Resposta honesta: provavelmente os dois. Mas o bump de decimal faz mais sentido com esse contexto. O 4.7 não é o teto — é o último degrau seguro antes dele.

Minha opinião

Eu entendo quem olha "4.6 pra 4.7" e boceja. Mas o decimal tá fazendo um trabalho que a Anthropic não quer gritar muito alto.

13% a mais em coding interno, acuidade visual dobrando, um terço dos erros de ferramenta, um novo nível de esforço que preenche uma lacuna real — isso é um release com cara de 5.0 vestindo camisa de 4.7. O preço não mudou ($5/M de input, $25/M de output). O ID da API é só claude-opus-4-7. Encaixa no seu pipeline existente com a troca de uma linha.

Se você constrói agentes, vai querer testar essa semana. Se você usa o Claude Code, você já tem. E se você é usuário casual que só pede ajuda com email, provavelmente nem vai notar — o que também tá ok. Nem todo release precisa mudar sua vida.

Mas não deixa o decimal te enganar. Esse aqui soca.

Fontes

Introducing Claude Opus 4.7 — o anúncio oficial, com os benchmarks e os detalhes do nível xhigh
Claude Opus 4.7 leads on SWE-bench and agentic reasoning — TNW com o comparativo contra GPT-5.4 e Gemini 3.1 Pro
Anthropic releases Claude Opus 4.7, concedes it trails unreleased Mythos — Axios sobre o ângulo Mythos
Claude Opus 4.7 is now available in Amazon Bedrock — AWS confirmando disponibilidade em cloud
Anthropic rolls out Claude Opus 4.7, less risky than Mythos — CNBC sobre o posicionamento de segurança