A Qwen Encolheu o Modelo: 15x Menor, Melhor em Código

Eis algo que teria soado insano seis meses atrás: um modelo dense de 27B, com pesos abertos sob Apache 2.0, cravando 77,2% no SWE-bench Verified. Isso é desempenho de coding de ponta, o tipo de número que a gente chamava de "frontier" quando o GPT-5 e o Claude 4 bateram pela primeira vez.

O bicho se chama Qwen3.6-27B, a Alibaba soltou ontem, e a piada é ainda mais estranha do que o número na manchete.

A piada

A geração anterior dessa mesma família — Qwen3.5-397B-A17B — era um modelo mixture-of-experts (MoE) com 397 bilhões de parâmetros totais e 17 bilhões ativos. Saía com 807 GB no disco. Pra rodar, você precisava de um data center.

O novo Qwen3.6-27B é dense, com 27B parâmetros. 55,6 GB no disco. Um quant GGUF de 4 bits reduz pra 16,8 GB — que cabe numa única GPU de consumidor com folga.

E em benchmarks de código, ele supera o maior. Em todos eles.

Modelo	Arquitetura	Params totais	Params ativos	Tamanho em disco
Qwen3.5-397B-A17B	MoE	397B	17B	807 GB
Qwen3.6-27B	Dense	27B	27B	55,6 GB

O mesmo time, seis meses depois, deixou o modelo menor mais esperto. Essa é a história.

Peraí, MoE não era o futuro?

Nos últimos dois anos, mixture-of-experts tem sido a resposta de consenso pra scaling. A pitch é linda no papel: você treina um modelo de 400B, mas no momento da inferência só ativa os 17B de experts que realmente precisa pra aquela query específica. Você tem o conhecimento de um modelo enorme com o custo de inferência de um pequeno.

Mixtral da Mistral, V3 da DeepSeek, o próprio flagship 3.5 da Qwen — todo mundo estava indo nessa direção. MoE era como você trapaceava as scaling laws.

Só que trapacear tem custos. Modelos MoE são:

Chatos de servir — rotear experts entre GPUs é um pesadelo de sistemas distribuídos
Famintos de memória pra carregar — você ainda precisa de todos os 400B params residentes em algum lugar
Estranhos pra fazer fine-tuning — o roteador é um mini-modelo próprio que pode se comportar mal
Mais difíceis de quantizar bem — experts têm perfis estatísticos diferentes

Modelos dense são a opção sem graça. Todo parâmetro faz algo pra todo token. Simples de servir, simples de fazer fine-tuning, simples de encolher. Só que... mais lento pra escalar, porque você paga por cada parâmetro toda vez.

A aposta que a Alibaba acabou de fazer: com dados melhores, receitas de treino melhores e novos truques arquiteturais, você não precisa de 397B params pra atingir coding de ponta. 27B dense basta. E se 27B dense basta, você não precisa do imposto do MoE.

O que há de novo por baixo do capô

Isso não é só "modelo menor, mesmos truques". O Qwen3.6-27B vem com escolhas arquiteturais que eu não tinha visto num release open-weight de produção antes:

Gated DeltaNet layers (48 value heads, 16 QK heads) — uma alternativa de atenção mais recente, estilo recorrente, que escala melhor em contexto longo
Gated Attention layers (24 Q heads, 4 KV heads) — grouped-query attention com um gate explícito
Multi-Token Prediction nativo — o modelo prevê múltiplos tokens à frente de forma nativa pra inferência mais rápida
262K de contexto nativo, extensível pra 1M — com um encoder de visão por cima, então é multimodal de fábrica

Ou seja, não é que eles tiraram um monte de params e pronto. Eles trocaram a arquitetura por algo desenhado pra ser menor-mas-mais-denso desde o primeiro princípio.

Os benchmarks, honestamente

Aqui é onde eu coloco meu chapéu de "ler benchmark com uma colher de sal". Benchmarks reportados pelo vendor são sempre a versão rósea. Evals independentes normalmente descontam de 2 a 5 pontos.

Dito isso, mesmo descontado:

Benchmark	Qwen3.6-27B	O que mede
SWE-bench Verified	77,2%	Resolver issues reais do GitHub
SWE-bench Pro	53,5%	Subconjunto mais difícil do SWE-bench
Terminal-Bench 2.0	59,3%	Uso agêntico de terminal
LiveCodeBench v6	83,9%	Coding estilo competição
AIME 2026	94,1%	Problemas de olimpíada de matemática
GPQA Diamond	87,8%	Ciência nível pós-graduação

O score no SWE-bench Verified foi o que me fez conferir de novo. Isso está na mesma vizinhança do Claude Sonnet 4 e do GPT-5 em código — e esses modelos são 10x maiores e fechados.

Agora, vai dar a mesma sensação no uso diário? Provavelmente não. Benchmarks medem uma fatia da realidade. Os modelos que "parecem bons" em seis horas de pair programming precisam ser estáveis, saber quando parar, lidar com instruções ambíguas. O Qwen3.6 pode detonar no SWE-bench e ainda assim ser tosco nas bordas. Dá uma semana de teste da comunidade antes de largar sua assinatura paga.

Por que isso importa além dos benchmarks

Pensa no que um modelo Apache 2.0, dense de 27B, com coding de ponta realmente habilita:

Um dev solo pode rodar na GPU dele. Sem conta de API, sem rate limit, sem "desculpa, esse conteúdo viola nossa política" pra trabalho legítimo.
Empresas podem fazer fine-tuning em código privado sem mandar o codebase pra um terceiro. Isso é enorme pra quem trabalha em finanças, saúde ou defesa.
Estabelece um piso pro que "grátis" significa. Se o Qwen3.6 é esse tanto bom open-source, os labs fechados têm que justificar o preço com capacidade claramente superior — não só paridade.

O último ponto é o que as empresas de modelo fechado deveriam estar suando. Por um ano, o argumento foi "sim, os pesos abertos estão alcançando, mas a fronteira está sempre uma geração à frente". O Qwen3.6 não é a fronteira, mas está perto o suficiente pra o gap ser medido em meses, não anos.

Minha opinião

Acho que a gente foi um pouco ansioso demais pra decretar os modelos dense obsoletos. MoE resolveu um problema real — como continuar escalando depois do ponto em que dense vira impraticável — mas sempre foi um workaround, não um destino. O que a Qwen acabou de demonstrar é que as scaling laws pros modelos dense não tinham se esgotado. Dados melhores e arquitetura melhor empurraram um 27B dense pra frente do MoE de 400B do ano passado.

Se isso é o novo consenso ou um caso único é a pergunta real. Se DeepSeek, Mistral e Meta lançarem sucessores dense dos flagships MoE nos próximos seis meses, a gente vai saber que o pêndulo realmente balançou. Se eles dobrarem a aposta em MoE a 1T+ params, o Qwen3.6 é um outlier fascinante que basicamente provou que a Alibaba tem trainers excelentes.

De qualquer jeito, se você está construindo em cima de IA essa semana e ainda não experimentou, sobe o bicho. A barreira de entrada caiu pra uma única GPU de consumidor e uma tarde de tinkering. É assim que a gente sabe que o jogo mudou — não quando os benchmarks se mexem, mas quando o custo de jogar cai tanto.

Sources

Qwen3.6-27B no Hugging Face — model card oficial com tabela completa de benchmarks, detalhes de arquitetura e instruções de setup
Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model — anúncio e posicionamento da Alibaba
Simon Willison sobre o Qwen3.6-27B — análise independente com testes de primeira impressão em hardware de consumidor
Qwen3.6-27B no Hacker News — discussão da comunidade, primeiros relatos práticos e ceticismo sobre as alegações de benchmark