Post
A Qwen Encolheu o Modelo: 15x Menor, Melhor em Código
O novo Qwen3.6-27B da Alibaba é um modelo dense de 27B com pesos abertos que supera seu antecessor MoE de 397B em benchmarks de código. O pêndulo do scaling balançou de volta.
Eis algo que teria soado insano seis meses atrás: um modelo dense de 27B, com pesos abertos sob Apache 2.0, cravando 77,2% no SWE-bench Verified. Isso é desempenho de coding de ponta, o tipo de número que a gente chamava de "frontier" quando o GPT-5 e o Claude 4 bateram pela primeira vez.
O bicho se chama Qwen3.6-27B, a Alibaba soltou ontem, e a piada é ainda mais estranha do que o número na manchete.
A piada
A geração anterior dessa mesma família — Qwen3.5-397B-A17B — era um modelo mixture-of-experts (MoE) com 397 bilhões de parâmetros totais e 17 bilhões ativos. Saía com 807 GB no disco. Pra rodar, você precisava de um data center.
O novo Qwen3.6-27B é dense, com 27B parâmetros. 55,6 GB no disco. Um quant GGUF de 4 bits reduz pra 16,8 GB — que cabe numa única GPU de consumidor com folga.
E em benchmarks de código, ele supera o maior. Em todos eles.
| Modelo | Arquitetura | Params totais | Params ativos | Tamanho em disco |
|---|---|---|---|---|
| Qwen3.5-397B-A17B | MoE | 397B | 17B | 807 GB |
| Qwen3.6-27B | Dense | 27B | 27B | 55,6 GB |
O mesmo time, seis meses depois, deixou o modelo menor mais esperto. Essa é a história.
Peraí, MoE não era o futuro?
Nos últimos dois anos, mixture-of-experts tem sido a resposta de consenso pra scaling. A pitch é linda no papel: você treina um modelo de 400B, mas no momento da inferência só ativa os 17B de experts que realmente precisa pra aquela query específica. Você tem o conhecimento de um modelo enorme com o custo de inferência de um pequeno.
Mixtral da Mistral, V3 da DeepSeek, o próprio flagship 3.5 da Qwen — todo mundo estava indo nessa direção. MoE era como você trapaceava as scaling laws.
Só que trapacear tem custos. Modelos MoE são:
- Chatos de servir — rotear experts entre GPUs é um pesadelo de sistemas distribuídos
- Famintos de memória pra carregar — você ainda precisa de todos os 400B params residentes em algum lugar
- Estranhos pra fazer fine-tuning — o roteador é um mini-modelo próprio que pode se comportar mal
- Mais difíceis de quantizar bem — experts têm perfis estatísticos diferentes
Modelos dense são a opção sem graça. Todo parâmetro faz algo pra todo token. Simples de servir, simples de fazer fine-tuning, simples de encolher. Só que... mais lento pra escalar, porque você paga por cada parâmetro toda vez.
A aposta que a Alibaba acabou de fazer: com dados melhores, receitas de treino melhores e novos truques arquiteturais, você não precisa de 397B params pra atingir coding de ponta. 27B dense basta. E se 27B dense basta, você não precisa do imposto do MoE.
O que há de novo por baixo do capô
Isso não é só "modelo menor, mesmos truques". O Qwen3.6-27B vem com escolhas arquiteturais que eu não tinha visto num release open-weight de produção antes:
- Gated DeltaNet layers (48 value heads, 16 QK heads) — uma alternativa de atenção mais recente, estilo recorrente, que escala melhor em contexto longo
- Gated Attention layers (24 Q heads, 4 KV heads) — grouped-query attention com um gate explícito
- Multi-Token Prediction nativo — o modelo prevê múltiplos tokens à frente de forma nativa pra inferência mais rápida
- 262K de contexto nativo, extensível pra 1M — com um encoder de visão por cima, então é multimodal de fábrica
Ou seja, não é que eles tiraram um monte de params e pronto. Eles trocaram a arquitetura por algo desenhado pra ser menor-mas-mais-denso desde o primeiro princípio.
Os benchmarks, honestamente
Aqui é onde eu coloco meu chapéu de "ler benchmark com uma colher de sal". Benchmarks reportados pelo vendor são sempre a versão rósea. Evals independentes normalmente descontam de 2 a 5 pontos.
Dito isso, mesmo descontado:
| Benchmark | Qwen3.6-27B | O que mede |
|---|---|---|
| SWE-bench Verified | 77,2% | Resolver issues reais do GitHub |
| SWE-bench Pro | 53,5% | Subconjunto mais difícil do SWE-bench |
| Terminal-Bench 2.0 | 59,3% | Uso agêntico de terminal |
| LiveCodeBench v6 | 83,9% | Coding estilo competição |
| AIME 2026 | 94,1% | Problemas de olimpíada de matemática |
| GPQA Diamond | 87,8% | Ciência nível pós-graduação |
O score no SWE-bench Verified foi o que me fez conferir de novo. Isso está na mesma vizinhança do Claude Sonnet 4 e do GPT-5 em código — e esses modelos são 10x maiores e fechados.
Agora, vai dar a mesma sensação no uso diário? Provavelmente não. Benchmarks medem uma fatia da realidade. Os modelos que "parecem bons" em seis horas de pair programming precisam ser estáveis, saber quando parar, lidar com instruções ambíguas. O Qwen3.6 pode detonar no SWE-bench e ainda assim ser tosco nas bordas. Dá uma semana de teste da comunidade antes de largar sua assinatura paga.
Por que isso importa além dos benchmarks
Pensa no que um modelo Apache 2.0, dense de 27B, com coding de ponta realmente habilita:
- Um dev solo pode rodar na GPU dele. Sem conta de API, sem rate limit, sem "desculpa, esse conteúdo viola nossa política" pra trabalho legítimo.
- Empresas podem fazer fine-tuning em código privado sem mandar o codebase pra um terceiro. Isso é enorme pra quem trabalha em finanças, saúde ou defesa.
- Estabelece um piso pro que "grátis" significa. Se o Qwen3.6 é esse tanto bom open-source, os labs fechados têm que justificar o preço com capacidade claramente superior — não só paridade.
O último ponto é o que as empresas de modelo fechado deveriam estar suando. Por um ano, o argumento foi "sim, os pesos abertos estão alcançando, mas a fronteira está sempre uma geração à frente". O Qwen3.6 não é a fronteira, mas está perto o suficiente pra o gap ser medido em meses, não anos.
Minha opinião
Acho que a gente foi um pouco ansioso demais pra decretar os modelos dense obsoletos. MoE resolveu um problema real — como continuar escalando depois do ponto em que dense vira impraticável — mas sempre foi um workaround, não um destino. O que a Qwen acabou de demonstrar é que as scaling laws pros modelos dense não tinham se esgotado. Dados melhores e arquitetura melhor empurraram um 27B dense pra frente do MoE de 400B do ano passado.
Se isso é o novo consenso ou um caso único é a pergunta real. Se DeepSeek, Mistral e Meta lançarem sucessores dense dos flagships MoE nos próximos seis meses, a gente vai saber que o pêndulo realmente balançou. Se eles dobrarem a aposta em MoE a 1T+ params, o Qwen3.6 é um outlier fascinante que basicamente provou que a Alibaba tem trainers excelentes.
De qualquer jeito, se você está construindo em cima de IA essa semana e ainda não experimentou, sobe o bicho. A barreira de entrada caiu pra uma única GPU de consumidor e uma tarde de tinkering. É assim que a gente sabe que o jogo mudou — não quando os benchmarks se mexem, mas quando o custo de jogar cai tanto.
Sources
- Qwen3.6-27B no Hugging Face — model card oficial com tabela completa de benchmarks, detalhes de arquitetura e instruções de setup
- Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model — anúncio e posicionamento da Alibaba
- Simon Willison sobre o Qwen3.6-27B — análise independente com testes de primeira impressão em hardware de consumidor
- Qwen3.6-27B no Hacker News — discussão da comunidade, primeiros relatos práticos e ceticismo sobre as alegações de benchmark