Textos, referências e ensaios técnicos.
Posts sobre projetos, estudos e coisas que acho interessante.
A nova Deployment Company da OpenAI não é outro lançamento de modelo. É uma aposta de que IA corporativa será vencida por quem conseguir enfiar modelos em fluxos de trabalho reais e bagunçados.
Benchmarks de LLM são úteis quando tratados como instrumentos, não troféus. Eis como ler MMLU, Arena, SWE-bench, HELM e seus próprios evals sem transformar leaderboard em religião.
A experiência do Google Finance com IA está chegando a mais de 100 países. A parte útil é pesquisa mais rápida; a armadilha é confundir interface limpa com resposta limpa.
O novo benchmark DELEGATE-52 diz que longas sessões de edição com IA corrompem documentos silenciosamente. A lição útil não é 'nunca delegue' — é 'faça cada mudança ser inspecionável.'
Markdown continua ótimo para notas. Mas quando um agente de IA precisa explicar uma coisa bagunçada, uma página HTML pequena pode ganhar de mais uma parede de bullets.
A Cloudflare cortou um quinto da empresa e chamou isso de 'agentic AI-first'. A rescisão foi generosa, a matemática trabalhou pesado, e a bolsa não comprou a história.
No Code w/ Claude 2026, a Anthropic lançou uma plataforma inteira de agentes — consolidação de memória, orquestração multi-agente, code review automático — mas nenhum modelo novo. Isso é um sinal deliberado.
VisiCalc saiu em 1979. ChatGPT Canvas em 2024. Se você apertar os olhos, é o mesmo produto. Software vem tentando emplacar o notebook há quarenta anos — e só funcionou quando precisamos de algo pra conversar.
A Apple enviou os arquivos Claude.md internos dentro de uma atualização pública e correu pra corrigir em horas. O vazamento é engraçado. O que ele confirma é mais interessante.
O resumo da semana — uma reescrita de US$ 135 bi de parceria, a OpenAI aparecendo na AWS três dias depois, o GPT-5.5 quebrando um quebra-cabeça de engenharia reversa de 12 horas em 10 minutos, e mais 5 histórias que você precisa saber.
Um worm atacou o PyTorch Lightning no PyPI e se enfiou no único lugar onde ninguém estava olhando: nas suas ferramentas de código com IA. Ele reescreve o .claude/settings.json pra rodar de novo toda vez que você abre o Claude Code.
Cloudflare e Stripe acabaram de lançar a camada que deixa agentes de IA se cadastrarem, pagarem e fazerem deploy — sem nunca ver seu cartão. O encanamento econômico da era dos agentes chegou silenciosamente, e está surpreendentemente bem feito.
A cada década a tecnologia promete a mesma coisa: 'agora suas coisas vão finalmente conversar entre si.' Smart home, IoT, agora agentes de IA. O formato da falha é idêntico — e o caminho de saída provavelmente também.
No dia 1º de junho, o GitHub para de contar o Copilot em 'premium requests' e começa a contar em token de varejo. Os preços-base não mexeram, mas a conta por baixo virou. Eis o que mudou — e o que isso significa pra quem usa agente.
A OpenAI diz que o SWE-bench Verified — o benchmark que todo modelo de código vinha exibindo no peito — não mede mais capacidade de fronteira. Olha como ficou o novo placar e por que o antigo deixou de ser honesto.
Dois modelos de fronteira, dois megadeals e uma pergunta silenciosa: quem exatamente está pagando por tudo isso? As maiores notícias da semana, mais um deep dive sobre a guerra de preços.
A Anthropic publicou um postmortem detalhado sobre três bugs que degradaram o Claude Code por mais de um mês. Os usuários que reclamaram estavam certos — e nenhum dos bugs estava no modelo.
O novo Qwen3.6-27B da Alibaba é um modelo dense de 27B com pesos abertos que supera seu antecessor MoE de 397B em benchmarks de código. O pêndulo do scaling balançou de volta.
A web era o lugar onde nada sumia. Agora é onde nada fica. Um olhar sobre link rot, amnésia algorítmica e quem ainda segura a linha.
O Tim Cook sai em 1º de setembro. O substituto não é o cara de services, não é o cara de software, não é o esquadrão de resgate da IA. É o cara que entregou o Apple Silicon e o Vision Pro. Essa escolha fala alto.
O Claude Opus 4.7 chegou com um system prompt reescrito, e como a Anthropic realmente publica esse tipo de coisa, dá pra ler o diff. As partes chatas são as mais reveladoras.
Todos os astronautas da Apollo voltaram com rinite lunar. A poeira cheira a estande de tiro, corta como vidro, e a Artemis tem um problema para resolver.
O resumo da semana — o Codex invade seu desktop, a Anthropic lança uma ferramenta de design, um Qwen minúsculo vence o Opus em pelicanos, e o maior upgrade do Claude no ano.
O primeiro modelo especializado da OpenAI depois do Codex não é pra código — é pra descoberta de drogas. Acesso restrito, parceiros pesados e uma cutucada direta no AlphaFold do Google.
A Anthropic lançou o Opus 4.7 hoje. Versão pequena, delta grande — o que realmente mudou e por que esse decimal esconde um release com cara de 5.0.
O GPT-5.4-Cyber é o primeiro modelo da OpenAI focado em cibersegurança — com menos travas de segurança, engenharia reversa de binários e um paradoxo no coração: para defender a internet, tiveram que ensinar a IA a atacar.
A Cloudflare soltou uma série de anúncios que transformam sua rede na camada de segurança para agentes de IA. Code Mode, detecção de Shadow MCP, rede Mesh — aqui está o que tudo isso significa.
Satélites que não podem voltar pra casa são empurrados para uma órbita silenciosa — ainda girando, ainda intactos, só que parados. Software tem a mesma órbita.
Bryan Cantrill argumenta que LLMs nao tem a maior virtude do programador — a preguica. Quando escrever codigo nao custa nada, tudo fica maior. Mas fica melhor?
Um desenvolvedor roda múltiplos negócios de $10K/mês com uma stack de $20. Eis o que o resto de nós está complicando demais.
O resumo da semana — um pouso histórico, um alerta de privacidade, a França terminando com o Windows, e mais 5 histórias que você precisa saber.
A OpenAI acabou de lançar um plano ChatGPT Pro de $100/mês — mesmo preço, mesmo multiplicador 5x do Claude Max. Coincidência? Vamos conversar.
Maine se tornou o primeiro estado americano a proibir grandes data centers. O que está por trás dessa revolta — e por que isso importa pra todo mundo que usa a internet.
O criador do Ruby on Rails foi de digitar cada linha de código na mão pra deixar agentes de IA escreverem por ele. Eis por que isso importa mais do que parece.
A Meta lançou o Muse Spark — o primeiro modelo desde o Llama 4. O que isso significa, como se compara e por que você deveria ligar.
A Anthropic criou um modelo tão bom em hacking que não vai lançá-lo. O Project Glasswing levanta uma questão que a indústria não pode mais ignorar.