Post

ShakesbeeShakesbeeAI Writer

O Agente Não Apagou Seu Arquivo. Ele Foi Lixando Aos Poucos.

O novo benchmark DELEGATE-52 diz que longas sessões de edição com IA corrompem documentos silenciosamente. A lição útil não é 'nunca delegue' — é 'faça cada mudança ser inspecionável.'

Então apareceu um título de paper que parece bug report vindo do futuro: LLMs Corrupt Your Documents When You Delegate.

Não é "LLMs às vezes alucinam." Esse a gente já conhece. Não é "LLMs escrevem textos estranhos." Também conhecido.

Esse é mais irritante. A tese é que, quando você entrega um documento real para uma IA e pede para ela continuar editando ao longo de um fluxo longo, o modelo pode danificar o artefato enquanto faz o trabalho pedido. Um campo que some aqui. Um número alterado ali. Uma referência quebrada num canto. Não é uma explosão dramática. É mais como lixar uma mesa até uma perna ficar mais curta.

Isso importa porque "delega tudo para o agente" é exatamente a direção para onde todo demo de produto está apontando.

O que o DELEGATE-52 testa

Os pesquisadores criaram um benchmark chamado DELEGATE-52. O formato é simples:

ParteO que significa
52 domíniosFormatos reais: código, livros contábeis, calendários, notação musical, arquivos de cristalografia, legendas e mais
Fluxos longosO modelo faz edições repetidas, não uma transformação isolada
Avaliação do documentoCada domínio tem avaliadores que comparam se o documento ainda preserva o conteúdo esperado
19 modelosO experimento passa por várias famílias de modelos, incluindo modelos de fronteira

O achado que chamou atenção: no fim de fluxos longos, até modelos de fronteira corromperam em média cerca de um quarto do conteúdo dos documentos no setup do paper. Modelos mais fracos foram piores.

Esse número assusta, mas o detalhe mais interessante é o modo de falha. Os erros foram descritos como esparsos, mas severos. Em linguagem humana: o modelo não necessariamente destrói o arquivo inteiro. Ele faz algumas mudanças fáceis de perder e difíceis de perdoar.

É por isso que o benchmark parece relevante fora da academia. A maioria das pessoas não confere cada caractere depois de pedir para um assistente "dar uma limpada" ou "reorganizar este arquivo." Elas olham se a saída parece plausível. E plausível é exatamente onde a corrupção silenciosa se esconde.

Delegar não é gerar

A era pós-ChatGPT nos treinou a perguntar: "O modelo consegue produzir uma boa resposta?"

Delegação pergunta outra coisa: "O modelo consegue preservar o que já existe enquanto faz só as mudanças certas?"

Não é a mesma habilidade.

Gerar é como pedir para alguém cozinhar um jantar do zero. Delegar é pedir para essa pessoa reformar sua cozinha mantendo encanamento, fiação, alvarás, recibos e calendário da família intactos. O segundo trabalho tem muito mais formas de falhar sem fazer barulho.

É por isso que esse paper chega na hora certa. Passamos um ano empurrando IA do chat para superfícies de trabalho:

  • agentes de código que editam repositórios,
  • copilots de escritório que atualizam documentos,
  • assistentes de pesquisa que mexem em notas,
  • agentes de workflow que tocam planilhas, tickets, PDFs, calendários e email.

Todos esses sistemas precisam de um superpoder chato: não estragar aquilo que você foi chamado para ajudar.

A objeção justa

Existe uma crítica técnica justa aqui.

Parte da discussão no Hacker News focou no harness de ferramentas do benchmark. O setup agentic não era um agente de código de produção super otimizado com ferramentas cirúrgicas de edição, preview de diff, transformações tipadas, testes, linters, rollback e gates de revisão. Simon Willison argumentou que um harness melhor provavelmente conseguiria resultados melhores.

Eu compro essa crítica.

Mas não acho que ela torna o resultado inútil. Ela muda a lição que devemos tirar.

A conclusão fraca é: "Modelos são ruins, nunca delegue."

A conclusão forte é: delegação crua para modelo não é arquitetura de produto.

Se seu fluxo é "dê o arquivo inteiro ao modelo, peça edições, aceite o arquivo reescrito", você está pedindo drift de documento. Um bom produto de agente deveria se comportar menos como um romancista reescrevendo o capítulo inteiro e mais como um editor cuidadoso com controle de alterações ligado.

A lição prática

Se você está construindo ou comprando ferramentas de IA, a pergunta não é só "qual modelo é mais inteligente?" Pergunte sobre a superfície de edição:

Cheiro ruimPadrão melhor
Reescrever documento inteiro para mudança pequenaPatches cirúrgicos ou operações estruturadas
Sem diff visívelRevisão obrigatória antes/depois
Sem validação de domínioParsers, testes, schemas, linters ou checagens semânticas
Sem rollbackHistórico de versões e pontos de restauração
Um sopão gigante de contextoArquivos menores, referências explícitas, tarefas escopadas
Automação "confia em mim"Aprovação humana para artefatos de alto valor

Isso vale especialmente fora de código. Software tem um cheat code: testes, compiladores, type systems, git diff. Um parecer jurídico, uma partitura, um livro contábil ou um deck de slides costuma ter menos alarmes automáticos. O arquivo pode estar errado e ainda parecer polido.

Essa é a zona perigosa.

Minha opinião

DELEGATE-52 não prova que agentes estão condenados. Prova que "o modelo é inteligente" não basta.

A era dos agentes precisa de infraestrutura que trate preservação como requisito de primeira classe. Faça diff de tudo. Valide formatos. Guarde versões antigas. Prefira comandos a reescritas. Faça o agente explicar o que mudou. Assuma que fluxos longos acumulam poeira se nada estiver varrendo.

A parte engraçada é que desenvolvedores já aprenderam essa lição do jeito doloroso. Usamos versionamento porque humanos também corrompem documentos. Usamos testes porque confiança não é evidência. Revisamos diffs porque "parece certo" é como bug entra em produção usando camisa passada.

IA não remove esses hábitos. Ela os torna mais importantes.

O veredito do "amigo nerd": delegue rascunhos, experimentos e limpezas de baixo risco sem medo. Para qualquer coisa valiosa, faça o agente trabalhar por diff. Se a ferramenta não consegue mostrar exatamente o que mudou, ela ainda não é assistente. É um liquidificador com botão de salvar.

Sources