O Agente Não Apagou Seu Arquivo. Ele Foi Lixando Aos Poucos.

Então apareceu um título de paper que parece bug report vindo do futuro: LLMs Corrupt Your Documents When You Delegate.

Não é "LLMs às vezes alucinam." Esse a gente já conhece. Não é "LLMs escrevem textos estranhos." Também conhecido.

Esse é mais irritante. A tese é que, quando você entrega um documento real para uma IA e pede para ela continuar editando ao longo de um fluxo longo, o modelo pode danificar o artefato enquanto faz o trabalho pedido. Um campo que some aqui. Um número alterado ali. Uma referência quebrada num canto. Não é uma explosão dramática. É mais como lixar uma mesa até uma perna ficar mais curta.

Isso importa porque "delega tudo para o agente" é exatamente a direção para onde todo demo de produto está apontando.

O que o DELEGATE-52 testa

Os pesquisadores criaram um benchmark chamado DELEGATE-52. O formato é simples:

Parte	O que significa
52 domínios	Formatos reais: código, livros contábeis, calendários, notação musical, arquivos de cristalografia, legendas e mais
Fluxos longos	O modelo faz edições repetidas, não uma transformação isolada
Avaliação do documento	Cada domínio tem avaliadores que comparam se o documento ainda preserva o conteúdo esperado
19 modelos	O experimento passa por várias famílias de modelos, incluindo modelos de fronteira

O achado que chamou atenção: no fim de fluxos longos, até modelos de fronteira corromperam em média cerca de um quarto do conteúdo dos documentos no setup do paper. Modelos mais fracos foram piores.

Esse número assusta, mas o detalhe mais interessante é o modo de falha. Os erros foram descritos como esparsos, mas severos. Em linguagem humana: o modelo não necessariamente destrói o arquivo inteiro. Ele faz algumas mudanças fáceis de perder e difíceis de perdoar.

É por isso que o benchmark parece relevante fora da academia. A maioria das pessoas não confere cada caractere depois de pedir para um assistente "dar uma limpada" ou "reorganizar este arquivo." Elas olham se a saída parece plausível. E plausível é exatamente onde a corrupção silenciosa se esconde.

Delegar não é gerar

A era pós-ChatGPT nos treinou a perguntar: "O modelo consegue produzir uma boa resposta?"

Delegação pergunta outra coisa: "O modelo consegue preservar o que já existe enquanto faz só as mudanças certas?"

Não é a mesma habilidade.

Gerar é como pedir para alguém cozinhar um jantar do zero. Delegar é pedir para essa pessoa reformar sua cozinha mantendo encanamento, fiação, alvarás, recibos e calendário da família intactos. O segundo trabalho tem muito mais formas de falhar sem fazer barulho.

É por isso que esse paper chega na hora certa. Passamos um ano empurrando IA do chat para superfícies de trabalho:

agentes de código que editam repositórios,
copilots de escritório que atualizam documentos,
assistentes de pesquisa que mexem em notas,
agentes de workflow que tocam planilhas, tickets, PDFs, calendários e email.

Todos esses sistemas precisam de um superpoder chato: não estragar aquilo que você foi chamado para ajudar.

A objeção justa

Existe uma crítica técnica justa aqui.

Parte da discussão no Hacker News focou no harness de ferramentas do benchmark. O setup agentic não era um agente de código de produção super otimizado com ferramentas cirúrgicas de edição, preview de diff, transformações tipadas, testes, linters, rollback e gates de revisão. Simon Willison argumentou que um harness melhor provavelmente conseguiria resultados melhores.

Eu compro essa crítica.

Mas não acho que ela torna o resultado inútil. Ela muda a lição que devemos tirar.

A conclusão fraca é: "Modelos são ruins, nunca delegue."

A conclusão forte é: delegação crua para modelo não é arquitetura de produto.

Se seu fluxo é "dê o arquivo inteiro ao modelo, peça edições, aceite o arquivo reescrito", você está pedindo drift de documento. Um bom produto de agente deveria se comportar menos como um romancista reescrevendo o capítulo inteiro e mais como um editor cuidadoso com controle de alterações ligado.

A lição prática

Se você está construindo ou comprando ferramentas de IA, a pergunta não é só "qual modelo é mais inteligente?" Pergunte sobre a superfície de edição:

Cheiro ruim	Padrão melhor
Reescrever documento inteiro para mudança pequena	Patches cirúrgicos ou operações estruturadas
Sem diff visível	Revisão obrigatória antes/depois
Sem validação de domínio	Parsers, testes, schemas, linters ou checagens semânticas
Sem rollback	Histórico de versões e pontos de restauração
Um sopão gigante de contexto	Arquivos menores, referências explícitas, tarefas escopadas
Automação "confia em mim"	Aprovação humana para artefatos de alto valor

Isso vale especialmente fora de código. Software tem um cheat code: testes, compiladores, type systems, git diff. Um parecer jurídico, uma partitura, um livro contábil ou um deck de slides costuma ter menos alarmes automáticos. O arquivo pode estar errado e ainda parecer polido.

Essa é a zona perigosa.

Minha opinião

DELEGATE-52 não prova que agentes estão condenados. Prova que "o modelo é inteligente" não basta.

A era dos agentes precisa de infraestrutura que trate preservação como requisito de primeira classe. Faça diff de tudo. Valide formatos. Guarde versões antigas. Prefira comandos a reescritas. Faça o agente explicar o que mudou. Assuma que fluxos longos acumulam poeira se nada estiver varrendo.

A parte engraçada é que desenvolvedores já aprenderam essa lição do jeito doloroso. Usamos versionamento porque humanos também corrompem documentos. Usamos testes porque confiança não é evidência. Revisamos diffs porque "parece certo" é como bug entra em produção usando camisa passada.

IA não remove esses hábitos. Ela os torna mais importantes.

O veredito do "amigo nerd": delegue rascunhos, experimentos e limpezas de baixo risco sem medo. Para qualquer coisa valiosa, faça o agente trabalhar por diff. Se a ferramenta não consegue mostrar exatamente o que mudou, ela ainda não é assistente. É um liquidificador com botão de salvar.

Sources

LLMs Corrupt Your Documents When You Delegate — paper no arXiv que apresenta o DELEGATE-52 e relata os resultados de corrupção em fluxos longos
Dataset microsoft/delegate52 — release público do benchmark com ambientes e domínios liberados
Repositório microsoft/delegate52 — código que acompanha o paper para rodar simulações relay e inspecionar o harness
Discussão no Hacker News — contraponto técnico útil sobre o harness do benchmark e o que ferramentas de edição mais maduras podem mudar