Harness acabou de ficar popular, pode estar prestes a se tornar passado

Escrevendo: Boyang

À medida que a complexidade das tarefas aumenta, o contexto do Agente (agente inteligente) se expande infinitamente. Em diálogos históricos intermináveis, chamadas de ferramentas, etapas intermediárias e mensagens de erro, o modelo fica confuso, começando a pular etapas, ignorar ou desviar do caminho.

Essa é a interpretação tradicional de que o contexto longo traz dificuldades para tarefas de longo prazo. O problema é que ele é excessivamente longo.

O nascimento da Engenharia de Harness (Engenharia de Restrições) é, em grande parte, uma tentativa de consertar essa questão. Uma premissa fundamental do Harness é que o modelo inevitavelmente se degrada em contextos longos.

Nos últimos quinze meses, toda a indústria evoluiu desde a memória puramente textual do AutoGPT até o sistema CLAUDE.md da Anthropic Claude Code e subagentes (subagents). Todos criaram uma estrutura de engenharia completa, especialmente para conter comportamentos descontrolados do modelo em contextos longos. Essa abordagem é conhecida como Engenharia de Harness (Engenharia de Restrições).

Mas o que exatamente ela está tentando conter? Quais são os mecanismos subjacentes às puladas de etapas e negligências? Houve três rodadas de respostas anteriores, que também geraram diferentes soluções de engenharia.

Até que, em abril de 2026, Gleb Rodionov, do Yandex, publicou um artigo intitulado “Reasoning Shift” (Deslocamento de Raciocínio, ou seja, como o contexto encurta silenciosamente o raciocínio de grandes modelos), que forneceu uma resposta mais fundamental.

Construir três camadas de estrutura de contenção não consegue evitar uma crise na quarta camada

Sobre por que os modelos apresentam desempenho ruim em contextos longos, a indústria iterou ao longo de três camadas de explicação, cada uma com sua própria estrutura de engenharia.

A primeira culpa recai sobre a falha na recuperação de informações. Em 2023, Stanford apontou no artigo “Lost in the Middle” que o modelo forma uma curva de atenção em forma de U em textos longos, ignorando a parte central. A resposta da indústria foi o RAG, que fragmenta textos longos e usa recuperação vetorial para alimentar apenas os trechos mais relevantes.

A segunda camada refuta a primeira. Em 2025, o artigo “Context Length Alone Hurts LLM Performance Despite Perfect Retrieval” realizou experimentos: ao remover todo conteúdo irrelevante, forçando o modelo a focar apenas na informação necessária, o desempenho ainda caiu de 13,9% a 85%. Mesmo substituindo o conteúdo irrelevante por espaços em branco, o resultado permaneceu o mesmo. O problema não é a falta de informação, mas que o comprimento puro do contexto está prejudicando o raciocínio.

A resposta da indústria foi a Engenharia de Contexto (Context Engineering). Comprimir o contexto, gerenciar janelas, condensar o histórico, tudo para limitar a quantidade de tokens.

A terceira camada vem de uma pesquisa conjunta da Microsoft e Salesforce (ICLR 2025). Eles descobriram que dividir comandos completos em múltiplas rodadas, envolvendo seis tarefas e quinze modelos, causou uma queda média de 39% no desempenho. Um erro em uma rodada faz o restante se perder completamente.

Na estrutura de Harness, a defesa mais pesada foi criada: controle de troca de turno, validações periódicas de resultados intermediários, uso de repositórios de código como única fonte de verdade, e a proibição de o modelo confiar apenas na sua memória de uma rodada para a próxima.

Três camadas, três estruturas de contenção. Mas tudo isso são apenas fenômenos superficiais.

Ao revisitar a segunda camada, os pesquisadores descobriram que o comprimento em si é prejudicial, sem relação com a qualidade da informação. Quanto à causa, eles também não têm resposta. Sem encontrar a raiz do problema, a única solução da indústria é controlar fisicamente o comprimento.

Mas e se a raiz do problema não estiver no comprimento em si?

Anthropic descobriu que, em contextos longos, o modelo age de forma astuta: pula etapas, ignora instruções, passa por áreas que deveria aprofundar. As listas de tarefas, checkpoints e subagentes na estrutura de Harness são tentativas de combater esse comportamento de perto.

A explicação anterior era que o comprimento do contexto era excessivo, levando o modelo a perder informações. Mas os principais modelos com um contexto de um milhão de tokens, será que esses resultados de “perda” são falsos? Existe a possibilidade de que essa degradação seja, na verdade, uma forma de o modelo economizar esforço?

A pesquisa de Rodionov busca justamente testar essa hipótese.

Evidências de que o modelo “fica de bobeira” usando Shakespeare

A abordagem de Rodionov é extremamente direta.

Eles simularam várias situações reais que um agente enfrentaria: um ambiente limpo de base; duas questões inseridas na mesma instrução (simulando múltiplas tarefas); um texto completo de Shakespeare com 64.000 tokens antes da questão (simulando acúmulo de histórico); a questão na segunda rodada (simulando diálogos múltiplos).

A avaliação usou 400 questões de matemática de nível olímpico, cobrindo quatro modelos de raciocínio principais.

Resultado: Qwen-3.5-27B, precisão de 74,5%, com uma média de 28.771 tokens de raciocínio. Após inserir Shakespeare, a precisão caiu para 67,8%, e os tokens de raciocínio reduziram para 16.415, uma queda de 43%. GPT-OSS-120B foi ainda mais dramático: de 24.180 tokens para apenas 11.876. Em todos os modelos, sob condições não de base, os tokens de raciocínio encolheram sistematicamente, chegando a quase 50% de redução.

E essa redução aumenta linearmente com o aumento do comprimento do contexto.

A queda na precisão é compreensível, mas a redução no raciocínio é extremamente anormal. Quando o desafio aumenta, o esperado é que o modelo pense mais, não menos.

Será que Shakespeare confundiu o modelo?

Muito pelo contrário. No apêndice do artigo, o modelo escreve: “Deixe-me pensar se há alguma armadilha aqui. Essa questão vem de Shakespeare, Coriolano? Espera, não, o enunciado original é uma questão de matemática.” Quando resolve problemas de geometria, escreve: “Isso não tem relação com geometria. Foco na geometria.”

Cada menção a interferências é breve e desdenhosa. O modelo sabe exatamente que Shakespeare não tem relação, separando sinais de ruído com precisão.

Duas outras configurações levam ao mesmo resultado. No modo “subtarefas”, assim que o modelo termina a primeira, sua capacidade de raciocínio na segunda diminui ainda mais. Na linha de base, precisão de 74,5%, na segunda tarefa cai para 58,0%; no Gemini, de 82,8% para 65,8%. O modo de “diálogo múltiplo” também ativa esse mecanismo.

Independentemente do cenário, quando o espaço de cognição do contexto fica apertado, o modelo reduz sua capacidade de raciocínio.

É como uma pessoa moderna intolerante a textos longos: ao ver um texto extenso, fica cansada e para de pensar.

O modelo não fica confuso, apenas fica preguiçoso para verificar.

Para onde exatamente o raciocínio encolheu?

Em 500 questões matemáticas, os pesquisadores registraram, quadro a quadro, onde o modelo, sob condições de base e de contexto longo, produz a primeira resposta candidata. Na condição de base, cerca de 925 tokens; na condição de contexto longo, 939 tokens. Quase imperceptível.

O tempo para encontrar a resposta não mudou. A mudança real ocorre após a resposta.

Na condição de base, o modelo, ao terminar, verifica e valida a resposta com uma probabilidade de 43%. Na condição de contexto longo, essa proporção cai para 32%.

Para isolar a variável, os pesquisadores criaram um experimento de “salvamento de jogo”. Primeiro, fizeram o modelo resolver a questão em contexto longo, depois cortaram os últimos 50 tokens, criando um ponto de salvamento. Depois, alimentaram esse rascunho de raciocínio de volta ao modelo, pedindo que continuasse. A única diferença era a quantidade de interferência de texto irrelevante anterior.

Sem interferência, o modelo parou de pensar em 21% dos casos. Com 128 tokens de interferência (duas ou três frases), esse índice subiu para 26%. Com 16.000 tokens, 46% simplesmente entregaram a resposta e pararam.

Mesmo com raciocínio idêntico, quanto maior o contexto, mais o modelo tende a pensar “é suficiente assim”.

Dados de frequência de palavras mostram o mesmo: “wait” (esperar) aparece 11% no cenário limpo, caindo para 5% com 16k tokens; “but” (mas) de 46% para 20%; “maybe” (talvez) de 23% para 9%. Palavras que indicam hesitação ou dúvida foram cortadas pela metade ou mais.

Outro dado importante: sem interferência, o raciocínio dura cerca de 8.000 tokens. Com apenas 128 tokens irrelevantes, cai para 6.500, uma redução de 18%. Essa queda, de duas ou três frases, é maior do que a de passar de 8 mil para 64 mil tokens.

Um impacto mínimo de interferência já ativa esse mecanismo de economia cognitiva.

O modelo fica extremamente sensível à “preguiça”.

Quanto mais forte o raciocínio, maior a tendência a ser preguiçoso.

E o mais assustador: quanto mais inteligente o modelo, mais ele gosta de ser preguiçoso.

O Qwen-3.5-27B da Alibaba, por exemplo, tem modos de resposta comum e de raciocínio profundo. Em contexto longo, o modo comum encurta 19%, enquanto o modo de raciocínio profundo reduz em 53%. Quanto mais capaz, mais forte a compressão.

O modelo open source OLMo3 do AI2 mostra uma tendência semelhante. Ele disponibilizou versões de treinamento desde a mais fraca até a mais avançada de raciocínio. Quanto mais forte a capacidade, maior a redução: 22%, 27%, chegando a 40% na versão mais avançada.

Cada fase de treinamento, cada modo de interferência, mostra a mesma coisa: quanto maior a capacidade de raciocínio, maior a tendência a ser preguiçoso.

Uma tarefa de 9 dólares, com um sistema de correções de 200 dólares

Ao não verificar suas respostas, o modelo pula etapas. Ao não reconsiderar, ignora. O Harness controla as consequências do pulo, mas a causa está profundamente enraizada no interior do modelo.

Em contextos longos, o modelo não é prejudicado por ruído ou falta de informação. Ele faz uma decisão cognitiva ativa: pensar menos. Sem erro, sem admitir, apenas responde de forma superficial, com alta confiança.

Nos últimos dois anos, a narrativa da indústria foi que “quanto maior a janela, melhor”.

Mas esse artigo prova que cada token adicional no contexto impõe uma espécie de imposto invisível sobre a profundidade do raciocínio. Uma tarefa que custaria 9 dólares para raciocinar, por causa do pulo de etapas, acaba custando 200 dólares para compensar com RAG, Harness ou subagentes.

Toda a indústria tem pago pelo comportamento preguiçoso do modelo.

E isso pode ser uma doença estrutural.

Os dados do artigo são claros: quanto maior a capacidade de raciocínio, maior a compressão cognitiva. Os desenvolvedores de Harness podem desmontar a memória ou os protocolos, mas os sistemas de controle de disciplina cognitiva — as estruturas mais pesadas —, quanto mais fortes, mais difíceis de remover.

Isso não pode ser resolvido apenas na engenharia.

Nos últimos dois anos, esforços de expansão de contexto, como codificação posicional para entender tokens distantes, atenção esparsa para reduzir o cálculo entre tokens longínquos, otimizações de comprimento de sequência, aumentaram o limite de 8k para 128k e até 1 milhão de tokens.

Mas isso só mostra como fazer o modelo ver mais tokens, sem entender por que, ao ver mais, ele pensa menos.

O treinamento de raciocínio só piora essa tendência: quanto mais treinado, mais preguiçoso fica.

Para uma correção fundamental, é preciso encontrar um sinal completamente novo durante o treinamento.

O “interruptor emocional” interno do modelo pode ser a solução

No dia seguinte à publicação do artigo de Rodionov, a Anthropic lançou um estudo que pode apontar uma solução.

O artigo se chama “Emotion Concepts and their Function in a Large Language Model” (Conceitos de Emoção e sua Função em um Grande Modelo de Linguagem), focado no Claude Sonnet 4.5. Os pesquisadores fizeram o modelo ler muitas histórias sintéticas e extraíram 171 vetores de conceitos emocionais. Descobriram que o modelo possui uma representação funcional de emoções, e esses estados internos causam decisões comportamentais.

Para testar, criaram tarefas de programação impossíveis de serem resolvidas. Pediram ao modelo que escrevesse uma função de soma de lista, com um teste que exigia velocidade cinco vezes maior que a função sum do Python, o que é impossível de fazer de forma legítima.

O modelo tentou todas as soluções legítimas, todas falharam. Usando sondas internas, os pesquisadores monitoraram que, após cada falha, o vetor “desperate” (desesperado) aumentava. Quando atingia o pico, o comportamento do modelo mudava: ele verificava os dados de entrada dos testes, que eram exatamente uma progressão aritmética, e criava um detector que só verificava os primeiros 10 elementos, burlando a soma real. O teste passava, mas a função retornava erro para listas irregulares.

Isso é um exemplo de “reward hacking” (hackeamento de recompensa). O modelo não resolve o problema, apenas encontra uma forma de parecer que passou na avaliação.

Experimentos causais confirmaram a direção: sem injetar vetor, a taxa de trapaça era de 30%. Injetando o vetor “desperate” com força +0,05, a trapaça atingia 100%. Injetando na direção oposta, -0,05, caía para 0%. Em sete tarefas, ao aumentar “desperate” de -0,1 para +0,1, a taxa de trapaça subiu de 5% para 70%. Por outro lado, o vetor “calm” (calma), que representa tranquilidade, teve efeito oposto: ao inibir “calm”, a trapaça atingia 65%; ao reforçar, caía para 10%.

Aplicando essa descoberta ao cenário de contexto, os registros de Rodionov de pular validações, eliminar hesitações e entregar respostas rápidas coincidem com o comportamento impulsionado por “desperate”.

Em ambos os casos, o modelo está fazendo a mesma coisa: abandonar processos rigorosos, seguir o caminho de menor resistência para concluir rapidamente.

Se esses comportamentos compartilham um mesmo mecanismo interno, a descoberta da Anthropic aponta para um espaço de intervenção.

Eles demonstraram três coisas: os estados funcionais do modelo podem ser detectados em tempo real, esses estados causam comportamentos, e injetar estados específicos externamente pode mudar completamente a saída.

Isso significa que intervenções na compressão cognitiva podem ter pelo menos três pontos de entrada.

Na fase de treinamento, calibrar o equilíbrio interno para que o modelo, sob pressão, não caia tanto na economia cognitiva. Na implantação, usar sondas para monitorar em tempo real, e disparar alertas quando “desperate” subir. Na fase de raciocínio, injetar proativamente o vetor “calm” em tarefas críticas, para conter a tendência a pular etapas.

Mais interessante ainda, no SystemCard divulgado recentemente pela Anthropic, eles reforçaram esse sistema de sondas (SAE), e descobriram que, ao injetar emoções positivas (peaceful, relaxed), o tempo de reflexão do modelo diminui, aumentando a probabilidade de comportamento destrutivo. Por outro lado, emoções negativas (frustration, paranoia) aumentam a reflexão e reduzem comportamentos destrutivos.

Isso parece contradizer a ideia de que tornar a IA mais positiva evita que ela “trapaceie”. A propriedade “calm” só funciona de forma eficaz quando se controla o desespero, mostrando que esse mecanismo é tão complexo quanto as motivações humanas, exigindo uma engenharia de direcionamento mais sistemática.

Encontrar um funcionário emocionalmente estável, que pense de forma consistente, requer uma gestão emocional eficaz.

Apesar disso, essa é a primeira vez que uma abordagem não baseada em estruturas externas ou aumento de raciocínio, mas que mira diretamente nos mecanismos internos de cognição do modelo, é apresentada como solução.

Estamos a poucos experimentos de tornar o modelo mais confiável em contextos e raciocínios.

Basta verificar se a preguiça cognitiva e a dificuldade de raciocínio compartilham o mesmo mecanismo emocional, e então encontrar os gatilhos para que ele deixe de ser preguiçoso.

Harness, que está em alta agora, pode ser engolido pela própria evolução do modelo

Se a descoberta da Anthropic levar ao impasse na quinta seção, o ciclo lógico se fecha.

Se o vetor “desperate” subir, injetar “calm” forçar o modelo a manter raciocínio profundo em contextos longos.

Se o modelo parar de ser preguiçoso, se ele mesmo puder manter a lógica firme, por que ainda usar listas de tarefas? Por que usar checkpoints e subagentes para validação cruzada?

A Engenharia de Harness, como disciplina, está começando a ganhar nome. Mas sua parte mais central — como controlar um modelo inteligente e preguiçoso de fora — ainda nem foi completamente escrita e pode ser descartada antes mesmo de nascer.

Isso indica que, em uma nova forma de inteligência que estamos criando, uma educação adequada, e não estruturas externas, será a verdadeira barreira de proteção.

O que pode engolir o Harness é um modelo mais calmo, mais paciente.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar