Análise GEPA de Berkeley: fazer com que a IA aprenda novas tarefas sem atualizar os pesos, 35 vezes menos custo de treino do que o RL

A equipa de investigação da Universidade da Califórnia, Berkeley, propôs um novo método de treino de IA, o GEPA, que já foi aceite na ICLR 2026 como artigo Oral. O GEPA não atualiza os pesos do modelo, não necessita de treino em GPU e apenas usa um LLM que “lê registos de treino”, reescrevendo repetidamente as instruções (prompts) do sistema de IA. Assim, consegue superar em média os métodos de reforço (reinforcement learning) dominantes GRPO em 6% em 6 tarefas, com melhor desempenho máximo de 20%, e usando 35 vezes menos tentativas de treino (rollouts). Depois de, por iniciativa da comunidade de engenharia de IA, a abordagem ser divulgada e discutida na plataforma X via difusão, já foi integrada no DSPy como um otimizador de primeira classe.

O que o GEPA está a fazer: usar os registos de treino como material didático, sem olhar apenas para pontuações

O fluxo de trabalho dos métodos tradicionais de aprendizagem por reforço (como o GRPO) é: fazer o IA executar uma tarefa, atribuir uma pontuação “+1 ou -1” com base no resultado, e ajustar repetidamente os pesos do modelo com base nessa pontuação. O problema é que o processo da IA ao executar uma única tarefa normalmente inclui passos de raciocínio com milhares de tokens, chamadas a ferramentas e mensagens de erro—todos esses detalhes ricos acabam comprimidos numa única pontuação e a informação do processo é descartada. Por isso, o RL precisa de correr dezenas de milhares de vezes para convergir.

A abordagem do GEPA é o oposto: após a IA terminar a tarefa, entrega a outra “LLM de reflexão” a totalidade do processo (raciocínio, chamadas a ferramentas, registos de erros) de forma fiel. A LLM de reflexão funciona como um engenheiro sénior a ler um log de código: identifica em que passo ocorreu o erro, por que motivo ocorreu e como deve ser alterado o prompt; em seguida, reescreve diretamente o prompt do módulo em causa. Do mesmo modo, ao correr a tarefa uma vez, o GEPA extrai muito mais sinal do que o RL, que usa apenas uma pontuação única.

Por que razão consegue vencer: trocar “dar pontuações” por “ler o processo todo”

O GEPA vence o GRPO em 6 tarefas: em média mais 6% e com máximo de 20%. Em comparação com outro otimizador de prompts dominante, o MIPROv2, também supera em mais de 10% (com uma melhoria de 12% na base de referência de problemas de matemática AIME-2025). O mais importante, porém, é o custo de treino: para atingir desempenho equivalente, o GEPA precisa de apenas 35 vezes menos rollouts (execuções completas de tarefas).

Outra métrica é que, após a integração com o DSPy, o “Full Program Adapter” do GEPA consegue otimizar todo o programa no DSPy (incluindo signature, módulos e controlo de fluxo). No benchmark de matemática MATH, atinge 93% de exatidão—muito acima dos 67% da escrita do ChainOfThought original do DSPy. O GEPA também se destaca em fluxos de trabalho multi-módulo (agentes de IA com módulos encadeados): consegue localizar com precisão um módulo que falhou e reescrever o seu prompt, em vez de ajustar todo o sistema.

Quem vai começar primeiro a usá-lo: DSPy como cidadão de primeira classe, e já com código aberto no GitHub

O código do GEPA já foi disponibilizado no GitHub e foi integrado no framework DSPy na forma dspy.GEPA; além disso, é publicado separadamente como uma biblioteca Python. A equipa de investigação é composta por membros de UC Berkeley, Stanford, Notre Dame, Anthropic e outras instituições; entre os autores do artigo estão Matei Zaharia (cofundador da Databricks e principal autor do DSPy) e Omar Khattab (principal autor do DSPy).

Para a comunidade de programadores, o GEPA oferece uma nova solução para o problema “temos muitos rollouts, mas não sabemos como utilizá-los”: muitas equipas já acumularam milhares de registos de execução de tarefas por agentes, mas, para além de folhear alguns registos quando ocorre um erro para dar “code bug” (inspeção pontual), não existe um método sistemático para transformar esses registos em melhoria do modelo. O próximo ponto de observação é como o GEPA é aplicado de forma prática em workflows empresariais de agentes (como automação de atendimento ao cliente e correção automática de código) e se surgirá uma implementação equivalente do GEPA fora do framework DSPy.

O artigo Berkeley: análise do GEPA—não atualizar pesos para a IA aprender novas tarefas, vencendo o RL com 35 vezes menos custo de treino—apareceu pela primeira vez na cadeia de notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Particle Network lança roteiro de contas universais, disponibiliza o Universal Deposit SDK e lança contas de agentes de IA

De acordo com a ChainCatcher, a Particle Network lançou hoje a próxima fase do plano para Universal Accounts, introduzindo dois novos produtos nos próximos meses: Universal Deposit SDK, permitindo aos programadores adicionar depósitos multi-chain com aproximadamente 10 linhas de código, e Universal Agent Accounts,

GateNews12h atrás

A receita do 1.º trimestre de 2026 da Riot Platforms sobe para 167,2 milhões de dólares com o lançamento do centro de dados

O minerador de Bitcoin Riot Platforms reportou uma receita trimestral total de 167,2 milhões de dólares no 1.º trimestre de 2026, acima dos 161,4 milhões de dólares no mesmo período de 2025, à medida que a empresa gerou 33,2 milhões de dólares com as suas novas operações de centro de dados lançadas recentemente, que servem alojamento de infraestrutura de IA. O marco levou o CEO Jason Les

CryptoFrontier14h atrás

Roblox lança software de IA para desafiar a Unity e a Epic Games

De acordo com a Bloomberg, a Roblox está a lançar um novo software de IA para competir com a Unity Technologies e a Epic Games, cujos motores dominam o desenvolvimento de jogos de grande orçamento. O CEO Dave Baszucki afirmou que a ferramenta tem como objetivo ajudar os criadores a construírem jogos multijogador com gráficos fotorrealistas de forma mais fácil, impulsionada por ar

GateNews17h atrás

A Marinha dos EUA assina um contrato de quase 100 milhões de dólares com a Domino Data Lab para deteção de minas no Estreito de Ormuz

De acordo com a Agência de Notícias Xinhua, o Comando de Sistemas de Guerra de Informação da Marinha dos EUA assinou recentemente um contrato com a empresa de IA Domino Data Lab, com sede em São Francisco, para adquirir e implementar soluções de software de machine learning. O contrato, avaliado em quase 100 milhões de dólares se for totalmente executado, tem como objetivo

GateNews19h atrás

XAI Grok lança vozes personalizadas: clonagem de 2 minutos, verificação de identidade em duas fases

xAI lança Grok Custom Voices: grava cerca de 1 minuto de áudio no painel de controlo e, em menos de 2 minutos, gera um modelo de voz personalizado utilizável para a TTS e a Voice Agent API, publicando em simultâneo o Grok 4.3 e a Voice Library. Para evitar clonagem, adota uma validação em duas fases: primeiro, ler uma frase de verificação e, depois, comparar o speaker embedding, garantindo que apenas a mesma pessoa pode gerar. A Voice Library integra e gere vozes personalizadas e vozes pré-criadas, com 80+ tipos e 28 línguas, com expansão prevista para o futuro.

ChainNewsAbmedia21h atrás

Versão desktop do OpenAI Codex adiciona funcionalidade de “animal de estimação”: 3 estados de aviso, e incubação consoante o idioma de utilização

A versão de secretária do OpenAI Codex disponibilizou recentemente a funcionalidade “Animais de estimação” (Pets), permitindo que os programadores acompanhem em tempo real o estado das tarefas do Codex durante a codificação, através de personagens animadas em sobreposição com efeito de flutuação. De acordo com a documentação oficial da OpenAI, o overlay de Pets alterna consoante o estado atual do Codex, em 3

ChainNewsAbmedia23h atrás
Comentar
0/400
Nenhum comentário