Análisis de Berkeley GEPA: la IA puede aprender nuevas tareas sin actualizar los pesos, 35 veces menos coste de entrenamiento que con RL

El equipo de investigación de la Universidad de California en Berkeley propuso un nuevo método de entrenamiento de IA: GEPA. Ya fue aceptado por ICLR 2026 como paper Oral. GEPA no actualiza los pesos del modelo ni requiere entrenamiento con GPU: solo utiliza un LLM que “lee los registros de entrenamiento” para reescribir repetidamente las instrucciones del sistema de un sistema de IA. Así, en 6 tareas promedia ganar al enfoque de aprendizaje por refuerzo dominante GRPO en un 6%, con una victoria máxima del 20%, y requiere 35 veces menos intentos de entrenamiento (rollouts). Tras ser organizada por la comunidad de ingeniería de IA y difundida, generó debates en la plataforma X; ahora ya se integró en DSPy como un optimizador de primera clase.

Qué hace GEPA: convertir los registros de entrenamiento en material didáctico, no solo mirar puntuaciones

El flujo de trabajo de los métodos tradicionales de aprendizaje por refuerzo (como GRPO) es: hacer que la IA ejecute una tarea una vez, asignar una puntuación “+1 o -1” según el resultado, y luego usar esa puntuación para ajustar de forma iterativa los pesos del modelo. El problema es que el proceso de ejecutar la tarea una vez suele incluir pasos de razonamiento de miles de tokens, llamadas a herramientas y mensajes de error; todos esos detalles ricos se comprimen en una sola puntuación y se pierde la información del proceso. Por eso, el RL necesita ejecutarse decenas de miles de veces para converger.

El enfoque de GEPA es lo contrario: después de que la IA termina una tarea, la entrega íntegra (reasoning, llamadas a herramientas, registros de fallos) a otro “LLM de reflexión” para que lo lea. El LLM de reflexión actúa como un ingeniero sénior que interpreta logs de código: identifica en qué paso ocurrió el error, por qué ocurrió y cómo se debería modificar el prompt; luego reescribe directamente el prompt del módulo correspondiente. Con la misma cantidad de ejecuciones de tareas, la cantidad de señal que GEPA extrae es mucho mayor que la puntuación única del RL.

Por qué puede ganar: pasar de “calificar” a “leer todo el proceso”

GEPA gana en 6 tareas en promedio a GRPO en un 6%, y su mayor ventaja llega al 20%; además, frente a otro optimizador de prompts dominante, MIPROv2, también supera en más de 10% (mejora del 12% en el benchmark de matemáticas AIME-2025). Lo más importante es el costo de entrenamiento: GEPA requiere 35 veces menos rollouts (una ejecución completa de la tarea) para alcanzar un rendimiento equivalente.

Otro dato es que, tras integrar GEPA con DSPy, el “Full Program Adapter” puede optimizar todo el programa de DSPy (incluyendo signature, módulos y flujo de control). En el benchmark de MATH logra un 93% de precisión, superando ampliamente el estilo ChainOfThought de DSPy original, que queda en 67%. GEPA también se desempeña especialmente bien en flujos de trabajo multi-module (agentes de IA que encadenan múltiples módulos): puede apuntar con precisión al módulo que falla y reescribir su prompt, en lugar de ajustar todo el sistema.

Quién lo adoptará primero: DSPy como ciudadano de primera clase; GitHub ya lo publicó como open source

El código de GEPA se publicó en GitHub, e integra el framework de DSPy en la forma de dspy.GEPA; también se lanzó de forma independiente como una librería de Python. El equipo de investigación colabora entre UC Berkeley, Stanford, Notre Dame, Anthropic y otras instituciones. Los autores del paper incluyen Matei Zaharia (cofundador de Databricks y autor principal de DSPy) y Omar Khattab (autor principal de DSPy).

Para la comunidad de desarrolladores, GEPA ofrece una nueva solución para “tener una gran cantidad de rollouts pero no saber cómo aprovecharlos”: la mayoría de los equipos ya han acumulado miles de registros de ejecución de agentes, pero además de revisar algunas muestras para corregir bugs cuando algo falla, no existe un método sistemático para convertir esos registros en mejoras del modelo. El siguiente punto a observar es la adopción real de GEPA en entornos empresariales agentic (como automatización de atención al cliente o reparación automática de programas), y si aparecerán implementaciones equivalentes de GEPA que no dependan del marco DSPy.

Este artículo “Berkeley GEPA解析:不更新权重就能让 AI 学会新任務、35 倍少訓練成本勝 RL” apareció primero en la cuenta de cadena de noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Particle Network publica una hoja de ruta de Cuentas Universales, lanza el Universal Deposit SDK y cuentas de agentes de IA

Según ChainCatcher, Particle Network hoy publicó la hoja de ruta de la siguiente fase para Universal Accounts, presentando dos nuevos productos en los próximos meses: Universal Deposit SDK, que permite a los desarrolladores añadir depósitos multi-cadena con aproximadamente 10 líneas de código, y Universal Agent Accounts,

GateNewshace1h

Roblox lanza software de IA para competir con Unity y Epic Games

Según Bloomberg, Roblox lanzará un nuevo software de IA para competir con Unity Technologies y Epic Games, cuyos motores dominan el desarrollo de videojuegos de gran presupuesto. El CEO Dave Baszucki afirmó que la herramienta tiene como objetivo ayudar a los creadores a construir juegos multijugador con gráficos fotorrealistas de forma más sencilla, impulsada por ar

GateNewshace5h

La Marina de Estados Unidos firma un contrato de IA por casi 100 millones de dólares con Domino Data Lab para la detección de minas en el Estrecho de Ormuz

Según Xinhua News Agency, el Mando de Sistemas de Guerra Informacional de la Armada de EE. UU. firmó recientemente un contrato con la empresa de IA Domino Data Lab, con sede en San Francisco, para adquirir e implementar soluciones de software de aprendizaje automático. El contrato, valorado en casi 100 millones de dólares si se ejecuta en su totalidad, tiene como objetivo a

GateNewshace8h

XAI Grok introduce voces personalizadas: clonación de 2 minutos, verificación de identidad en dos fases

xAI lanza Grok Custom Voices, con grabación en la consola de aproximadamente 1 minuto de voz; en un plazo de 2 minutos genera un modelo de voz personalizado listo para TTS y para la Voice Agent API, y publica simultáneamente Grok 4.3 y Voice Library. Para evitar la clonación, utiliza una verificación en dos etapas: primero leer una frase de verificación y luego comparar el speaker embedding, para asegurar que solo la misma persona pueda generar. Voice Library unifica la gestión de voces hechas a medida y voces preconstruidas, con 80+ tipos y 28 idiomas, y luego se ampliará en el futuro.

ChainNewsAbmediahace9h

La versión de escritorio de OpenAI Codex añade una función de mascota: 3 estados de aviso, incubación según el idioma de uso

La versión de escritorio de OpenAI Codex añadió recientemente la función de “Mascotas” (Pets), que permite a los desarrolladores tener en cuenta de forma inmediata el estado de las tareas de Codex durante la codificación mediante personajes animados flotantes. Según la documentación oficial de OpenAI, el overlay de mascotas cambia según el estado actual de Codex a 3

ChainNewsAbmediahace11h

MoonPay lanza la tarjeta MoonAgents, una Mastercard virtual para agentes de IA, el viernes

Según The Block, MoonPay lanzó MoonAgents Card, una tarjeta virtual de débito Mastercard, el viernes. La tarjeta está diseñada tanto para agentes de IA como para usuarios, convirtiendo stablecoins en dinero fiduciario en el punto de pago y permitiendo gastar en cualquier comerciante online a nivel global que acepte Mastercard. La tarjeta i

GateNewshace21h
Comentar
0/400
Sin comentarios