El equipo de investigación de la Universidad de California en Berkeley propuso un nuevo método de entrenamiento de IA: GEPA. Ya fue aceptado por ICLR 2026 como paper Oral. GEPA no actualiza los pesos del modelo ni requiere entrenamiento con GPU: solo utiliza un LLM que “lee los registros de entrenamiento” para reescribir repetidamente las instrucciones del sistema de un sistema de IA. Así, en 6 tareas promedia ganar al enfoque de aprendizaje por refuerzo dominante GRPO en un 6%, con una victoria máxima del 20%, y requiere 35 veces menos intentos de entrenamiento (rollouts). Tras ser organizada por la comunidad de ingeniería de IA y difundida, generó debates en la plataforma X; ahora ya se integró en DSPy como un optimizador de primera clase.
Qué hace GEPA: convertir los registros de entrenamiento en material didáctico, no solo mirar puntuaciones
El flujo de trabajo de los métodos tradicionales de aprendizaje por refuerzo (como GRPO) es: hacer que la IA ejecute una tarea una vez, asignar una puntuación “+1 o -1” según el resultado, y luego usar esa puntuación para ajustar de forma iterativa los pesos del modelo. El problema es que el proceso de ejecutar la tarea una vez suele incluir pasos de razonamiento de miles de tokens, llamadas a herramientas y mensajes de error; todos esos detalles ricos se comprimen en una sola puntuación y se pierde la información del proceso. Por eso, el RL necesita ejecutarse decenas de miles de veces para converger.
El enfoque de GEPA es lo contrario: después de que la IA termina una tarea, la entrega íntegra (reasoning, llamadas a herramientas, registros de fallos) a otro “LLM de reflexión” para que lo lea. El LLM de reflexión actúa como un ingeniero sénior que interpreta logs de código: identifica en qué paso ocurrió el error, por qué ocurrió y cómo se debería modificar el prompt; luego reescribe directamente el prompt del módulo correspondiente. Con la misma cantidad de ejecuciones de tareas, la cantidad de señal que GEPA extrae es mucho mayor que la puntuación única del RL.
Por qué puede ganar: pasar de “calificar” a “leer todo el proceso”
GEPA gana en 6 tareas en promedio a GRPO en un 6%, y su mayor ventaja llega al 20%; además, frente a otro optimizador de prompts dominante, MIPROv2, también supera en más de 10% (mejora del 12% en el benchmark de matemáticas AIME-2025). Lo más importante es el costo de entrenamiento: GEPA requiere 35 veces menos rollouts (una ejecución completa de la tarea) para alcanzar un rendimiento equivalente.
Otro dato es que, tras integrar GEPA con DSPy, el “Full Program Adapter” puede optimizar todo el programa de DSPy (incluyendo signature, módulos y flujo de control). En el benchmark de MATH logra un 93% de precisión, superando ampliamente el estilo ChainOfThought de DSPy original, que queda en 67%. GEPA también se desempeña especialmente bien en flujos de trabajo multi-module (agentes de IA que encadenan múltiples módulos): puede apuntar con precisión al módulo que falla y reescribir su prompt, en lugar de ajustar todo el sistema.
Quién lo adoptará primero: DSPy como ciudadano de primera clase; GitHub ya lo publicó como open source
El código de GEPA se publicó en GitHub, e integra el framework de DSPy en la forma de dspy.GEPA; también se lanzó de forma independiente como una librería de Python. El equipo de investigación colabora entre UC Berkeley, Stanford, Notre Dame, Anthropic y otras instituciones. Los autores del paper incluyen Matei Zaharia (cofundador de Databricks y autor principal de DSPy) y Omar Khattab (autor principal de DSPy).
Para la comunidad de desarrolladores, GEPA ofrece una nueva solución para “tener una gran cantidad de rollouts pero no saber cómo aprovecharlos”: la mayoría de los equipos ya han acumulado miles de registros de ejecución de agentes, pero además de revisar algunas muestras para corregir bugs cuando algo falla, no existe un método sistemático para convertir esos registros en mejoras del modelo. El siguiente punto a observar es la adopción real de GEPA en entornos empresariales agentic (como automatización de atención al cliente o reparación automática de programas), y si aparecerán implementaciones equivalentes de GEPA que no dependan del marco DSPy.
Este artículo “Berkeley GEPA解析:不更新权重就能让 AI 学会新任務、35 倍少訓練成本勝 RL” apareció primero en la cuenta de cadena de noticias ABMedia.
Artículos relacionados
Particle Network publica una hoja de ruta de Cuentas Universales, lanza el Universal Deposit SDK y cuentas de agentes de IA
Roblox lanza software de IA para competir con Unity y Epic Games
La Marina de Estados Unidos firma un contrato de IA por casi 100 millones de dólares con Domino Data Lab para la detección de minas en el Estrecho de Ormuz
XAI Grok introduce voces personalizadas: clonación de 2 minutos, verificación de identidad en dos fases
La versión de escritorio de OpenAI Codex añade una función de mascota: 3 estados de aviso, incubación según el idioma de uso
MoonPay lanza la tarjeta MoonAgents, una Mastercard virtual para agentes de IA, el viernes