
DeepSeek lanzó oficialmente el paquete en vista previa de V4 el 24 de abril, con código abierto bajo una licencia MIT; los pesos del modelo ya se han sincronizado y publicado en Hugging Face y ModelScope. Según el informe técnico de DeepSeek V4, V4-Pro-Max (modo de máxima potencia de razonamiento) obtuvo 3206 puntos en el benchmark de Codeforces, superando a GPT-5.4.
Según el informe técnico de DeepSeek V4, la serie V4 incluye dos modelos de Mixture of Experts (MoE):
V4-Pro: 1.6T de parámetros totales, 49B activados por token, admite un contexto de 1M tokens
V4-Flash: 284B de parámetros totales, 13B activados por token, también admite un contexto de 1M tokens
Según el informe técnico, en un contexto de 1M, los FLOPs de inferencia por token de V4-Pro son solo el 27% de los de V3.2; la caché KV baja al 10% de la de V3.2. Esto se debe principalmente a la actualización de la arquitectura de la atención mixta (CSA de atención dispersa comprimida + HCA de atención comprimida intensiva). El volumen de datos de preentrenamiento supera 32T tokens; la actualización del optimizador de entrenamiento pasa a Muon.
Según el informe técnico de DeepSeek V4, la actualización central del postentrenamiento de V4 consiste en reemplazar por completo la fase de aprendizaje por refuerzo mixto (mixed RL) de V3.2 mediante destilación de estrategias en línea (On-Policy Distillation, OPD). El nuevo proceso se divide en dos pasos: primero, entrenar especialistas por dominio (SFT + aprendizaje por refuerzo GRPO) de forma separada en áreas como matemáticas, código, agentes y seguimiento de instrucciones; luego, usar múltiples maestros OPD para destilar las capacidades de más de una docena de especialistas a un único modelo unificado, alineando mediante logit para evitar los conflictos de capacidades comunes en métodos tradicionales.
El informe también introduce un modelo generativo de recompensas (Generative Reward Model, GRM). Para tareas que son difíciles de verificar con reglas, se entrena con una pequeña cantidad de datos de anotación humana diversificados, haciendo que el modelo asuma simultáneamente las funciones de generación y evaluación.
Según el informe técnico de DeepSeek V4, los resultados comparativos entre V4-Pro-Max y Opus 4.6 Max, GPT-5.4 xHigh y Gemini 3.1 Pro High (sin incluir el GPT-5.5 y Opus 4.7 publicados recientemente):
Codeforces: 3206 (GPT-5.4: 3168 / Gemini 3.1 Pro: 3052) → El más alto del campo
LiveCodeBench: 93.5 → El más alto del campo
SWE Verified: 80.6, con una diferencia de 0.2 puntos porcentuales respecto a Opus 4.6 de 80.8
GPQA Diamond: 90.1, con una diferencia respecto a Gemini 3.1 Pro de 94.3
SimpleQA-Verified: 57.9, con una diferencia respecto a Gemini 3.1 Pro de 75.6
HLE: 37.7, con una diferencia respecto a Gemini 3.1 Pro de 44.4
El informe técnico también señala que las comparaciones anteriores no incluyen el GPT-5.5 y Opus 4.7 publicados recientemente, y que la brecha entre V4 y los modelos cerrados de última generación necesita validación mediante evaluación de terceros.
Según el anuncio oficial del 24 de abril de DeepSeek, la serie V4 se lanza como código abierto bajo una licencia MIT; los pesos del modelo ya se han publicado en Hugging Face y ModelScope, y es aplicable a usos comerciales y académicos.
Según el informe técnico de DeepSeek V4, V4-Pro tiene un total de parámetros de 1.6T, con 49B activados por token; V4-Flash tiene 284B de parámetros totales, con 13B activados por token. Ambos modelos admiten un contexto de 1M tokens.
Según el informe técnico de DeepSeek V4, V4-Pro-Max superó a GPT-5.4 y Gemini 3.1 Pro en dos benchmarks: Codeforces (3206 puntos) y LiveCodeBench (93.5), pero aún quedó por detrás de Gemini 3.1 Pro en benchmarks con alta densidad de conocimiento (GPQA Diamond, SimpleQA-Verified, HLE); el conjunto de comparación no incluye GPT-5.5 y Opus 4.7.
Artículos relacionados
Anthropic implementa salvaguardas electorales para Claude antes de las elecciones legislativas de mitad de mandato de 2026
DeepRoute.ai sistema avanzado de asistencia a la conducción supera las 300.000 unidades desplegadas: objetivo 2026 de 1.000.000 flotas urbanas NOA
DeepSeek lanza los modelos V4-Pro y V4-Flash con un costo un 98% menor que el GPT-5.5 Pro de OpenAI
El juez desestima las acusaciones de fraude en la demanda de Elon Musk contra OpenAI; el caso avanza a juicio con dos acusaciones restantes
El CEO de OpenAI, Sam Altman, se disculpa por no reportar a la policía la cuenta prohibida del agresor de una escuela
Los EAU anuncian un cambio hacia un modelo de gobierno basado en IA en los próximos dos años