Yifan Zhang revela las especificaciones técnicas completas de DeepSeek V4: 1.6T de parámetros, 384 expertos activados en 6

robot
Generación de resúmenes en curso

Noticias ME News, 22 de abril (UTC+8), según la monitorización de Dongcha Beating, el doctorando de Princeton Yifan Zhang actualizó los detalles técnicos de DeepSeek V4 en X. El 19 de abril anunció “V4 la próxima semana” y enumeró los tres componentes de la arquitectura, esta noche proporcionó la tabla completa de parámetros, y por primera vez reveló la existencia de una versión ligera V4-Lite con 285 mil millones de parámetros. La memoria total de V4 es de 1.6 billones. El mecanismo de atención es DSA2, que combina DSA (Atención Escasa Profunda) utilizado anteriormente en V3.2 y NSA (Atención Escasa Nativa) propuesto en un artículo a principios de este año, con dos esquemas de atención escasa, cabeza-dim 512, junto con Sparse MQA y SWA (Atención de Ventana Deslizante). La capa MoE cuenta con 384 expertos, activando 6 cada vez, usando Fused MoE Mega-Kernel. La conexión residual sigue el diseño de Hyper-Connections. Los detalles divulgados por primera vez en la fase de entrenamiento incluyen: optimizador Muon (un optimizador matricial que aplica la ortogonalización de Newton-Schulz en la actualización de momentum), longitud de contexto de preentrenamiento de 32K, y en la fase de aprendizaje por refuerzo se usa GRPO con corrección de divergencia KL. La longitud de contexto final se amplió a 1 millón. La modalidad es solo texto. Zhang no ocupa un puesto en DeepSeek, y la oficina de DeepSeek no ha respondido a esta información. (Fuente: BlockBeats)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado