DeepSeek 于 2026 年 4 月 24 日发布了 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 的预览版本。两者都是开放权重模型,拥有一百万 token 的上下文窗口,并且定价显著低于可比的西方替代方案。根据该公司的官方规格说明,V4-Pro 模型的费用为:每一百万输入 token $1.74、每一百万输出 token $3.48——大约是 Claude Opus 4.7 价格的 1/20,并且比 GPT-5.5 Pro 低 98%。
DeepSeek-V4-Pro 拥有 1.6 万亿个总参数,使其成为迄今为止 LLM 市场中最大的开源模型。然而,每次推理传递仅激活 490 亿参数,采用 DeepSeek 所称的 Mixture-of-Experts(混合专家)方法,自 V3 以来对其进行了改进。这种设计使得完整模型可以保持休眠状态,仅为任何给定请求激活相关切片,从而在降低计算成本的同时维持知识容量。
DeepSeek-V4-Flash 的规模更小:总参数 2840 亿、激活参数 130 亿。根据 DeepSeek 的基准测试,它“在给予更大的思考预算时,实现与 Pro 版本相当的推理性能”。
两个模型都支持作为标准特性的 100 万 token 上下文——大约 750,000 个词,或大致相当于《指环王》三部曲全部内容再加上额外文本。
DeepSeek 通过发明两种新的注意力类型来解决长上下文处理固有的计算扩展问题,详见公司技术论文(GitHub 上提供)。
标准 AI 注意力机制面临一个残酷的扩展问题:每当上下文长度翻倍,计算成本大约会增加四倍。DeepSeek 的解决方案包含两种互补的方法:
压缩稀疏注意力(Compressed Sparse Attention) 分两步完成。它首先压缩 token 分组——例如把每 4 个 token 压缩成一条记录。然后,不是对所有压缩后的条目都进行注意力,而是使用“Lightning Indexer(闪电索引器)”来只选择针对任意给定查询最相关的结果。这样会把模型的注意力范围从 100 万 token 降低到少得多的一组重要块。
高强度压缩注意力(Heavily Compressed Attention) 采用更激进的方式:把每 128 个 token 折叠成一条记录,而不进行稀疏选择。虽然这会丢失更细粒度的细节,但它提供了极其便宜的全局视图。这两种注意力类型在交替的层中运行,使模型既能保持细节又能具备概览。
结果:V4-Pro 使用的计算量仅为其前身 (V3.2) 所需的 27%。KV cache——用于跟踪上下文所需的内存——降至 V3.2 的 10%。V4-Flash 进一步提升效率:相较于 V3.2,计算量为 10%,内存为 7%。
DeepSeek 发布了针对 GPT-5.4 和 Gemini-3.1-Pro 的全面基准对比,包括 V4-Pro 落后于竞争对手的领域。根据 DeepSeek 的技术报告,在推理任务上,V4-Pro 的推理落后于 GPT-5.4 和 Gemini-3.1-Pro,大约三到六个月。
V4-Pro 领先之处:
V4-Pro 落后之处:
在长上下文任务上,V4-Pro 领先开源模型,并在 CorpusQA (模拟真实文档分析(在一百万 token)) 上击败 Gemini-3.1-Pro,但在 MRCR 上输给 Claude Opus 4.6;MRCR 衡量的是从长文本深处检索特定信息的能力。
V4-Pro 可以在 Claude Code、OpenCode 以及其他 AI 编码工具中运行。根据 DeepSeek 对使用 V4-Pro 作为其主要编码代理的 85 位开发者所做的内部调查,52% 表示它已经准备好作为默认模型,39% 倾向于“是”,少于 9% 表示“否”。DeepSeek 的内部测试表明,V4-Pro 在 agentic 编码任务上优于 Claude Sonnet,并接近 Claude Opus 4.5。
Artificial Analysis 在 GDPval-AA(一个基准:测试在金融、法律和研究任务中具有经济价值的知识工作)上,将 V4-Pro 排名第一,覆盖所有开放权重模型。V4-Pro-Max 的 Elo 为 1,554,领先于 GLM-5.1 (1,535) 和 MiniMax 的 M2.7 (1,514)。Claude Opus 4.6 在同一基准上的得分为 1,619。
V4 引入“交错思考(interleaved thinking)”,能够在工具调用之间保留完整的思维链。在先前的模型中,当代理进行多次工具调用——例如搜索网页、运行代码,然后再次搜索——模型的推理上下文会在各轮之间被清空。V4 在步骤之间保持推理连续性,从而防止在复杂的自动化工作流中发生上下文丢失。
V4 的发布正值 AI 领域出现显著活跃度。Anthropic 于 2026 年 4 月 16 日发布了 Claude Opus 4.7。OpenAI 于 2026 年 4 月 23 日发布了 GPT-5.5,GPT-5.5 Pro 的定价为:每百万输入 token $30 、每百万输出 token $180 。在 Terminal Bench 2.0 (中,GPT-5.5 相比 V4-Pro 表现更好,得分为 82.7% 对比 70.0%);该基准测试复杂的命令行代理工作流。
小米在 2026 年 4 月 22 日发布 MiMo V2.5 Pro,提供完整的多模态能力 (image, audio, video),并按每百万 token 的 $1 input 与 $3 output 定价。腾讯在同一天(即 GPT-5.5 发布日)发布了 Hy3。
从定价角度看:Cline CEO Saoud Rizwan 指出,若 Uber 在 2026 年使用 DeepSeek 而不是 Claude,它的 AI 预算(据称足够支持四个月的使用)将可以持续七年。
V4-Pro 和 V4-Flash 都采用 MIT 许可证,并可在 Hugging Face 上获取。目前,这两种模型仅支持文本;DeepSeek 表示它正在开发多模态能力。两种模型都可以在本地硬件上免费运行,或根据公司需求进行定制。
DeepSeek 现有的 deepseek-chat 和 deepseek-reasoner 端点已经分别在非思考模式和思考模式下路由到 V4-Flash。旧的 deepseek-chat 和 deepseek-reasoner 端点将于 2026 年 7 月 24 日下线。
DeepSeek 在训练 V4 的过程中部分使用了华为 Ascend 芯片,从而绕过了美国的出口限制。该公司表示,等到 2026 年下半年上线 950 个新的超级节点之后,Pro 模型已经很低的价格还会进一步下降。
对企业而言,定价结构可能会改变成本-收益的计算方式。一个在 $1.74/百万输入 token 的价格下就能在开源基准中领先的模型,使大规模文档处理、法律审阅以及代码生成流水线相比六个月前显著更便宜。100 万 token 的上下文容量使得整个代码库或监管申报文件可以在单次请求中完成处理,而无需在多次调用之间进行切块。
对开发者和独立构建者而言,V4-Flash 是首要考虑对象。在 $0.14/百万输入 token、$0.28/百万输出 token 的价格下,它比一年前被视为预算选项的模型更便宜,同时也能处理 Pro 版本能够处理的大多数任务。