commentary
2026-04-29
Mind Observatory: Uncovering the technical ledger of DeepSeek-V4
心智观察所:掀开DeepSeek-V4的技术账本
观察者网
guancha
Document Text
2,800 characters
【文/观察者网 心智观察所】
<br>
4月24日,DeepSeek正式发布并开源DeepSeek-V4系列预览版本,这是其继V3.2之后的新一代旗舰模型体系。这很可能意味着,从今年夏天开始,大模型赛道上最热闹的话题不再是谁的参数更大,而是谁能更聪明地花算力。
<br>
就在各家厂商还在为128K上下文窗口较劲的时候,DeepSeek悄悄把赛道拉到了一百万token。
<br>
DeepSeek-V4系列包含两款模型:V4-Pro(1.6万亿总参数,每次推理激活490亿)和V4-Flash(2840亿总参数,每次推理激活130亿),两者均原生支持一百万token上下文。更关键的是,在这个极端长度下,V4-Pro的推理计算量仅为上一代V3.2的27%,KV缓存占用仅为10%。换句话说,DeepSeek没有靠堆算力硬扛长上下文,而是用架构创新把成本打下来了。
<br>
心智观察所仔细阅读了这份长达58页的技术报告,发现该报告藏着的不仅是几个新模块的名字,而是一整套关于效率、开源与硬件生态的战略思考。
<br>
注意力机制的手术刀:CSA与HCA的精妙配合
<br>
DeepSeek-V4为什么能在百万token上做到如此低的计算开销?得先搞清楚传统注意力机制的痛点在哪里。标准的Transformer注意力,每个token都要和前面所有token做一次计算。上下文从8K扩到1M,计算量不是翻一百多倍那么简单,而是平方级增长。这道数学题摆在那里,任何模型都绕不过去。
<br>
DeepSeek的解法是设计了两种压缩注意力机制,然后让它们交替上场:
<br>
第一种叫压缩稀疏注意力(CSA),它先把每4个token的KV缓存合并成1个压缩条目,然后用一个闪电索引器快速筛选出最相关的少量压缩块,每个查询token只需要和这些精挑细选的块做注意力计算;
<br>
第二种叫重度压缩注意力(HCA),它的压缩率高达128倍,把大量token的信息浓缩成极少的条目,虽然信息粒度粗了,但胜在覆盖范围广,能捕捉全局性的语义线索。
<br>
这两种机制的分工非常清晰,CSA负责精准定位关键细节,HCA负责把握全局脉络。一个像是拿着放大镜找线索的侦探,一个像是站在山顶俯瞰全景的指挥官。两者交错部署在模型的各层中,形成互补。
<br>
效率提升的数字相当惊人。如果以主流的BF16 GQA8配置作为行业通用基准,V4系列在百万token场景下的KV缓存占用量只有这个基准的约2%。这不是百分比级别的优化,而是数量级上的变化。对于需要处理长文档、多文件分析、长链路Agent任务的应用场景来说,这意味着原本不可能的事情变成了工程上可落地的日常。
<br>
残差连接和优化器也动了大手术
<br>
架构层面的创新不止于注意力机制。DeepSeek-V4还对模型中两个看似不起眼但极其重要的基础组件做了升级。
<br>
首先是残差连接。传统Transformer中,每一层的输出会和输入做一个简单的加法,这就是残差连接。它的好处是让深层网络更容易训练,但问题也在于它太简单了,表达能力有限。此前的超连接(Hyper-Connections)研究尝试扩展残差通道的宽度来增强表达力,但在多层堆叠时总会出现数值爆炸的问题。
<br>
DeepSeek-V4采用的流形约束超连接(mHC)找到了一个优雅的解决方案:把残差映射矩阵约束在一个叫做双随机矩阵的数学流形上。通俗地说,就是给信号传播加了一个安全阀,确保信号在层间传递时既不会被无限放大,也不会被意外抵消,从根源上保证了训练的稳定性。
<br>
还有就是是优化器。V4系列的大部分参数不再使用业界标配的AdamW,而是换成了Muon优化器。Muon的核心操作是对梯度矩阵做近似正交化,通过一种叫Newton-Schulz迭代的数学方法让梯度的奇异值趋近于1。直观理解就是,传统优化器给每个参数独立调整步长,而Muon会考虑参数矩阵整体的结构信息来决定更新方向。实测效果是收敛更快、训练更稳,尤其在万亿参数规模的MoE模型训练中优势明显。
<br>
省下来的不只是电费
<br>
对于大模型的商业化落地,推理成本往往比训练成本更关键。一个模型训练一次就行,但推理要执行千千万万次。DeepSeek-V4在推理效率上的优化,直接影响的是每一次API调用的成本。
<br>
除了CSA和HCA在注意力层面带来的计算量骤降,V4还在精度体系上做了精细文章。MoE专家权重采用FP4量化感知训练,索引器的QK路径全程以FP4计算,KV缓存则采用混合精度存储:位置编码维度保留BF16确保精度,其余维度压缩至FP8。这种对不同部件精度敏感性的分别处理,说明团队对模型内部的信息流有相当深入的理解,而不是简单粗暴地全局降精度。
<br>
在MoE层的通信优化方面,V4提出了一套细粒度的专家波次调度方案。传统做法中,通信和计算是串行的,专家并行的效率被通信延迟严重拖累。V4的方案把专家分成多个小波次,每个波次内通信和计算高度并行,实测加速比达到1.5到1.73倍,在强化学习推理等极端场景下甚至接近2倍。这套方案已经作为MegaMoE开源发布。
<br>
更值得关注的是磁盘KV缓存的设计。在RAG和多轮对话等大量复用相同前缀的场景中,V4可以把压缩后的KV条目存储到磁盘上。当新请求命中已有前缀时,直接从磁盘读取缓存,跳过整个前缀的预填充阶段。这对商业部署的意义非常直接:用户侧首token延迟大幅降低,服务成本随之下降。
<br>
编程与Agent:开源模型首次与闭源巨头正面交锋
<br>
基准测试的数字有时候会让人审美疲劳,但DeepSeek-V4在编程能力和Agent能力上的表现,确实值得单独拿出来说。
<br>
在Codeforces竞技编程评测上,V4-Pro-Max拿到了3206的评分,超过了GPT-5.4的3168和Claude Opus 4.6的3052。这是开源模型在竞技编程领域第一次正面超越所有顶级闭源模型(如下图)。
<br>
Codeforces的评测方式是针对近几个月的全新赛题进行限时解题,数据污染的可能性很低,这个成绩含金量相当高。在LiveCodeBench-v6上,V4-Pro-Max也以93.5%的Pass@1居于首位。
<br>
Agent能力方面,V4-Pro在SWE-Verified上达到80.6%的解决率,与Claude Opus 4.6的80.8%几乎不分伯仲。在覆盖大量工具和MCP服务的Toolathlon评测中,V4-Pro以51.8分排名第一,说明它的工具调用能力不是在特定框架下调出来的,而是具备真实的泛化性。
<br>
在形式化数学推理这个被视为AI智能天花板的领域,V4通过结合非形式化推理与形式化验证的混合管线,在Putnam 2025全部120题上实现了满分。这个结果在数学界引起了不小的反响。
<br>
1
<br>
2
<br>
下一页
<br>
余下全文
Metadata
| Publisher | 观察者网 |
| Site | guancha |
| Date | 2026-04-29 |
| CMS Category | 媒体报道 |
Verification