commentary 2026-04-29

Mind Observatory: Uncovering the technical ledger of DeepSeek-V4

心智观察所：掀开DeepSeek-V4的技术账本

观察者网 guancha

Document Text 2,800 characters

【文/观察者网心智观察所】 4月24日，DeepSeek正式发布并开源DeepSeek-V4系列预览版本，这是其继V3.2之后的新一代旗舰模型体系。这很可能意味着，从今年夏天开始，大模型赛道上最热闹的话题不再是谁的参数更大，而是谁能更聪明地花算力。 就在各家厂商还在为128K上下文窗口较劲的时候，DeepSeek悄悄把赛道拉到了一百万token。 DeepSeek-V4系列包含两款模型：V4-Pro（1.6万亿总参数，每次推理激活490亿）和V4-Flash（2840亿总参数，每次推理激活130亿），两者均原生支持一百万token上下文。更关键的是，在这个极端长度下，V4-Pro的推理计算量仅为上一代V3.2的27%，KV缓存占用仅为10%。换句话说，DeepSeek没有靠堆算力硬扛长上下文，而是用架构创新把成本打下来了。 心智观察所仔细阅读了这份长达58页的技术报告，发现该报告藏着的不仅是几个新模块的名字，而是一整套关于效率、开源与硬件生态的战略思考。 注意力机制的手术刀：CSA与HCA的精妙配合 DeepSeek-V4为什么能在百万token上做到如此低的计算开销？得先搞清楚传统注意力机制的痛点在哪里。标准的Transformer注意力，每个token都要和前面所有token做一次计算。上下文从8K扩到1M，计算量不是翻一百多倍那么简单，而是平方级增长。这道数学题摆在那里，任何模型都绕不过去。 DeepSeek的解法是设计了两种压缩注意力机制，然后让它们交替上场： 第一种叫压缩稀疏注意力（CSA），它先把每4个token的KV缓存合并成1个压缩条目，然后用一个闪电索引器快速筛选出最相关的少量压缩块，每个查询token只需要和这些精挑细选的块做注意力计算； 第二种叫重度压缩注意力（HCA），它的压缩率高达128倍，把大量token的信息浓缩成极少的条目，虽然信息粒度粗了，但胜在覆盖范围广，能捕捉全局性的语义线索。 这两种机制的分工非常清晰，CSA负责精准定位关键细节，HCA负责把握全局脉络。一个像是拿着放大镜找线索的侦探，一个像是站在山顶俯瞰全景的指挥官。两者交错部署在模型的各层中，形成互补。 效率提升的数字相当惊人。如果以主流的BF16 GQA8配置作为行业通用基准，V4系列在百万token场景下的KV缓存占用量只有这个基准的约2%。这不是百分比级别的优化，而是数量级上的变化。对于需要处理长文档、多文件分析、长链路Agent任务的应用场景来说，这意味着原本不可能的事情变成了工程上可落地的日常。 残差连接和优化器也动了大手术 架构层面的创新不止于注意力机制。DeepSeek-V4还对模型中两个看似不起眼但极其重要的基础组件做了升级。 首先是残差连接。传统Transformer中，每一层的输出会和输入做一个简单的加法，这就是残差连接。它的好处是让深层网络更容易训练，但问题也在于它太简单了，表达能力有限。此前的超连接（Hyper-Connections）研究尝试扩展残差通道的宽度来增强表达力，但在多层堆叠时总会出现数值爆炸的问题。 DeepSeek-V4采用的流形约束超连接（mHC）找到了一个优雅的解决方案：把残差映射矩阵约束在一个叫做双随机矩阵的数学流形上。通俗地说，就是给信号传播加了一个安全阀，确保信号在层间传递时既不会被无限放大，也不会被意外抵消，从根源上保证了训练的稳定性。 还有就是是优化器。V4系列的大部分参数不再使用业界标配的AdamW，而是换成了Muon优化器。Muon的核心操作是对梯度矩阵做近似正交化，通过一种叫Newton-Schulz迭代的数学方法让梯度的奇异值趋近于1。直观理解就是，传统优化器给每个参数独立调整步长，而Muon会考虑参数矩阵整体的结构信息来决定更新方向。实测效果是收敛更快、训练更稳，尤其在万亿参数规模的MoE模型训练中优势明显。 省下来的不只是电费 对于大模型的商业化落地，推理成本往往比训练成本更关键。一个模型训练一次就行，但推理要执行千千万万次。DeepSeek-V4在推理效率上的优化，直接影响的是每一次API调用的成本。 除了CSA和HCA在注意力层面带来的计算量骤降，V4还在精度体系上做了精细文章。MoE专家权重采用FP4量化感知训练，索引器的QK路径全程以FP4计算，KV缓存则采用混合精度存储：位置编码维度保留BF16确保精度，其余维度压缩至FP8。这种对不同部件精度敏感性的分别处理，说明团队对模型内部的信息流有相当深入的理解，而不是简单粗暴地全局降精度。 在MoE层的通信优化方面，V4提出了一套细粒度的专家波次调度方案。传统做法中，通信和计算是串行的，专家并行的效率被通信延迟严重拖累。V4的方案把专家分成多个小波次，每个波次内通信和计算高度并行，实测加速比达到1.5到1.73倍，在强化学习推理等极端场景下甚至接近2倍。这套方案已经作为MegaMoE开源发布。 更值得关注的是磁盘KV缓存的设计。在RAG和多轮对话等大量复用相同前缀的场景中，V4可以把压缩后的KV条目存储到磁盘上。当新请求命中已有前缀时，直接从磁盘读取缓存，跳过整个前缀的预填充阶段。这对商业部署的意义非常直接：用户侧首token延迟大幅降低，服务成本随之下降。 编程与Agent：开源模型首次与闭源巨头正面交锋 基准测试的数字有时候会让人审美疲劳，但DeepSeek-V4在编程能力和Agent能力上的表现，确实值得单独拿出来说。 在Codeforces竞技编程评测上，V4-Pro-Max拿到了3206的评分，超过了GPT-5.4的3168和Claude Opus 4.6的3052。这是开源模型在竞技编程领域第一次正面超越所有顶级闭源模型（如下图）。 Codeforces的评测方式是针对近几个月的全新赛题进行限时解题，数据污染的可能性很低，这个成绩含金量相当高。在LiveCodeBench-v6上，V4-Pro-Max也以93.5%的Pass@1居于首位。 Agent能力方面，V4-Pro在SWE-Verified上达到80.6%的解决率，与Claude Opus 4.6的80.8%几乎不分伯仲。在覆盖大量工具和MCP服务的Toolathlon评测中，V4-Pro以51.8分排名第一，说明它的工具调用能力不是在特定框架下调出来的，而是具备真实的泛化性。 在形式化数学推理这个被视为AI智能天花板的领域，V4通过结合非形式化推理与形式化验证的混合管线，在Putnam 2025全部120题上实现了满分。这个结果在数学界引起了不小的反响。 1 2 下一页 余下全文

Metadata

Publisher	观察者网
Site	guancha
Date	2026-04-29
CMS Category	媒体报道

Verification

Original URL
https://www.guancha.cn/xinzhiguanchasuo/2026_04_29_815358.shtml

Compare with archived HTML