Document Text
2,535 characters
《科创板日报》4月24日讯(记者 黄心怡)DeepSeek-V4的预览版本今日上线并同步开源。DeepSeek-V4模型上下文处理长度由原有的128K显著扩展至1M,支持百万字超长上下文。同时,输出长度最大为384Ktokens。首次增加了KV Cache滑窗和压缩算法,减少Attention计算和访存开销,并通过模型架构创新更好地支持了Agent和Coding场景。<br>
华为昇腾、天数智芯、寒武纪等国产芯片厂商已经支持DeepSeek-V4新模型。华为昇腾超节点全系列产品支持DeepSeek V4系列模型,实现DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低时延推理。<br>
DeepSeek方面称,受限于高端算力,目前V4-Pro的服务吞吐仍有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。<br>
▍百万上下文成标配<br>
DeepSeek-V4模型按大小分为两个版本:DeepSeek-V4-Pro(1.6T参数,49B激活)和DeepSeek-V4-Flash(284B参数,13B激活),且同时支持“非思考模式”与“思考模式”,均拥有百万字超长上下文的能力。<br>
据介绍,V4系列采用DSA稀疏注意力机制,实现token维度压缩,让1M(一百万字)超长上下文成为标配,降低了长文本处理对计算和显存的需求,为复杂长程任务提供了支撑。<br>
其中,DeepSeek-V4-Pro,相比前代模型,DeepSeek-V4-Pro的Agent能力有所增强。<br>
在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent相关评测中同样表现优异。据评测反馈使用体验优于Sonnet 4.5,交付质量接近Opus4.6非思考模式,但仍与Opus4.6思考模式存在一定差距。<br>
DeepSeek-V4-Pro在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1。<br>
在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的成绩。<br>
而DeepSeek-V4-Flash模型参数下降至284B,推理成本进一步降低,模型参数和激活更小。<br>
相比DeepSeek-V4-Pro,DeepSeek-V4-Flash在世界知识储备方面稍逊一筹,但展现出了接近的推理能力。而由于模型参数和激活更小,相较之下V4-Flash能够提供更加快捷、经济的API服务。<br>
在Agent测评中,DeepSeek-V4-Flash在简单任务上与DeepSeek-V4-Pro旗鼓相当,但在高难度任务上仍有差距。<br>
▍华为昇腾、天数智芯、寒武纪等国产芯片支持DeepSeek-V4<br>
目前,华为昇腾超节点全系列产品已支持DeepSeek V4系列模型,实现DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低时延推理。<br>
据了解,昇腾950、昇腾A3超节点对DeepSeek V4系列模型全面适配。同时为便于用户快速微调,提供了基于昇腾A3超节点的训练参考实现。<br>
基于DeepSeekV4-Pro模型,在8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode吞吐4700TPS。DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode吞吐1600TPS。<br>
基于昇腾A3 64卡超节点结合大EP模式部署,DeepSeek V4-Flash模型,8K/1K输入输出场景,基于vLLM推理引擎可实现2000+TPS的单卡Decode吞吐。针对DeepSeek V4-Pro模型,昇腾A3同步支持推理部署,性能持续优化中。<br>
国产GPU厂商天数智芯完成了与DeepSeek-V4的Day 0级适配。据悉,天数智芯以天垓系列训练芯片与智铠系列推理芯片为核心,承接DeepSeek-V4的全场景应用。<br>
而寒武纪基于vLLM推理框架完成了对此次285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro两个版本的Day 0适配,适配代码已开源到GitHub社区。<br>
▍下半年昇腾950超节点将批量支持DeepSeek V4<br>
根据DeepSeep官方文档介绍,DeepSeek V4并不是只在英伟达体系内做优化,而是将细粒度专家并行(EP)方案同时在英伟达GPU和华为昇腾NPU上完成验证,这说明其推理路径已经具备跨算力平台的适配能力。但在开源层面,当前释放的仍主要是基于CUDA的MegaMoE和DeepGEMM,底层实现深度绑定英伟达工具链。<br>
从价格看,DeepSeek V4-Pro输入(缓存命中)是1元/百万tokens,输入(缓存未命中)是12元,输出是24元;V4-Flash输入(缓存命中)是0.2元/百万tokens,输入(缓存未命中)是1元,输出是2元。<br>
值得一提的是,官方API页面在小字中提到,受限于高端算力,目前V4-Pro的服务吞吐仍有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。这意味着,DeepSeek正尝试把模型运行时从单一硬件依赖中解耦出来。<br>
此外,华为云首发适配了DeepSeek-V4模型。华为云MaaS模型即服务平台已为开发者提供免部署、一键调用DeepSeek-V4-Flash API的Tokens服务。<br>
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。<br>
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”
Metadata
| Publisher | 凤凰网科技 |
| Site | ifeng |
| Date | N/A |
| CMS Category | 媒体报道 |
| Keywords | 模型 节点 华为 开源 寒武纪 能力 闭源 部署 天数 官方 机制 国产 芯片 上市 场景 全面 稍逊 高端 方面 批量 厂商 世界 跨算力 黄心怡 滑窗 用户 细粒度 平台 记者 深度 压缩算法 微调 专家 日讯 页面 小字 顶级 差距 模式 价格 任务 工具 上线 算力 注意力 维度 开发者 创板 顶尖 成绩 参数 路径 服务平台 时代 水平 领先 底层 文档 长程 产品 版本 性能 一键 日报 时延 据介绍 有所 序列 输入输出 社区 代码 层面 长度 架构 成本 核心 框架 智芯 卡超 |
Verification