公众号

V4的真实叙事:追赶、分化、和未完成的底座

2026-04-028 分钟
#AI#深度

DeepSeek V4 发布了。

朋友圈比去年安静了不少。媒体的关注点集中在一件事上:华为昇腾。昇腾 910C、昇腾 950、首个优化适配国产芯片的前沿模型——这些标题看起来像是又一场"国产替代"的胜利。

但我把 V4 的技术报告、罗福莉和王子涵的两份访谈放在一起读了之后,发现这件事比"昇腾跑通了"复杂得多。有些真正重要的东西,报告写得轻描淡写;有些被外界炒得火热的东西,细读之下反而需要追问。


一、V4 到底做了什么:为 Agent 时代铺路

V4 的技术报告里有一堆改进:混合注意力、交错思考、Think Max、新训练范式、硬件解耦。但单独看每一项,都不是"第一次出现"。真正值得关注的,是这些改进指向了同一个方向——让 Agent 用得起、用得住

先看长文本。这几乎是今天所有 Agent 的命门——一个复杂任务跑下来,上下文轻轻松松就爆了。V4 的解法是 CSA(压缩稀疏注意力)和 HCA(重度压缩注意力)的混合架构。林毅在评测里打了一个很好的比方:CSA 是"根据目录把精华部分挑出来读",HCA 是"快速扫一眼全文,先搞明白大意"。两种阅读策略合在一起,把百万上下文的内存占用量压到了上一代的 7%-10%,计算量降到 27%。

关键是成本。V4-Pro 在 100 万 token 下,单 token 计算量只有 V3.2 的 27%。百万上下文从"能用"变成了"用得起"——这才是 Agent 能跑起来的前提。

再看记忆。V4 的 Interleaved Thinking,让模型在调用工具的过程中不丢之前的记忆。以前的模型每次新对话都清空工具调用记录,做复杂任务相当于"每次都从头开始"。现在可以了——Agent 终于能像一个真正的协作者,接手需要几天、几周才能做完的长期项目。

有了低成本长文本和连续记忆之后,V4 还做了一件事:把深度思考的算力枷锁解开。Think Max 模式,对极难的数学或代码问题,可以毫无顾忌地穷尽所有可能性——因为有 CSA/HCA 的压缩效率兜底,消耗得起了。

这些合在一起,指向一个很清晰的判断:V4 追上了当前的节奏,在 Agent 的使用上已经可以不逊色于任何模型。 它不是某一项技术单点突破,而是把 Agent 需要的基础设施——长上下文、持续记忆、深度思考——一块一块补上了。

但还有两块拼图没到。

一块是多模态。V4 目前还是纯文本模型。在 Claude、GPT、Gemini 都已经原生多模态的环境下,这个缺失会越来越明显。林毅在评测里提到,DeepSeek 因为全力扑在昇腾适配上,"原生多模态这样的重要功能也只能被暂时搁置"。另一块是芯片飞轮还没转起来——这个放到后面说。


二、报告没说的:训练还是 CUDA,昇腾只是"验证"

这是我在读报告时第一个注意到的地方。

报告在谈到昇腾时,措辞非常克制:"细粒度专家并行(EP)方案在 NVIDIA GPU 和 HUAWEI Ascend NPU 平台上均进行了验证(validated)。"

注意这个词:验证,不是训练

这两个字的区别很大。翻译一下:V4 的底层 EP 通信方案在昇腾上跑通了,证明它能工作。但核心训练——大规模预训练、后训练的 RL 阶段——报告里通篇提到的还是 CUDA 算子、NVCC 工具链、GPU 集群调度。

林毅在评测里披露了一个更具体的细节:2025 年初,DeepSeek 尝试过用昇腾 910C 来训练下一代推理模型 R2,失败了。 华为派了工程师团队来协助排查,依然没有解决。最终 DeepSeek 不得不把训练搬回英伟达显卡。

这次失败不是偶然。训练端对算力密度、卡间通信带宽、软件栈成熟度的要求,比推理端高了至少一个量级。华为跟 NVIDIA 的性能差距大约还有 5 倍,这不是靠工程优化能在短期内抹平的。

所以更准确的说法是:V4 在工程层面实现了硬件中立,训练主力还是 NVIDIA,昇腾接的是推理和部分验证。 能做到推理跨平台、部分方案在昇腾上验证通过,本身是扎实的工程成果。如果把它理解成"全流程国产替代",那就过度解读了。

DeepSeek 为此付出的代价也不小。V4 适配昇腾的代码有 13 万行,DeepSeek 甚至拒绝了给 NVIDIA 和 AMD 提前适配 V4 的机会,把早期访问权给了华为。这一年来研发进度被一次次拖慢——在智谱、MiniMax、Kimi 疯狂迭代的时候,DeepSeek 只做了两次小规模更新。但反过来看,V4 的价格表下有一行小字:"预计下半年昇腾 950 超节点批量上市后,V4 Pro 价格会大幅下调"。真到了那一天,V4 将成为性价比最高的顶级模型。


三、算力差距的本质:不是"智商差",是"时间差"

我把报告和两份访谈放在一起读时,一个反复出现的主题浮现出来:中美之间的算力差距,本质上不是"谁更聪明",而是"谁试错更快"。

V3 用了 2048 张 H800,花了 557 万美金,被全世界吹成"成本奇迹"。但换个角度想:这不是"选择低成本",是"只能低成本"。出口管制下,每一次训练都得精打细算,不敢浪费算力做高风险实验。

而 OpenAI、Google 可以同时开十条实验线,九条失败无所谓,一条跑通就够。同样的实验,NVIDIA 集群一周跑完,昇腾要一个季度。

算力差距 → 迭代速度差距 → 创新速度差距。技术能力再强,一年只能跑四轮实验的团队,跟一年跑五十轮的团队,不在同一个时间线上。

但这里也有另一面。DeepSeek 在这种约束下逼出来的架构创新——MoE 极致稀疏化、MLA、FP4 量化——确实是世界一流的。王子涵提到 DeepSeek 内部"实验出真知"的文化,罗福莉也说 DeepSeek 教会她"硬核工程"。约束催生创造力这句话,在这里又验证了一次。

问题是:创造力有天花板,物理时间没有。


四、行业已经分化了

读罗福莉的访谈时,有一个感受很强烈:行业正在分化,中国内部的不同团队,对"下一步怎么走"给出了完全不同的答案。

DeepSeek 走的是极致压缩路线。V4 把长文本和推理的成本压到极限,目标很明确:让 Agent 用最少的 token 干最多的活。林毅的评测里有一个数据——同样一个计算器项目,Sonnet 花了 7 万多 token,Opus 花了 10 万多,DeepSeek 只花了 6 万多。

小米走的是另一条路。罗福莉在 MiMo-V2 上选择了极简混合架构,刻意留出计算富余,把算力砸在生成速度上——每秒 100-150 token。这是"用速度换体验"的思路。

罗福莉自己说得挺坦率:像 V4 这种极致压缩的精细架构,一旦叠加加速技术反而会被计算瓶颈卡死。所以各走各的路,没有对错,只有定位。

这条路线的背后,还有一个更深层的信号:核心团队的人才流动本身就是路线分裂的物理表现。 罗福莉去小米、郭达雅去字节、王炳宣去腾讯——离开 DeepSeek 的人不是"叛逃",是带着自己的技术判断出去走另一条路。行业不再只有一个答案了。

这对中国 AI 来说,未必是坏事。竞争重心正从"谁的模型更聪明"转向"谁的框架能让中等模型发挥出顶尖模型的效果"。罗福莉在访谈里提到,把 OpenClaw 这种 Agent 框架接入一个中等模型,85% 的场景就能应付自如。甚至把 3B 的端侧小模型接入复杂框架,"它依然能做出我认为不可能是一个非常小的模型能做出来的事情"。智能不只存在于模型内部,更存在于模型与环境的交互框架之中——而工程落地和系统协同,恰恰是中国团队的长处。


五、我的判断

V4 追上了。百万上下文的低成本、Interleaved Thinking、Think Max、OPD+GRM 的训练范式——这些合在一起,让 DeepSeek 在 Agent 这条线上不输任何对手。

但它还只是半成品。底座有了——1.6T 参数的模型、全球最低的使用成本、华为芯片的第一优先级适配。但两个飞轮都还没转起来:芯片飞轮在等昇腾 950 超节点下半年批量上市,数据飞轮在等更多真实用户的使用反馈。林毅说得对,"完全体的 DeepSeek,还可以走得更远"。

多模态的缺失也是一个明显的短板。在大家都已经原生多模态的环境下,纯文本的天花板是看得见的。

更大的问题是算力差距没有缩小,只是被架构创新暂时对冲了。马斯克的 Colossus 已经堆到了 20 万张 H100,Meta 的 Llama 4 用了 10 万张以上。当模型规模再上一个量级,这种对冲还能维持多久,没有人知道。

但说公道话——DeepSeek 选了一条最难的路径,而且在往上走。在一个不到 200 人、不打卡、没有明确 KPI、多数人六七点下班的团队里,承载的却是"国产算力供应链背书"这种量级的期待。这份松弛感本身,在同行一周工作 80 小时的行业里就是反常的。

预训练的上限在放缓,这是共识。罗福莉说"各家在预训练上的代差已经基本没有了"。竞争从"谁的模型更聪明"转向"谁的系统更完整"。V4 做的就是这层铺垫。

追上了,但路还很长。


尾声

王子涵在访谈最后引用了 V4 发布公告里的一句话:「不诱于誉,不恐于诽,率道而行,端然正己。」

对于一个研究者来说,坚持做自己觉得正确的事,让外界噪音的影响降到最小,这个方向就是前进最快的方向。

对于一个行业来说,大概也一样。

V4 发布之后,有人欢呼国产替代,有人担忧算力差距。但不管是欢呼还是担忧,真正重要的东西都在报告的字里行间——那些精确的措辞、那些被轻描淡写带过的失败、那些需要交叉阅读才能发现的隐而未发之意。

读懂这些,比读懂标题更重要。


参考材料:

  • DeepSeek V4 技术报告:https://arxiv.org/abs/2604.06775
  • 对话罗福莉:在 DeepSeek 学会硬核工程,在小米拥抱 Agent 时代 https://mp.weixin.qq.com/s/zqnJuv5OVsNGEefM7RguqQ
  • 对话王子涵:离开 DeepSeek,我人生的逆向思考:https://mp.weixin.qq.com/s/grWCVvfAn_HUdqP8wBrucw