V4的真实叙事：追赶、分化、和未完成的底座

2026-04-02约 8 分钟

#AI#深度

DeepSeek V4 发布了。

朋友圈比去年安静了不少。媒体的关注点集中在一件事上：华为昇腾。昇腾 910C、昇腾 950、首个优化适配国产芯片的前沿模型——这些标题看起来像是又一场"国产替代"的胜利。

但我把 V4 的技术报告、罗福莉和王子涵的两份访谈放在一起读了之后，发现这件事比"昇腾跑通了"复杂得多。有些真正重要的东西，报告写得轻描淡写；有些被外界炒得火热的东西，细读之下反而需要追问。

一、V4 到底做了什么：为 Agent 时代铺路

V4 的技术报告里有一堆改进：混合注意力、交错思考、Think Max、新训练范式、硬件解耦。但单独看每一项，都不是"第一次出现"。真正值得关注的，是这些改进指向了同一个方向——让 Agent 用得起、用得住。

先看长文本。这几乎是今天所有 Agent 的命门——一个复杂任务跑下来，上下文轻轻松松就爆了。V4 的解法是 CSA（压缩稀疏注意力）和 HCA（重度压缩注意力）的混合架构。林毅在评测里打了一个很好的比方：CSA 是"根据目录把精华部分挑出来读"，HCA 是"快速扫一眼全文，先搞明白大意"。两种阅读策略合在一起，把百万上下文的内存占用量压到了上一代的 7%-10%，计算量降到 27%。

关键是成本。V4-Pro 在 100 万 token 下，单 token 计算量只有 V3.2 的 27%。百万上下文从"能用"变成了"用得起"——这才是 Agent 能跑起来的前提。

再看记忆。V4 的 Interleaved Thinking，让模型在调用工具的过程中不丢之前的记忆。以前的模型每次新对话都清空工具调用记录，做复杂任务相当于"每次都从头开始"。现在可以了——Agent 终于能像一个真正的协作者，接手需要几天、几周才能做完的长期项目。

有了低成本长文本和连续记忆之后，V4 还做了一件事：把深度思考的算力枷锁解开。Think Max 模式，对极难的数学或代码问题，可以毫无顾忌地穷尽所有可能性——因为有 CSA/HCA 的压缩效率兜底，消耗得起了。

这些合在一起，指向一个很清晰的判断：V4 追上了当前的节奏，在 Agent 的使用上已经可以不逊色于任何模型。 它不是某一项技术单点突破，而是把 Agent 需要的基础设施——长上下文、持续记忆、深度思考——一块一块补上了。

但还有两块拼图没到。

一块是多模态。V4 目前还是纯文本模型。在 Claude、GPT、Gemini 都已经原生多模态的环境下，这个缺失会越来越明显。林毅在评测里提到，DeepSeek 因为全力扑在昇腾适配上，"原生多模态这样的重要功能也只能被暂时搁置"。另一块是芯片飞轮还没转起来——这个放到后面说。

二、报告没说的：训练还是 CUDA，昇腾只是"验证"

这是我在读报告时第一个注意到的地方。

报告在谈到昇腾时，措辞非常克制："细粒度专家并行（EP）方案在 NVIDIA GPU 和 HUAWEI Ascend NPU 平台上均进行了验证（validated）。"

注意这个词：验证，不是训练。

这两个字的区别很大。翻译一下：V4 的底层 EP 通信方案在昇腾上跑通了，证明它能工作。但核心训练——大规模预训练、后训练的 RL 阶段——报告里通篇提到的还是 CUDA 算子、NVCC 工具链、GPU 集群调度。

林毅在评测里披露了一个更具体的细节：2025 年初，DeepSeek 尝试过用昇腾 910C 来训练下一代推理模型 R2，失败了。 华为派了工程师团队来协助排查，依然没有解决。最终 DeepSeek 不得不把训练搬回英伟达显卡。

这次失败不是偶然。训练端对算力密度、卡间通信带宽、软件栈成熟度的要求，比推理端高了至少一个量级。华为跟 NVIDIA 的性能差距大约还有 5 倍，这不是靠工程优化能在短期内抹平的。

所以更准确的说法是：V4 在工程层面实现了硬件中立，训练主力还是 NVIDIA，昇腾接的是推理和部分验证。 能做到推理跨平台、部分方案在昇腾上验证通过，本身是扎实的工程成果。如果把它理解成"全流程国产替代"，那就过度解读了。

DeepSeek 为此付出的代价也不小。V4 适配昇腾的代码有 13 万行，DeepSeek 甚至拒绝了给 NVIDIA 和 AMD 提前适配 V4 的机会，把早期访问权给了华为。这一年来研发进度被一次次拖慢——在智谱、MiniMax、Kimi 疯狂迭代的时候，DeepSeek 只做了两次小规模更新。但反过来看，V4 的价格表下有一行小字："预计下半年昇腾 950 超节点批量上市后，V4 Pro 价格会大幅下调"。真到了那一天，V4 将成为性价比最高的顶级模型。

三、算力差距的本质：不是"智商差"，是"时间差"

我把报告和两份访谈放在一起读时，一个反复出现的主题浮现出来：中美之间的算力差距，本质上不是"谁更聪明"，而是"谁试错更快"。

V3 用了 2048 张 H800，花了 557 万美金，被全世界吹成"成本奇迹"。但换个角度想：这不是"选择低成本"，是"只能低成本"。出口管制下，每一次训练都得精打细算，不敢浪费算力做高风险实验。

而 OpenAI、Google 可以同时开十条实验线，九条失败无所谓，一条跑通就够。同样的实验，NVIDIA 集群一周跑完，昇腾要一个季度。

算力差距 → 迭代速度差距 → 创新速度差距。技术能力再强，一年只能跑四轮实验的团队，跟一年跑五十轮的团队，不在同一个时间线上。

但这里也有另一面。DeepSeek 在这种约束下逼出来的架构创新——MoE 极致稀疏化、MLA、FP4 量化——确实是世界一流的。王子涵提到 DeepSeek 内部"实验出真知"的文化，罗福莉也说 DeepSeek 教会她"硬核工程"。约束催生创造力这句话，在这里又验证了一次。

问题是：创造力有天花板，物理时间没有。

四、行业已经分化了

读罗福莉的访谈时，有一个感受很强烈：行业正在分化，中国内部的不同团队，对"下一步怎么走"给出了完全不同的答案。

DeepSeek 走的是极致压缩路线。V4 把长文本和推理的成本压到极限，目标很明确：让 Agent 用最少的 token 干最多的活。林毅的评测里有一个数据——同样一个计算器项目，Sonnet 花了 7 万多 token，Opus 花了 10 万多，DeepSeek 只花了 6 万多。

小米走的是另一条路。罗福莉在 MiMo-V2 上选择了极简混合架构，刻意留出计算富余，把算力砸在生成速度上——每秒 100-150 token。这是"用速度换体验"的思路。

罗福莉自己说得挺坦率：像 V4 这种极致压缩的精细架构，一旦叠加加速技术反而会被计算瓶颈卡死。所以各走各的路，没有对错，只有定位。

这条路线的背后，还有一个更深层的信号：核心团队的人才流动本身就是路线分裂的物理表现。 罗福莉去小米、郭达雅去字节、王炳宣去腾讯——离开 DeepSeek 的人不是"叛逃"，是带着自己的技术判断出去走另一条路。行业不再只有一个答案了。

这对中国 AI 来说，未必是坏事。竞争重心正从"谁的模型更聪明"转向"谁的框架能让中等模型发挥出顶尖模型的效果"。罗福莉在访谈里提到，把 OpenClaw 这种 Agent 框架接入一个中等模型，85% 的场景就能应付自如。甚至把 3B 的端侧小模型接入复杂框架，"它依然能做出我认为不可能是一个非常小的模型能做出来的事情"。智能不只存在于模型内部，更存在于模型与环境的交互框架之中——而工程落地和系统协同，恰恰是中国团队的长处。

五、我的判断

V4 追上了。百万上下文的低成本、Interleaved Thinking、Think Max、OPD+GRM 的训练范式——这些合在一起，让 DeepSeek 在 Agent 这条线上不输任何对手。

但它还只是半成品。底座有了——1.6T 参数的模型、全球最低的使用成本、华为芯片的第一优先级适配。但两个飞轮都还没转起来：芯片飞轮在等昇腾 950 超节点下半年批量上市，数据飞轮在等更多真实用户的使用反馈。林毅说得对，"完全体的 DeepSeek，还可以走得更远"。

多模态的缺失也是一个明显的短板。在大家都已经原生多模态的环境下，纯文本的天花板是看得见的。

更大的问题是算力差距没有缩小，只是被架构创新暂时对冲了。马斯克的 Colossus 已经堆到了 20 万张 H100，Meta 的 Llama 4 用了 10 万张以上。当模型规模再上一个量级，这种对冲还能维持多久，没有人知道。

但说公道话——DeepSeek 选了一条最难的路径，而且在往上走。在一个不到 200 人、不打卡、没有明确 KPI、多数人六七点下班的团队里，承载的却是"国产算力供应链背书"这种量级的期待。这份松弛感本身，在同行一周工作 80 小时的行业里就是反常的。

预训练的上限在放缓，这是共识。罗福莉说"各家在预训练上的代差已经基本没有了"。竞争从"谁的模型更聪明"转向"谁的系统更完整"。V4 做的就是这层铺垫。

追上了，但路还很长。

尾声

王子涵在访谈最后引用了 V4 发布公告里的一句话：「不诱于誉，不恐于诽，率道而行，端然正己。」

对于一个研究者来说，坚持做自己觉得正确的事，让外界噪音的影响降到最小，这个方向就是前进最快的方向。

对于一个行业来说，大概也一样。

V4 发布之后，有人欢呼国产替代，有人担忧算力差距。但不管是欢呼还是担忧，真正重要的东西都在报告的字里行间——那些精确的措辞、那些被轻描淡写带过的失败、那些需要交叉阅读才能发现的隐而未发之意。

读懂这些，比读懂标题更重要。

参考材料：

DeepSeek V4 技术报告：https://arxiv.org/abs/2604.06775
对话罗福莉：在 DeepSeek 学会硬核工程，在小米拥抱 Agent 时代 https://mp.weixin.qq.com/s/zqnJuv5OVsNGEefM7RguqQ
对话王子涵：离开 DeepSeek，我人生的逆向思考：https://mp.weixin.qq.com/s/grWCVvfAn_HUdqP8wBrucw