DeepSeek V4迟迟不发，梁文锋到底在憋什么大招？

2026-03-17 16:29:27 - 佚名

DeepSeek V4到底啥时候发布？整个AI圈都在猜来猜去，但真正知道答案的，估计也就只有CEO梁文锋一个人。

不管是字节豆包、阿里千问这样的大厂产品，还是一些小厂的AI模型，春节期间都扎堆更新新版本，说白了就是怕自己慢一步，风头就被即将到来的DeepSeek V4给盖过去了。

换做任何一个普通的CEO，面对全行业都翘首以盼的局面，早就把半成品先放出来了——先占住热度，再慢慢优化迭代，这在互联网行业里，就是最常规的操作。

但梁文锋偏不这么干。和他关系比较近的同行透露了实话：“他们团队底子稳、实力厚，绝不会草率发布产品。”

据外媒报道，DeepSeek V4可不是简单的小更新，而是整个架构的全面重构，不仅包含1万亿参数、百万级上下文窗口，还支持原生多模态，并且预计会在4月份正式发布。

这次更新最核心的亮点，就是一个叫LTM（长期记忆）的功能。简单说，LTM就是一套能让AI“记事儿”的系统，而且是在模型架构内部实现的持久化记忆——它能跨对话、跨任务，记住用户是谁、聊过什么、喜欢什么，就像人一样把重要的信息存下来，再也不用每次打开对话都“从零开始”。

而这个“记事儿”的能力，恰恰是当前热门的OpenClaw最欠缺的。

虽然OpenClaw能帮人干活，但它的记忆功能其实很简陋，本质上就是往本地的Markdown文件里记笔记，工作的时候再把这些笔记一直发送给大模型。这就导致一个问题：用OpenClaw越久，记的笔记越多，发送这些记忆所消耗的token（相当于AI的“流量”）就越多，成本也越来越高。

整个OpenClaw社区都在想办法解决这个问题，有人给它装插件、打补丁，还有人加各种功能，但没人能从根本上解决——因为问题出在模型本身，它天生就不擅长“记事儿”。

而LTM要做的，就是从架构层面，彻底解决这个“天生的毛病”。不过这次更新的难度，远比普通的版本迭代大得多，而且模型的情感交互、个性化记忆等功能还没完全迁移好，还需要进一步调试优化。

所以说，梁文锋不是在拖延，而是在克制。在这个大家都比谁先发、谁热度高的行业里，他选择等所有功能都打磨到位、所有零件都适配好，再正式出手。

想想DeepSeek R1当年能一战封神，靠的不是抢跑，而是一发布就做到了让对手无话可说。显然，梁文锋打算用同样的思路对待V4——要么不发，要发就直接拿出“王炸”。

一、梁文锋到底在憋什么？

OpenClaw的爆火，让所有人都意识到一个关键问题：当AI真正开始帮人干活时，它对上下文的理解和记忆能力，就不再是“加分项”，而是“能不能用”的底线。

一个记不住上文的AI助手，聊个几轮就会重复犯错、忘记任务进度，甚至把你刚说过的话抛到脑后，用起来特别费劲。

所以过去两年，行业里也出现了不少解决“记事儿”问题的方案。比如2023年伯克利团队提出的MemGPT，思路就像电脑的虚拟内存，让模型自己决定什么时候把哪些信息从外部存储调到对话窗口，什么时候换出去；2025年发布的Mem0，把这个思路做得更工程化，在相关测试中，比OpenAI内置的记忆功能表现好26%，还能减少90%的token消耗，现在OpenClaw社区里，大家用得最多的就是这个插件。

除此之外，还有用扩散激活模拟人类联想记忆的SYNAPSE，以及用递归语义压缩解决记忆膨胀的SimpleMem。但这些方案，都有一个共同的局限——它们都是在模型外部运行的“外挂”。

不管是记忆的提取、压缩，还是检索，全都是靠这个“外挂系统”完成的，模型本身根本不参与。这就导致记忆的质量全看外挂的水平，时好时坏；而且所有记忆最终都要塞进对话窗口里，和OpenClaw遇到的问题一样，记忆越多，token成本就越高。

更关键的是，模型没法在这些外挂记忆上“学习”——它只是在读别人帮它整理好的笔记，并没有真正把这些经验变成自己的能力。

而梁文锋要走的路，可能和所有人都不一样。从梁文锋署名的Engram论文，以及泄露的V4架构来看，DeepSeek的思路不是在模型外面搭一个记忆系统，而是把记忆能力直接嵌进模型架构本身。

Engram已经证明，在Transformer架构内部，可以开辟一块专门的“条件记忆空间”，用最快的哈希查找方式存取静态知识，而且调用这些已存好的知识时，既不占用对话窗口的容量，也不会增加推理的计算成本。

更厉害的是，Engram的“无限记忆机制”实验显示，这块记忆空间的容量几乎可以无限扩展，而模型的推理速度和成本却能保持不变。

用大白话来说，现在的大模型想“记住”一件事，只能把它塞进对话窗口里，窗口满了就只能删掉旧信息；而Engram相当于给模型装了一块独立的“硬盘”，记忆可以存在这块“硬盘”里，不用占用对话窗口的空间，想调取的时候直接“接上硬盘”就行。而且这块“硬盘”理论上能无限扩容，查找速度也始终不变。

这条路要是能走通，就意味着DeepSeek跳过了“外挂记忆”的阶段，直接进入了“原生记忆”的新时代。了解OpenClaw的人都知道，梁文锋瞄准的，正是OpenClaw最薄弱的地方——OpenClaw给了AI“手脚”，让它能干活，却没给它一颗能真正“记事儿”的大脑。

OpenClaw的记忆系统，有三个无法回避的硬伤。

第一个是“压缩损耗”。对话窗口满了之后，OpenClaw会自动把旧对话压缩成一段摘要，虽然能腾出空间，但对话的来龙去脉、推理过程、语气和优先级，都会被丢掉，而且再也找不回来。比如压缩前，AI还记着一套完整的bug调试方案，压缩后就只剩一句“用户在调试bug”，具体怎么排查、步骤是什么，全没了。

第二个是“检索失效”。用几周时间，记忆文件就会堆到几百条，全靠向量相似度来检索。但向量检索只能匹配语义相近的内容，没法理解不同条目之间的逻辑关系。比如你用OpenClaw做了三个给客户的方案，最终敲定的是第三个，但检索的时候，因为三个方案语义相近，很可能只找到第一个或第二个，找不到最终确定的版本。

第三个是“记忆有上限”。OpenClaw的记忆分两层：核心记忆每次启动对话都会全量塞进窗口，日志记忆则按需检索。但核心记忆有硬性限制，单个文件最多20000字符，所有相关文件加起来不超过150000字符。用得越久，核心记忆文件越长，要么被截断丢信息，要么每次对话消耗的token越来越多。而且日志检索的质量，全看模型自己的判断，它觉得不相关就不召回，哪怕重要信息就在里面，很容易遗漏关键内容。

说到底，这三个问题本质上是一回事：对话窗口就那么大，塞的东西越多，要么记不全、要么找不到、要么成本太高。OpenClaw的“记忆”，不是真的“记住了”，而是“抄了一堆笔记，却根本翻不到想用的那一页”。

如果DeepSeek V4真的能在架构层面解决这个问题，不仅能补齐OpenClaw的短板，还能让大模型变成“能成长的模型”——用得越久，越懂你的习惯、你的需求，这和现在所有大模型“每次打开都是一张白纸”的体验，有着本质的区别。

腾讯的一项最新研究，也从侧面印证了这条路的价值。从OpenAI加入腾讯、担任首席AI科学家的姚顺雨，2月份发布了他入职后的第一篇论文——CL-bench（上下文学习基准），专门测试大模型能不能从上下文里真正学到东西，不是考它背了多少知识，而是看它能不能拿着你给的材料现学现用。

结果很不理想：所有前沿模型的平均正确率只有17.2%，就算是表现最好的GPT-5.1，正确率也只有23.7%。也就是说，你精心准备一份详细的背景资料给AI，它有超过八成的概率，根本没真正“学会”。

姚顺雨在论文里提到，当前AI和真正的智能之间，差距不在于知识多少，而在于学习能力——一个装满知识却不会学习的AI，就像背了整本字典，却不会写一句话。他在相关峰会上也说过，大模型要实现高价值应用，核心瓶颈就是能不能“用好上下文”。

由此可见，“怎么让AI更好地记事儿、更好地学习”，很可能会成为2026年AI行业的核心主题。一旦上下文学习和记忆能力变得可靠，大模型或许就能实现真正的自主学习。梁文锋不可能不懂这个道理，这也是为什么DeepSeek V4的发布日期一推再推。

二、DeepSeek要补的课，远比想象中多

愿景再美好，也要面对现实。在梁文锋带着团队“闭关”打磨V4的这一年里，其他竞争对手可没闲着，DeepSeek要补的短板，比大家想象的还要多。

第一个，也是最大的短板——多模态能力。直到现在，DeepSeek还是一个纯文本模型，没法看图、看视频，也没法听语音。

当然，这不是说DeepSeek完全没有视觉相关的能力。今年1月，他们发布了OCR 2，这是一个30亿参数的文档理解小模型，核心是用DeepEncoder V2编码器替代了传统的视觉编码器，能像人一样，按阅读顺序理解文档页面。单看文档解析的测试，OCR 2用最少的视觉token，就战胜了Qwen3-VL-235B这种千亿级的视觉模型。

但OCR 2只能做一件事：把文档里的文字、表格、公式提取出来，本质上就是“图像转文本”的单向转换，并不是通用的视觉理解。换句话说，OCR 2证明了DeepSeek有能力做好视觉编码，但从“能读文档”到“能看视频、听语音、理解现实场景”，中间差的不是一步，而是一整个技术代际。

反观其他大厂，早就进入了“全模态”时代：字节的Seedance 2.0，证明了优秀的多模态模型有多大的用户基础和商业潜力；GPT-5.4更是原生支持音频、视频和计算机操作，功能已经非常全面。有消息说，近半年来，梁文锋的主要工作之一，就是补齐视觉内容处理这个短板。

第二个短板——agent能力。DeepSeek微信公众号置顶的文章标题就是“迈向agent时代的第一步”，这就说明，梁文锋很清楚agent是未来的方向，但目前DeepSeek的agent能力，和竞争对手比还有不小的差距。

随着OpenClaw的普及，不管是大厂还是小厂，都在重点发力agent能力：Kimi K2.5已经能自主调度100个子agent，并行处理1500个步骤；ChatGPT的agent能自动填表、订机票，还能跨网站拉取信息；Claude更是推出了Agent Teams，让多个AI协同工作，完成复杂任务。

第三个短板——AI编程能力。这是2026年AI行业发展最快、商业化最成熟的赛道，而DeepSeek在这方面的表现，还有很大的提升空间。

在编程基准测试SWE-bench Verified上，Claude Opus 4.6得分80.8%，GPT-5.3 Codex约80%，而DeepSeek V3.2只有73.1%；在更难的SWE-bench Pro测试中，DeepSeek V3.2的得分只有40.9%，远低于GPT-5.4的57.7%。

更关键的是，行业已经从“凭感觉写代码”（Vibe Coding），进化到了“AI自主完成工程任务”（Agentic Engineering）。比如智谱的GLM-5，论文标题就明确写着《从凭感觉编码到智能工程》，它能连续24小时跑代码、调用700次工具、切换800次上下文，从零构建出一个GBA模拟器。

此前有爆料说，DeepSeek V4的内部测试中，编程能力超过了Claude Sonnet 3，但现在，Anthropic官方已经彻底停用了Claude Sonnet 3.5，DeepSeek就算追上了旧版本，对手也已经往前跑了一大步。

第四个短板——AI搜索能力。现在几乎所有的AI聊天产品都支持联网，你已经很难看到，还需要手动打开“联网开关”的APP了。

OpenAI有ChatGPT Search，Google有Gemini Embedding 2搜索，而DeepSeek的搜索能力一直是短板，而且搜索结果还经常出现“幻觉”（也就是胡说八道）。Vectara的测试显示，DeepSeek R1的幻觉率高达14.3%，是V3版本（3.9%）的近四倍；在学术引用检索测试中，更是夸张——它引用的结果里，91.43%都是错的，比如捏造论文标题、虚构DOI、张冠李戴作者等。

DeepSeek自己也承认，幻觉是当前阶段“不可避免”的问题。核心原因有两个：一是DeepSeek没有自己的搜索基础设施，只能依赖第三方接口，信息源的质量没法控制；二是模型本身的事实校验能力不够强，就算拿到了正确的检索结果，生成回复时也可能出错。这两个问题叠加，就导致用户体验很差——“搜了也不准”。

在agent时代，搜索能力不是加分项，而是必选项。AI要帮人完成复杂任务，必须能精准获取最新、最准确的信息，而这正是DeepSeek目前欠缺的。

不难看出，DeepSeek的这些短板，没有一个是靠小修小补就能解决的。梁文锋现在做的，不是简单升级一个V系列模型，而是在同时打四场仗——补多模态、补agent、补编程、补搜索。

4月份，DeepSeek V4已经箭在弦上，但如果它再次跳票，也不用太意外。对梁文锋来说，“不发布”永远比“发布一个有缺陷的产品”更重要——毕竟，R1的成功已经证明，慢一点，未必是坏事。

避开内卷！AWE 2026上的新势力，靠“反常识”打法闯造车圈

« 上一篇 2026年03月17日

AI制药：褪去神话光环，在困境中寻找破局之路

下一篇 » 2026年03月17日

DeepSeek V4迟迟不发，梁文锋到底在憋什么大招？

相关阅读