DeepSeek V4迟迟不发,梁文锋到底在憋什么大招?

2026-03-17 16:29:27 - 佚名

DeepSeek V4到底啥时候发布?整个AI圈都在猜来猜去,但真正知道答案的,估计也就只有CEO梁文锋一个人。



不管是字节豆包、阿里千问这样的大厂产品,还是一些小厂的AI模型,春节期间都扎堆更新新版本,说白了就是怕自己慢一步,风头就被即将到来的DeepSeek V4给盖过去了。

换做任何一个普通的CEO,面对全行业都翘首以盼的局面,早就把半成品先放出来了——先占住热度,再慢慢优化迭代,这在互联网行业里,就是最常规的操作。

但梁文锋偏不这么干。和他关系比较近的同行透露了实话:“他们团队底子稳、实力厚,绝不会草率发布产品。”

据外媒报道,DeepSeek V4可不是简单的小更新,而是整个架构的全面重构,不仅包含1万亿参数、百万级上下文窗口,还支持原生多模态,并且预计会在4月份正式发布。

这次更新最核心的亮点,就是一个叫LTM(长期记忆)的功能。简单说,LTM就是一套能让AI“记事儿”的系统,而且是在模型架构内部实现的持久化记忆——它能跨对话、跨任务,记住用户是谁、聊过什么、喜欢什么,就像人一样把重要的信息存下来,再也不用每次打开对话都“从零开始”。

而这个“记事儿”的能力,恰恰是当前热门的OpenClaw最欠缺的。

虽然OpenClaw能帮人干活,但它的记忆功能其实很简陋,本质上就是往本地的Markdown文件里记笔记,工作的时候再把这些笔记一直发送给大模型。这就导致一个问题:用OpenClaw越久,记的笔记越多,发送这些记忆所消耗的token(相当于AI的“流量”)就越多,成本也越来越高。

整个OpenClaw社区都在想办法解决这个问题,有人给它装插件、打补丁,还有人加各种功能,但没人能从根本上解决——因为问题出在模型本身,它天生就不擅长“记事儿”。

而LTM要做的,就是从架构层面,彻底解决这个“天生的毛病”。不过这次更新的难度,远比普通的版本迭代大得多,而且模型的情感交互、个性化记忆等功能还没完全迁移好,还需要进一步调试优化。

所以说,梁文锋不是在拖延,而是在克制。在这个大家都比谁先发、谁热度高的行业里,他选择等所有功能都打磨到位、所有零件都适配好,再正式出手。

想想DeepSeek R1当年能一战封神,靠的不是抢跑,而是一发布就做到了让对手无话可说。显然,梁文锋打算用同样的思路对待V4——要么不发,要发就直接拿出“王炸”。

一、梁文锋到底在憋什么?

OpenClaw的爆火,让所有人都意识到一个关键问题:当AI真正开始帮人干活时,它对上下文的理解和记忆能力,就不再是“加分项”,而是“能不能用”的底线。

一个记不住上文的AI助手,聊个几轮就会重复犯错、忘记任务进度,甚至把你刚说过的话抛到脑后,用起来特别费劲。

所以过去两年,行业里也出现了不少解决“记事儿”问题的方案。比如2023年伯克利团队提出的MemGPT,思路就像电脑的虚拟内存,让模型自己决定什么时候把哪些信息从外部存储调到对话窗口,什么时候换出去;2025年发布的Mem0,把这个思路做得更工程化,在相关测试中,比OpenAI内置的记忆功能表现好26%,还能减少90%的token消耗,现在OpenClaw社区里,大家用得最多的就是这个插件。

除此之外,还有用扩散激活模拟人类联想记忆的SYNAPSE,以及用递归语义压缩解决记忆膨胀的SimpleMem。但这些方案,都有一个共同的局限——它们都是在模型外部运行的“外挂”。

不管是记忆的提取、压缩,还是检索,全都是靠这个“外挂系统”完成的,模型本身根本不参与。这就导致记忆的质量全看外挂的水平,时好时坏;而且所有记忆最终都要塞进对话窗口里,和OpenClaw遇到的问题一样,记忆越多,token成本就越高。

更关键的是,模型没法在这些外挂记忆上“学习”——它只是在读别人帮它整理好的笔记,并没有真正把这些经验变成自己的能力。

而梁文锋要走的路,可能和所有人都不一样。从梁文锋署名的Engram论文,以及泄露的V4架构来看,DeepSeek的思路不是在模型外面搭一个记忆系统,而是把记忆能力直接嵌进模型架构本身。

Engram已经证明,在Transformer架构内部,可以开辟一块专门的“条件记忆空间”,用最快的哈希查找方式存取静态知识,而且调用这些已存好的知识时,既不占用对话窗口的容量,也不会增加推理的计算成本。

更厉害的是,Engram的“无限记忆机制”实验显示,这块记忆空间的容量几乎可以无限扩展,而模型的推理速度和成本却能保持不变。

用大白话来说,现在的大模型想“记住”一件事,只能把它塞进对话窗口里,窗口满了就只能删掉旧信息;而Engram相当于给模型装了一块独立的“硬盘”,记忆可以存在这块“硬盘”里,不用占用对话窗口的空间,想调取的时候直接“接上硬盘”就行。而且这块“硬盘”理论上能无限扩容,查找速度也始终不变。

这条路要是能走通,就意味着DeepSeek跳过了“外挂记忆”的阶段,直接进入了“原生记忆”的新时代。了解OpenClaw的人都知道,梁文锋瞄准的,正是OpenClaw最薄弱的地方——OpenClaw给了AI“手脚”,让它能干活,却没给它一颗能真正“记事儿”的大脑。

OpenClaw的记忆系统,有三个无法回避的硬伤。

第一个是“压缩损耗”。对话窗口满了之后,OpenClaw会自动把旧对话压缩成一段摘要,虽然能腾出空间,但对话的来龙去脉、推理过程、语气和优先级,都会被丢掉,而且再也找不回来。比如压缩前,AI还记着一套完整的bug调试方案,压缩后就只剩一句“用户在调试bug”,具体怎么排查、步骤是什么,全没了。

第二个是“检索失效”。用几周时间,记忆文件就会堆到几百条,全靠向量相似度来检索。但向量检索只能匹配语义相近的内容,没法理解不同条目之间的逻辑关系。比如你用OpenClaw做了三个给客户的方案,最终敲定的是第三个,但检索的时候,因为三个方案语义相近,很可能只找到第一个或第二个,找不到最终确定的版本。

第三个是“记忆有上限”。OpenClaw的记忆分两层:核心记忆每次启动对话都会全量塞进窗口,日志记忆则按需检索。但核心记忆有硬性限制,单个文件最多20000字符,所有相关文件加起来不超过150000字符。用得越久,核心记忆文件越长,要么被截断丢信息,要么每次对话消耗的token越来越多。而且日志检索的质量,全看模型自己的判断,它觉得不相关就不召回,哪怕重要信息就在里面,很容易遗漏关键内容。

说到底,这三个问题本质上是一回事:对话窗口就那么大,塞的东西越多,要么记不全、要么找不到、要么成本太高。OpenClaw的“记忆”,不是真的“记住了”,而是“抄了一堆笔记,却根本翻不到想用的那一页”。

如果DeepSeek V4真的能在架构层面解决这个问题,不仅能补齐OpenClaw的短板,还能让大模型变成“能成长的模型”——用得越久,越懂你的习惯、你的需求,这和现在所有大模型“每次打开都是一张白纸”的体验,有着本质的区别。

腾讯的一项最新研究,也从侧面印证了这条路的价值。从OpenAI加入腾讯、担任首席AI科学家的姚顺雨,2月份发布了他入职后的第一篇论文——CL-bench(上下文学习基准),专门测试大模型能不能从上下文里真正学到东西,不是考它背了多少知识,而是看它能不能拿着你给的材料现学现用。

结果很不理想:所有前沿模型的平均正确率只有17.2%,就算是表现最好的GPT-5.1,正确率也只有23.7%。也就是说,你精心准备一份详细的背景资料给AI,它有超过八成的概率,根本没真正“学会”。

姚顺雨在论文里提到,当前AI和真正的智能之间,差距不在于知识多少,而在于学习能力——一个装满知识却不会学习的AI,就像背了整本字典,却不会写一句话。他在相关峰会上也说过,大模型要实现高价值应用,核心瓶颈就是能不能“用好上下文”。

由此可见,“怎么让AI更好地记事儿、更好地学习”,很可能会成为2026年AI行业的核心主题。一旦上下文学习和记忆能力变得可靠,大模型或许就能实现真正的自主学习。梁文锋不可能不懂这个道理,这也是为什么DeepSeek V4的发布日期一推再推。

二、DeepSeek要补的课,远比想象中多

愿景再美好,也要面对现实。在梁文锋带着团队“闭关”打磨V4的这一年里,其他竞争对手可没闲着,DeepSeek要补的短板,比大家想象的还要多。

第一个,也是最大的短板——多模态能力。直到现在,DeepSeek还是一个纯文本模型,没法看图、看视频,也没法听语音。

当然,这不是说DeepSeek完全没有视觉相关的能力。今年1月,他们发布了OCR 2,这是一个30亿参数的文档理解小模型,核心是用DeepEncoder V2编码器替代了传统的视觉编码器,能像人一样,按阅读顺序理解文档页面。单看文档解析的测试,OCR 2用最少的视觉token,就战胜了Qwen3-VL-235B这种千亿级的视觉模型。

但OCR 2只能做一件事:把文档里的文字、表格、公式提取出来,本质上就是“图像转文本”的单向转换,并不是通用的视觉理解。换句话说,OCR 2证明了DeepSeek有能力做好视觉编码,但从“能读文档”到“能看视频、听语音、理解现实场景”,中间差的不是一步,而是一整个技术代际。

反观其他大厂,早就进入了“全模态”时代:字节的Seedance 2.0,证明了优秀的多模态模型有多大的用户基础和商业潜力;GPT-5.4更是原生支持音频、视频和计算机操作,功能已经非常全面。有消息说,近半年来,梁文锋的主要工作之一,就是补齐视觉内容处理这个短板。

第二个短板——agent能力。DeepSeek微信公众号置顶的文章标题就是“迈向agent时代的第一步”,这就说明,梁文锋很清楚agent是未来的方向,但目前DeepSeek的agent能力,和竞争对手比还有不小的差距。

随着OpenClaw的普及,不管是大厂还是小厂,都在重点发力agent能力:Kimi K2.5已经能自主调度100个子agent,并行处理1500个步骤;ChatGPT的agent能自动填表、订机票,还能跨网站拉取信息;Claude更是推出了Agent Teams,让多个AI协同工作,完成复杂任务。

第三个短板——AI编程能力。这是2026年AI行业发展最快、商业化最成熟的赛道,而DeepSeek在这方面的表现,还有很大的提升空间。

在编程基准测试SWE-bench Verified上,Claude Opus 4.6得分80.8%,GPT-5.3 Codex约80%,而DeepSeek V3.2只有73.1%;在更难的SWE-bench Pro测试中,DeepSeek V3.2的得分只有40.9%,远低于GPT-5.4的57.7%。

更关键的是,行业已经从“凭感觉写代码”(Vibe Coding),进化到了“AI自主完成工程任务”(Agentic Engineering)。比如智谱的GLM-5,论文标题就明确写着《从凭感觉编码到智能工程》,它能连续24小时跑代码、调用700次工具、切换800次上下文,从零构建出一个GBA模拟器。

此前有爆料说,DeepSeek V4的内部测试中,编程能力超过了Claude Sonnet 3,但现在,Anthropic官方已经彻底停用了Claude Sonnet 3.5,DeepSeek就算追上了旧版本,对手也已经往前跑了一大步。

第四个短板——AI搜索能力。现在几乎所有的AI聊天产品都支持联网,你已经很难看到,还需要手动打开“联网开关”的APP了。

OpenAI有ChatGPT Search,Google有Gemini Embedding 2搜索,而DeepSeek的搜索能力一直是短板,而且搜索结果还经常出现“幻觉”(也就是胡说八道)。Vectara的测试显示,DeepSeek R1的幻觉率高达14.3%,是V3版本(3.9%)的近四倍;在学术引用检索测试中,更是夸张——它引用的结果里,91.43%都是错的,比如捏造论文标题、虚构DOI、张冠李戴作者等。

DeepSeek自己也承认,幻觉是当前阶段“不可避免”的问题。核心原因有两个:一是DeepSeek没有自己的搜索基础设施,只能依赖第三方接口,信息源的质量没法控制;二是模型本身的事实校验能力不够强,就算拿到了正确的检索结果,生成回复时也可能出错。这两个问题叠加,就导致用户体验很差——“搜了也不准”。

在agent时代,搜索能力不是加分项,而是必选项。AI要帮人完成复杂任务,必须能精准获取最新、最准确的信息,而这正是DeepSeek目前欠缺的。

不难看出,DeepSeek的这些短板,没有一个是靠小修小补就能解决的。梁文锋现在做的,不是简单升级一个V系列模型,而是在同时打四场仗——补多模态、补agent、补编程、补搜索。

4月份,DeepSeek V4已经箭在弦上,但如果它再次跳票,也不用太意外。对梁文锋来说,“不发布”永远比“发布一个有缺陷的产品”更重要——毕竟,R1的成功已经证明,慢一点,未必是坏事。

避开内卷!AWE 2026上的新势力,靠“反常识”打法闯造车圈
« 上一篇 2026年03月17日
AI制药:褪去神话光环,在困境中寻找破局之路
下一篇 » 2026年03月17日