DeepSeek-V4发布:不玩虚的,只做降本增效的修路人

2026-04-25 13:12:32 - 佚名

“不诱于誉,不恐于诽,率道而行,端然正己。”



4月24日,DeepSeek在发布V4预览版时,用这句古语作为结尾。这不仅是宣言,更是其行事风格的写照:在行业狂飙突进、资本热钱涌动时,DeepSeek依然按自己的节奏,做一个冷静的“修路人”。

市场“地震”:一场由技术引发的资本重估

DeepSeek的“朴素”,与当前喧嚣的AI赛道形成鲜明对比。当智谱、MiniMax等国产模型频频融资,市值一度冲破3000亿时,DeepSeek却鲜有声响。

然而,V4的发布瞬间打破了平静。消息发出后几分钟,港股大模型板块剧烈震荡,智谱与MiniMax股价双双跳水,盘中跌幅一度超过10%。这戏剧性的一幕揭示了一个事实:DeepSeek已不再只是一家创业公司,而是被资本市场视为能左右行业格局的关键变量。

从技术层面看,V4 Pro在世界知识类评测中已跻身全球前列,整体性能逼近顶级闭源模型。但DeepSeek并未将“刷榜”作为目标,它给自己的定义始终是——追求极致的性价比。

路线之争:Kimi做“加法”,DeepSeek做“减法”

在几大头部模型中,DeepSeek与Kimi的气质最为相似,都带有技术理想主义色彩,都将代码能力和长上下文作为主攻方向。但深入技术肌理,会发现二者选择了截然不同的路径。

Kimi的“任务层加法”:Kimi长期强调线性注意力,其思路是将复杂任务拆解成多个步骤,通过组织多个智能体(Agent)协同工作。这就像一个高效的执行系统,通过多轮调用、工具协作来完成任务。这种模式优化的是用户体验和最终产出效率,即便消耗更多token,只要能为用户节省数小时,这笔账就是划算的。
DeepSeek的“系统层减法”:DeepSeek V4则采用了混合注意力架构(Hybrid Attention),通过分层压缩和选择性读取,在保证百万级上下文能力的同时,大幅降低推理成本。数据显示,在100万token场景下,其单token推理计算量降至上一代的27%。DeepSeek追求的是token本身的计算效率,从底层结构上让模型变得更“省油”。

这两种选择,根植于两家公司完全不同的底色。

DeepSeek的“量化基因”:其母公司幻方量化,天然追求效率与投入产出比。对梁文锋而言,大模型未必是一门急于变现的生意,而更像一套提升决策效率的基础工具。因此,DeepSeek有更长远的耐心,去做那些“难而慢”的工程优化。
Kimi的“创业本色”:月之暗面从诞生起就是一家标准的AI创业公司,需要融资、增长,向市场证明商业化能力。这决定了Kimi必须更积极地靠近用户需求,将模型能力转化为可交付的生产力工具。

国产替代:从“推理”到“训练”的漫漫长路

V4发布前,外界曾猜测DeepSeek将彻底摆脱对英伟达的依赖。但技术报告给出了更现实的图景:DeepSeek已在英伟达GPU和华为昇腾NPU上验证了相关方案,实现了跨平台适配。

这并不意味着其核心训练已完全切换至国产芯片。当前更现实的路径是“推理侧先行”,因为预训练对芯片生态的要求极为苛刻。

但一个关键变化值得注意:DeepSeek不再强调深度绑定英伟达的PTX底层语言,转而采用更具通用性的领域专用语言(DSL)。这表明,虽然训练端的替代尚需时日,但DeepSeek已经开始从工具链层面,为未来摆脱单一硬件依赖铺路。

做回那个冷静的DeepSeek

过去一年,行业期待DeepSeek再次复制“R1时刻”,发布一款震惊世界的顶尖模型。但V4的发布证明,它并未被打乱节奏。

当许多公司还在争夺入口和用户时,DeepSeek更关心如何把单位智能的成本压低,如何让同样的能力消耗更少的算力。那些混合注意力、KV Cache压缩、专家并行优化……这些看似不“性感”的工程改进,正在一步步解决大模型发展的瓶颈。

“不诱于誉,不恐于诽”,这不仅是姿态,更是选择。DeepSeek选择继续做那个更冷静、更专注的“修路人”,在喧嚣的时代,铺设通往未来的坚实路基。

科技圈大地震! 英特尔股价狂飙,AI圈上演金钱游戏
« 上一篇 2026年04月25日
当驾驶不再是任务,  车内400小时的时间战争
下一篇 » 2026年04月25日