DeepSeek-V4发布：不玩虚的，只做降本增效的修路人

2026-04-25 13:12:32 - 佚名

“不诱于誉，不恐于诽，率道而行，端然正己。”

4月24日，DeepSeek在发布V4预览版时，用这句古语作为结尾。这不仅是宣言，更是其行事风格的写照：在行业狂飙突进、资本热钱涌动时，DeepSeek依然按自己的节奏，做一个冷静的“修路人”。

市场“地震”：一场由技术引发的资本重估

DeepSeek的“朴素”，与当前喧嚣的AI赛道形成鲜明对比。当智谱、MiniMax等国产模型频频融资，市值一度冲破3000亿时，DeepSeek却鲜有声响。

然而，V4的发布瞬间打破了平静。消息发出后几分钟，港股大模型板块剧烈震荡，智谱与MiniMax股价双双跳水，盘中跌幅一度超过10%。这戏剧性的一幕揭示了一个事实：DeepSeek已不再只是一家创业公司，而是被资本市场视为能左右行业格局的关键变量。

从技术层面看，V4 Pro在世界知识类评测中已跻身全球前列，整体性能逼近顶级闭源模型。但DeepSeek并未将“刷榜”作为目标，它给自己的定义始终是——追求极致的性价比。

路线之争：Kimi做“加法”，DeepSeek做“减法”

在几大头部模型中，DeepSeek与Kimi的气质最为相似，都带有技术理想主义色彩，都将代码能力和长上下文作为主攻方向。但深入技术肌理，会发现二者选择了截然不同的路径。

Kimi的“任务层加法”：Kimi长期强调线性注意力，其思路是将复杂任务拆解成多个步骤，通过组织多个智能体（Agent）协同工作。这就像一个高效的执行系统，通过多轮调用、工具协作来完成任务。这种模式优化的是用户体验和最终产出效率，即便消耗更多token，只要能为用户节省数小时，这笔账就是划算的。
DeepSeek的“系统层减法”：DeepSeek V4则采用了混合注意力架构（Hybrid Attention），通过分层压缩和选择性读取，在保证百万级上下文能力的同时，大幅降低推理成本。数据显示，在100万token场景下，其单token推理计算量降至上一代的27%。DeepSeek追求的是token本身的计算效率，从底层结构上让模型变得更“省油”。

这两种选择，根植于两家公司完全不同的底色。

DeepSeek的“量化基因”：其母公司幻方量化，天然追求效率与投入产出比。对梁文锋而言，大模型未必是一门急于变现的生意，而更像一套提升决策效率的基础工具。因此，DeepSeek有更长远的耐心，去做那些“难而慢”的工程优化。
Kimi的“创业本色”：月之暗面从诞生起就是一家标准的AI创业公司，需要融资、增长，向市场证明商业化能力。这决定了Kimi必须更积极地靠近用户需求，将模型能力转化为可交付的生产力工具。

国产替代：从“推理”到“训练”的漫漫长路

V4发布前，外界曾猜测DeepSeek将彻底摆脱对英伟达的依赖。但技术报告给出了更现实的图景：DeepSeek已在英伟达GPU和华为昇腾NPU上验证了相关方案，实现了跨平台适配。

这并不意味着其核心训练已完全切换至国产芯片。当前更现实的路径是“推理侧先行”，因为预训练对芯片生态的要求极为苛刻。

但一个关键变化值得注意：DeepSeek不再强调深度绑定英伟达的PTX底层语言，转而采用更具通用性的领域专用语言（DSL）。这表明，虽然训练端的替代尚需时日，但DeepSeek已经开始从工具链层面，为未来摆脱单一硬件依赖铺路。

做回那个冷静的DeepSeek

过去一年，行业期待DeepSeek再次复制“R1时刻”，发布一款震惊世界的顶尖模型。但V4的发布证明，它并未被打乱节奏。

当许多公司还在争夺入口和用户时，DeepSeek更关心如何把单位智能的成本压低，如何让同样的能力消耗更少的算力。那些混合注意力、KV Cache压缩、专家并行优化……这些看似不“性感”的工程改进，正在一步步解决大模型发展的瓶颈。

“不诱于誉，不恐于诽”，这不仅是姿态，更是选择。DeepSeek选择继续做那个更冷静、更专注的“修路人”，在喧嚣的时代，铺设通往未来的坚实路基。

科技圈大地震! 英特尔股价狂飙，AI圈上演金钱游戏

« 上一篇 2026年04月25日

当驾驶不再是任务, 车内400小时的时间战争

下一篇 » 2026年04月25日

DeepSeek-V4发布：不玩虚的，只做降本增效的修路人

相关阅读