最近关于Token的讨论，越看越魔幻

2026-03-25 16:45:55 - 佚名

最近这段时间，关于Token的讨论真的有点离谱。打开朋友圈，到处都是争论Token该怎么翻译成中文的——有人说叫“词元”“智元”，还有人开玩笑说叫“慧根”，各种说法五花八门。

其实Token也不是什么新东西，从大模型开始落地那天起，它就和神经网络绑在一起了。但直到OpenClaw（大家都叫它“龙虾”）在用户群里火起来，各种Agent应用慢慢走进大众视野，Token才真正被更多人关注到。

在我看来，这里面有两个最关键的问题：一是Token耗得太快，二是价格实在太高。

还记得OpenAI发布GPT-5.4的时候，有用户说测试一句“你好”，居然花了80美元的Token，当时大家都觉得这也太夸张了。可现在“小龙虾”普及开来，一个任务烧完上千万Token，都成了家常便饭。

与之相反的是，英伟达CEO黄仁勋在GTC2026大会上，还有之后的很多场合，都一个劲劝工程师多使用Token，甚至把Token的使用量和薪酬挂钩。有一次对话里，他还说：“如果年薪50万美元的工程师，一年连25万美元的Token都用不完，我会特别担心。”

可问题来了：拼命烧Token，就一定能解决问题吗？这些Token里，有多少是真的有用的？什么样的投入产出比才合理？

就像最近外媒报道的，有个OpenAI的程序员，一周就烧掉了2100亿Token，差不多相当于33个维基百科的信息量。可这么大的消耗，最后到底带来了什么？我发了条朋友圈调侃，说这么猛用能不能升P10，有朋友立马评论：“能帮卖Token的升P10还差不多。”

很明显，这场疯狂烧Token的热潮，到底能有多少实际效果，谁也说不准，但谁能从中赚钱，倒是一目了然。黄仁勋把英伟达说成是“Token之王”，说自家有世界上最先进的“Token制造机”。可如果一味鼓吹多用Token，甚至暗示不用就会落后，那就有点说不过去了——一方面，他想彻底改变AI时代企业考核效率的方式；另一方面，也无形中制造了大家对Token的焦虑。

01 Token太贵了

不久前，我特意问过周鸿祎“Token太贵”这个问题，他说：“大家觉得Token贵，可能是有误解，因为大模型的后端是可以灵活调整的。”

在他看来，用户可以自己选择模型来控制成本：“平时聊聊天、问个问题，成本其实很低。真正费Token的，是那些复杂任务，比如用它生成视频、写短剧、写小说，这些场景才最耗钱。”

我记得猎豹移动的CEO傅盛，在一条视频里说过，他靠一些使用技巧，把每天几百美元的Token费用，优化到了现在每天10多美元，算下来30天大概2100元，一年就要25200元。

可关键是：有多少用户能承受每天10美元的成本？

咱们对比一下国内互联网上的商用C端软件，比如剪映，高端会员一年也就600块左右；娱乐类的会员，一年大概300块，根本找不到一款年费超过25000元的消费级软件。

我跟傅盛说：“大部分人一天10美元，还是接受不了，这样会把很多不想付费的用户都挡在门外。”他也没否认我的说法。

这几天，我也试着用了几款“小龙虾”相关的产品，发现要花的钱远不止Token。比如你想生成图片，就得用专门的生图模型API，要花钱；想监控一些动态，得接入付费的搜索API，也得花钱。这些隐藏的费用，慢慢就会把大多数用户劝退。虽然有一些开源的方法能省点钱，但开源项目里，又藏着不少安全隐患。

3月13号，腾讯科技“虾聊”系列直播的第一期，玄武实验室的嘉宾Lambda分享过一个数据——他自己每个月“养虾”（用相关产品）的费用，就超过1000块。

不管是看消费级工具的年费，还是行业里“养虾户”的真实反馈，单说Agent相关的Token消耗，说一句“Token太贵了”，一点都不夸张。

02 存储瓶颈与效率浪费

简单说，Token就是大语言模型处理信息的基本单位——你输入一句话，模型给你回复，每一个字、每一个标点，都会算成Token，本质上，这背后都是算力成本。

以前大家算算力的总成本，有很多指标，比如衡量能效的Flops/W，核算均值的成本/Flops等等。而今年的“Token经济学”里，Token/W慢慢成了大家公认的指标。

黄仁勋在GTC大会上还说：“我们的每一个Token，成本都是世界最低的。”

可不管多便宜，不管用什么指标计算，Token都是实实在在的投入成本，里面包含了研发、硬件、部署、能耗、运营等各种费用。说白了，想降低成本，也只能从这些环节入手。

对想降低Token成本的人来说，有个坏消息：内存价格一直在疯涨。

比如HBM内存，它是支撑大模型训练和推理的关键部件。而随着推理数据量暴涨，对存储的需求也跟着涨。2026年第一季度，DRAM价格比上一季度涨了超过50%，NAND价格最高涨了150%。

黄仁勋、苏姿丰都已经喊出了“HBM有多少要多少”的口号，三星、美光这些存储厂商，也已经对外说，头部客户的战略长约都签到5年以后了。

有篇文章叫《内存暴涨100天，千元机被迫死亡》，里面提到，消费级市场里，千元机可能都要停产了。其实受影响的不只是手机，云厂商现在也在为涨价头疼。行业里最乐观的估计，是2028年存储价格能降下来，悲观一点的话，可能要等到2030年。

只要存储价格不下降，Token想降价，就少了一个关键的外部条件。

当然，模型能力的提升，也能成为Token降价的另一个突破口。一位学术界的研究员说：“现在一些8B的小模型，能力越来越接近全量大模型了。”

在这方面，面壁智能联合清华团队在《Nature》上提出了Densing Law的概念，意思是大模型的能力密度会随着时间指数增长，大概每3.5个月翻一倍，想要达到同样的性能，需要的参数量每3.5个月就会减半。

一位国产AI芯片从业者也说，模型能力强、规模小，就能推动成本下降：“你看国内开源大模型的Token价格，基本都和模型规模成正比。”

不少国产算力行业的人表示，提升MFU也能压缩成本，除此之外，还有架构、显存等多方面的推理优化。

另一位国产存算一体芯片从业者解释：“MFU和模型本身关系不大，主要和算子、调度策略有关。现在主流大模型的推理MFU平均只有30%左右，优化之后能超过50%，差不多能省一半的成本。”

也就是说，现在行业还没把GPU的性能完全利用起来——花了100%的GPU钱，实际只用了不到三分之一的算力，这就是很大的浪费。

不过，就算MFU提升能降低单个Token的成本，能不能传到C端用户身上，还要看大模型提供方的商业考虑。如果他们想打价格战，这无疑会是一个很有效的手段。

03 还会再来一次价格战吗？

中国大模型行业，并不是没有过价格战。

2024年的时候，国内厂商就打过一场激烈的价格战。当时正好是DeepSeek-V2上线，每百万Token输入只要1元、输出2元，价格还不到GPT-4-Turbo的百分之一。

DeepSeek当时能降价，关键就在推理优化——MoE稀疏架构大幅减少了计算量，MLA多头潜在注意力把KV缓存压缩了90%以上。

DeepSeek一降价，阿里、字节等厂商也先后加入价格战，甚至一度出现了“Token免费”的情况。

王小川当年在一次交流会上聊起这场价格战，他认为，这和以前的团购、网约车大战不一样：“这次价格战是直接的生产力供给，而且是B端市场的价格战。”

当时他还说，就算短期内亏损，大厂也可能在一年后实现盈利。

一位参与过上一轮价格战的大模型公司内部人士说：“在推理效率提升的情况下，通过补贴，用户增长确实很明显，大概花了几个亿的补贴。”

但现在，Token的消耗是B端和C端需求同时爆发，反而和当年的团购、网约车大战一样，有了改变生产关系的条件，可市场却异常安静。

那位参与过价格战的内部人士认为，现在模型的特定能力已经成熟，也有了稳定的用户，厂商们未必有动力再下场打价格战。

前述国产AI芯片从业者也说：“现在Token的消耗量，已经不是2024年那个规模了。这种情况下，为了‘小龙虾’打价格战，存量用户的ARR收入会受影响，得不偿失。价格战带来的增量还不确定，先把自己的存量用户收益砍了，这笔账不划算。”

根据Artificial Analysis的跟踪数据，国产模型的API单价其实已经很便宜了，但这个便宜，对于Agent巨大的Token消耗量来说，还是远远不够。

而且就像之前说的，受内存和存储硬件成本上涨的影响，国内云厂商现在面临的是涨价压力，短期内很难降价。

前述国产存算一体芯片从业者补充道：“现在是前两年价格战的延续，国内厂商的价格比北美有明显优势。只是大家都清楚，抢用户是一场持久战，不是打一两次价格战就能解决的。”

04 把模型“焊”在芯片上，能解决问题吗？

为了解决Token消耗太大、成本太高的问题，有些用户开始尝试本地部署模型。

到现在，已经有不少用户用Mac Mini为“小龙虾”配置本地模型。但这种方法，短期内反而会推高Token的使用成本，而且本地部署本身就有门槛，开源模型的能力也未必能满足用户的需求。

针对入门级用户，有些厂商尝试推出EdgeClaw硬件，还在硬件的基础上，加了一层安全的噱头。这本来是个值得尝试的方向，但在内存涨价的大环境下，显得有点生不逢时。

之前有位Mini主机创业者说，涨价对整个行业都有冲击：“以前用户还会觉得‘有点贵’，现在直接不看了，根本不在乎你的内存和硬盘有多大。”

与此同时，一些品牌在电商平台推出了准系统产品（没有内存和存储），最低价格不到2000元。这些产品虽然没有“安全故事”，却是Edgeclaw这类创业项目首先要面对的竞争对手。

对“小龙虾”相关的端侧AI硬件来说，最大的对手还是Mac Mini。苹果的供应链优势和毛利率，能支撑Mac Mini的高性价比定价，创业团队很难在这方面与之竞争。

还记得2025年初，DeepSeek爆火的时候，那些“一体机”吗？现在行业里，已经听不到它们的消息了。

除了一体机这种集成硬件方案，还有一些创业项目尝试从更底层的芯片入手创新。

今年2月份，Taalas团队推出了一款全新的芯片HC1。这款芯片基于TSMC N6制程，die size 815mm²，晶体管密度只有53B，单芯片就能运行Llama 3.1 8B模型。最厉害的是，单用户TPS（Token/s）输出能达到16960/s，性能数据非常惊人，关键就在于HC1的设计。

Taalas团队在这款芯片上，用Mask ROM把Llama 3.1 8B模型的权重硬编码固化在硅片上，芯片的金属层连线就相当于神经元的连接，相当于把模型直接“焊”在了芯片上。同时，还实现了计算与存储的物理融合，彻底解决了HBM/DRAM的数据搬运问题，打破了内存墙的限制。

虽然TPS性能很突出，但它的短板也来自“焊”模型这个设计——这意味着它只能运行固定版本的固定模型，权重不能改、结构不能动，想换模型就得重新流片，说白了就是一款芯片只能用在一个特定模型上。

05 写在最后

所有关于Token的讨论，核心都围绕着使用成本——贵的不是单个Token的价格，而是重度任务会把Token的使用量放大好几倍，最后总成本高得吓人。

我曾经试着用“小龙虾”生成带指定时间戳的gif，和一位同行聊起这件事，他说：“你用这个生成的gif，我们同事手工做，半分钟就能做一张。”

虽然这个例子不算典型，但如果做几张gif就要花好几块钱，显然不划算。

想改变这种现状，要么有更便宜的Token定价，要么把Token的消耗量降到最低。这既需要模型层面的优化，也离不开推理硬件的创新。

但不管怎么说，在Token的总费用降不下来，而且投入和产出不成正比的情况下，一味鼓吹多消耗Token，甚至把它和绩效挂钩，说这是制造Token焦虑、AI焦虑，一点都不过分。

还记得之前，黄仁勋还呼吁科技行业的领袖说话要谨慎，避免引发公众对人工智能的非理性恐慌。这就有点矛盾了——一边让大家别制造AI恐慌，一边又让全行业拼命烧Token。

可问题来了，谁来解决Token的价格问题呢？会是迟迟没露面的DeepSeek V4吗？

我记得2017年的时候，有篇刷屏文章叫《人民想念周鸿祎》，现在，大家大概都很想念当年的Token价格战，想念DeepSeek。

至少对于那些“虾民”（使用“小龙虾”相关产品的用户）来说，应该是这样的。

相辉引力｜30岁青年学者朱子杰：以少年热忱，叩响量子世界之门

« 上一篇 2026年03月25日

OpenAI 突然关停 Sora：曾刷屏全网的AI视频工具，为何突然“凉了”？

下一篇 » 2026年03月25日

最近关于Token的讨论，越看越魔幻

相关阅读