最近关于Token的讨论,越看越魔幻

2026-03-25 16:45:55 - 佚名

最近这段时间,关于Token的讨论真的有点离谱。打开朋友圈,到处都是争论Token该怎么翻译成中文的——有人说叫“词元”“智元”,还有人开玩笑说叫“慧根”,各种说法五花八门。



其实Token也不是什么新东西,从大模型开始落地那天起,它就和神经网络绑在一起了。但直到OpenClaw(大家都叫它“龙虾”)在用户群里火起来,各种Agent应用慢慢走进大众视野,Token才真正被更多人关注到。

在我看来,这里面有两个最关键的问题:一是Token耗得太快,二是价格实在太高。

还记得OpenAI发布GPT-5.4的时候,有用户说测试一句“你好”,居然花了80美元的Token,当时大家都觉得这也太夸张了。可现在“小龙虾”普及开来,一个任务烧完上千万Token,都成了家常便饭。

与之相反的是,英伟达CEO黄仁勋在GTC2026大会上,还有之后的很多场合,都一个劲劝工程师多使用Token,甚至把Token的使用量和薪酬挂钩。有一次对话里,他还说:“如果年薪50万美元的工程师,一年连25万美元的Token都用不完,我会特别担心。”

可问题来了:拼命烧Token,就一定能解决问题吗?这些Token里,有多少是真的有用的?什么样的投入产出比才合理?

就像最近外媒报道的,有个OpenAI的程序员,一周就烧掉了2100亿Token,差不多相当于33个维基百科的信息量。可这么大的消耗,最后到底带来了什么?我发了条朋友圈调侃,说这么猛用能不能升P10,有朋友立马评论:“能帮卖Token的升P10还差不多。”

很明显,这场疯狂烧Token的热潮,到底能有多少实际效果,谁也说不准,但谁能从中赚钱,倒是一目了然。黄仁勋把英伟达说成是“Token之王”,说自家有世界上最先进的“Token制造机”。可如果一味鼓吹多用Token,甚至暗示不用就会落后,那就有点说不过去了——一方面,他想彻底改变AI时代企业考核效率的方式;另一方面,也无形中制造了大家对Token的焦虑。

01 Token太贵了

不久前,我特意问过周鸿祎“Token太贵”这个问题,他说:“大家觉得Token贵,可能是有误解,因为大模型的后端是可以灵活调整的。”

在他看来,用户可以自己选择模型来控制成本:“平时聊聊天、问个问题,成本其实很低。真正费Token的,是那些复杂任务,比如用它生成视频、写短剧、写小说,这些场景才最耗钱。”

我记得猎豹移动的CEO傅盛,在一条视频里说过,他靠一些使用技巧,把每天几百美元的Token费用,优化到了现在每天10多美元,算下来30天大概2100元,一年就要25200元。

可关键是:有多少用户能承受每天10美元的成本?

咱们对比一下国内互联网上的商用C端软件,比如剪映,高端会员一年也就600块左右;娱乐类的会员,一年大概300块,根本找不到一款年费超过25000元的消费级软件。

我跟傅盛说:“大部分人一天10美元,还是接受不了,这样会把很多不想付费的用户都挡在门外。”他也没否认我的说法。

这几天,我也试着用了几款“小龙虾”相关的产品,发现要花的钱远不止Token。比如你想生成图片,就得用专门的生图模型API,要花钱;想监控一些动态,得接入付费的搜索API,也得花钱。这些隐藏的费用,慢慢就会把大多数用户劝退。虽然有一些开源的方法能省点钱,但开源项目里,又藏着不少安全隐患。

3月13号,腾讯科技“虾聊”系列直播的第一期,玄武实验室的嘉宾Lambda分享过一个数据——他自己每个月“养虾”(用相关产品)的费用,就超过1000块。

不管是看消费级工具的年费,还是行业里“养虾户”的真实反馈,单说Agent相关的Token消耗,说一句“Token太贵了”,一点都不夸张。

02 存储瓶颈与效率浪费

简单说,Token就是大语言模型处理信息的基本单位——你输入一句话,模型给你回复,每一个字、每一个标点,都会算成Token,本质上,这背后都是算力成本。

以前大家算算力的总成本,有很多指标,比如衡量能效的Flops/W,核算均值的成本/Flops等等。而今年的“Token经济学”里,Token/W慢慢成了大家公认的指标。

黄仁勋在GTC大会上还说:“我们的每一个Token,成本都是世界最低的。”

可不管多便宜,不管用什么指标计算,Token都是实实在在的投入成本,里面包含了研发、硬件、部署、能耗、运营等各种费用。说白了,想降低成本,也只能从这些环节入手。

对想降低Token成本的人来说,有个坏消息:内存价格一直在疯涨。

比如HBM内存,它是支撑大模型训练和推理的关键部件。而随着推理数据量暴涨,对存储的需求也跟着涨。2026年第一季度,DRAM价格比上一季度涨了超过50%,NAND价格最高涨了150%。

黄仁勋、苏姿丰都已经喊出了“HBM有多少要多少”的口号,三星、美光这些存储厂商,也已经对外说,头部客户的战略长约都签到5年以后了。

有篇文章叫《内存暴涨100天,千元机被迫死亡》,里面提到,消费级市场里,千元机可能都要停产了。其实受影响的不只是手机,云厂商现在也在为涨价头疼。行业里最乐观的估计,是2028年存储价格能降下来,悲观一点的话,可能要等到2030年。

只要存储价格不下降,Token想降价,就少了一个关键的外部条件。

当然,模型能力的提升,也能成为Token降价的另一个突破口。一位学术界的研究员说:“现在一些8B的小模型,能力越来越接近全量大模型了。”

在这方面,面壁智能联合清华团队在《Nature》上提出了Densing Law的概念,意思是大模型的能力密度会随着时间指数增长,大概每3.5个月翻一倍,想要达到同样的性能,需要的参数量每3.5个月就会减半。

一位国产AI芯片从业者也说,模型能力强、规模小,就能推动成本下降:“你看国内开源大模型的Token价格,基本都和模型规模成正比。”

不少国产算力行业的人表示,提升MFU也能压缩成本,除此之外,还有架构、显存等多方面的推理优化。

另一位国产存算一体芯片从业者解释:“MFU和模型本身关系不大,主要和算子、调度策略有关。现在主流大模型的推理MFU平均只有30%左右,优化之后能超过50%,差不多能省一半的成本。”

也就是说,现在行业还没把GPU的性能完全利用起来——花了100%的GPU钱,实际只用了不到三分之一的算力,这就是很大的浪费。

不过,就算MFU提升能降低单个Token的成本,能不能传到C端用户身上,还要看大模型提供方的商业考虑。如果他们想打价格战,这无疑会是一个很有效的手段。

03 还会再来一次价格战吗?

中国大模型行业,并不是没有过价格战。

2024年的时候,国内厂商就打过一场激烈的价格战。当时正好是DeepSeek-V2上线,每百万Token输入只要1元、输出2元,价格还不到GPT-4-Turbo的百分之一。

DeepSeek当时能降价,关键就在推理优化——MoE稀疏架构大幅减少了计算量,MLA多头潜在注意力把KV缓存压缩了90%以上。

DeepSeek一降价,阿里、字节等厂商也先后加入价格战,甚至一度出现了“Token免费”的情况。

王小川当年在一次交流会上聊起这场价格战,他认为,这和以前的团购、网约车大战不一样:“这次价格战是直接的生产力供给,而且是B端市场的价格战。”

当时他还说,就算短期内亏损,大厂也可能在一年后实现盈利。

一位参与过上一轮价格战的大模型公司内部人士说:“在推理效率提升的情况下,通过补贴,用户增长确实很明显,大概花了几个亿的补贴。”

但现在,Token的消耗是B端和C端需求同时爆发,反而和当年的团购、网约车大战一样,有了改变生产关系的条件,可市场却异常安静。

那位参与过价格战的内部人士认为,现在模型的特定能力已经成熟,也有了稳定的用户,厂商们未必有动力再下场打价格战。

前述国产AI芯片从业者也说:“现在Token的消耗量,已经不是2024年那个规模了。这种情况下,为了‘小龙虾’打价格战,存量用户的ARR收入会受影响,得不偿失。价格战带来的增量还不确定,先把自己的存量用户收益砍了,这笔账不划算。”

根据Artificial Analysis的跟踪数据,国产模型的API单价其实已经很便宜了,但这个便宜,对于Agent巨大的Token消耗量来说,还是远远不够。

而且就像之前说的,受内存和存储硬件成本上涨的影响,国内云厂商现在面临的是涨价压力,短期内很难降价。

前述国产存算一体芯片从业者补充道:“现在是前两年价格战的延续,国内厂商的价格比北美有明显优势。只是大家都清楚,抢用户是一场持久战,不是打一两次价格战就能解决的。”

04 把模型“焊”在芯片上,能解决问题吗?

为了解决Token消耗太大、成本太高的问题,有些用户开始尝试本地部署模型。

到现在,已经有不少用户用Mac Mini为“小龙虾”配置本地模型。但这种方法,短期内反而会推高Token的使用成本,而且本地部署本身就有门槛,开源模型的能力也未必能满足用户的需求。

针对入门级用户,有些厂商尝试推出EdgeClaw硬件,还在硬件的基础上,加了一层安全的噱头。这本来是个值得尝试的方向,但在内存涨价的大环境下,显得有点生不逢时。

之前有位Mini主机创业者说,涨价对整个行业都有冲击:“以前用户还会觉得‘有点贵’,现在直接不看了,根本不在乎你的内存和硬盘有多大。”

与此同时,一些品牌在电商平台推出了准系统产品(没有内存和存储),最低价格不到2000元。这些产品虽然没有“安全故事”,却是Edgeclaw这类创业项目首先要面对的竞争对手。

对“小龙虾”相关的端侧AI硬件来说,最大的对手还是Mac Mini。苹果的供应链优势和毛利率,能支撑Mac Mini的高性价比定价,创业团队很难在这方面与之竞争。

还记得2025年初,DeepSeek爆火的时候,那些“一体机”吗?现在行业里,已经听不到它们的消息了。

除了一体机这种集成硬件方案,还有一些创业项目尝试从更底层的芯片入手创新。

今年2月份,Taalas团队推出了一款全新的芯片HC1。这款芯片基于TSMC N6制程,die size 815mm²,晶体管密度只有53B,单芯片就能运行Llama 3.1 8B模型。最厉害的是,单用户TPS(Token/s)输出能达到16960/s,性能数据非常惊人,关键就在于HC1的设计。

Taalas团队在这款芯片上,用Mask ROM把Llama 3.1 8B模型的权重硬编码固化在硅片上,芯片的金属层连线就相当于神经元的连接,相当于把模型直接“焊”在了芯片上。同时,还实现了计算与存储的物理融合,彻底解决了HBM/DRAM的数据搬运问题,打破了内存墙的限制。

虽然TPS性能很突出,但它的短板也来自“焊”模型这个设计——这意味着它只能运行固定版本的固定模型,权重不能改、结构不能动,想换模型就得重新流片,说白了就是一款芯片只能用在一个特定模型上。

05 写在最后

所有关于Token的讨论,核心都围绕着使用成本——贵的不是单个Token的价格,而是重度任务会把Token的使用量放大好几倍,最后总成本高得吓人。

我曾经试着用“小龙虾”生成带指定时间戳的gif,和一位同行聊起这件事,他说:“你用这个生成的gif,我们同事手工做,半分钟就能做一张。”

虽然这个例子不算典型,但如果做几张gif就要花好几块钱,显然不划算。

想改变这种现状,要么有更便宜的Token定价,要么把Token的消耗量降到最低。这既需要模型层面的优化,也离不开推理硬件的创新。

但不管怎么说,在Token的总费用降不下来,而且投入和产出不成正比的情况下,一味鼓吹多消耗Token,甚至把它和绩效挂钩,说这是制造Token焦虑、AI焦虑,一点都不过分。

还记得之前,黄仁勋还呼吁科技行业的领袖说话要谨慎,避免引发公众对人工智能的非理性恐慌。这就有点矛盾了——一边让大家别制造AI恐慌,一边又让全行业拼命烧Token。

可问题来了,谁来解决Token的价格问题呢?会是迟迟没露面的DeepSeek V4吗?

我记得2017年的时候,有篇刷屏文章叫《人民想念周鸿祎》,现在,大家大概都很想念当年的Token价格战,想念DeepSeek。

至少对于那些“虾民”(使用“小龙虾”相关产品的用户)来说,应该是这样的。

相辉引力|30岁青年学者朱子杰:以少年热忱,叩响量子世界之门
« 上一篇 2026年03月25日
OpenAI 突然关停 Sora:曾刷屏全网的AI视频工具,为何突然“凉了”?
下一篇 » 2026年03月25日