Token经济学迷局AI时代度量衡的失灵与重构
2026-04-16 15:12:33 - 佚名
2026年3月,黄仁勋在GTC大会上描绘了一幅宏大的工业图景:AI工厂日夜不息地生产着Token,而智能体(Agent)则将这些Token转化为巨大的生产力。在各大模型厂商的价目表上,Token似乎已经确立了其作为AI时代“通用货币”的地位——每百万个Token明码标价,输入与输出清晰可查。这种工业化的整齐划一,让人误以为我们已经进入了一个标准化的成熟市场。

然而,这其实是一个巨大的错觉。Token的价格虽然透明,但其背后所承载的“价值”与“成本”,却依然是一个深不见底的黑盒。
隐形的“智力”缩水:同样的Token,不同的智商
从经济学原理来看,Token本应像“千瓦时”之于电力那样,是一个同质化的计量单位。用户购买Token,本质上是在购买模型的“智力”——无论是生成代码、处理客服对话还是分析复杂数据。但现实却是,这种“智力兑换率”极不稳定。
开发者们敏锐地发现,模型厂商有时会在未通知用户的情况下,悄悄调整模型的“思考强度”。AMD AI战略总监Stella Laurenzo曾通过数据指出,Claude Opus 4.6模型在2026年2月下旬后,推理深度出现了大幅下降,不再像以前那样仔细阅读代码就开始修改。虽然Anthropic随后解释这是为了平衡智能、延迟和成本而推出的“自适应思考”功能,且用户可手动调整,但这种“静默降级”让用户难以察觉。
这就好比你去买电,电压虽然稳定,但电流里的“能量密度”却忽高忽低。经济学上将此称为“质量调整”困境:当商品质量发生变化时,即使名义价格不变,真实价格其实已经变了。Token的数量没变,但含金量可能已经悄悄缩水,这种隐蔽的“降智”比直接涨价更难追责。
缓存的博弈:被折叠的真实成本
除了智力含量的波动,隐藏在价目表之下的“缓存机制”更是让成本变得扑朔迷离。
缓存命中率直接决定了你为Token支付的实际价格。正常情况下,缓存命中的Token价格仅为标准输入价格的十分之一。然而,一旦缓存失效,成本可能瞬间暴涨数倍。此前,Claude Code的一次更新虽然并非蓄意破坏,但在客观上导致第三方平台的缓存命中率大幅下降,因为新的分块缓存机制改变了系统提示词的结构,使得第三方难以识别。
更值得玩味的是,有社区分析指出,当用户进入超额付费模式后,系统可能会静默地将缓存时长从1小时缩短至5分钟。这意味着用户只要稍作停顿,就需要重新支付昂贵的上下文重建费用。这种复杂的定价结构,使得“获得同等价值所需支付的价格”变得极难预测。
预算的失控:单价暴跌,总额飙升
尽管过去三年Token的单价下跌了约300倍,但企业的AI支出反而更难控制了。原因在于智能体(Agent)类应用的兴起,让单次任务的Token消耗量呈指数级增长。
一家电商技术公司的6人团队,在使用Claude Code的第一个月就花费了2400美元,经过两个月的极限优化才勉强降至680美元。更有甚者,一名开发者曾产生过10万美元的意外账单,迫使公司向员工发放“每日Token额度”,仿佛回到了配给制时代。调查显示,84%的企业表示AI成本超出了预期。
对于模型厂商而言,这也是一个巨大的赌注。OpenAI和Anthropic虽然融资惊人,但目前均处于巨额亏损状态。他们赌的是规模效应能带来算力成本的持续下降,最终让“卖Token”成为一门赚钱的生意。但不同于标准化的云服务,Token的异质性(智力含量、缓存效率等)让这种规模效应的兑现充满了不确定性。
寻找价值的“锚”
归根结底,Token目前还只是一个临时的记账单位,而非真正的价值锚。
当前的定价模式,本质上是对“算力使用权”的定价——你花钱买的是让模型“想”一次的机会,至于它想得好不好、有没有解决问题,并不在价格承诺的范围内。厂商无法衡量业务价值,用户无法穿透推理过程,投资者只能看到消耗曲线。
未来,AI行业或许需要寻找一个新的“锚点”:不再是按“思考过程”(Token)收费,而是按“结果单位”收费。只有当客户愿意为确定的“结果”付费,且厂商能将内部成本控制在可预测范围内时,Token经济的迷雾才会真正散去。在此之前,我们仍将在这一团看似标准化、实则高度异质的迷雾中摸索前行。