小米重磅上新!匿名爆款大模型揭晓真身,全面入局智能体时代
2026-03-19 14:59:22 - 佚名
3月11日,一款代号“Hunter Alpha”的神秘大模型悄悄登陆全球头部API聚合平台OpenRouter,起初没人知晓它的真实出身,甚至被不少人误判为DeepSeek V4的内测版。可仅仅过了七天,这款模型就交出了惊人成绩单:累计调用量直冲1万亿Token,连续多日霸占平台榜首,成了不折不扣的匿名爆款。

直到3月19日,谜底终于揭开——Hunter Alpha并非第三方模型,而是小米全新推出的MiMo-V2-Pro旗舰大模型的内部测试版。这不仅是小米在大模型赛道的又一重磅成果,更释放出小米全力冲刺智能体(Agent)时代的明确信号。
一、从匿名黑马到旗舰核心,定位彻底升级
MiMo-V2-Pro是小米专为现实场景复杂任务打造的旗舰基座大模型,和市面上普通的对话类AI有着本质区别:它不再是单纯陪聊的工具,而是充当智能体系统的“核心大脑”,具备理解任务需求、调用配套工具、完成多步骤流程、最终交付落地结果的全链路能力。
从技术架构来看,这款模型实力拉满:总参数规模突破1万亿,其中激活参数达到42B,搭载小米优化升级的混合注意力机制,既能保证推理速度不打折,又能大幅扩容模型承载力。最亮眼的是,其上下文窗口拓展至100万Token,足以支撑超长任务链、复杂工作流等高强度场景,这也是普通大模型难以企及的优势。
这些硬核能力,在早前Hunter Alpha测试阶段就已初露锋芒。OpenRouter后台数据显示,这款模型调用量爆发式增长,且用户集中在代码生成、开发工具调用等领域,足以证明它在真实工程场景里稳定性强、实用性高。
二、智能体实力跻身全球第一梯队,不只“会说”更“会干”
经过多轮专业评测,MiMo-V2-Pro的智能体能力已经迈入全球第一梯队,各项跑分成绩十分亮眼:在通用智能体评估(ClawEval)中拿下61.5分,直追Claude Opus 4.6;在PinchBench测试中稳居全球前三;编码能力更是超越Claude Sonnet 4.6,逼近高端的Opus水准。
小米团队坦言,这款模型的优化核心从来不是单纯拼跑分,而是聚焦真实场景的落地表现。通过在OpenClaw等主流智能体任务框架上,开展监督微调和强化学习双重训练,MiMo-V2-Pro在工具调用稳定性、多步骤逻辑推理、任务完成质量上实现了质的飞跃,彻底摆脱了“只会答不会做”的短板。
从传统对话模型到“执行型智能体”,是MiMo-V2-Pro最核心的转变。实测中,它能轻松吃透复杂指令,单次提示就能完成从设计到落地的全流程闭环,真正做到“一键交付”。
比如有开发者提出需求:制作一款完整的3D塔防游戏,涵盖多款防御塔、差异化敌人机制、多关卡设计,搭配爆炸、火焰特效,用Three.js实现渲染,还要具备暂停、重开、计分功能。MiMo-V2-Pro直接输出结构完整的代码方案,游戏逻辑、前端渲染全覆盖,无需开发者二次拼凑修改。
在创意设计领域,它的跨领域能力同样出彩。面对“复刻90年代纸质杂志风格,打造不规则多栏排版、出血标题、纸张纹理背景,搭配翻页动效交互”的复杂要求,模型不仅能精准理解审美细节,还能生成包含字体、布局、动态效果的全套前端方案。
这也意味着,MiMo-V2-Pro已经从单纯的“内容生成器”,升级为“系统搭建师”,能力覆盖软件工程、数字创意的全生产流程。搭配100万Token超长上下文,它还能轻松处理跨文件代码解读、海量文档分析、持续性多轮任务规划,攻克传统大模型的场景短板。
三、亲民定价策略,全力拉拢全球开发者
伴随着模型正式发布,小米同步开放MiMo-V2-Pro API服务(platform.xiaomimimo.com),并推出极具竞争力的定价方案,主打高性价比抢占开发者市场。
模型采用分段计费模式:256K上下文区间内,输入单价1美元/百万Token,输出单价3美元/百万Token;开启100万长上下文模式,费率小幅上调至输入2美元、输出6美元/百万Token。这个价格远低于Claude Opus等同级别竞品,对开发者十分友好。
不仅如此,小米还推出缓存写入暂时免费的福利,对于频繁调用长上下文提示词的智能体开发者来说,能大幅降低运营成本。同时,小米联合OpenClaw、Cline等主流智能体框架,上线限时免费调用活动,进一步扩大在开发者社区的影响力。
四、多模态矩阵补齐,打造全闭环智能体生态
MiMo-V2-Pro解决了智能体的“大脑决策”问题,而同场发布的MiMo-V2-Omni、MiMo-V2-TTS两款模型,则补齐了感知、表达两大短板,让小米大模型从单一文本交互,升级为全闭环多模态智能体基础设施。
MiMo-V2-Omni:全模态感知,打通环境理解链路
作为全模态基座模型,MiMo-V2-Omni核心优势是实现音频、图像、视频的深度对齐,专为智能体执行场景优化。区别于普通视觉识别模型,它能直接接入各类智能体框架,把实时监控画面、语音指令、操作界面等物理环境信息,快速转化为可执行的逻辑决策,让智能体像人类一样靠视听感知世界、下达指令。
定价方面依旧延续高性价比路线,256K上下文模式下,输入单价0.4美元、输出单价2美元/百万Token,降低开发者试水多模态应用的门槛。
MiMo-V2-TTS:细粒度情感语音,打造有温度的交互
如果说Omni让智能体“看得见、听得清”,那MiMo-V2-TTS就让智能体“说得暖”。这款语音合成模型摒弃了传统AI语音的机械生硬感,依托小米自研Audio Tokenizer和多码本联合建模架构,实现语音风格、情绪的精细化调控,既能把控整体情感基调,又能处理细微语气波动。
本土化适配更是亮点拉满,不仅支持东北话、四川话、粤语等多方言合成,还能自然生成歌声。开发者可以借此给智能体打造专属人设,让AI助手从冰冷工具变成有温度的伙伴,提升用户交互体验。