vivo押注感知赛道:让AI走出黑屋子,读懂真实世界

2026-03-29 12:34:32 - 佚名

失明九年的宝哥,在南澳的渔船上,把手机递给了身边的陌生人。他什么都看不见,可耳机里的AI声音却清晰传来:“你面前是朋友章喜德,他双臂交叉,脸上带着笑,穿了件深色的长袖衣服。”



这个温暖的场景,是vivo总裁、首席运营官兼中央研究院院长胡柏山,在今年博鳌论坛演讲中分享的真实故事。在这个瞬间,手机不再是简单的通讯工具,而是替宝哥“看见”世界的眼睛——它不只是拍一张照片,而是真正识别出眼前的人,读懂对方的姿势、表情和穿着,再把这些画面翻译成宝哥能听懂的语言。这不是科幻情节,而是2025年,在一艘普通渔船上真实发生的事。

这个故事,让我重新思考一个问题:AI发展了这么多年,为什么感知真实世界的能力,还是这么弱?

如今,OpenClaw火遍全网,机器人打醉拳、翻跟斗登上春晚,很多人都说“科幻照进现实”。但胡柏山却不这么认为,在他看来,这两者之间还有一道难以逾越的鸿沟:具身智能机器人生活在真实的物理世界里,而OpenClaw这类AI,只活跃在虚拟的数字世界中,连接这两个世界的“桥”,至今几乎还没搭建起来。

胡柏山给这座“桥”起了个名字——感知。

在2026年博鳌论坛上,当所有人都在谈论AI算力时,胡柏山抛出了一个独特的观点:未来,算力会变得大同小异,真正能形成核心竞争力的,是感知能力。一台智能设备能不能“懂你”,关键就看它能不能精准感知这个世界。

这句话,不是随口说说,而是vivo近千人的AI团队,经过十年探索得出的结论。

01 AI的短板,从不是算力,而是感知

有一个容易被忽略的事实:人类感知世界,60%到70%靠视觉,10%到20%靠听觉,剩下的才是触觉、温度等其他感官。我们对世界的所有理解,大多都是建立在“先看见”的基础上。

现在的大模型,依托的是互联网几十年积累的数字资源——文字、图片、视频。它能写代码、出方案,能回答你所有能用语言描述的问题,但有一件事它做不到:感知此刻正在你身边发生的事。

这不是因为算力不够,而是它本身就少了“感知”这一环。

有人可能会反驳:GPT-4o不是已经有多模态能力了吗?把照片发过去,它不就能“看见”了?

这话看似有道理,但忽略了一个关键区别:那是“你主动上传照片,再等云端处理”的过程,不仅有几秒的延迟,每一次感知都需要联网。而胡柏山所说的感知,是另一种样子——在手机端实时发生、主动捕捉、持续更新。

就像我们的大脑,不需要先拍照再处理视觉信号,感知本就该是实时的,而不是“发送—等待—接收”的繁琐流程。

胡柏山在采访中说过一句话,精准点出了问题的核心:没有感知能力,AI就像困在黑屋子里的天才,哪怕算力再强,也看不见眼前的世界。

这不是文艺比喻,而是对工程问题的准确描述。再强大的大模型,如果无法实时感知当下的物理世界,它的“聪明”就只能在你主动触发时才会显现,其余时间,它对你身边的一切都一无所知。

也正因为如此,vivo今年在内部正式成立了一级技术支撑赛道——“感知赛道”,把视觉、听觉、触觉等多种感知方式,通过传感器结合感知大模型,统一转化成设备能理解的物理世界信号。

更关键的判断还在后面:未来,不同大模型之间的差距会越来越小,但感知数据,会成为真正的差异化优势。不同场景积累的感知数据各不相同,做家庭机器人的积累室内环境数据,做手机影像的积累亿万用户真实生活中的视觉信号。谁的场景数据更丰富、更精准,谁的智能体验就更好。这就是胡柏山所说的“感知护城河”,也是他认为这条赛道值得五年、十年甚至更久持续投入的原因。

但光有判断不够,vivo手里有什么底牌?又打算怎么布局?

02 影像,就是AI的“眼睛”

第一次听到“没有影像,AI就是失明的天才”这句话时,我以为只是一句公关话术。但仔细琢磨后才发现,这其实是一个很精准的工程判断。

影像技术的本质,就是把物理世界转化成数字信号——通过光学系统、成像处理和空间计算,把光影、空间、表情、动作,全都变成AI能处理的内容。vivo做了近十年的影像大模型算法,积累的正是这种“转化能力”。

有意思的是,vivo的影像领先,和很多人想的不一样。胡柏山说,他们的影像能在行业里保持领先,关键在于:算法用的是大模型算法,但镜头模组是专门为这套算法定制开发的。软硬结合,才是最难被复制的核心竞争力。“硬件上的镜头、模组、马达,很容易被模仿;但算法和认知能力强相关,竞争对手很难快速跟上。”

这个逻辑,同样适用于感知赛道。

所以,vivo接下来要发布的X300 Ultra和X300s,会搭载第一代“影像Agent”。胡柏山举了一个具体的使用场景,比任何功能介绍都好懂:

以前拍照,长焦和微距要手动切换,不同模式下的效果差别很大,可大多数人根本不知道该什么时候切换。影像Agent上线后,它会自动根据拍摄对象、光线和距离,弹出“它认为最好的拍摄效果”,用户点一下就能拍出好照片。

不用费心调参数,随便拍都好看,人人都能当摄影师。

这听起来像个聪明的相机助手,但胡柏山想表达的远不止于此——这是手机从“被动工具”向“数字伙伴”进化的第一步。

按照他的规划,vivo不同产品线会搭载不同的Agent能力:折叠旗舰X Fold系列主打办公和出行,开会时能默默记录内容,出差时能主动规划航班和酒店;iQOO系列聚焦游戏Agent,能自动优化性能,捕捉游戏里的高光时刻;相册Agent已经在X300 Ultra上初步落地,能快速完成编辑剪辑。采访时他随口提了一句:“本来要花两小时做的剪辑,现在二十分钟就搞定了。”

作为经常要在采访后赶稿的人,我听完确实动了心。

在技术路径上,vivo选择聚焦端侧——也就是在手机本地实现感知能力。原因很简单:端侧能做到云端做不到的事——实时感知周边环境,不用依赖网络,用户的隐私数据也能留在本地。但端侧也有短板,受硬件限制,算力和带宽都有限制。

为了解决这个问题,vivo两年前就开始和合作伙伴一起定制专用算力芯片,计划在后续的旗舰产品中上线。他们的规划很清晰:旗舰机搭配专用芯片,把端侧能力拉满;中端机靠SoC芯片加云端补充;其他产品则以云端为主。这种分级布局,不是说说而已,而是实实在在的规划。

关于数据和隐私,胡柏山说过一句话让我印象很深:“懂用户、知人心,但不越边界——这是技术的伦理,更是vivo不可逾越的底线。”

有一个具体的设计很能体现这一点:vivo做的Agent,所有关键用户数据都存在手机本地,换手机时,这些数据可以整体迁移——“用户不用重新和新手机建立认知”。这和OpenClaw这类产品有本质区别:云端AI的数据用完就没了,而你的手机Agent,会一直积累属于你的专属数据。

他把这种专属数据叫做“数字DNA”——影像留住的是你的记忆,Agent学习的是你的习惯,两者结合,就形成了独一无二的“个人资产”。听起来有点科幻,但底层逻辑很实在。

手机这条赛道,vivo走得很清晰。但他们押注的,不只是手机。

03 从手机到机器人:这条务实的路,不好走

去年,vivo成立了机器人实验室。

很多人的第一反应是:一家手机公司做机器人,是不是太异想天开了?

这个质疑看似合理:家电厂商做机器人有协同优势,互联网公司做机器人有数据优势,手机公司凭什么?

胡柏山的回答很直接:“这是回归本质。视觉,是所有智能设备最自然的第一感知方式。”手机做了这么多年影像,本质上就是在积累感知能力——现在,只是把这种能力延伸到另一种设备形态上而已。

但他也说得很明白:机器人不是手机的升级换代,而是从零开始。2026年,vivo机器人实验室最重要的任务,就是把方向理清楚——目标用户是谁,要解决什么场景的问题,关键技术什么时候能成熟到可以落地。

在方向上,vivo打算先聚焦年轻用户;策略上,他们不打算一上来就做“全场景通用机器人”,而是采取“沿途下蛋”的思路——先把容错率高、技术上能实现的场景做好,比如宠物喂养、收纳整理,做到六七十分的体验,再慢慢拓展能力边界。

“一开始就做通用机器人不现实,”胡柏山说,“场景数据是慢慢积累的。比如让机器人把鸡蛋百分之百打好,十年之内都很难做到。但收纳就不一样,夹紧一点、松一点都不影响使用,容错率高很多。先把这类场景做好,再谈其他的。”

关于手机和机器人的协同,他也给出了具体的设想:一开始,机器人能力有限,做不好的事情,就由手机遥控补位。就像开车一样,刚开始需要人全程操控,积累的场景数据多了,才能慢慢实现自主驾驶。“手机是最懂你的随身助理,你所有的习惯、偏好都存在里面。机器人刚开始做不好的事,就让手机来帮它,两者的数据是打通的。”

这是一条务实的路,不是画饼。

除了机器人,vivo在MR头显领域也有布局,而且已经有了实物。2025年8月,vivo Vision混合现实头显探索版发布,国内28家体验店同步上架,东南亚也开放了体验,体验人数超过五万。胡柏山说,下一代产品的目标是商业化,时间窗口定在2027年下半年到2028年初。“这一代产品的使命是探索,现在已经完成了。下一步,就是找到制约商业化的核心技术难题,把它攻克掉。”

对于感知赛道的投入,胡柏山说得很实在:“我们说的长赛道,就是天花板高的赛道。一开始先让小团队建立认知,等认知到位了再加大投入,不希望一脚油门、一脚刹车——那样对团队伤害太大。我们公司这么多年组织架构一直很稳定,就是因为控制好了投入节奏,一步一个脚印螺旋式上升,而不是忽快忽慢。”

这句话背后,是他对感知赛道的判断:这不是一个短期爆发、快速见顶的赛道,而是能持续五年、十年创造价值的“长坡厚雪”。这和vivo做了十几年的通信研究院逻辑一样——先打好基础,等认知足够了,再加速前进。

博鳌采访结束时,我又想起了胡柏山分享的宝哥的故事。

他在南澳渔船上举起手机,AI告诉他,面前的朋友在微笑。那个瞬间,技术做的事情很简单——把光信号变成语言信号。但对宝哥来说,那是他九年来,第一次“看见”一个新朋友的样子。

胡柏山说:“科技的高度,终须回归人的尺度。”我越来越觉得,这句话不是漂亮的口号,而是一个做产品的人,经过长期实践后才想明白的核心道理。

未来,算力会变得同质化,大模型也会越来越趋同。但真正决定“你的手机有多懂你”的,是它对物理世界的感知深度,是它积累的、属于你的专属场景数据——这些东西,是独一无二的。

也许,这就是vivo押注感知赛道的答案。

也许,还不是。

但有一件事可以确定:下一代智能终端的竞争,再也不只是参数表上的比拼了。

近期科技圈热点汇总
« 上一篇 2026年03月29日
2026澳门世界杯抽签出炉!国乒签表有喜有忧,覃予萱硬刚早田
下一篇 » 2026年03月30日