vivo押注感知赛道：让AI走出黑屋子，读懂真实世界

2026-03-29 12:34:32 - 佚名

失明九年的宝哥，在南澳的渔船上，把手机递给了身边的陌生人。他什么都看不见，可耳机里的AI声音却清晰传来：“你面前是朋友章喜德，他双臂交叉，脸上带着笑，穿了件深色的长袖衣服。”

这个温暖的场景，是vivo总裁、首席运营官兼中央研究院院长胡柏山，在今年博鳌论坛演讲中分享的真实故事。在这个瞬间，手机不再是简单的通讯工具，而是替宝哥“看见”世界的眼睛——它不只是拍一张照片，而是真正识别出眼前的人，读懂对方的姿势、表情和穿着，再把这些画面翻译成宝哥能听懂的语言。这不是科幻情节，而是2025年，在一艘普通渔船上真实发生的事。

这个故事，让我重新思考一个问题：AI发展了这么多年，为什么感知真实世界的能力，还是这么弱？

如今，OpenClaw火遍全网，机器人打醉拳、翻跟斗登上春晚，很多人都说“科幻照进现实”。但胡柏山却不这么认为，在他看来，这两者之间还有一道难以逾越的鸿沟：具身智能机器人生活在真实的物理世界里，而OpenClaw这类AI，只活跃在虚拟的数字世界中，连接这两个世界的“桥”，至今几乎还没搭建起来。

胡柏山给这座“桥”起了个名字——感知。

在2026年博鳌论坛上，当所有人都在谈论AI算力时，胡柏山抛出了一个独特的观点：未来，算力会变得大同小异，真正能形成核心竞争力的，是感知能力。一台智能设备能不能“懂你”，关键就看它能不能精准感知这个世界。

这句话，不是随口说说，而是vivo近千人的AI团队，经过十年探索得出的结论。

01 AI的短板，从不是算力，而是感知

有一个容易被忽略的事实：人类感知世界，60%到70%靠视觉，10%到20%靠听觉，剩下的才是触觉、温度等其他感官。我们对世界的所有理解，大多都是建立在“先看见”的基础上。

现在的大模型，依托的是互联网几十年积累的数字资源——文字、图片、视频。它能写代码、出方案，能回答你所有能用语言描述的问题，但有一件事它做不到：感知此刻正在你身边发生的事。

这不是因为算力不够，而是它本身就少了“感知”这一环。

有人可能会反驳：GPT-4o不是已经有多模态能力了吗？把照片发过去，它不就能“看见”了？

这话看似有道理，但忽略了一个关键区别：那是“你主动上传照片，再等云端处理”的过程，不仅有几秒的延迟，每一次感知都需要联网。而胡柏山所说的感知，是另一种样子——在手机端实时发生、主动捕捉、持续更新。

就像我们的大脑，不需要先拍照再处理视觉信号，感知本就该是实时的，而不是“发送—等待—接收”的繁琐流程。

胡柏山在采访中说过一句话，精准点出了问题的核心：没有感知能力，AI就像困在黑屋子里的天才，哪怕算力再强，也看不见眼前的世界。

这不是文艺比喻，而是对工程问题的准确描述。再强大的大模型，如果无法实时感知当下的物理世界，它的“聪明”就只能在你主动触发时才会显现，其余时间，它对你身边的一切都一无所知。

也正因为如此，vivo今年在内部正式成立了一级技术支撑赛道——“感知赛道”，把视觉、听觉、触觉等多种感知方式，通过传感器结合感知大模型，统一转化成设备能理解的物理世界信号。

更关键的判断还在后面：未来，不同大模型之间的差距会越来越小，但感知数据，会成为真正的差异化优势。不同场景积累的感知数据各不相同，做家庭机器人的积累室内环境数据，做手机影像的积累亿万用户真实生活中的视觉信号。谁的场景数据更丰富、更精准，谁的智能体验就更好。这就是胡柏山所说的“感知护城河”，也是他认为这条赛道值得五年、十年甚至更久持续投入的原因。

但光有判断不够，vivo手里有什么底牌？又打算怎么布局？

02 影像，就是AI的“眼睛”

第一次听到“没有影像，AI就是失明的天才”这句话时，我以为只是一句公关话术。但仔细琢磨后才发现，这其实是一个很精准的工程判断。

影像技术的本质，就是把物理世界转化成数字信号——通过光学系统、成像处理和空间计算，把光影、空间、表情、动作，全都变成AI能处理的内容。vivo做了近十年的影像大模型算法，积累的正是这种“转化能力”。

有意思的是，vivo的影像领先，和很多人想的不一样。胡柏山说，他们的影像能在行业里保持领先，关键在于：算法用的是大模型算法，但镜头模组是专门为这套算法定制开发的。软硬结合，才是最难被复制的核心竞争力。“硬件上的镜头、模组、马达，很容易被模仿；但算法和认知能力强相关，竞争对手很难快速跟上。”

这个逻辑，同样适用于感知赛道。

所以，vivo接下来要发布的X300 Ultra和X300s，会搭载第一代“影像Agent”。胡柏山举了一个具体的使用场景，比任何功能介绍都好懂：

以前拍照，长焦和微距要手动切换，不同模式下的效果差别很大，可大多数人根本不知道该什么时候切换。影像Agent上线后，它会自动根据拍摄对象、光线和距离，弹出“它认为最好的拍摄效果”，用户点一下就能拍出好照片。

不用费心调参数，随便拍都好看，人人都能当摄影师。

这听起来像个聪明的相机助手，但胡柏山想表达的远不止于此——这是手机从“被动工具”向“数字伙伴”进化的第一步。

按照他的规划，vivo不同产品线会搭载不同的Agent能力：折叠旗舰X Fold系列主打办公和出行，开会时能默默记录内容，出差时能主动规划航班和酒店；iQOO系列聚焦游戏Agent，能自动优化性能，捕捉游戏里的高光时刻；相册Agent已经在X300 Ultra上初步落地，能快速完成编辑剪辑。采访时他随口提了一句：“本来要花两小时做的剪辑，现在二十分钟就搞定了。”

作为经常要在采访后赶稿的人，我听完确实动了心。

在技术路径上，vivo选择聚焦端侧——也就是在手机本地实现感知能力。原因很简单：端侧能做到云端做不到的事——实时感知周边环境，不用依赖网络，用户的隐私数据也能留在本地。但端侧也有短板，受硬件限制，算力和带宽都有限制。

为了解决这个问题，vivo两年前就开始和合作伙伴一起定制专用算力芯片，计划在后续的旗舰产品中上线。他们的规划很清晰：旗舰机搭配专用芯片，把端侧能力拉满；中端机靠SoC芯片加云端补充；其他产品则以云端为主。这种分级布局，不是说说而已，而是实实在在的规划。

关于数据和隐私，胡柏山说过一句话让我印象很深：“懂用户、知人心，但不越边界——这是技术的伦理，更是vivo不可逾越的底线。”

有一个具体的设计很能体现这一点：vivo做的Agent，所有关键用户数据都存在手机本地，换手机时，这些数据可以整体迁移——“用户不用重新和新手机建立认知”。这和OpenClaw这类产品有本质区别：云端AI的数据用完就没了，而你的手机Agent，会一直积累属于你的专属数据。

他把这种专属数据叫做“数字DNA”——影像留住的是你的记忆，Agent学习的是你的习惯，两者结合，就形成了独一无二的“个人资产”。听起来有点科幻，但底层逻辑很实在。

手机这条赛道，vivo走得很清晰。但他们押注的，不只是手机。

03 从手机到机器人：这条务实的路，不好走

去年，vivo成立了机器人实验室。

很多人的第一反应是：一家手机公司做机器人，是不是太异想天开了？

这个质疑看似合理：家电厂商做机器人有协同优势，互联网公司做机器人有数据优势，手机公司凭什么？

胡柏山的回答很直接：“这是回归本质。视觉，是所有智能设备最自然的第一感知方式。”手机做了这么多年影像，本质上就是在积累感知能力——现在，只是把这种能力延伸到另一种设备形态上而已。

但他也说得很明白：机器人不是手机的升级换代，而是从零开始。2026年，vivo机器人实验室最重要的任务，就是把方向理清楚——目标用户是谁，要解决什么场景的问题，关键技术什么时候能成熟到可以落地。

在方向上，vivo打算先聚焦年轻用户；策略上，他们不打算一上来就做“全场景通用机器人”，而是采取“沿途下蛋”的思路——先把容错率高、技术上能实现的场景做好，比如宠物喂养、收纳整理，做到六七十分的体验，再慢慢拓展能力边界。

“一开始就做通用机器人不现实，”胡柏山说，“场景数据是慢慢积累的。比如让机器人把鸡蛋百分之百打好，十年之内都很难做到。但收纳就不一样，夹紧一点、松一点都不影响使用，容错率高很多。先把这类场景做好，再谈其他的。”

关于手机和机器人的协同，他也给出了具体的设想：一开始，机器人能力有限，做不好的事情，就由手机遥控补位。就像开车一样，刚开始需要人全程操控，积累的场景数据多了，才能慢慢实现自主驾驶。“手机是最懂你的随身助理，你所有的习惯、偏好都存在里面。机器人刚开始做不好的事，就让手机来帮它，两者的数据是打通的。”

这是一条务实的路，不是画饼。

除了机器人，vivo在MR头显领域也有布局，而且已经有了实物。2025年8月，vivo Vision混合现实头显探索版发布，国内28家体验店同步上架，东南亚也开放了体验，体验人数超过五万。胡柏山说，下一代产品的目标是商业化，时间窗口定在2027年下半年到2028年初。“这一代产品的使命是探索，现在已经完成了。下一步，就是找到制约商业化的核心技术难题，把它攻克掉。”

对于感知赛道的投入，胡柏山说得很实在：“我们说的长赛道，就是天花板高的赛道。一开始先让小团队建立认知，等认知到位了再加大投入，不希望一脚油门、一脚刹车——那样对团队伤害太大。我们公司这么多年组织架构一直很稳定，就是因为控制好了投入节奏，一步一个脚印螺旋式上升，而不是忽快忽慢。”

这句话背后，是他对感知赛道的判断：这不是一个短期爆发、快速见顶的赛道，而是能持续五年、十年创造价值的“长坡厚雪”。这和vivo做了十几年的通信研究院逻辑一样——先打好基础，等认知足够了，再加速前进。

博鳌采访结束时，我又想起了胡柏山分享的宝哥的故事。

他在南澳渔船上举起手机，AI告诉他，面前的朋友在微笑。那个瞬间，技术做的事情很简单——把光信号变成语言信号。但对宝哥来说，那是他九年来，第一次“看见”一个新朋友的样子。

胡柏山说：“科技的高度，终须回归人的尺度。”我越来越觉得，这句话不是漂亮的口号，而是一个做产品的人，经过长期实践后才想明白的核心道理。

未来，算力会变得同质化，大模型也会越来越趋同。但真正决定“你的手机有多懂你”的，是它对物理世界的感知深度，是它积累的、属于你的专属场景数据——这些东西，是独一无二的。

也许，这就是vivo押注感知赛道的答案。

也许，还不是。

但有一件事可以确定：下一代智能终端的竞争，再也不只是参数表上的比拼了。

近期科技圈热点汇总

« 上一篇 2026年03月29日

2026澳门世界杯抽签出炉！国乒签表有喜有忧，覃予萱硬刚早田

下一篇 » 2026年03月30日

vivo押注感知赛道：让AI走出黑屋子，读懂真实世界

相关阅读