Agent时代下具身智能的发展与探索

2026-03-29 12:26:30 - 佚名

目前，相关技术水平已达到小时量级，而在未来一到两年内，我们预计有望突破到千万小时量级，实现数百倍的增长。这一突破不仅能大幅增强模型的适应能力，还会带动算力和存储基础设施的需求增长，成为影响行业发展的核心变量。

其次，产业链的核心重心正在发生转移。随着数据和模型的重要性日益凸显，具身智能领域的竞争，已经从单纯比拼“硬件实力”，慢慢转向“模型能力+数据能力”的综合较量。谁能搭建起规模更大、质量更高的数据体系，谁的模型生态更具号召力，谁就能在行业竞争中占据主动地位。

最后，算力体系和相关生态正在迎来重构。未来，国产算力将逐渐成为行业发展的重要支撑，这就要求模型在设计之初，就要具备良好的适配性。在这样的背景下，模型与芯片之间的协同合作会更加紧密，模型的影响力也会反过来影响算力生态的选择。正因如此，我们决定开源“开悟”世界模型3.0，一方面是为了推动开发者生态的建立，另一方面也是为了更好地适配和协同国产算力体系。

总体而言，Agent时代带来的不仅是技术能力的提升，更是从数据、模型到算力的全方位系统性重构，具身智能行业的格局也将因此进入新一轮的调整与洗牌。

Q：从技术路线来看，Agent时代和过去相比，有哪些关键变化？具身智能正朝着什么方向发展？

王晓刚：过去的主流技术路线，是以“机器为核心”进行数据采集，再结合VLA（视觉-语言-动作）模型——简单来说，就是给定一个指令，模型直接输出机器人的动作参数或结构参数，本质上就是从“指令到动作”的直接对应，对真实物理世界的理解比较有限。

而现在，我们正在转向一条全新的技术路径——“环境式数据采集+世界模型”。所谓世界模型，简单理解就是让模型去学习人类在真实环境中与世界互动的物理规律和行为逻辑，而不只是简单完成从指令到动作的映射。

沿着这条路线发展下去，我们认为具身智能有望迎来类似ChatGPT那样的“关键突破时刻”，实现从“能用”到“真正能大规模应用”的跨越。

从短期来看，这两种技术路线更可能是相互配合的关系。世界模型就像机器人的“大脑”，拥有较强的预测和推理能力。当机器人接到复杂任务时，世界模型会先在“脑海”中模拟可能出现的场景，并做好规划；在执行具体动作时，再调用VLA模型完成操作。

如果执行结果和世界模型的预测不一致，就会再次调用世界模型重新规划。这种“规划+执行”的分工配合，是短期内比较贴合实际的技术路径。但从长期来看，随着技术能力的提升，世界模型有可能逐渐整合VLA模型的能力，实现两者的一体化。

Q：在这一技术变化过程中，数据体系也在调整。训练机器人的“世界模型”和VLA模型，在数据来源上有哪些关键区别？

王晓刚：训练世界模型通常需要三类数据。第一类是互联网上的图像和文本数据，这些数据包含了大量的物理规律，相当于让模型“读书学习”，帮助它掌握物理定律和人类的行为逻辑，但只靠这类数据是远远不够的。

第二类是人类在真实环境中的行为数据，包括人们如何工作、生活，以及如何与物理环境互动，这是具身智能形成核心能力的关键基础。第三类是少量的真机数据，因为即便模型已经理解了物理世界，也知道人类如何完成任务，最终还是要把这些能力对应到具体机器人的参数体系上。

相比之下，VLA模型主要依靠真机数据这一类，路径更直接，但在适应不同场景的能力上存在一定局限。

Q：在“人形机器人的进阶与飞跃”分论坛上，几位嘉宾也谈到了具身智能的“ChatGPT时刻”，对于机器人实现这一突破时刻的行业判断，大家意见不一。有的嘉宾认为两年就能实现，也有人觉得需要十年。您怎么看这个问题？

王晓刚：大家对“ChatGPT时刻”的理解和关注重点其实不一样。比如那些认为需要十年的人，更多是指机器人在现实世界中的大规模落地，比如进入普通家庭，这确实可能需要五年到十年甚至更长的时间。

而我们所说的“ChatGPT时刻”，更侧重于具身智能“大脑”的突破，也就是模型在通用性和适应能力上实现质的飞跃，出现类似“智能爆发”的阶段，让技术发展路径变得清晰可确定。就像ChatGPT在2022年底刚推出时，虽然还不完美，但已经证明了一件事：只要持续扩大数据规模和算力规模，技术能力就会不断提升，发展路径是明确的。

在具身智能领域也是如此。我们期待的不是整个系统已经完全成熟，而是能够验证这条技术路径是“可行且可以不断升级放大的”。其中一个关键前提，就是数据规模的突破——只有拥有大量真实的人类行为数据，才有可能训练出真正具备通用能力的具身智能“大脑”。

Q：在Agent时代的新发展模式下，具身智能的成本结构会发生哪些变化？主要体现在哪些环节？

王晓刚：过去的研发模式，是针对不同的机器人分别采集数据、训练模型，不同机器人之间的技术成果很难通用。比如今年为某一种机器人积累的数据和模型，到明年更换机器人本体时，往往需要重新开始，这种模式是不可持续的。同时，传统的数据采集需要人工操作机器来完成，效率很低，而且采集到的数据也脱离了真实的生产生活场景。

而在新的发展模式下，通过环境式数据采集，数据可以在真实场景中自然产生——比如保洁人员、产线工人在日常工作时，就同步完成了数据采集，不需要额外投入成本。这会大幅降低数据采集的成本，同时随着数据规模的扩大和通用性的提升，模型训练的成本也会进一步降低。

Q：在OpenClaw这类Agent框架上，大晓机器人做了哪些探索？在将其应用到物理世界的过程中，如何考虑安全问题？

王晓刚：我们的一个重要发展方向，就是把OpenClaw这类工具从数字世界延伸到物理世界。为此，我们搭建了一个机管平台，用来统一控制多台机器人。同时，我们在平台中加入了强化学习机制，让机器人在不同的场景空间中持续探索、完成任务，并通过反馈不断加快学习进度。

在安全方面，机管平台的核心作用是实现“安全隔离”。平台连接着各种用户需求，如果把这些需求直接传递给机器人，可能会带来不可预料的风险。通过机管平台这个中间环节，可以将用户需求和机器人的执行过程分离开来，确保只有经过验证、安全可靠的任务，才会下发给机器人执行。

Q：引入Agent能力之后，具身智能机器人的商业模式会发生哪些变化？对于收费方式，你们有什么考虑？

王晓刚：目前，我们的核心商业模式依然是“硬件+软件”一体化的产品形态，也就是提供机器人本体加上对应的“智能大脑”，用来解决零售、职场办公等具体场景中的实际问题。

在此基础上，我们选择将世界模型开源，是希望扩大技术影响力，吸引更多开发者参与进来，逐步在行业中形成统一标准。只有开源之后，大家才能真正使用这个模型、反馈问题，推动模型不断迭代优化，最终形成统一的技术生态。

Q：在Agent驱动的新阶段，中美两国在技术路径和产业推进上有哪些差异？中国厂商的机会在哪里？

王晓刚：从技术路线来看，变化是非常快的。比如特斯拉自身也在不断调整发展路径，从主要依靠真机数据，逐步转向以人类为中心的数据采集方式。

从另一个角度来说，中美之间的差异更多体现在应用场景上。中国拥有更丰富的应用场景，同时地方政府对机器人产业的支持力度很大，能够帮助企业快速进入不同场景，积累多样化的数据，这对提升模型能力至关重要。相比之下，美国更多依靠少数大型企业，通过自上而下的方式积累数据。

Q：从应用落地来看，人形机器人进入家庭还需要经历哪些阶段？哪些类型的产品可能最先实现大规模落地？

王晓刚：人形机器人进入家庭还需要很长一段时间。如果是类似玩具的陪伴型机器人，因为对安全性要求相对较低，可能会更早落地。但一旦涉及实际操作任务，家庭场景的复杂性和安全要求就会大幅提高，比如必须确保不会对老人和儿童造成伤害。

此外，相关的技术难题、法律法规以及伦理问题，也还需要进一步完善。因此，当前更现实的发展路径，是先在企业端（to B）的垂直场景中落地应用，在验证技术成熟度和安全性之后，再逐步向家庭场景拓展。

复旦团队深耕科技伦理：让AI服务于人，让伦理融入创新

« 上一篇 2026年03月29日

近期科技圈热点汇总

下一篇 » 2026年03月29日

Agent时代下具身智能的发展与探索

相关阅读