商汤科技联合创始人、执行董事、首席科学家林达华认为,多模态是迈向AGI的必经之路。因此,只有能够同时“读文本、看世界、动手脚”,AI才可能真正理解并改造物理环境。 而且超过十年的行业落地经验,包括在自动驾驶领域的成功实践,也让商汤在感知、定位、轨迹规划和安全冗余等方面累积了大量真实数据与世界模型经验。 因此,商汤继「开悟」世界模型之后,发布全新「悟能」具身智能平台。一端承接日日新多模态大模型的通用能力,一端拥有打造和使用世界模型进行训练的经验,进而打造生态体系。 「开悟」世界模型背后包括商汤积累的10万3D资产,支持多视角视频生成,最多可以同时生成11个摄像头角度视频,并在长达150s的时间保持时空一致。 第一视角是机器人在真实运行时唯一能获取的感知流,它决定了模型推理时的输入分布;第三视角则能完整捕捉人类或机器人全身的姿态骨骼和环境关系,为动作意图、路径规划提供清晰标签。 将两种视角对齐训练,可以让模型学会把外部示范映射成自身可用的感觉?动作对,一方面显著减少昂贵的遥操作数据量,另一方面提高跨机器人、跨场景的泛化能力,使同一个“大脑”既能看懂人类演示,也能在自己的相机视角下执行,从而加速具身智能落地。 在具身智能落地上,商汤选择“软硬协同”路线。目前已与众多人形机器人、物流搬运底盘厂商、家用陪伴平台等伙伴达成合作,将T模型预装进不同形态的机器人,让硬件天然具备多模态感知和推理能力。 除了发布新产物,商汤还在这次论坛上组织具身智能行业从业者以及学术界人士,一起探讨了具身世界模型发展的关键问题。 北京大学助理教授、智源学者、银河通用创始人兼CTO王鹤介绍了他的解决方案——先在虚拟环境把pick?and?place做到几乎与现实一致,再用少量真机样本校正长尾场景。 商汤与傅利叶等伙伴合作推出的超千万数量级的机器人,则源源不断回流那关键“1%”的真实视觉、语音和操作日志,二者形成互补闭环,解决了数据从量到质的难题。 当然,数据只有“量”还远远不够,商汤联合创始人、执行董事、CTO王晓刚认为,仅有机器人本身摄像头的第一视角并不够,上帝俯瞰的第三视角能补全肢体骨骼与全局语义;只有把两种视角对齐,端到端训练才能兼顾感知与动作。 澳大利亚科学院院士、南洋理工大学教授陶大程进一步指出,第一视角不仅要看图像,还要叠加深度、惯性、力觉等多传感器流,才能完整地捕捉“感知—意图—行动”闭环。 为此,商汤在世界模型中同步生成并标定第一和第三视角数据,确保时空一致,再映射回端侧传感器,让机器人既“看自己”也“学别人”,从而缩短仿真与现实之间的落差。 上海市信息投资股份有限公司副总裁、库帕斯科技董事长山栋明则从投资与供应链角度呼应这一观点。他认为当下只要能把设备铺出去,真实数据自然会涌回。 商汤正在验证这条“双轮”路径——多模态大模型日日新V6.5提供跨领域能力,垂直应用不断把真实反馈注入基座,驱动模型滚动升级。 综合来看,商汤通过世界模型的大规模仿真、合作硬件的真实数据回流、第一与第三视角的融合标注,以及“通用大脑 + 场景闭环”的协同演进,把数据、算法与硬件生态织成了一条自循环链。


