这是谷歌 DeepMind 首个可以直接部署在机器人上的视觉-语言-动作(VLA)模型,可以帮助机器人更快、更高效地适应新任务和环境,同时无需持续的互联网连接。 由于该模型无需数据网络即可运行,因此它对延迟敏感型应用非常有用,可确保在连接中断或零连接的环境中保持稳健性。 对于开发者,谷歌还将发布 Gemini Robotics SDK,可用于轻松评估 Gemini Robotics On-Device 在其任务和环境中的表现。另外,开发者还可使用该 SDK 在 DeepMind 的 MuJoCo 物理模拟器中测试该模型,并快速将其适应到新领域 —— 只需 50 到 100 个演示即可。 顺带一提,加州大学伯克利分校、谷歌 DeepMind、多伦多大学、剑桥大学联合推出的 MuJoCo Playground 刚刚获得了今年的机器人科学与系统会议(RSS 2025)杰出演示论文奖 针对快速运行灵巧操作实验而设计。可通过微调来提升性能,从而适应新任务。经过优化,可在本地运行并实现低延迟推理。 DeepMind 进行了不少视觉、语义和行为泛化能力实验,整体来看,Gemini Robotics On-Device 在这些广泛的测试场景中表现强大:能够遵循自然语言指令,并完成诸如拉开袋子拉链或折叠衣服等高度灵巧的任务 —— 所有这些操作均可直接在机器人上运行完成。 他们还研究了让 Gemini Robotics On-Device 模型适应不同的机器人。训练时,他们采用的是 ALOHA 机器人,但实验表明能够进一步将其调整用于双臂 Franka FR3 机器人和 Apptronik 的 Apollo 人形机器人。 在双臂机器人 Franka 上,该模型可以执行通用指令,包括处理之前未见过的物体和场景、完成诸如折叠连衣裙之类的灵巧任务,或执行需要精准度和灵活性的工业皮带装配任务。 Apollo 人形机器人则是完全不同的机器人形态,而该模型也能相当好的适应。同一个通用模型可以遵循自然语言指令,并以通用方式操控不同的物体,包括之前未见过的物体。


