开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!
国产具身智能基座模型,再次突破!
RoboChallenge真机评测榜单上,来自自变量机器人的端到端具身智能基础模型WALL-OSS,以总分54.69、成功率35.33%的成绩,超越美国具身智能明星公司PhysicalIntelligence的pi0(π0),排名全球第二。
在叠洗碗巾、挂口杯、按按钮、浇盆栽、移物入盒、开瓶器进抽屉等多个单任务中,WALL-OSS均拿下单项第一
要知道,这可不是一场普通的测试。
RoboChallenge由Dexmal原力灵机联合HuggingFace发起,是首个在真实物理环境中,由真实机器人执行操作的大规模、多任务基准测试。
与LLM测评不同,具身模型测评更像是一场“开卷考”,任务描述和场景环境都是提前公开的。
参赛方无需提交模型权重,只需提供可驱动机器人的算法;最终,平台通过统一的真机执行,以动作视频和任务完成率作为评分依据。
格外关键的是,WALL-OSS是一个开源模型
相较于闭源模型的测评结果存在较大操作空间(其性能可能源于对第三方模型的微调、接口层的特殊适配,或者存在黑箱内的未公开优化),模型本身的原生能力不容易被外界验证,开源模型的成绩建立在完全透明的代码与参数之上,其能力可被任何研究者复现、检验和深入研究
而且,WALL-OSS的开源程度也相当彻底:不仅开放了预训练模型权重、完整训练代码和数据集接口,甚至还提供了详尽的部署文档。仅需RTX4090级别的消费级显卡,就可以完成从训练到推理部署的完整流程。
另外,当前榜单前三名,包括pi0、pi0.5,也都是来自开源体系
具身智能的前沿发展,正在由开源模型共同推动向前。
“机器人脑”物理世界大PK
下面先具体来看WALL-OSS在测试中的实际表现。
RoboChallenge首发的Table30任务集,包含30个真实日常操作任务,而在行业常见的真机评测中,任务数量通常只有3–5个。
该任务集从四个维度构建评估体系:VLA方案难点、机器人类型、任务场景环境、目标物体属性,覆盖了具身模型在真实世界中可能遇到的多样复杂情况。
以难度较高的“叠抹布”任务为例,WALL-OSS目前位列该单项第一。
在该任务中,WALL-OSS以41分的成绩领先pi0。尽管其任务成功率仍只有10%,但已是当前所有参赛模型中的最优表现;相比之下,pi0在该任务中的成功率为0%,仅获得部分步骤分。
RoboChallenge平台集成了UR5、FrankaPanda、Aloha、ARX-5等多款主流机器人,用于远程真机评测。
并且,其公开了所有任务演示数据及测试中间结果,所有人都能看到机器人执行任务的全过程监控记录。
打开任务执行详情,可以看到左侧上方是多视角视频画面,展示了任务现场的实际场景,能直观看到机器人的操作过程
右侧上方的arm图表,记录了机械臂6个关节(joint1–joint6)的角度变化,曲线波动对应关节运动;右侧下方的arm_gripper图表,则记录了夹爪的开合状态。
最右侧信息栏则展示任务ID、执行时长等基础信息。
底部时间轴可以精准定位某一时刻,同步查看该时间点的视频画面与机械臂/夹爪状态,快速找到动作异常的环节。
从公开视频中可以看到,WALL-OSS成功完成了抹布的一次抓取与对折操作:
在相对简单一些的“连续按下三个按钮”任务中,WALL-OSS的优势更加明显,得分显著领先其它模型。
实际操作belike(以下展示均为加速画面):
在“将不同形状杂物收纳至筐中”的任务里,WALL-OSS同样表现稳定:
该任务中,无论是得分还是成功率,WALL-OSS都高于pi0。
在“拉开抽屉并放入杂物”等需要连续规划与空间判断的任务中,也能看到其完整完成操作流程:
值得一提的是,RoboChallenge的真机测试规则本身并未限制模型进行针对性优化或微调。开发者可以使用官方提供的任务示范数据对模型进行训练。
模型训练完成后,需对接平台标准化API。平台提供统一的框架代码,参赛方仅需补充自身逻辑,确保模型实现观察-推理-停止的完整交互闭环,并可通过模拟测试进行验证。
评估请求进入人工调度队列后,任务将在真实场景中执行,最终结果由平台自动发布。
也正是在这样的规则下,开源模型的成绩,含金量才显得尤为突出。
目前,自变量团队已表示,WALL-OSS提交的复现结果示例,微调代码和模型权重也将在近期全部开源。除检验测试结果的真实性,开发者们也可以在平台上根据源代码和各个任务的微调代码,结合自己的数据完成复现微调。
接下来问题来了,WALL-OSS是如何做到的?
拆解背后技术突破
在模型的具体实现层面,官方已发布技术报告,对WALL-OSS的设计思路与训练路径进行了系统披露。
特别声明:以上内容(如有图片或视频亦包括在内)为“我要久久发用户上传并发布”,本平台仅提供信息存储服务。
热门文章
- 1000个官方媒体网站发布广告,每天百万人次曝光,帮您客户覆盖全国,业绩翻倍!
- 应对人工智能影响促就业文件将出台
- 国投白银LOF将暂停申购
- 国科大成立星际航行学院
- 马化腾领唱“冲冲冲” 激情扔公仔
- 长期烧水喝和买桶装水喝 哪种更健康
- 124亿现金!安踏成彪马最大股东
- 工业机器人当“车间主任”还有多远
- 50万亿天量存款将到期
- 山东新设立4所大学
- 刘强东腊八下单万件年货送老乡
- 肯德基回应涨价
- “一人公司”的风吹到了深圳
- 董明珠卸任 格力电子元器件公司换帅
- 在广东发现人家的高级晾衣法,做法太高明了,后悔没早看到!
- 防滑砖选什么牌子好?现在客厅流行什么瓷砖,瓷砖品牌TOP6榜单揭晓
- 20款中古风衣柜书桌一体设计,千万别错过!
- 拒绝土味公主风!2026受欢迎的粉色儿童房长这样
- 门窗十大品牌 2026年广东门窗十大品牌排行榜发布,速来围观!
- 太原人注意!燃气灶旁四类物品千万不要放!