每只手21个自由度,支持16主动自由度,具备高精度操作能力。
在夹持、旋转、精准插拔等精细操作上,能力远超市面常见的6自由度抓取器。
这就是具身智能创业公司灵初智能最新推出的自研灵巧手。
要知道,人类的一只手是27个自由度,而特斯拉最新一代Optimus Gen-3灵巧手也只有22个自由度。
21个自由度,意味着机械结构复杂,硬件制造上难度极高,还需要保证稳定性和可量产性,造价下探很有难度,“市面上很多团队,光灵巧手就要几十万一只。”
而灵初智能创始人兼CEO王启斌告诉量子位,灵初的目标,是将一台机器人整机的价格——
打到17000美元(约122083元)级别,对标特斯拉“Model 3定价策略”。
由于视双足为炫技,在整机设计上,灵初的人形机器人打造成“轮式+双手”的形象,长下面这样:
从Day One开始抛弃夹爪
先来说此次新推出灵巧手背后的故事。
灵初智能的目标是打造通用灵巧操作的机器人系统,强调的是从动作层面解决复杂任务。
在创始团队看来,“通用”和“复杂”,意味着机器人只配备夹爪来抓取远远不够——
抓取只是一种简单的单一技能,但现实中的任务,如使用工具、精密装配、翻页、扫码、旋转,必须具备更高自由度与灵巧度。
耶鲁大学等在2013年的《Grasp Frequency and Usage in Daily Household and Machine Shop(抓取频率及其在家庭与机械车间的应用)》一文中总结了家庭和车间环境下人类手部的高频抓取动作,共10种。
很多看似简单的操作,比如转笔、精准插拔、翻书、调方向,都需要高自由度手部与触觉反馈才能完成。
考虑到落地,工业场景中很多手中操作(如转动螺丝刀)和精密操作(如电池抓取与摄像头校准)场景交给低自由度的灵巧手尚且无法完成,更别提夹爪了。
因此从Day One开始,灵初就决定不做夹爪。
之所以选择自研,是因为灵初团队觉得市面上的灵巧手产品都不好用。
而灵初身上颇有做灵巧手的技术基因。
公司首席科学家杨耀东,北京大学人工智能研究院助理教授、强化学习领域的知名学者。
2022年时,他带领华人团队获得NeurIPS 2022具身灵巧操作冠军;那时候,杨耀东就开始和团队在仿真环境中用强化学习训练灵巧手完成复杂操作。
彼时团队中的一名00后陈源培,现在成了灵初的联合创始人。
他师从李飞飞和Karen Liu(领导斯坦福机器人中心运动实验室),曾在全球全球范围内首次实现利用强化学习在真实世界同时控制双臂、双手多技能操作。
在机器人领域搞强化学习冷启动训练
从上面二人的经历中不难抽取出除「灵巧手」外的另一关键词:
强化学习。
这个词对大家来说并不陌生——近几年,它在语言模型后训练阶段立下丰功伟绩。然而陈源培介绍,在机器人抓取任务领域,强化学习还是一个难度较高的小众领域,有相关经验的人并不多。
他例举了做这件事的部分困难之处:两个挑战 + 一个关键矛盾。
第一,自由度越高,训练难度越大。
现在经常出街的机器狗基本上全身是12个自由度,其训练尚且不易。
灵初智能想做具身智能人形机器人,现阶段光是一只手就21个自由度,对算法训练的要求不言而喻——能做出来和能用起来,中间还是有巨大的gap。
第二,具身智能在真实世界里需要完成的任务,更多是“开放场景长程复杂任务”,单就“长程”这一点来说,非常容易有误差累积。
比如完成一个任务需要十个步骤,如果第二步有1cm的偏差,最后的操作结果就可能差出十万八千里来。
剩下的那一个关键矛盾在于强化学习模型常专用于一个场景,迁移难,跨任务泛化能力差。