界面新闻记者 |
界面新闻编辑 | 文姝琪
在本月刚结束的机器人运动会的100米跑步比赛上,北京人形机器人创新中心(国地共建具身智能机器人创新中心,以下简称北京北京人形)旗下的“具身天工Ultra”机器人以21.50秒成绩夺冠,在400米与1500米比赛中也分别摘得银牌。与全场其他机器人都不同的是,这款机器人没有使用人工遥控,没有人类陪跑员陪跑,“独自”跑完了比赛。
在今年4月北京亦庄举办的机器人半程马拉松大赛上,“具身天工Ultra”机器人也参加了比赛并且最终夺冠。
当时,团队就已经尝试去掉机器人遥控器、采用无线遥感技术实现半自主控制。在半马比赛的过程中,由一名人类领跑员跑在前面,身上佩戴特殊的UWB标签(注:一种超宽带无线通信技术,可实现10-30厘米范围的精准定位),“具身天工Ultra”机器人装有无线发射器,负责发射和回收无线信号,然后利用算法与领跑者保持相对固定的距离与角度,全程跟随在其身后奔跑,比赛途中另设工作人员负责应急保护。
北京人形机器人创新中心CTO唐剑曾在半马比赛后向媒体透露,北京人形在研发全自主导航技术,预计很快就可以面世,到明年的机器人马拉松上就有希望看到无人引导的天工在奔跑。
这次提前在机器人运动会上展示全自主导航的成果,唐剑接受界面新闻专访时表示,比赛展示出的只是中心整套方案的一小部分。在他看来,体育场的环境比较特殊,机器人只需沿着跑道的两条边界线奔跑,北京人形已公开发布的全自主导航方案做到这一点属于“降维打击”。
“机器人去掉遥控器、实现全自主导航是产业落地的必要条件。”唐剑认为,无论将来是进入工厂,还是家庭,全自主导航下的机器人每到一个陌生环境,都需要能够做到丢掉遥控器、自主地探索新环境。在这个过程中,机器人要构建实时地图,自主决策运动路线,识别并避开真实环境中的各种障碍物。
北京人形机器人创新中心是在2023年底正式注册成立。在加入北京人形前,唐剑早年在美国雪城大学任教,获得了IEEE Fellow、ACM杰出科学家等一系列荣誉头衔,获 *** 领域更高论文奖2019年IEEE通信学会William Bennett论文奖等多个顶级奖项,担任多个国际顶级期刊的编委和多个国际顶会的技术委员会主席/副主席。后来进入产业界,先后担任滴滴智能控制首席科学家、美的公司首席AI官。
“AI驱动系统控制通俗解释就是‘用AI的端到端 *** 去控制各类系统’,就像手机、汽车、智能家居一样,机器人也是一种系统。”
但在唐剑看来,机器人现在的“AI含量”远远不够。参考行业现在流行用人类的“大脑-小脑-躯干”类比机器人的“决策-运动控制-执行”系统,机器人在“小脑”、“躯干”的运动控制与运动性能在近两年已经有极大进步,但在“大脑”部分的AI能力还很基础。“AI能力不足也导致了机器人没能真正大规模落地”。

以下是界面新闻专访唐剑的对话实录,内容经界面新闻编辑调整
“无遥控+全自主导航”是机器人产业化落地的必要条件
界面新闻:在机器人运动会的跑步比赛中,天工机器人最明显的变化就是没有遥控,这是我们在参赛前最希望达到的一个目标吗?
唐剑:这并不是我们要做到的全部。我们的 *** 人形机器人自主导航方案要实现让机器人,特别是人形机器人,到一个新的环境中,能很快地在这种环境中能够自主移动。
参加运动会实现自主奔跑只用了我们整套方案里头很少一部分的能力,因为体育场的环境是比较特殊的,机器人只需要在跑道的两条边界线奔跑就可以了,这个能力是我们 *** 自主导航方案的一个子集,实现这件事情应该说属于一种降维打击。
界面新闻:行业目前大多数公司的机器人都需要人工遥控,全自主导航对整个行业来说是不是重大的突破?
唐剑:人形机器人全自主导航之前基本上没有。
要做到全自主导航,挑战比较大。如果简单拿自动驾驶来类比:
之一,自动驾驶基本上面临两个物体,一个是汽车,一个是行人。而机器人所处的环境更为复杂,可能有各种各样的物体的存在,还有很多物品尺寸比较小,特殊环境下还存在一些堆叠的情况,不仅如此,识别出物品的种类还不够,还要能准确识别出它的位置及朝向,这些都对算法的挑战很大。
第二,自动驾驶车只有四个轮子,人形机器人一般至少有几十个关节,规划好路径以后,要严格按照这个路径控制机器人运动,track路径是比较难的,因为它自由度比较高,实现起来也有比较大的挑战。
界面新闻:外界对于遥控这件事也有一定的质疑,不少网友发现背后有人遥控后就觉得“技术没那么厉害了”,还有说人形机器人是“遥控大玩具”,从行业的角度,怎么客观看待遥控器这件事?
唐剑:客观来讲,我觉得全自主导航是机器人产业化落地一个必要条件。
全自主要求机器人到一个陌生环境中,需要能够自主地探索新环境,构建地图,并且能实时地避开障碍物,这是一个非常必要的条件,对吧?如果要产业化落地,还要有个人拿遥控器去做,就失去了我们做机器人的意义了。
但另一方面,外界对遥控有一些误解。
比方说遥控机器人通过障碍物,在控制机器人全身运动的背后是有算法控制的,遥控主要是给机器人一个前后左右的这类指令,不可能说人拿个遥控,全程控制机器人全身的几十个关节,这是不可能的。
所以说,即便用遥控器,还是有一部分是算法在控制。
界面新闻:我们在研发的全自主导航方案现在到了哪一步?
唐剑:我们现在已经实现了突破,接下来肯定要继续迭代。
就像自动驾驶一样,完全无人的驾驶能够上街跑一次,技术上在10年多前可能就实现了。但大家也一直在迭代,因为它还有很多corner cases(注:为确保稳定性与安全性,自动驾驶通常需要解决现实中可能发生的、各类极端场景下的小概率事件)没有解决。
运动会是一个展示,正如我之前所说,运动场这个场景还是比较特殊,机器人只要检测出两个跑道线边界,然后顺着跑就可以,总体还是比较有规律。后面像一些现实生活中的场景,比如说工厂、商场,环境就更复杂,至于在自主导航下做到移动后,各个实际场景中还要完成特定工作的操作,难度则更大。
界面新闻:你用自动驾驶类比机器人的全自主导航,那参考自动驾驶行业的L0-L5六个级别的划分,全自主导航对标哪个级别?
唐剑:其实是属于L4,大部分情况下可以做到自主,但还有可能有一些corner cases(边角情况)还无法解决,需要人接管。
界面新闻:你们对这次机器人运动会的成绩满意吗?
唐剑:总体上比较满意。我们在田径赛上取得了一金三银一铜,然后场景赛上也取得了一金三银一铜,场景赛和田径赛平分秋色。
田径赛这类体育竞赛主要检查机器人的运动和平衡能力。其实我们之前参加马拉松,还有中关村仿真机器人大赛,都拿到了非常好的名次,已经充分证明了我们机器人在运动性能上的一些优异表现。
这次,我们其实也是花了很大精力去参加了一些场景赛。场景赛主要为落地干活做铺垫的,也体现了我们希望把机器人打造成既能跑又最有用的机器人。
这次我们在两个不同的场景,一个工业场景,一个商业场景,参加了物料整理、搬运、商用迎宾服务三项任务,用一款机器人“天轶 2.0”同时参加三场比赛。在物料整理这样的精细任务上,天轶2.0在完成时间和任务完成度上是远超其他机器人的。而在物料搬运、迎宾服务中,天轶2.0直接PK的对手是身体高大、双臂很粗、带有工业底盘的工业机器人。我们相当于是用类人形态的天轶2.0,取得了与工业级机器人非常接近的作业效率,最终的成绩验证了天轶2.0具备强大的通用泛化能力,也证明了我们软硬件技术的泛化能力。
界面新闻:你认为行业会有更多公司跟进“全自主导航”吗?
唐剑:我相信下一届运动会,还有下一届马拉松,可能大部分企业都会拿掉遥控器,让机器人自主奔跑。

具身智能算法的泛化能力是行业更大瓶颈,没有之一
界面新闻:今年的世界机器人大会来了50多家人形机器人公司,展出的产品、技术路线和商业化落地场景五花八门,行业非常热闹,有媒体总结“机器人行业什么都有,但就没有共识”,你怎么看?
唐剑:你参加过大会应该可以看到,目前人形机器人行业主要分成两类企业:一类是主攻机器人本体以及运动控制的,他们的客户主要是教育单位、科研院所,客户买回他们的机器人产品做二次开发,还有的也用作表演展出。另一类就是越来越多企业在瞄准产业化落地,然后开始展示一些用在现实生产环节的工作场景,这些场景目前看也比较趋同,例如仓库搬箱子、物流传送带上分拣物料。
目前在这两大类企业各自做的事情、探索的方向,可能是有一些共识的。
界面新闻:从你的角度,机器人行业目前更大的共识是什么?
唐剑:我个人觉得,现在更大的瓶颈是具身智能算法的泛化能力有待提升。这个是最核心的,没有之一。
界面新闻:宇树王兴兴在世界机器人大会上演讲也提到,比起经常讨论的数据不足问题,机器人行业更大的挑战是“具身智能模型”,你同意他的观点吗?
唐剑:他所说的模型的能力不够,其实是指模型架构。
模型长什么样子,有多少层,层与层之间怎么连接,有多少参数,每层用了什么激活函数等等,这些统称为模型架构,这个确实是我觉得需要突破的。因为现在的具身智能模型,包括VLA模型、VLM模型,沿袭的都是大语言模型的架构,并没有突破。
关于模型,除了架构,行业里有另一家海外明星机器人企业 PI (Physical Intelligence),这家公司的一位创始人叫谢尔盖・莱文(Sergey Levine),他讲的就是模型的配方(recipe),主要是指一些训练的 *** 和训练的数据。这个也非常重要。你搞成一个特别牛的架构出来,但是没有数据把它训成一个性能很好的模型效用也不大。
所以我觉得这两个方面都是需要的,数据及模型能力两方面都有待提升。
界面新闻:机器人还有其他的能力需要提升吗?
唐剑:在一些其他方面,比如说工作效率、负重、续航时间、硬件的稳定性与可靠性,这些还是有待提升。但我把它归结为线性瓶颈。线性瓶颈就是说随着时间的发展它一定会不断提升,假以时日慢慢达到人们满意的一个水平。
至于前面讲的具身智能算法的泛化能力不足,我把它叫非线性瓶颈,就是说你不知道什么时候能真正地突破这个瓶颈。
界面新闻:关于机器人行业讨论最多的缺数据难题,数据要到一个什么规模目标才算达到“不缺”的水平,或者就像李飞飞建立ImageNet数据集之于深度学习一样,出现某个转折点?
唐剑:现在没有定论。
界面新闻:关于具身智能模型架构的创新,现在是不是还没有一个像大语言模型Transformer架构之类的突破?
唐剑: 现在许多具身模型架构就是参考大语言模型的Transformer架构构建的。
以更流行的VLA模型(Vision-Language-Action Model,即视觉 - 语言 - 动作模型)为例,它的基本架构跟大语言模型非常相似,就是用VLM多模态大语言模型(Vision Language Model,即视觉语言大模型)当底座,这部分是Transformer架构,然后前面接了一个head(注:模型中负责特定任务输出的模块,VLA中增加的是与动作生成相关的模块),这个head一般也是基于Transformer架构。

机器人的“AI含量”还不够
界面新闻:机器人行业从去年开始集中爆发,从你进入这个行业的感受来看,这个行业发生的更大变化是什么?
唐剑:加入北京人形机器人创新中心前,我在2018年以前都是在美国高校任教,一个主要的研究方向就是AI驱动的系统控制,这是偏学术概念的说法,通俗讲就是用AI的 *** 端到端地控制各类系统,汽车是一种系统,机器人其实也是一种系统,还包括我之前做过的无线 *** 系统、 IoT物联网设备系统、云计算系统,核心都是用AI的 *** ,做端到端的控制系统。
现在加入了北京人形主要做人形机器人。人形机器人是机器人行业可能最难,也更具挑战性的项目。
通过这些年的发展,我觉得人形机器人更大的变化是在运动性上提升很大。现在机器人走路、跑步,问题都不是特别大,还能平稳通过一些障碍,做一些特别复杂的舞蹈动作,灵活度和平衡性都不成问题。这为机器人产业化落地打下了坚实基础。因为就像一个人一样,动都动不了的话更别谈干工作了。
现在机器人行业在运动控制的技术路线也有所收敛,基本上都是基于强化学习开发运动控制算法,以实现很好的泛化性。
界面新闻:你的研究专业方向的角度是AI控制系统,从这个角度看,你觉得机器人现在的AI含量够不够?
唐剑:不够。正因为AI能力不够,所以机器人还没有真正大规模落地。
界面新闻:关于机器人的落地,几年上半年许多机器人公司都在聊量产,有公司每月能出货100台,还有公司预计一年出货上千台,现在机器人行业是怎么定义量产的?
唐剑:正如之前所说,行业内有一类企业面向教育科研机构客户,主要交付用于二次开发的机器人,用在教学、表演及展示场景上。这里面比较优秀的企业已经能达到几百台甚至上千台的销量,北京人形也在做。
而这些企业的客户需求普遍比较分散,比方说一些高校,一次订1-2台,然后还有租赁公司下订单后再租给其他企业客户做表演,一次大概能订5-10台。
要在某一个产业真正实现量产落地,比方说物流产业、汽车产业,然后一下子带动整个产业的刚需业务需求,带来几千甚至上万台的订单,才可能说真正实现了大规模量产。
我相信,一两年之内,或者到明年年底,一定会有优秀的企业在某一个产业甚至多个产业的场景里跑通,然后真正实现比较大规模的量产。