办公系统
个人会员
单位会员
首页 新闻中心 新闻资讯 正文

【2024 WRC】人形机器人发展的“拦路虎”与“青云路”

2024-09-23

机器人的通用大模型

近年来,大模型技术在机器人领域的应用,拓展了机器人的能力边界。大家不免想象,在未来,也许通过大模型的映射,用一个任务指令就能让机器人完成从规划到操作的整个过程。那是否会有涵盖机器人运动、认知、感知等能力的通用大模型呢?

UniXAI具身智能机器人公司创始人、首席执行官杨丰瑜表示,随着数据量的增加,特别是当数据足够多时,训练出一个能够处理各种任务的通用大模型是有希望的。但目前,为每个模态建立一个大模型才是对现有数据分布的最佳利用。

他表示,每个模态、每种感知或每个任务之间的数据量是不同的。在视觉和语言领域,通过自监督的方式从互联网上获取了大量数据,可能达到数十亿级别。而在触觉领域,数据采集的量级可能只有几千万甚至更少。在运动层面,获得的轨迹数据分配到每个个体上的量就更少了。

从专用模型到通用模型是一个逐步发展的过程。杨丰瑜认为,分层大模型和通用大模型是技术发展的不同阶段,不是一个非此即彼的选择。

帕西尼感知科技(深圳)有限公司创始人许晋诚提出,尽管在短期内实现通用大模型可能比较困难,但通过植入大量规则,并让模型学习这些规则背后的逻辑,长远来看是有可能实现的。他将机器人的学习过程与人类学习过程相类比,指出人类也是通过积累大量经验规则来执行操作的。这意味着,如果机器人能够学习并内化这些规则,它们最终也能够实现类似的通用性。


软硬件协同发展是关键

机器人产业前景广阔,但仍面临不少挑战。数据、算法、硬件是产业发展的三只拦路虎。

浙江人形机器人创新中心首席科学家、浙江大学求是特聘教授熊蓉提出两条建议。

第一,在整个关节驱动能力方面,高爆发的电机、高精度的减速器和高爆发的驱动器都需要进一步提升性能。“为了实现类人尺寸下的灵活运动,这些核心零部件需要进一步攻关和解决。”第二,重视多模态融合下的具身智能。熊蓉提到,虽然目前在人形机器人上安装了足够多的传感器,但关键在于如何将这些传感器收集到的数据融会贯通,并实现快速学习。

许晋诚则认为,目前机器人身上的传感器数量还远远不够,要“借鉴人类在感知和思维上的碰撞”。人类拥有数以百万计的感官接收器,这些感官接收器使我们能够感知环境并与环境互动。相比之下,机器人的传感器数量和种类还非常有限。

他进一步指出,当前缺乏有效的算法来充分利用传感器收集的数据。他提出数据文本化的解决方案,即将触觉等传感器收集到的数据进行文本化处理,使数据与语言模型相结合。“更多的传感器和更多的文本化数据相互碰撞才能带来更好的结果”。

杨丰瑜强调,目前所有和物理世界交互的数据都是匮乏的。他提出三个维度的泛化对机器人技术的发展至关重要,包括物体的泛化、场景的泛化和运动轨迹的泛化。这三个维度的泛化是实现机器人在复杂任务中串联和执行上的关键。

在硬件层面,杨丰瑜特别提到末端执行器的重要性。这是机器人与物理世界交互的关键部分,但目前还没有一款末端执行器能够做到真正的通用。不同的应用场景需要不同类型的末端执行器,这限制了机器人的适用性和灵活性。无论是二指爪,还是三指爪,目前都有其局限性,而五指灵巧手则面临耐久性、成本和控制问题的挑战。


人形机器人的具体应用场景

未来,人形机器人能否走向市场,成为主流?

中国科学院沈阳自动化研究所副所长刘连庆总结为三个条件。一看市场刚需,二看技术能否真正实现,三看市场对产品快速迭代的接受度。他认为,应用场景和技术创新的重要性不相上下。

目前已经找到一些最适合使用人形机器人的场景,但都太小众,不足以支撑起万亿级的产业规模。

人们经常质疑为什么人形机器人必须有腿,残疾人就不能工作吗?刘连庆表示,人形机器人如果定义为具备手臂协同功能,能够进行技能学习的机器人,应用场景其实很多,并不一定需要两条腿。

不同场景对机器人的需要不同,需要综合性测试,来对机器人的能力进行评估与分级。

中关村智友研究院院长、北京航空航天大学机器人研究所名誉所长王田苗认为,测试不应局限于功能性的测试集。他认为测试机器人复杂程度、准确率、时间效率的斯坦福测试集就很有借鉴意义。

刘连庆表示,测试体系应该找一个量大面广、有可能产生万亿产值赛道的场景,让机器人进行技能化的测试。

平衡技术发展、市场需求和未来潜力后,杨丰瑜为人形机器人总结了三大应用场景

第一,发展初期应聚焦于容错率高的应用场景。第二,愿意为机器人的通用性支付溢价的场景。通用性与效率性往往存在矛盾,而某些特定场景可能更看重机器人的通用性而非仅仅是效率。第三,对机器人技术未来发展有益的场景。数据收集的难度和数据的丰富性对于机器人学习至关重要。

来源:中国信息化周报


返回列表页

加入会员

学会官微