办公系统
个人会员
单位会员
首页 新闻中心 新闻资讯 正文

【WRC大咖论道】德国纽伦堡工业大学教授,IEEE机器人与自动化学会主席Wolfram Burgard:《机器人学基础模型》

2024-10-23

2024世界机器人大会以“共育新质生产力 共享智能新未来”为主题,为期三天的主论坛和26场专题论坛上,416位国内外顶尖科学家、国际组织代表、院士和企业家聚焦前沿技术、产业动向和创新成果,深入研讨人工智能与机器人技术深度融合带来的新趋势、新机遇,共同打造了一场十分精彩的机器人领域前沿观点盛宴!

在8月24日上午的主论坛上,德国纽伦堡工业大学教授,IEEE机器人与自动化学会主席Wolfram Burgard以《机器人学基础模型》为主题发表演讲。


数说2024世界机器人大会


论坛


26 家国际支持机构

3 大主题 26 场专题论坛

416 名国内外顶尖科学家、国际组织代表、院士和企业家

74 位国外嘉宾及港澳台嘉宾参会

线上线下听众达 160万 人次


展览


27 款人形机器人集中亮相

首发新品 60 余款

近 170 家参展企业 600 余件参展产品

参观人数近 25万 人次


大赛


全球 10 余个国家和地区的 7000 余支赛队

 13000 余名参赛选手每天参赛人数 4000 余人



媒体关注


近 400 家国内外媒体

短视频平台话题播放量达 2.9亿


1730085739127474.jpg

Wolfram Burgard(德国纽伦堡工业大学教授,IEEE机器人与自动化学会主席)

以下是对话内容实录 

今天,我非常荣幸能与大家分享我最近在机器人学基础模型方面的一些研究成果和见解。在这个充满机遇与挑战的时代,我们的目标始终是解决社会问题,提高生产效率,改善交通、医疗、健康和农业等领域。而要实现这些目标,除了硬件的发展,智能系统的建立同样至关重要。

自1995年至今,AI机器人学经历了显著的发展。早期,我们关注状态的评估和不确定性评估;2009年后,深度网络的出现为感知和预测提供了新工具;而自2021年起,基础模型的研究成为热点,包括通用性、转型、多模型及跨模型人机界面等,这些都对机器人技术的发展产生了深远影响。

人工智能并非仅仅是一个概念,它背后依托着强大的数学模型。以自动驾驶汽车为例,从1995年开始,我们就致力于开发强大的地图和本地化模型,这些模型基于数学原理,逐步构建了机器的地图、绘图以及导航系统。同样地,这些技术在移动机器人领域也得到了广泛应用,实现了几毫米级别的精确定位和导航。

这是另一个例子,展示了我们现在可以实现的非常精确的本地化和定位,这已经应用在了移动机器人上,大家可以在几毫米的精度上进行导航。在地图测绘上也是一样的,你如果使用这个技术去建立地图,可以构建非常精确的地图,不光用在机器人上,还有其它的。

这是我几年前的初创公司所做的一个成果,这是传统建筑的一个重构,这是披萨斜塔,包括室内和室外的重建,可以用在这些传统的古迹上,也可以用于导航的目的。这是我们最有名的一个天主教大教堂,在这里也可以用于保护古建。

几年前我们有了深度网络这个机器学习的革命,我们一直想做的是现实的问题解决,就跟我们之前遇到的问题类似,我们发现深度学习的架构可以帮助我们进行语义解释,也可以进行预测,这是一种补充,之前技术可能性的补充。

给大家举一个例子,大家可以在幻灯片上看到这是一个深度网络正在生成,我们图像录入的语义分割会根据颜色来分类,图像当中的一些物体是根据像素来进行划分的,但这方面也是有一个概率的问题,大家可以看到如果是以基础机器人架构的话,机器人要做一些规划,要解读周边的环境来执行它的任务,可能还不够精准。

所以在这方面为了更好的解读原始数据,我们也是需要更好的算法,这里是有一个概率论的问题,我们不能够很轻易的克服这个问题,所以我们要认识到在语义上是存在一定的不确定性。

我们现在就通过深度网络和加强的能力来确认具体的概率,然后会使用这样的方法让机器人更好的整合自己的任务。多年来,我们也都是通过这样的方式来进行语义不确定性的解读,而不仅仅是语义的分割,了解到各个系统的边界,它就更清楚的明白哪一个像素是取决于哪一类的工作,我们这个也是可以通过不同的方式来完成,所以我们就可以把这两者结合到一起,有一个不确定性感知的语义分割和全景的分割。

这里有一些很复杂的架构,它并不是一个很容易能够设计出来的网络,但是一旦完成了之后,大家其实就可以使用这种全景的定位和地图,通过不确定性感知,帮助机器人执行任务。

如果大家对此感兴趣的话,这里有一个数据集,大家是可以在网站上找到,比方说通过这样的数据集,我们就可以知道不确定性知晓的地图。我们有预测的地图、不确定性地图和错误地图,我们可以帮助机器人直接完成定位的任务。

这里面我们通过定性的结果来定位它的轨迹,投影到点云,基于这样的数据,我们就可以非常精准的定位到车辆的位置,这也是根据刚才提到的全景语义不确定性地图的方式来完成的,这些是通过概率论加上深度网络的整合完成的。

几年之前又有一个新的概念,这是大型的一些深度网络,我们把它叫做基础模型,在这里我们看到它展现出来一些基本的能力,像语言、图像,比方说计算机视觉,它可以给出非常了不起的能力,可以来生成、泛化和转移。

做机器人的各位研究者可以给我们体现具身和跨模态的推理能力,让机器人可以更好的执行任务,我后面给大家来展示一下。基础模型其实是有两种利用方式,最受欢迎的是使用现有的一些基础模型来改进机器人任务的某些领域,其次是自己来研发机器人基础模型,然后可以通过具体的任务来进行优化。

这样一些基础模型跟之前深度学习的方法相比较是有好处的,一旦我们建立起基础模型,我们是可以有零训练就快速微调到具体的应用。这是我们两年之前做的一个项目,这篇论文是关于机器人导航的视觉语言地图,是让机器人能够在环境当中快速的完成导航,这是基于语言的录入,我们会给机器人一个语言的任务,说你到箱子面前,他不知道箱子是什么,也不知道箱子在哪里,都是基于基础模型来完成。跟机器人说去键盘那里,它就能过去,我们是不需要给它额外的训练。经过基础模型的调整,机器人就可以自己来完成这个任务。

一般来说,要训练这样一个机器人,你可能得有一个博士生,花费他的整个博士生涯才能完成,但是现在我们有了基础模型之后,你可以口头吩咐机器人到椅子那里去,它会自己来解读指令,并且识别哪个是椅子或者哪个物体看起来像椅子,它就可以自己走到那个地方去。

这是我最喜欢的部分,我们跟它说你到植物的旁边,机器人就能够真正的了解这个指令是什么,它走到这个植物面前,它以前从来没有见过植物,它是不知道植物的,而且它没有经过训练,这就是零训练的。

我们也可以把它进行拓展,变成基于语言机器人导航的分层开放3D场景图,我们在这里也有分层的很复杂的环境,在这里会有一些移动的物体和其它的一些不同的分类,我们可以使用机器人基础模型来做开放词汇的一个地图,包括2D、3D地图的生成,我们以此来构建场景图,并且生成房间的特征,这样子我们就可以根据机器人收集到的信息,生成分层的地图,我们就可以在这样的层级上给机器人一些很有趣的指令。

因此我们可以帮助机器人执行任务,比方说找到二层卫生间里的马桶,我们就可以很简单的使用大语言模型,让机器人得到这个指令,然后他们就会去二楼找厕所,找到厕所之后再去找马桶,这就是我们通过基础模型可以实现的能力。一旦完成了这样的任务,我们就可以执行相关的工作。

看一下它的一些具体任务,比方说他说你去会议室或者去二楼的走廊,或者我们说去二楼的卫生间等等,你可以告诉机器人这些指令,在视频当中可以看到,它就可以自主的执行这些指令,只需要一点点的计算时间,它会使用分层网络来了解到具体的周边信息,并且自我执行。

大家也可以看这篇论文,这是关于使用基础模型来改进基于视觉的定位,换句话说,我们能不能够大幅度的改进机器人的定位能力,它是基于机器人的摄像头收集到的信息,可能在环境当中会有不太好的照明或者其它的一些困难的情况,我们会使用ChatGPT作为基础来做基于图像的一些推理,可以推理出来这个机器人现在所在的房间在哪里,然后把它作为输出,可以更好的在环境当中定位自己的地方。

这是我们的一个实验数据集,我们以此来进行评估,我们从刚才说到的定位的过程当中,我们也有一些标准的基于视觉的定位,这是基于我们周围的一些点云变化,我们就可以了解到现有系统当中的变化。

这是一个定性的比较,这里最有趣的是在左边,你可以看到这是一个厨房的环境,比方说看到了水池,它就会推理说我现在所处的房间是厨房。在这里提出了一个质疑,我们如果看到了洗碗池,它其实是厨房,如果你看到的是水池,可能它会有一个混淆,所以在语言模型当中,我们可能是需要很小心。

这里最有趣的一点是使用这些来做地面上标记的一些学习,我们需要知道在语言模型当中它会使用哪种物体来作为定位的基础,如果我们把这个物体比方说从可以使用的词汇当中移除,我们就可以知道它定位的可能性就会下降了。

我们其实可以了解到机器人借用大语言模型来完成定位,是需要一些地面上的标记,像我们墙边可能会有一些标记,这其实跟它的定位是高度相关的。大家想象一下,反过来如果我们告诉机器人探索一个它从来没有见过的环境,并且完全导航,机器人会关注哪些地面上的标记呢,我们在这里是需要有一些语言上的指令,让它知道周边的环境,哪些物体是跟它相关的,并且给它相应的一些标识,帮助它完成导航。

所以我们可能是需要这些大模型,有相应的政策执行适定的任务,但这是基于机器人的能力以及我们赋予大语言模型的一些提示,我们给它一个指令,是要它能解读成一系列的行为,要分解指令,并且要排序,我们会使用这个工作来完成训练。基于此,我们就可以更好的执行任务。在视频当中看到,把这些任务排序,它会先把方块放到盒子里,然后去按绿色的按纽,所以我们会使用基础模型来做机器人的一些任务。

这是我们最近的一些工作,使用语言模型来做语义对象的抓取,灵感来自于此。我们说到拾取、抓取,过去的一些任务执行方式,绝大多数是基于物体的语义,比方说在这里说你拿起一个电池,这是基于它的几何形状,但是如果基于语言的抓取,它就是通过语言来知道,能够了解你需要抓取的物体是什么,而过去它其实基于几何形状,先不知道你拿起的物体是什么,现在使用ChatGPT跟它说你拾起一个娃娃或者拾起一个电池,你可以说拿这个娃娃的时候你要拿它的头还是拿它的身子,机器人是需要解读这个指令,并且它需要识别相应的信息。

如果是一朵花或者是一个蛋糕,它是非常脆弱的,所以机器人可以判断,比方说让它拿起一个冰淇凌或者是一个娃娃,机器人也在感知这个世界,来理解这个世界,如果拿起一个蜡烛,机器人会知道拿底下的底座,它不会拿上面点着的蜡烛,像拿娃娃一样,它拿娃娃的时候也会选择去拿娃娃的身体部分。

这是我们现在正在做的工作,是吸尘器,是基于大语言模型的扫地机器人,我们可以在机器人面前看到这样的图景,然后让机器人自我来判断它是不是需要通过真空吸尘器来清洁这个部分,它会对这个物体的价值进行判断,并且选择清洁那些垃圾等物体,它也可以来执行一些非常复杂的像地毯的编织等等,这些都是非常重要的一些任务。

最后我想要说的,机器人的基础模型,它已经设立的模型是可以帮助我们或者是改进我们机器人的学习能力。这是在今年发表的一篇论文,有超过200名作者,要打造这样一个系统,确实需要很多的努力和资源,所以在这里我也希望让大家看一下这篇论文,它是一个机器人的基础模型,我们也希望训练这样一种通用的模型和政策。我们不能够解决所有问题,但是我们也期待在这方面有更多的投资。

这里是一个标准的机器人数据集,您可以看到这里面有超过16万项任务,通过这样的数据集,我们可以让机器人执行它从来没有执行过的任务。比方说拾起一个冰淇凌桶,这对机器人来说是全新的,但是机器人可以在没有接受训练的情况下理解这个指令,并且执行任务。

接下来我们说一下现在的挑战,我们如何来生成数据以及如何基于这些模型进行训练,这是一个问题,我们使用最基本的仿真大模型和基础模型,这是我的分享,谢谢诸位聆听。

(本文根据录音整理)

返回列表页

加入会员

学会官微