2024-11-20
2024世界机器人大会以“共育新质生产力 共享智能新未来”为主题,为期三天的主论坛和26场专题论坛上,416位国内外顶尖科学家、国际组织代表、院士和企业家聚焦前沿技术、产业动向和创新成果,深入研讨人工智能与机器人技术深度融合带来的新趋势、新机遇,共同打造了一场十分精彩的机器人领域前沿观点盛宴!
在8月24日上午的主论坛上,新加坡国立大学教授Marcelo H.Ang以《使用通用人工智能的机器人技术提高我们的生活质量》为主题发表演讲。
数说2024世界机器人大会
论坛
26 家国际支持机构
3 大主题 26 场专题论坛
416 名国内外顶尖科学家、国际组织代表、院士和企业家
74 位国外嘉宾及港澳台嘉宾参会
线上线下听众达 160万 人次
展览
27 款人形机器人集中亮相
首发新品 60 余款
近 170 家参展企业 600 余件参展产品
参观人数近 25万 人次
大赛
全球 10 余个国家和地区的 7000 余支赛队
13000 余名参赛选手
每天参赛人数 4000 余人
媒体关注
近 400 家国内外媒体
短视频平台话题播放量达 2.9亿
Marcelo H.Ang(新加坡国立大学教授)
以下是演讲内容实录
各位上午好,非常高兴受邀参加今年的世界机器人大会,很高兴跟大家分享我们在机器人方面的一些研究,如何使用机器人来提高我们的生活质量。
机器人在制造行业发挥了很重要的作用,在厂房里面,机器人对于自动化有很大的辅助,它内置了很多的传感器,它可以计算出来运动轨迹,所以不需要眼睛就可以让机械臂做各种移动,而且可以根据特定的轨迹来移动机械臂,这对于制造业的自动化来说是非常重要的,因为周边的环境是已知的,机器人会有编程来完成特定的任务,这里面没有很高的不确定性。
在这个场景当中,机器人用的非常好,但是我们也希望将机器人从厂房里面进入千家万户,我把它叫做日常的机器人学,从这样一个高度架构下的和人分配的环境当中进入一个复杂的和人共存的环境,内置的传感器是不够的。
如果希望机器人进入家庭、商店、医院,我们需要从工业机器人的设计变成为人类空间设计的机器人,我认为这样的机器人需要配备智能,所以我们不需要为机器人来修改环境。
在厂房里面,我们可能是别无选择,但是在家庭里面,环境是以人为本的,我家里的地板上,我是不希望贴很多亮色的条带让机器人识别方向,所以对于日常来说,有很多的任务是人类可以很好完成,但是机器人没有办法,大家可能有一些是下意识完成的,而且是高度依赖于人本身的经验。
这也是很有趣的一些机器学习的主题,在这里我们可能会有一些重要的领域,一方面就是机器人可以从事的一些人类无法完成的工作,比方说在危险的环境或者做一些比较肮脏的工作,进入水下危险的环境或者是帮忙来清洁一下水道等等,像多年前我们可能考虑不到可以做自动驾驶,但是我想未来人类的资源是非常宝贵的,不能让它用在驾驶汽车这样的简单任务上。
这也是一些很有趣的领域,一方面司机是一种人类资源,另外一方面如果能让机器人替代人类来驾驶汽车,它有可能更加安全。另外一点是一些宝贵的资产,比方说人类资源,像我们新加坡,我们最宝贵的资源就是我们的人口,我们有很多的自然资源。我们也希望借此来优化人力资源的应用,加强人机的协作,有些任务人做的好,有些任务机器人做的好,我们需要更好的来分配,哪些任务人来做,哪些任务让机器人来做,并且让人和机器人之间实现很好的协同。
所以我们需要在机器人科学方面有一些智能的研究,我们这里需要两种智能,一种是低水平的智能,一种是高水平的智能。所谓的低水平或者是低级包括它内置的传感器对于机器人来说已经起到了很多的作用,但是高水平的智能代表的是把这些动作、任务和轨迹都联系起来,我希望机器人去给我开门,去给我拿快递,如何把这些和具体力的规划、路径的规划联系在一起,机器人需要有一个很好的身体和大脑,机器人需要理解人类的意图,因为机器人是为人来设计的,我们是不能够习以为常过去人做到的一些事情,我们需要机器人能够在必要的时候有自主权,可以来采取行动甚至是提问。
所以在未来可能有一天没有机器人,人就没有办法工作,就好像是一个个人助理一样,你最开始跟助理磨合的时候不太舒服,但是一年之后你可能离开了你的个人助理就没有办法工作了,所以对于机器人来说,对于人来说,我们都是要在实际的环境当中学会更多的技能,并且学会协作。所以对于这样的一个机器来说,我们是需要它能够移动,并且有很好的操作性。
之前的很多发言嘉宾已经说到了移动控制、运动控制的问题,我们是需要考虑到机器人不能够理解我们自己的移动模式,包括它内部的一些传感器,还需要使用外部传感器来理解外部的环境,它需要解读外部的环境,并且自我有一个任务和轨迹的规划。
这边有一个很简单的案例,您可以看到它上半部分是由硅做的,下面会有一些表层的纤维,它是改变了一个物理特性,在硅里面可以注入空气,它其实就和线圈一样,随着充放气,这个线圈会展开或者再弯曲起来,像人的关节一样,可以通过3D打印来帮助机器人移动。
空气是很有趣的一种介质,因为空气无处不在。移动性,我认为最好的机器人就是我们可以坐在上面的一个东西,就是我们的椅子。如果我们这种万向轮的椅子的话,它其实是可以自由移动的,我们只需要有一个电机。
我们做了一个很有趣的研究来分析这里面的一些补偿,做遥控的时候,我们最好的补偿量是跟轮子的直径相关,换句话说,如果你希望你的椅子在X轴、Y轴方面自由移动,它可以自由的转向,我们就需要做到全方位的移动系统,所以在这个底座之上,我们可以再加上一个机械臂就可以执行很多的任务了。
我们再来说一下这里面的智能,我们说到有高水平的智能,有低水平的智能,我现在站在这里,比方说我闭上眼睛,我抬起右手。我如果是机器人的话,我需要到一个最具体的定位,我每一个手指都需要进入具体的位置,这是人可能没有办法来完成的。
所以高水平的智能需要能够理解,需要规划,需要决策,并且跟外界有互动,所以这里有一些低水平控制的案例,你可以看一下机器人的关节,它总是要跟这个书是平行的,没有视觉的话,人其实是很难做到的,大家可以试一试。
我们可以看到机器人是通过关节自我反射,通过柔性的动作控制完成的,所以这里其实是有一个问题。我们如果给机器人一个任务,他们需要如何使用自己的各个关节完成任务?旧方式是帮助机器人感知来进行工作,但是你给他一个模糊的任务,比如你去把门打开。机器人需要自我解读,在这个过程中通过学习会增长知识,在未来做得越来越好。
另外一个有趣的技术模型,上午有位发言嘉宾提到基础模型大语言模型。可能用它来帮助,但是仍然有疑问。一些简单的任务,比如开门,如何转换成一系列任务和序列?怎么和chatGPT说我要让机器人开门,给我分解一下任务把它做成不同的步骤和序列,不知道它能不能做到。这也是未来我们要向这个方向发展的潜在研究领域。现在能不能做到还是有问号,所以看一下自由度,共建方面有360度的自由度每一个方向都会有任务,比如说打开门或者拉开抽屉,这里都需要动作控制以及力的控制,这两者哪个更重要?它其实和合规相关,F=kx等等。如果力的话需要计算力和力施加的轨迹。
但是即便如此我还是能够控制K也就是僵硬度。人其实没有办法,你让我擦白板上的字,我不知道手要用多少力,手的刚度应该是多少,所以这可能是需要机器人学习的。你需要擦桌子,这是机器人没有学到的任务,我们也希望他会有正常力的施加,让他接触到桌子表面又不要太重,另外方面也是考虑到时间和方向,就是X轴和Y轴。你的手如果这么走,可能就没有接触桌面,这个时候零的位置控制,你就要回归到零,来回到力控合适方向,这是企业如何适应环境,这是我们可以完成的任务。
我们可以通过编程帮助机器人做到满足要求,在力和轨迹方面都有合适设计。但是这里如何能够达到机器人的自主制造,对我来说这还是一个问题。所以回到刚才说到的高水平智能需要有传感、感知、需要规划和决策等等,这是人日常都会执行的任务。但是这种人类智能具体体现在哪里?可能目前还没有更好的答案。
我们认为人类智能取决于人的大脑神经网络,所以希望模拟神经网络,但是不知道是怎样的架构,多少神经元怎么连接等等。我们不知道,但是可以通过实验来学习有这么多神经元这样的连接这么多层,看看好不好用。一旦搭建起来神经网络架构,可以把它参数化,通过曲线拟合方式进行学习。一旦你看到它的架构出来,对于学习来说就需要大量数据,与曲线进行拟合。
我们做了模型但是并不是基于科学而是基于数据的。所以现在问题在于,我们具体需要怎样的算力。一旦你决定了基本架构,要学会相关的参数其实和大家模型比起来并没有那么困难,因为它是通过曲线拟合的。
大多数时间我们通过示范,比如说教机器人怎么开门或者怎么开瓶子,或者去模仿人怎么打开瓶盖,机器是不是有学到它背后的基础逻辑。以自动驾驶汽车为例子,现在我们要做的就是在比较复杂的环境、学校里面或者是公路上面的公车或者是出租车,这是我们对未来的展望,和麻省理工的合作,各种各样的汽车在有行人的环境中和路上有汽车,这是第一种,型号1。
这是一个多功能的车,有一个步行者来这里,他想要去最近的火车站,汽车直接带步行者去那里,中间没有设计好的路,它可以躲避屏障,自己行走,车上的摄像机展示了传感器的始起速率,然后进入建筑内部,这是两倍速,这是普通速,人很多,它必须停下,防止撞人。没有用GPS,它可以在室内活动,所有的智能必须在车内实现。
来到了火车站,这是需要事先预定的,这是进入了路上,在这里可以重新设定目的地,比如说设定哪里是否去,然后说开始,它就开始驾驶了。我们这个已经有编好了设计的地图和路线,但是未来我们希望能够期待它自己做地图的识别,可以自己去送货,有些人要送披萨或者要送人,可以在中间拼车,这样可以降低成本,这样就非常好。
这是一些视频,一个大型的公共汽车,而不是小型的轿车,在西部可以允许自动驾驶,只要你通过了自动驾驶的测试,我们有一个中心来测试,如果有机车想要测试,可以去测试,这样就可以在这个地区进行部署,完全使用激光雷达。
这是典型的新加坡公车,通过语义识别,我们还用很多的摄像头来识别目标、物体,没有时间给大家展示,但是我们用这种进行培训,在公车和汽车里面安装,它可以进行培训一些模型。当有水的话,它有雨刷器来回的刷。
如果将摄像头放在车外,可能下雨就会损坏,但是放在里面没有问题。这是我们的公路,在西部没有太多的车,我们还有多个适配,包括摄像头和激光雷达放在一起协同合作,这里的噪音比较高。
这是我们做的一些事情,它是一个培训中心,所有的机器视觉以及算法都可以在这里进行培训,我们使用本地化的方式去做,这些图片看起来很像,给了机器一些想象力,给它们一些图片,发现这些图片都很像,它可以将它进行进一步的想象,比如在雨季的天气里将雨移除,让图片还原成比较干净的,没有下雨的情况,这样可以和原来的数据进行同步,这就是模仿、仿真非常有趣的一方面,即使下雨了,图片也变得非常干净。
下雨的图片是假的,没有下雨的是真的,我们没有使用photoshop去后期编辑,它只是自己进行数据的同步,后来发现它的实际效果非常好,这是真实的,是新加坡的路上,左边是下雨,右边是没有下雨,通过我们训练机器模型,我在菲律宾长大,我去一些地方,那里没有地图,我怎么识别方向呢,大家会说你看前面有肯德基,到肯德基向左转,那里有一个加油站,然后向右转,然后看到一个绿色的房子就到了。后来去了美国,我才学会怎么看地图,所以这很有趣。
大家也听到我刚才的同仁说如何用大语言模型帮助导航,它也可以帮助实现本地化,这很好,我也有学生做这方面的研究,包括语言的识别,在这个艰难的问题上可以做出帮助,所以总结一下,我们有更好的机体、有更好的硬件,有更好的传感器,有更好的连接,包括软连接,而在软件方面我们也需要更好的大脑,要做一些低级别的智能,包括弹性的智能,非常感谢大家!
(本文根据录音整理)
扫描二维码关注
中国电子学会公众号
扫描二维码加入
中国电子学会会员