办公系统
个人会员
单位会员
首页 新闻中心 新闻资讯 正文

【WRC大咖论道】宇树科技创始人、首席执行官兼首席技术官王兴兴:《具身智能指明了实现AGI的方向》

2024-10-25

2024世界机器人大会以“共育新质生产力 共享智能新未来”为主题,为期三天的主论坛和26场专题论坛上,416位国内外顶尖科学家、国际组织代表、院士和企业家聚焦前沿技术、产业动向和创新成果,深入研讨人工智能与机器人技术深度融合带来的新趋势、新机遇,共同打造了一场十分精彩的机器人领域前沿观点盛宴!

在8月24日下午的主论坛上,宇树科技创始人、首席执行官兼首席技术官王兴兴以《具身智能指明了实现AGI的方向》为主题发表演讲。


数说2024世界机器人大会


论坛


26 家国际支持机构

3 大主题 26 场专题论坛

416 名国内外顶尖科学家、国际组织代表、院士和企业家

74 位国外嘉宾及港澳台嘉宾参会

线上线下听众达 160万 人次


展览


27 款人形机器人集中亮相

首发新品 60 余款

近 170 家参展企业 600 余件参展产品

参观人数近 25万 人次


大赛


全球 10 余个国家和地区的 7000 余支赛队

 13000 余名参赛选手

每天参赛人数 4000 余人



媒体关注


近 400 家国内外媒体

短视频平台话题播放量达 2.9亿


1730086061917093.jpg

王兴兴(宇树科技创始人、首席执行官兼首席技术官)

以下是对话内容实录 

各位领导,各位专家,各位学者大家下午好,很荣幸在此分享。在展开这个话题之前想分享一个小故事。Marc Raibert先生,我当时差不多10岁读小学就看到过您做的小的双足机器人包括还有后空翻机器人。这当时是在中国引进的科技纪录片里,算算时间现在差不多20几年了,时间真的很快。我们公司2016年成立到现在也有8年时间,最近几年具有身智能很热,所以我主要分享具身智能和AGI的方向。

OpenAI最早的目标就是实现AGI,并且早些年他们也投入不少人做机器人方向,但是后来GPT发展速度更快,所以他们反而在机器人发展方向投入资源比较少。但是我反而坚信,目前具身智能反而是更好的实现AGI的方向。我们公司最早2013年到2015、2016年的时候我个人读硕期间做的Xdog这款机器人。做的初衷比较简单,我一个学生没有那么多的资源做很大的机器人,所以一直想能不能用简单方法就能实现低成本,运动性能很好的方案?

所以当时就想用盘式无刷电机再加上自己开发的电机驱动板,实现了Xdog方案。这个方案当时整个研发投入大概只有1-2万元人民币,2015年还用这个机器人参加了上海的比赛拿了二等奖。这个机器人当时在我毕业的时候还帮我赚了几万快奖金。也是成为2016年注册公司时的启动资金。后续产品大家可能比较熟,我们主要做高性能四足机器人,去年年初也开始做高性能人形机器人以及别的附属产品。目前四足机器人主要是两款,一款是小一点的Go2型号,它主要搭载了自己开发的3D激光雷达。并且去年就搭载了OpenAI的GPT接口,你可以直接语音和它对话,让它执行底层动作。并且试过集成了OpenAI的多模态接口,你问它前面有什么东西,它也可以回答。

但是开发过程中我们发现目前语言模型、多模态模型对机器人应用非常不足,它对空间、物理世界理解个模型本身对机器人本体理解远远不够,这也推动了我们未来一直希望有更好的机器人模型诞生。当然这可能不能指望我们公司,还是需要全球共同实验室,所有科技公司一起推动。

另外一款也是去年发布的B2型号,是大一点的工业级四足机器人。最大特点是负载能力和续航能力非常非常强。基本大部分工业场景包括室内室外的还有地下管廊或者其他环境都能使用,也是目前主力型号。

人形机器人这块,目前发展也非常非常快,最早2009年我读大一的时候寒假就做过小的人形机器人,当时用得非常非常便宜,就200块钱做了小的人形机器人。但是做好以后非常非常失望,因为我不仅对自己感到失望,也对当时全球范围内整个人形机器人科技发展速度感到失望,在2010年时。所以过去很多年当时好几年以前,很多人问我,我们公司做不做人形机器人?我当时非常坚决地说我们公司不做人形机器人。因为感觉目前我们技术包括全球商业化没办法很好地推动人形机器人。但是过去几年,很多实验室都用我们机器狗做了很多AI开发,我们也肉眼可见地看到强化学习在四足机器人里飞速的进展,非常非常好。

并且2022年底的时候GPT出来了,整个AI真正点燃了整个全球范围内AI对机器人领域大家的信心。所以2023年初,开始做高性能人形机器人,这款是去年第一款人形机器人H1,这款机器人最大特点是动力性能非常非常强,基本算是目前同类型电驱动人形机器人,动力性能最强的之一。

这是公司开发的第二款人形机器人G1,今年5月份发布,第一款工程机前几天也发布了量产版本样子。这款结合了过去几年对四足机器人、人形机器人整个硬件设计、软件工业设计要求,所以大家可以看到。虽然这款机器人稍微小一点,大概只有1.3米,但是无论外观、动力性能、关节灵活性、产品完成度都非常非常高。我们也非常有信心,最近已经快完成整个量产化的设计改造,年底可以大规模量产。这个关节布置相对来说非常流畅和漂亮。

分享一个小故事,这种关节布置对于动力控制并不是最优的,但是为什么现在敢这么做?原因就是AI技术进步让很多原本不容易控制的机器人反而变得容易控制。不然这种机器人其实腿有点重且不方便控制。但是目前AI反而让难控制的机器人成为可能性。

这是5月份我们刚发布时展示的运动性能,里面用了传统控制算法,但是大部分还是用了深度强化学习实现。这款产品相对来说目前产品完成度还是非常非常高的,关节灵活度也非常好,可以实现很多人实现不了的动作。

这款是H1,年初的时候差不多实现了全球第一款纯电机驱动的人形机器人空翻,动力性能非常强劲,也是用了模仿学习加强化学习算法。这种机器人还是太过于不好控制,用传统算法很难实现空翻。包括我们用模仿学习和强化学习实现了奔跑以及跳舞等动作,这也是好几个月之前的。这次展会现场,有长时间演示技术,稳定性非常好。AI技术相对于别的技术最大的点在于它对硬件和机器人泛用性非常好。哪怕机器人硬件有一点点偏差还是可以很稳定地控制。

这是基于深度相机端到端深度强化学习,更复杂的地型也可以训练。包括四足机器人本身也可以两条腿走路,这是展示了连续空翻,也是基于模仿学习和深度强化学习做的,这个我们在展会现场也有演示,大家有兴趣可以试一下,而且稳定性比较不错。这个功能其实在早几个月,我们已经OTA升级给全球客户使用。

这是我们前段时间基于摇操作的一个数据采集系统,因为大家基于目前的AI技术,基本上都是数据驱动的,有多少数据就有多少AI,本身对于人形机器人的数据采集是非常刚需的需求,所以我们做了一套比较简单的轻量化的数据采集系统,这还是需要更加完善。

这也是我们前段时间搞的,基于模仿学习和深度强化学习做的身体性动作。大家可能觉得目前像我们机器人已经做的很不错了,但实际上在我的想象中,要做的事情还非常多,举个最简单的例子,目前这些动作基本上是每个动作单独做AI训练的,单独训练有一个很不好的地方,很多场景下大家还是希望一台机器人可以自动的切换所有的动作,而不需要人为去切换动作,这也是大家希望的方向,一个AI所有的事情都能做,这是通用AI大家希望达到的目标,这也是用了它的深度相机来做端到端的训练。

(播放视频)

我觉得目前人形机器人强化学习能做的事情,最主要的还是在比较复杂的地形下,它可以任意的适应各种的地形,并且运动。相对来说另外一点就是它的手部能操作比较精细化的零件,大家也知道现在包括全球范围内用模仿学习其实在一些比较大的物体,比如说一个水杯,从什么地方拿到什么地方,这其实都是可以实现的,但是更精细一点的事情其实目前做不好,比如说焊个电路,包括打一个结,这种更细小的事情我觉得都是非常值得做的。

另外一点,这里稍微岔开一下话题,好高骛远一下,说一些更远的,我觉得更加激动人心的一些事情。具身智能一直是实现世界模型的方向,当然这可能不是我们公司目前能做的,还是希望全球都能推动这个事情,我觉得这是未来最激动人心的时刻。

最大的点就是世界模型对于机器人本身包括对物理世界的理解,其实大家也知道现在的AI技术其实对机器人自己的身体和对自己的世界理解是完全不够的,比如说对重力的理解,对摩擦力和接触的理解是非常差的,如果有更好的AI能把本身自我的认知和理解以及对环境的理解能做出来,我觉得可以大大推动整个机器人行业的进步。

而且我觉得世界模型本身就是AGI的方向,没准就是真正实现AGI的。大家知道AGI最大的点就是大部分人能做的事情都能做,包括开车、洗衣做饭、工厂,世界模型如果对世界本身有很好的建模,这个本身目标就差不多实现了。

而且像特斯拉的FSD,某种意义上就是世界模型,对整个车辆和它的周边环境都会有建模,包括对前面一辆车的速度、撞击,一些未来的动作也会有好的建模和理解,我觉得世界模型是最大的可能性。

另外最主要的是很多现在做AI的,包括OpenAI,大家对大脑的重视都非常高,我最近一直在分享和强调,其实身体才是最重要的一件事情,大脑和身体两部分是分不开的。举个最简单的例子,这也是从小非常困扰我的问题,我做梦的时候为什么会突然感觉从悬崖上往下掉,或者我在梦里为什么跑不快,这个问题我想了十几年,差不多在本科的时候我才把这个问题想通。

其实原因也非常简单,就是人在睡觉的时候,人的大脑跟身体的感知是完全断开的,你不能感知到身体的皮肤,你也不能控制你的肌肉,所以你的大脑本身是没有物理世界连接的。

在我们原本的认知里面,我跑步,我每跑一步都是要跟地面有接触的,接触以后大脑知道我接触到地面了,我要迈另外一个脚,但是在我们做梦的时候,由于跟物理世界脱离了关系,你的大脑其实不知道你已经踩到地面了,所以你永远感觉你的脚轻飘飘的,跑不快,没办法使力,所以这也是体现了目前大脑、身体的重要性。

包括为什么会觉得从悬崖上往下面掉,因为你在跟身体断开连接的时候,你其实并不知道你的身体跟床是接触的,你觉得你是悬空的,所以你往下掉。

回答了一个非常简单的问题,为什么现在大语言模型会有一个幻觉的感觉,简单说就是所有的目前大语言模型都活在梦里,它对物理世界是脱离连接的,它不能感知到自己的身体,也不能看到,也不能眨眼睛,它跟物理世界的连接是断开的,所有的大语言模型都是活在梦里,它是非常虚拟的,所以说它会有很多幻觉,不真实,他自己都不知道做的梦真不真。

原因也很简单,比如说有一个人在说梦话,你如果跟他说一句话,他也回答你的问题,但是所有说梦话的人说的话都是稀里糊涂的,没有逻辑可言,所以说这也是为什么体现了身体的重要性。

另外分享一个比较好玩的实验,这也是我小时候非常喜欢思考的实验,人为什么比一些动物聪明,简单的思维实验,如果我把我的大脑放到一个狗的里面或者我把人的大脑放到猪的里面,或者把猪的大脑放到人的身体里面,到底哪种结构可以诞生更多的智能情况。

后来我一直反思,我个人感觉其实多方面的原因限制的,而且可能物理限制还会更多。简单说,我很怀疑如果把一个猴子的大脑放到人的身体里面,它照样是可以说话的,但是为什么猴子不能说话呢?其实原因也非常简单,就是它的喉咙和声带不支持它说话。

举一个最简单的例子,像鹦鹉,它的神经元其实是比较少的,比较聪明能说话的鹦鹉大概只要20到30万的神经元,但是猴子的神经元跟它差不多,甚至猩猩的神经元比它更多,但是为什么猩猩说不了话,而且只能发一些低级的声音,我大概猜测是它声带的原因。

鹦鹉为什么能说话呢?因为它很喜欢吃坚果,吃坚果的过程中,它的喉咙和舌头锻炼的非常灵活,所以它是没有物理限制在里面的。这也是很大层面上一些高等动物,包括一些海豚、鲸鱼,很大概率是它的声带限制了它的发声。

总结一下,整个AGI的实现除了纯粹的AI还需要有身体,包括对视觉和身体的感知都非常重要,包括对实时的数据采集。对物理世界的了解,包括对一些碰撞、重力、摩擦力、各种环节包括光学的一些理解。

另外再分享一个观点,事实上目前从人来说,数据的输出能力是非常弱的,人的数据输入能力非常强,因为人有眼睛,看一张图片或者视频的时候,数据的输入量非常大,至少每秒钟几百或几千KB的数据量是有的。但是人输出数据的能力非常弱,只能通过说话或者敲键盘,最顶尖的人体敲键盘的速度大概也就一秒几个字而已,所以它的比特流是非常低的。

如果有一种人机接口可以把人的数据输出能力大大提升,这样对人本身智能的提升,包括干活的效率也会有非常大的提升,而且我觉得这个技术不需要用大脑植入式的设备,只要在表皮能连接上一些神经元就可以实现这个功能。

如果在座的有一些神经学或者生物医疗相关的朋友,没准可以试试这个方向,为什么分享这个方向呢?因为我没有能力去做,有能力做的朋友可以做一下或者叫我一下,我非常有兴趣去参与一下这个事情。

再分享一个小故事,我小时候看一些电视剧,大家也发现有些武林高手都是可以动的,他的肌肉可以控制耳朵动,但是普通人实现不了你自己去控制你的耳朵动,其实这也是可以锻炼出来的。

为什么呢?举个最简单的例子,有一次上高中的英语课,因为我英语很差,一直分心,我当时想控制我脑子壳上面一块肌肉的运动,我自己锻炼了好几天,突然有一天我就能控制那块肌肉了,那块肌肉我原本是没办法控制的,但突然我用自己的想法去控制这块肌肉,这块肌肉就能被我的意志控制了,所以我的意思是没准用外部的一些脑机接口直接连接一些皮表的神经元,去锻炼一下,我们就能做一个很好的人机接口的输出。

另外分享一个比较有意思的观点,比人更高级的智能形态是什么样子,大家也知道现在的神经AI网络都是模仿人类的,但是模仿又不完全跟人类一样,跟飞机一样,飞机的飞行原理是参考了鸟的飞行原理,但是跟鸟又不是完全一样的工作原理。我们目前计算机能实现的智能形态跟人的智能形态多少还是有差异的,具体差异是什么,大家回头可以想想。

我觉得AGI的黎明快到来了,今年年初的时候我就预估在明年年底之前,在全球至少有一家实验室或者公司可以把通用型的机器人AI模型做出来,当然我不知道是哪一家,有可能是中国,有可能是美国那边的公司或者实验室。

另外尽可能相信AI,我觉得这是当下过去人类整个历史上最激动人心的时刻,我觉得我每天都在浪费时间。我们可以做更小的人形机器人,也可以做更大的人形机器人。

谢谢大家!

(本文根据录音整理)


返回列表页

加入会员

学会官微