2024-09-11
2024世界机器人大会以“共育新质生产力 共享智能新未来”为主题,为期三天的主论坛和26场专题论坛上,416位国内外顶尖科学家、国际组织代表、院士和企业家聚焦前沿技术、产业动向和创新成果,深入研讨人工智能与机器人技术深度融合带来的新趋势、新机遇,共同打造了一场十分精彩的机器人领域前沿观点盛宴!
在8月22日下午的主论坛上,思谋集团创始人、董事长,香港科技大学讲座教授贾佳亚以《加速提升新质生产力——智能制造的核心AI技术》为主题发表演讲。
数说2024世界机器人大会
论坛
26 家国际支持机构
3 大主题 26 场专题论坛
416 名国内外顶尖科学家、国际组织代表、院士和企业家
74 位国外嘉宾及港澳台嘉宾参会
线上线下听众达 160万 人次
展览
27 款人形机器人集中亮
首发新品 60 余款
近 170 家参展企业 600 余件参展产品
参观人数近 25万 人次
大赛
全球 10 余个国家和地区的 7000 余支赛队
13000 余名参赛选手
每天参赛人数 4000 余人
媒体关注
近 400 家国内外媒体
短视频平台话题播放量达 2.9亿
以下是演讲内容实录
大家好!今天我作为一个学者讲讲在新质生产力概念下如何把机器人这个概念推广到更大的范畴。
我在过去20年里一直从事教授的研究岗位,一直在做机器视觉的研究,近三年里开始把整个研究方向从计算机转向了大语言模型以及大视觉模型,这样一些转变意味着在现有的阶段下,我们全力攻关的不再是机器人对于世界的理解和看见世界的过程,而是希望机器人能够理解和思考这个世界,这个就是我们在接下来整个过程中想跟大家讲的,我们怎么让大模型这样一个基础框架能够服务于机器人,能够把这个领域带到一个新的高度。
首先给大家讲一点基本的现状,人工智能发展这个领域,因为是偏软件的东西,相信跟在座刚刚演讲的各位教授和专家都有一定的互补效应,我这边也会把我对于这个行业的认知讲出一些基本的思考过程。
过去70年里,其实AI有三个历程,三个高潮和低谷都出现在2000年之前,前两个2000年以前,第一个高潮的产生原因是因为我们有了新的搜索的路径,大家觉得搜索应该是个AI的实现方式,但是很不幸的是搜索这件事情并不能够实现最终的通用智能。
第二个高潮,开始出现专家系统,意味着我们把所有的人类知识归纳成很多专家的角色,让他们去以角色扮演的方式,在过程中间去理解我们想去实现的那个内容,这个是AI发展的第二个小高峰,这个小高峰后来也让大家很失望,后来它并不能实现什么事情。
所以在2000年以前,我做研究的初期,那个时候我的第一印象就是说自己做AI的人都是骗子,谁敢说自己做AI一定是一个骗子,因为没有路径可以实现。真正到了2012年之后,大家看到从机器学习走向了深度学习,又从深度学习走向了大模型的发展,这条路在我自己看来是真正的走通了,人类不再会因为最近发生的高潮以及他的思路,会对人工智能的前景产生担忧。
相反的现在大家更担忧的能不能维持住我们自己的工作和饭碗,还能够让我们在接下来的5-10年的时间,给自己的小孩择业,让自己的子孙后代在选择自己大学专业的时候很难找到合适的方向,这变成了大家的担忧,所以这是一个真正走向了新的人工智能的未来。
所以大模型有几个基本的参数,其实GPT-4大概有1万多亿的参数量,这个不是官方公布的,是学术界的猜测。这么大的参数量导致了什么后果呢?它可以存储数百亿本书里面在它的系统里面,也就意味着我们把美国的国家图书馆当成全世界最大的藏书机构,你可以想象现在的GPT-4容纳了几百个美国国家图书馆的内容。
这个时候很多人会问我,如果机器已经这么厉害了,人是不是也会读几百亿本书不会出问题呢?我说这是有可能的。但是我有解释,这个解释是跟人的整个生理状态有关的解释,大家有兴趣可以去我其它的演讲,跟大家讲讲究竟发生什么事情,很有意思的一个解释。
在这个过程中,大家看到现在训练大模型,大家也知道中国和美国两大区域都训练出了非常多的大模型,这些大模型的能力极强,花费极高,我们认为在GPT-4的基础上,用了大概2500张A100的计算卡,其实它的花费训练量或者是硬件的采购金额去到了9个亿美金以上,这还是去年上半年的数字,今年我觉得这个数字至少翻了2-3倍,也就是说每个公司可能要投入在20亿美金左右去采购更多的计算资源。
这个即使是用云,大家也看到这也是非常昂贵的一件事,所以大模型的训练是门槛非常高的一件事,但是它取得让我们都觉得在整个研究机构,教授,这些专家们都会觉得非常令人惊讶的成绩。
比如说给大家举几个例子:
第一,从最近Deepmind研究成果看起来,现在的大模型对于解决数学题,包括几何题达到了人类奥赛金牌选手的水平,这个是在近期公布上来说,大家如果听说过IMO(全球中学生数学奥林匹克竞赛),已经取得了金牌选手水平的推理能力,这是非常强的。
第二,Cloude-3,这是另外一个美国的大模型企业所研发的系统,它只用了5700个翻译案例,就把一种濒临灭绝的语言完整的翻译出来,给大家看一个视频,它是一个很老的电影,说明在未来或者人类真的碰到了外星人,我相信我们也不用再慌了,因为我相信现在的大模型已经可以在5分钟之内,把人类和外星人的语言给翻译出来,这个是可以实现的。
第三,现在的大模型除了处理语言能力之外,大家可以处理很多的图像,可以把名画周边的信息产生出来,这个Microsoft的一个产品,可以把名画周围环境给你生成的栩栩如生。
第四,这个是爱因斯坦一幅著名的照片,我们用自己发明的算法技术,我团队在香港研发的技术做了一个扩编,结果发现很有意思,爱因斯坦边上突然出现了一位女士,这个女士哪来的,其实我们并不是很知道,为什么它会有这样的猜想?但实际上中间有很多错误。
大家看到原来的这幅图像,爱因斯坦是在一个车里面拍摄的照片,最后被大模型给解读出来应该是在一个房间里面,所以这是不对的,当然旁边这个女士也是不对的,说明大模型还是有很多值得我们继续探索和研究的问题。
我今天想说的主要还是在我们基于这个大模型基础之上,如何能够帮助到工业界以及机器人这个行业,我们在去年的时候发布了第一个版本的工业的GPT,今年我们发布了2.0的版本,经过半年继续的深耕和研究,我们发现2.0版本可以进入到一个更有意思的场景里面,可以去做更多的事情。
当然为了做这样一个工业的大模型,因为通用大模型已经是一个刚才说的门槛非常高,价格非常昂贵,但是真正产生实际效应,尤其是在各个国家里面的实体经济产生效应是不容易的,所以我们觉得如果我们能够依托于我们的科研实力,把这种工业化的场景打通、做透,整个的工业GPT会存在一个更广泛的应用前景。
为了做这件事情,我们收集了五个类别的人类,基本上所有的专业知识,包括了光学、机械、电力、计算、软件,这些行业里面我们收集它所有的教材、书籍,然后我们产生了超过500亿的Token(知识的最小单元)。
我们又收集了非常多的工业图像,我们还找到了很多的工业场景,我给大家说最后我们收集了多少数据呢?这个数据量假设一个博士生在他5年、6年的博士生涯里面,一共读过500万字的论文,大家可以想象我们这样一个数据,通过我们一年多的收集,相当于是10万个博士,完全无交集、无重叠的知识亮点的博士,总体上他们得到的所有知识总量,我们把这个知识全部拿来训练这个大模型。
这个大模型能干什么事情?给大家举几个非常有意思的例子,首先这个大模型是服务于专业的,它不是去跟你对话,也不是和你去聊天,也不会在车里面跟你放音乐干这些事情,它做一些非常专业的事情。
比如我们输入右上角这张图像,这是一张元素的图像,你可以问一个问题,你也不用管它是什么东西,你就问这个系统,你说这是一个材料,这个材料我能干什么呢?这个系统就会给你说,这幅图像说明的材料是钛这种元素,有非常广泛的应用,它列了大概10种不同的应用,告诉你说钛在工业界有什么样的材料可以使用,这是一个其中的例子,告诉大家怎么去做专业化的事情。
另外,我们还做了一个很有意思的,又有点专业性,又有点有意思的例子。左边有两块毛线,我现在问大模型你现在有没有任何的想法,把这样一个毛线做成一个玩具,这就是做两件事:
第一,它要理解这是个什么东西,这是一个毛线,你怎么去理解它的用途,这个用途的理解是大模型现在要解决和实现的问题。
第二,它还要做设计,它把你设计成玩具,这样你公司未来想做什么事情,你不用设计人员了,你看它设计了一个马,设计了一个章鱼。
我们继续问,我说当我们想加入一些金属的时候,你能给一些什么建议吗?它不会给你文字,我们这个系统是直接给你做图画,它把这个图给你生成出来,告诉你说如果你加入了这样一些金属,上面这个马就变成了一个独角兽,下面这个章鱼会变的栩栩如生更加有意思,你看到它是不同的两种设计加了金属以后。
我们再问更深层次的问题,如果我说这个问题我不仅仅是要做一个玩具,我让它有实用性,你帮我设计一下,它把上面这个马加了下面的翘翘板,变成了一个摇椅,这样一个独角兽变成了有用的东西。
下面的更有意思了,下面的章鱼的腿很像很多须,它的吸盘和须觉得像一个拖把,就把下面的做成一个拖把,你看这个拖把我相信大家如果能把它做出来卖出去,也能够是一个很好的商机,这就是我们在工业大模型里面不用任何人力,自动的系统给大家生成的内容。
我们还有很多例子,这个例子是说输入右边这张图,香港天文台在当天的某个时间发布的台风行走路线和预警,这个时候我会问问题,只根据右边这张图我不给你任何解释,你告诉我香港会在什么时候发布第8号台风警告,让大家所有人不用去上班了,在家里学习游玩。
这个时候你看到这个系统给了非常多的分析,右边是一张台风图,里面有很多的节点表示每个时间点上台风的行走路径,以及在每个时间段会行走的距离了大概方位,所以最后告诉你说我觉得这个台风大概在9月1日和9月2日凌晨登陆香港,这样会触发8号的台风警告,最后的答案是对的,相差的时间是非常小的,也就是说大模型对于这种理论非常复杂的分析和理解,都已经有了一个长足的进步。
再往后走,我们看到这里面的一些分析细节,我觉得时间有限,不跟大家一一展开,究竟怎么去分析台风图是怎么去看的,这样对于我们学习很多内容,已经不需要很死板的说明书了,未来的说明书可能就是大模型了,你有什么问题你问说明书,说明书自动给你体现出来,不用你自己去看。
这是另外一个例子,这个例子也是香港的例子,我们上传了这张图像,这个问题很复杂,不是一个简单的说这是哪里的问题,我们也不告诉他这是哪里。我们就问系统,这是一张图像,根据现在的地貌和特点,你预估它在100万年以前或者是1000万年以前,这个地方是一个什么样的结构,这就很有意思,这就涉及到两个知识:
1、是不是能够对图像有正确的认知地理知识。
2、能不能够有地质知识,能不能分析出来当现在的地质环境在1000万年以前或者是上亿年前,它是一个什么样的地质结构,这样的事情是非常专业的,在以前只有靠人才能够解决的问题,现在机器也可以去帮他去做分析了。
给大家看一下,我们问完这个问题之后,首先这个系统给了我们非常多的文字解释,我们现在都习惯于看抖音,习惯于看短视频,我们现在不喜欢看文字,看图像,最后这个系统给我们生成图像,告诉你说在很久以前,可能是在1亿年前,整个香港原来不是香港的样子,它是一个热带丛林,里面的山、水,里面整个的结构或者是在山峰的形状是什么样子,这是根据地质的知识分析出来整个图像的生成,生成的结果具有相当的可信性。
给了大家这些例子之后,我还要讲一讲除了刚才可以想象这样一个叫做工业的大模型,给大家很多专业的知识,我肯定还要讲一讲它既能回答问题,又能够教育小朋友,给我们很多专业知识,甚至是替代很多的硕士、博士去做研究,还能操作机器人,我的机器人怎么操作所以我们加入一些新的功能在这个GPT里,有三个特别特殊的功能,跟大家所认知的大模型不一样的地方。
第一个可以跟人交互,人交互的内容刚刚给大家展示了一部分,但是不是全部。
第二个可以跟软件交互,我们的系统可以直接跟软件交互,有点像微软的Copilot。
第三个可以跟硬件交互,直接跟机器做沟通和联系。
1,我们怎么跟人交互,以往我们觉得跟人交互不就是说话,说话进去了给你反馈这段话,我们现在看到的是用数字孪生的方式让大模型能够深入到整个生产环节车间里,跟数字系统做交互,不是跟人直接做交互,也就是说当你点击任何一个数字系统,这样一个基台的运转情况它的使用年限、寿命、产能,今天发生问题的可能性都会被一一的大模型做分析和处理,这个界面我相信是比人直接跟语言用文字做简单的交互是更有意思的而且是更加能够切合我们的未来感,我相信未来的工厂大家都希望在一个非常科幻的环境里工作,不是在一个非常枯燥、脏乱差的环境里做事情,我们相信这个代表了整个制造业发展的未来。
2,它跟软件做合作,这个事情是特别有意思的信息的发展,当我们使用微软整个office,大家写稿件要用word,写图表要用excel,这些东西非常难用,我到现在只用了功能的千分之一,但是如果想把这个功能全部用上,我们在这个过程中这个大模型可以直接跟软件交互,不用知道怎么用这个软件,相反的只要跟大模型说希望收集一百个数据自动帮我做标注,标注完之后给我送到训练系统里做训练,训练完之后告诉我结果能不能用,如果不能用告诉我接下来该怎么做。
这个右边就是我们的大模型不停的跟你做交互,不用去跟软件交互了,相反的直接跟这个大模型交互,大模型再跟软件交互,这个系统变成一个隔离层,就像传统意义上早期认为操作系统所做的事情,现在操作系统变的太复杂了,所以操作系统已经失去了传统的定义,大模型一定会成为未来的操作系统,会帮助你完成所有你想做的工作,而不用简简单单一个个按键去点,这样一套软件我们是全球第一套能够在工业软件层面把这些事情跑通的团队,现在的效果也是非常不错,但是我们还在不断的优化和不断的促进软件的更新。
3,我用了一个非常简单的机械臂,但是正是因为有了大模型这么一个简单和简陋的机械臂也变的有趣起来了,通过这个机械臂可以用指令说话。
其实没有任何规划的路径,我们没有给机械臂规划说你要怎么拿起一块东西,但是它自己能选择思考,通过大模型本身认出来这是什么材料,用多大的力把这个东西拿起来,这些全部是大模型自动完成的,所以我觉得就是这么一个简陋的机械臂,我们完成了这样一个事情之后,可能未来整个机器人行业一定会发生巨大的变化,这也是我相信从今年开始到明年后年接下来很多年里面,每年参加这个会议一定会看到越来越多有趣的事情发生。
今天想跟大家讲的核心内容就是这样一个工业大模型是一个针对于工业的professional intelligence专业的智能,跟通用智能还是有一定的区别,我相信正是因为专业智能学的多,通用的这样一些功能上来说没有花很多的功夫,但是这个也是一条现在模式下会是通往未来机器人发展的核心道路。
机器人已经具有了行动装置,已经有了手和脚、眼睛,接下来是时候给机器人装上一个大脑,让它完整的、自主的、可控的做好自己的活动,谢谢大家!
(本文根据录音整理)
扫描二维码关注
中国电子学会公众号
扫描二维码加入
中国电子学会会员
钟山县开展“惠民兴县”科技志愿服务活动——科技实验秀进校园
中国电子学会总部政策研究与国际合作处党支部赴中国机械工程学会开展主题党日活动
第四届智能人机交互技术年会圆满落幕
中国电子学会召开2024年统战工作座谈会
2024年全国导航技术与应用大会在京盛大召开
相约广西绿城 2024世界机器人大赛南宁锦标赛开幕!
“科创中国”新质生产力赋能电子智造论坛(宁波)成功举办
中国电子学会网络空间安全专家委员会走进山东大学暨第40期中国电子学会青年人才托举沙龙成功举办