2024-09-19
2024世界机器人大会以“共育新质生产力 共享智能新未来”为主题,为期三天的主论坛和26场专题论坛上,416位国内外顶尖科学家、国际组织代表、院士和企业家聚焦前沿技术、产业动向和创新成果,深入研讨人工智能与机器人技术深度融合带来的新趋势、新机遇,共同打造了一场十分精彩的机器人领域前沿观点盛宴!
在8月22日下午的主论坛上,科大讯飞股份有限公司副总裁、研究院院长刘聪以《讯飞星火超脑平台赋能具身智能机器人发展》为主题发表演讲。
数说2024世界机器人大会
论坛
26 家国际支持机构
3 大主题 26 场专题论坛
416 名国内外顶尖科学家、国际组织代表、院士和企业家
74 位国外嘉宾及港澳台嘉宾参会
线上线下听众达 160万 人次
展览
27 款人形机器人集中亮相
首发新品 60 余款
近 170 家参展企业 600 余件参展产品
参观人数近 25万 人次
大赛
全球 10 余个国家和地区的 7000 余支赛队
13000 余名参赛选手
每天参赛人数 4000 余人
媒体关注
近 400 家国内外媒体
短视频平台话题播放量达 2.9亿
刘聪(科大讯飞股份有限公司副总裁、研究院院长)
以下是演讲内容实录
非常高兴能来参加世界机器人大会,和大家做一些分享和交流。科大讯飞是一家人工智能企业,今天会结合我们一些实践给大家分享一下我们在包括像人工智能大模型、大模型如何来赋能机器人行业,给大家汇报一下进展和思考。
首先我们快速看一下,当前这一年多大模型非常火,当前大模型最新的态势是如何的,以ChatGPT为代表的这轮认知智能大模型带来了技术的智能涌现,进一步掀起了人工智能的全新浪潮,我们也看到有些机构对人工智能大模型对未来GDP的一些推动,对未来企业数字化变革的推动,以及我们有一些科学家说大模型对生物医药,对其它的科学领域也有很多的想象空间。
我国高度重视通用人工智能,从去年4月份中共中央政治局的会议到去年底的一些全新工业化会议,一再强调通过通用智能赋能我们的行业。再到今年的两会,进一步提出人工智能+的理念。
我们可以看到,这一年这个行业非常的“卷”,以国际为例,既有带头的OpenAI不断的推出一些新的版本,从3.5到4到4v、4t、4o一系列的内容,包括Google合并了非常厉害的DeepMind这样一些机构,当然这里面还有LLama主打开源的模型,国内大家熟悉的百模大战,这里我就不展开了。
我们简单来看一下,应该来讲ChatGPT它是一个基于深度学习框架的大模型,并进一步的结合像Transformer,包括像强化学习这样的一些算法创新,来实现了通用型的对话系统,将原来只能完成一些专用的任务,来实现可以现在完成文本生成各种各样的一些任务,所以我们说实现了一个技术的借阅。
如果站在语言智能的角度,我们知道语言是我们人类智慧的一个重要部分,也是我们学习知识去传递信息的一个最重要的载体。这样的一种方式有望让我们的机器真正人类去学习语言、应用语言,去掌握知识这样的一个过程,从而开启一个更加自然的交互。
这里我们以OpenAI为代表,快速过一下它在过去一年多各个版本的最新效果,这块其实是跟我们的多模态相关的,在GPT-4v包括现在已经升级成了GPT-4o,以及用于画图的能力。
我们可以看到基于这样的能力,它现在已经能处理一些很复杂的内容,像左边可能你给它一个导航的截图,你就可以问里面很多的内容,它会根据图里面的文字信息,包括图片的信息给你一些规划。
在右边你不需要写特别多的Plug,只要告诉它你给我生成一个咖啡店的广告牌,上面写什么字,就可以自动的去进行一些拓展,给你生成一些图文并茂相关的图片。
今年来讲,OpenAI发布的最有影响力,可能也是在大模型里最有影响力的两个方向,我想就是2024年2月份的Sora和5月份发布的GPT-4o,Sora我想大家都很熟悉了,通过整个文生视频的功能,不管是在时长上还是在效果上,其实都达到了一个非常好的程度。
后面我们专家分析完,这个事并不是一个真的就去懂物理世界了,还是通过大量的数据算力这样一些资源,来形成了一个大力出奇迹的模型。4o也是的,它号称我是第一个用端到端模型来实现这样一个全自然的、快速的交互,支持语音、文本这种视频各种各样的模态,可以随时打断,中间还可以去表达各种各样的情绪。
但其实我们也看到这两个产品发布之后,目前来说并没有真的都开放,Sora我们看到半年多了,国内其实也有不少家在视频生成上做的不错的模型。而我们的GPT-4o发布了3个月之后,现在才刚刚开始让少部分人去内测、去体验,这个也是说明了一个技术从发布到真正全面使用要经历这样一个过程。
我们可以看到以刚才OpenAI的产品为例,不管是刚才说的GPT-4,GPT-4v、Sora,当然这里面还有多语种的语言模型,除了算法创新,这里面有一个非常重要的点是它的核心底座,这也为什么说OpenAI它相当于领先一步,有了这样的底座之后,再结合它的算力和数据,可以形成各个领域的技术突破。
我们发展一年多了,当前来讲有些技术在不断的进步,在当前我们仍然面临哪些挑战,这里面也想跟大家分享一下。
首先我想是大模型可解释问题,也就是大家原来熟知的幻想,客观来讲相对于OpenAI刚刚发布ChatGPT3.5的时候,现在我们的算法一方面模型更大了,数据更好了。
同时再通过我们的搜索插件,包括像知识增强,基本上幻觉已经比原来缓解很多了。但是在一些像教育、医疗这样一些场景,对结果的可靠度要求非常高的场景,其实还有很多的挑战。
第二,刚才以GPT-4o为代表的,当然也包含大家熟知的特斯拉的FST,这样一些以端到端模型为代表的新方案,它会给我们带来效果和体验上的巨大提升。包括大家看到现在为什么没有那么多的开放,实际上只有你真正做过才知道,这里面涉及多模态数据的对齐,端到端怎么样更好的去做灵活定制的需求,其实仍然还有很多的技术挑战。
第三,我们说个性化,大模型的个性化,怎么去解决最后一公里的问题,我经常举一个例子,ChatGPT刚出来的时候,或者国内的一些大模型刚出来的时候,它写一个东西你很惊艳。
但是写了一段时间之后,你可能过了一段时间觉得这个要求就不够了,因为写出来的东西是个很通用的东西,它怎么写出来是一个你特别想要,或者是你的风格写出来的,这个现在做不了,关于个性化有一些工作,但是在功能的定义,包括一些个性化的效果,我认为还有很长的路要走。
除了刚才讲的三个算法,我们说Standing long,这个大家很熟了,必须要有大模型集群的建立,我们看到GPT-4级别你要想去做,起步的门槛可能是万卡左右的集群。如何去构建这样的集群,如何去保持训练推理的高效,甚至是在这个过程当中怎么样通过整个系统的稳定性,能让这样一个集群稳定运行,尤其是像科大讯飞这样的我们只能在国产的服务器上去做,我想怎么支持大模型的算力去进行建设,也是一个非常重要的复杂系统性的工程。
接下来我们稍微看一下大模型与机器人的关系,大模型之后到底对机器人尤其是人形机器人起到了什么样的作用,这两年的确在机器人产业上有了非常大的进展,除了在资本市场或者是在创业圈,除了做大模型的,基本上一系列的就是做人形机器人的。
可能跟原来的人工智能时代,我们的人形机器人因为它的功能完备性、形态的亲和性,本身我们就说它是人工智能去落地的载体,这里面有一些代表性的机器人。但是我们可以看到大模型出现之前,其实人形机器人更多是基于控制,我们基于小脑,它要去感知这样一个环境,然后做一些决策,跟环境去交互做执行。
这里面我们简单分析了一下,有几个问题:
第一,它不具备特别复杂的任务,我说你的薯条在桌上,它可能会去拿,但是你让它去抽屉里面拿一个薯条,它就不知道怎么去分解这样一个任务,这是一个现状。
第二,可能它完成的是一些特定性的任务,我们可以看到在一些工厂去做一些重复性的工作,但是你要做一些开放性的或者是通用性的任务就比较难。同时在这里面因为原来的模型限制,不管是视觉的、听觉的这样一些感知的模型能力也不够强。
我们可以看到大模型,这一年多的实验,以人形机器人为代表的机器人智能化带来了巨大的提升空间,包括整个的底座加上思维链的能力,可以帮助人形机器人去处理一些非常复杂的任务去拆解、去规划,包括也能进一步提升多模态视觉、听觉的感知能力,以及这样一些生成式模型带来的数据模拟,可以降低我们在模型训练当中的一些数据需求。
具体来讲,整个在大模型情况之下,通过我们的大模型对任务的拆解,把这些指令映射到我们跟物理世界的交互,并且可以触达到物理世界的一些指令,再通过我们的运动控制去形成这样的闭环,所以我们相信这个还是有非常大的空间。
第二部分是星火大模型的进展,刚刚提到大模型,基于通用大模型包括文本生成、知识问答、代码等相关的能力,在各个方面的产业内容革新、科研工作、专业行业虚拟助手都有非常大的空间,大家觉得大模型是一个不亚于互联网和个人电脑的存在。
科大讯飞也是基于过去十多年在核心技术场景的积累,我们在2022年12月15日基于我们像认知智能全国国重语音工程中心这样一些国家级平台启动了这样“1+N”的攻关,既要做自主创新的底座,也要在教育医疗等各个行业形成一些行业落地的产品。
过去一年多非常卷,从0到1实现了7个版本模型的发布,我们快速看一下通用能力,现在在中文的任务上最新的星火V4.0版本可以对标到GPT4T的知识问答等等相关的能力,现在多模态代码还有一定的差距,刚刚说的除了文本大模型,多模态这件事情非常关键,所以我们说多模态能力覆盖很多行业包括工业、机器人这是非常关键的。
底座模型基础之上进一步做多模态模型相关的东西,这个只是给一些事例,大家有空可以看一下,给张图能够基于图像本身,基于里面的文字内容协同做一些分析,还能根据多个图片对一些事件的连贯性做一些判断。
还有一个很关键的点就是交互,科大讯飞从成立的时候我们的使命就是说让每个机器不管是汽车、手机、机器人能听会说,能理解会思考,如何打造更加自然的人机交互,一直是我们的追求。
现在讯飞已经发布的自然交互能达到什么样的效果。
(播放视频)
这样一个体验全是真机交互的东西,一方面通过真正端到端的建模把原来从语音识别、文本理解再到合成可能需要三秒钟的时间可以压缩到这样随时打断跟人的交互一样,进一步结合原来在云领域的属性解耦的原创技术可以把语音信号里说话人的情感信息解耦出来,而且可以灵活的控制,这样就可以实现更多情绪的感知表达。
在8月30日我们的版本就会正式上线星火,更重要这样一个框架我们认为现在是先集中把语音交互做透,这样一套框架未来拓展到智能里会方便很多,我们很快会看到在机器人的场景可以用到这样一些更自然交互的逻辑。
这样的内容在车载、学习机其实有很多的应用场景。我们针对一些复杂任务的拆解和规划,这个例子也是一样,可以基于大模型的底座做智能体的平台。我想创建一个智能体,这个智能体里包含了一些任务,我们大模型可以基于这样一个任务拆解并相关的用各种各样的智能体来实现,这样的方案也是助力机器人可以理解更加复杂的内容。
同时我们刚刚提到了跟华为在去年10月24日建了国内首个万卡的国产化集群,并且现在所有的模型包括大家看到的急速语音交互的模型都是在全国产化上做的训练,这是我们在其它一些行业,教育、医疗、办公、软硬件其实有很多大模型赋能的案例。
最后看一下基于星火大模型,我们的超导平台如何赋能具身智能机器人,在这次大模型爆发之前,我们在2022年1月就提出的讯飞超导2030计划,希望未来可以打造懂知识、擅学习、能进化,结合我们的多模感知深度理解多维表达这样一个机器人未来可以走进千家万户,来帮助老人养老等等。
实际上来说在这个过程中跟产业链的合作伙伴,我们自己不做本体进行深度的合作,基于大模型也针对具身智能做的一系列工作,包括刚刚提到的整个任务理解规划的能力,包括反过来通过在仿真中的算法,对于硬件结构和参数形成一些调整的反馈,所以会提升整个运动的能力,将这种操作泛化的内容。也是在去年9月份拉通了这样从大模型大脑到运动的小脑这套本体全产业链,基于这样一个内容我们也是重点作为生态打造了超导平台,这里面像麦克风阵列、摄像头这样的前端传感器跟后端算法的融合,也有像这样一个模型怎么样做到端侧,做在国产化芯片上这样一个算力来实现不管是对话理解还是整个具身一系列功能。
在这个基础上现在其实我们也是支持了业内超过420多家机器人企业,有很多包括我们的合作伙伴优必选、宇树、银河通用智能等等,以及链接了3.5万的机器人相关开发者,我们也是积极的在推动产学研的合作,包括是人形机器人的副组长单位,和中科大、哈工大也是联合共建一些机器人学院或者联合实验室。
其实站在产业的角度,人形机器人还是面临一些挑战的,虽然现在有了很大的发展。
第一,成本过高,硬件成本过高短期内会影响大的场合规模化的应用。
第二,随着模型能力越强。
其实除了对本体的成本,其实对于算力芯片的要求越来越高,未来针对这样一个任务的应用,人形机器人大规模操作这个数据集成本也挺高,所以怎么样通过人工智能能降低这样一些数据集的成本,也是未来我们要去协同做的工作。
站在通用大模型和人形机器人展望一下,首先还是要积极的推动应用场景的开发,而且刚刚说的人形机器人长远可能是终极目标,但是过程中要有合理的技术台阶推出一系列阶段性的机器人矩阵产品,要加强上下游产业链通力合作,尤其是推动讯飞这样做大模型的企业和智能本体机器人企业来推动整个产业的全面发展。
作为我们来说在大模型本身国产化的可控大模型继续做,同时还需要做通用时代交叉学科人才培养。我今天的报告就到这里,感谢大家!
(本文根据录音整理)
扫描二维码关注
中国电子学会公众号
扫描二维码加入
中国电子学会会员
钟山县开展“惠民兴县”科技志愿服务活动——科技实验秀进校园
中国电子学会总部政策研究与国际合作处党支部赴中国机械工程学会开展主题党日活动
第四届智能人机交互技术年会圆满落幕
中国电子学会召开2024年统战工作座谈会
2024年全国导航技术与应用大会在京盛大召开
相约广西绿城 2024世界机器人大赛南宁锦标赛开幕!
“科创中国”新质生产力赋能电子智造论坛(宁波)成功举办
中国电子学会网络空间安全专家委员会走进山东大学暨第40期中国电子学会青年人才托举沙龙成功举办