【数百会|专家视点】德国北莱茵威斯特法伦国际事务研究院高拉夫·夏尔马研究员：人工智能系统中的数据挑战

2023-05-23

德国北莱茵威斯特法伦国际事务研究院高拉夫·夏尔马研究员近日在联合国世界数据论坛官网发表文章指出：

数据泛滥给现代数字化社会带来了一些挑战。人工智能系统中的数据挑战主要包括数据的隐私保护、使用和处理等方面。我们很难在确保人工智能系统有效执行数据分析的同时，建立数据使用和处理的问责机制。当前人工智能系统面临的四大关键数据挑战如下：

一是多个数据源和输入模式对数据集的整合造成了困难。来自现实世界的数据源包含丰富多样的数据格式，如扁平数据、图像数据、时间序列数据、非结构化序列数据和结构化序列数据等等。将数据集输入人工智能系统需要整合来自多个来源的数据和多种数据输入模式，这对数据集的整合和标准化提出了挑战。

二是人类作为数据提供者无法确保高质量的数据收集。目前的人工智能系统被训练接收大量的数据，但产生并输入人工智能系统的数据是由人类提供的，而人类在收集数据的过程中不可避免会出现错误，并且收集到的数据集往往欠缺包容性。

三是人工智能算法对数据的转换与处理将为数据治理带来挑战。这是因为一旦数据集被标准化并用某些参数进行标记，进而输入到人工智能算法中后，原始数据集的定义就会丢失，数据会根据算法代码的复杂性进行转换和处理。尤其是当数据集经过预处理并用作深度学习复杂人工智能模型的训练数据集时，数据治理面临的挑战会更大。

四是人工智能模型中的数据复用问题难以得到有效控制。复杂人工智能模型需要经历多次数据迭代和数据复用，在此过程中难以对数据的使用进行控制，因此这类数据复用问题仍然是一个开放的研究挑战。

（责任编辑：王洁瑶，010-68600707）

“数百会|专家视点”是中国数字经济百人会着力打造的一档专家访谈专栏。邀请国内外数字经济领域知名专家学者、企业家、投资人等，分享数字经济前沿技术、应用场景、商业模式及发展趋势，为大众呈现一个全方位、高层次、国际化的数字经济视角。

欢迎关注

扫描二维码关注
中国电子学会公众号

扫描二维码加入
中国电子学会会员

更多新闻资讯

2025.01.07