人工智能指数2018年度报告

转自互联网经济圈
由斯坦福大学、麻省理工学院与OpenAI联合发布的《人工智能指数2018年度报告》，相比2017年报告有以下两方面的改进：一是基于对人工智能领域相关活动的持续跟踪，更新了最新指标；二是站在全球化视角进行了解析。2017年的指数报告涉及较多北美区域的活动，主要是因为当时全球只有为数不多的几个经济体就人工智能项目建立了合作关系。然而，当前人工智能已经在全球多个国家快速发展，主要体现在：一是人工智能论文呈现多极化趋势。如2017年Scopus数据库中有83％的人工智能论文来自美国以外的地区，其中，28％来自欧洲地区。二是人工智能教育呈现泛化趋势。如全球注册人工智能（AI）和机器学习（ML）课程的人数在不断增加，尤其是在中国清华大学，其相关注册人数比2010年注册人数增加了16倍之多。三是多个国家或地区的人工智能相关专利快速增长。除美国、中国和欧洲外，其他经济体也取得了进展。2014年，韩国和日本分别是第二和第三大人工智能专利申报国，仅次于美国。
一、指标说明
（一）核心指标
2018年人工智能指数有两个核心指标——活动量指标和技术性能指标。
活动量指标主要用于衡量学者、企业、企业家以及公众在人工智能领域的参与度，具体数据包括学习人工智能的本科生人数、申请人工智能工作的女性人数占比以及创办人工智能企业所需风投资金的增长率等。
技术性能指标主要用于衡量人工智能细分领域的技术性能变化情况。新版的人工智能指数新增了国家或地区型指标，如国家层面的机器人研发管理机构、人工智能会议参会者等指标。总体而言，2017年报告所体现的主要趋势仍在延续，即人工智能活动正在向世界各地普及，且技术性能正在全面提升。
（二）其他指标
本报告在“衍生指标”章节重点分析了发展趋势之间的关系，探索出一项新的指标即人工智能活力指数。该指数通过综合学术界和行业界的趋势，从而量化人工智能领域的活力情况。本报告还引入一个新的定性指标，即政府近期计划，该指标可用于体现政府近期对人工智能的投资计划。
二、核心指标：活动量
（一）学术研究
1、发表论文
从论文发表数量看，以斯高帕斯数据库中论文为例，人工智能论文数比1996年增加了8倍，计算机科学论文数比1996年增加了6倍。
从发表区域看，2017年，斯高帕斯数据库中有28%的人工智能论文来自欧洲地区，其次是中国（25%）和美国（17%）。
从发表主题看，2017年，机器学习与概率推理类的论文数占比为56％，而2010年仅为28％。2014-2017年间，大多数类别论文的发表速度高于2010-2014年。尤其值得注意的是，2010-2014年，神经网络论文的年复合增长率（CAGR）仅为3％，而2014-2017年的年复合增长率为37％。
从各地区相对活动指数（RAI）看，中国的人工智能论文主要集中在工程技术和农业科学领域，而美国和欧洲的人工智能论文则主要集中在人文以及医疗与卫生科学领域。2017年数据显示，与2000年相比，上述三个地区对人工智能研究的重视程度均有所提高，且中国正转向农业领域的人工智能研究。
从论文发表主体看，2017年中国政府机构人工智能论文发表量是企业发表量的4倍。自2007年以来，中国政府机构发表的人工智能论文的数量增加了400％，而企业论文发表量仅增加了73％。在美国，企业发表的人工智能论文占比相对较大。2017年，美国企业人工智能论文发表量占本国所有人工智能论文发表量的比例比中国高出6.6倍，比欧洲高出4.1倍。此外，美国企业人工智能论文发表量增幅最大，其2017年企业人工智能论文发表量是2009年的1.7倍。
从论文引用影响力看（见图1），虽然欧洲每年发布的人工智能论文数量最多，但其重新设定的领域加权引用影响力仍保持相对平稳，与世界平均水平相当。相比之下，中国重新设定的领域加权引用影响力大幅提升。2016年，中国人工智能作者的被引用次数比2000年高出44％。然而，在总引用次数方面，美国仍优于其他地区。美国作者的被引用次数比全球平均水平高出83％。
2、课程注册
以美国人工智能课程为例，美国几所领先的计算机科学大学的人工智能和机器学习课程的注册人数正在不断增长。2017年，入门级人工智能课程的注册人数比2012年增加了3.4倍，而入门级机器学习课程的注册人数则比2012年增加了5倍。2017年，加州大学伯克利分校的入门级机器学习课程的注册人数是2012年的6.8倍，这一增长率高于其他所有被调研的学校。以国际其他高校课程来说，2017年，中国的清华大学人工智能和机器学习课程的注册人数比2010年增加了16倍。多伦多大学、维也纳技术大学、不列颠哥伦比亚大学等人工智能和机器学习课程的注册人数都逐年增长。总的来看，在所有研究的学校中，人工智能课程注册人数增长率在一定程度上取决于学校，而地理位置并不会造成太大影响。

3、参与度
参与度指标主要包括参加人工智能会议和注册各种人工智能相关的机构。数据显示，2017年参与大型（人数超过2000人）人工智能会议的人数增长迅速，其中，神经信息处理系统会议和国际机器学习会议的与会人数增长速度最快，分别是2012年与会人数的4.8倍和6.8倍。参与小型（人数不足2000人）人工智能会议的人数也有显著增长，特别是国际学习表征会议（ICLR），2018年的与会人数比2012年增加了20倍。注册女性机器学习研讨会和AI4ALL4等机构的人数均有所增加，女性机器学习研讨会的与会人数比2014年增加了6倍，AI4ALL的毕业人数比2015年增加了9倍。这些增长表明，当今社会一直在为提高女性和非代表性群体在人工智能领域的参与度而努力。

4、机器人软件下载
机器人操作系统是一种广泛使用的机器人开源软件栈，许多商业制造商和学术研究人员都使用机器人操作系统。图2显示了ROS.org网站上机器人操作系统（ROS）二进制包下载量随时间的变化情况，左轴代表月平均下载量，右轴代表仅来自唯一IP地址的月平均下载量。自2014年以来，总下载量和唯一IP地址下载量分别增长了352％和567％。这就表明，当今社会对机器人技术以及机器人系统的应用越来越感兴趣。目前，唯一IP地址下载量的增长速度高于总下载量，由此可以推断，机器人操作系统用户也有所增加，而不仅仅是使用频率的增加。从地区上来看，美国和欧洲的ROS.org页面浏览量最多，中国紧随其后，且中国是增长率最高的地区。
（二）行业状况
1、创业/投资
从人工智能初创企业来看，到2018年1月，美国由风险资本支持且正常经营的私营初创企业超过了10000家，比2015年1月增加了2.1倍，呈现指数级增长态势。从风险投资资金来看，2017年，美国风投资金总额比2013年增加了2.08倍，其中人工智能领域的风投资金比2013年增加了4.5倍。
2、就业
就业方面则呈现两大突出问题，一是技能岗位空缺，二是申请人性别差异较大。从岗位来看，机器学习技能的需求量最大，深度学习技能需求量的增长速度最快。2017年，需要深度学习技能的岗位空缺数量比2015年增加了35倍。从申请人性别差异来看，平均而言，美国人工智能岗位申请人中男性占比71％。由于机器学习岗位的申请人数最多，因此，该类岗位申请人中的性别差异是导致这一平均水平的主要原因。此外，相对于其他类别的人工智能技术，深度学习和机器人技术岗位的申请人也存在较大的性别差异。
3、专利
从各发明地区人工智能专利的数量和增长情况来看，2014年，大约30％的人工智能专利集中在美国，其次是韩国和日本，占比均为16%。在发明量最多的地区中，韩国和中国台湾增长最快，其2014年人工智能专利数量几乎是2004年的5倍。
4、人工智能采用
根据麦肯锡咨询公司对2135名不同机构受访对象展开的调查，图3显示了至少已在其一个功能或业务部门引入人工智能能力的受访对象占比情况。
分地区来看，虽然有些地区某种能力的采用程度远高于其他地区，但在人工智能能力方面，各地区的采用程度大致相等。
分领域来看，各行业纷纷引入人工智能能力以获得最大行业价值。例如，金融服务业在风险功能中大量引入人工智能，汽车行业在制造功能中大量引入人工智能，而零售业则在营销/销售功能中大量引入人工智能。这就意味着，特定应用（如制造）的人工智能的发展速度可能与特别强调专业化的行业有关。
5、财报电话会议中的提及次数
各行业的企业财报电话会议中人工智能和机器学习的提及次数整体呈现增长态势，其中，IT企业提及的次数最多。2015年，IT行业提及人工智能和机器学习的次数开始大幅增加，而对其他大多数行业而言，2016年才开始出现此类增长。IT、非必需消费品、金融和医疗行业在财报电话会议中提及人工智能的次数最多。
6、机器人机构
从各地区工业机器人机构的年度数量来看，自2012年以来，中国机器人机构年度数量已增加了500％，其他地区也有显著增长，如韩国和欧洲，分别增加了105％和122％。目前，在数量较少的地区中，中国台湾的年度机构数量最大，且在2012-2017年间增长最快，机器人机构总数已超10000家。

（三）开源软件
开源软件有两个最新趋势，一是大型企业支持的框架，如谷歌的Tensorflow、脸书的Pytorch、亚马逊的mxnet等，正在日益普及；二是相对于其他编程语言，TensorFlow最为普及。
（四）公共事务
1、媒体态度
从媒体对人工智能的评判态度来看，中性评判人工智能类文章越来越少，正面评判人工智能类文章越来越多。自2016年初期以来，2016年1月至7月，正面文章占比从12％增至30％，此后，正面文章占比一直在30％左右。
2、政府提及率
自2016年以来，美国、加拿大和英国三国政府对人工智能和机器学习相关词汇的提及率不断攀升。在此之前，这三个国家鲜少提及机器学习。以美国为例，美国国会对人工智能和机器学习的提及率在2018年有了显著增长，美国数据中的每项计数代表至少提及过一次机器学习或人工智能的特定事件或对话。
三、核心指标：技术性能
（一）视觉
1、对象检测
ImageNet挑战赛是全球计算机对象检测领域的重要竞赛，能够反映该领域的进展。
从准确度方面看，根据2012-2018年ImageNet2012数据集的测试和验证结果，对象检测领域的性能不断提升，测试集和验证集准确度都已达到95%以上。
从训练时间看，2017年6月至2018年11月间，训练对象检测人工神经网络所需的时间已从1小时缩短至4分钟左右，训练速度提高了约16倍。其中，算法创新、基础设施投资是训练时间缩短的主要原因。
2、实例对象分割
由于对象检测与图像分类领域已经实现了较高性能，ImageNet挑战赛已宣告结束。自2017年来，研究者开始将研究重点转向需要更复杂推理的视觉任务，如定位像素级精度的对象（实例对象分割）、将场景划分为具有像素级精度的区域（语义分割）等。COCO挑战赛是全球实例对象分割的重要竞赛，其宗旨是构建一种可精确定位各对象并描绘其边界的算法。自2015年以来，COCO挑战赛中达到的最高平均精度提高了0.2个百分点。
（二）语言
1、句法分析
句法分析往往是进行某些自然语言处理任务的第一个步骤。目前几乎普遍使用深度学习技术进行句法分析。2003至2018年间，句法分析的性能提高了约10％。
2、机器翻译
目前，机器翻译的性能有大幅提升。2018年，BLEU模型在英语译德语方面的得分比2008年提高3.5倍，而在德语译英语方面的得分比2008年提高2.5倍。
3、回答问题
AI2推理挑战赛（ARC）。AI2推理挑战数据集包含7787个小学水平（美国3-9年级）的多项选择题，这些问题可分为挑战题集（2590个问题）和简易题集（5197个问题）。2018年4月至11月期间，AI2推理挑战赛中的简易题集性能得分由63％提升至69％，挑战题集得分由27％提升至42％。
用语言理解评估（GLUE）。通用语言理解评估基准是一项新基准，旨在通过一系列任务测试自然语言理解（NLU）系统，并促进非特定任务系统的开发。该基准由九项子任务组成：两项单句任务（衡量语言可接受性和情绪），三项相似性与释义任务，以及四项自然语言推理任务。语料库大小从1000到400000不等。评估标准主要有准确度/F1和Matthews相关性系数。尽管评估基准于2018年5月发布，但到2018年10月，性能已经由最初公布基线（约70%）提高至约80%。
四、其他指标：衍生指标
第一项衍生指标是学术界-行业界动态，该指标可体现所选学术指标以及行业界动态的增长情况。第二项衍生指标是人工智能活力指数，该指标是学术指标和行业指标的综合体现。
1、学术界-行业界动态
为探索学术界与行业界人工智能相关活动之间的关系，本报告首先从上述章节中选取了一些有代表性的衡量指标，其中包括斯高帕斯数据库中人工智能论文的发表量、美国几所大学入门级人工智能和机器学习课程的综合注册人数以及对人工智能初创企业的风险投资。这些指标体现的表征量无法直接进行对比。为分析各趋势之间的关系，本报告规范了从2010年开始使用的衡量指标，并显示了各指标的增长情况，而非绝对数量。
2、人工智能活力指数
人工智能活力指数是学术界-行业界三个衡量指标（论文发表量、课程注册人数和风险投资）的综合体现，本报告利用该指数衡量人工智能领域的活力。人工智能活力指数主要受风险投资的影响，因为相对于其他两项指标，风险投资增幅最大。
五、不足之处
为进一步改进人工智能指数报告，三位人工智能领域专家建议加入新的要素和信息。
（一）常识推理与自然语言理解
IBM和意大利帕多瓦大学的弗朗西斯卡·罗西（Francesca Rossi）指出，深刻的自然语言理解以及常识推理能力仍然是挑战所在，这两项能力的衡量指标有助于推动人工智能系统对话能力以及其他方面的发展。因此，人工智能指数报告中可以添加一些指标来跟踪与这些能力相关的测试和挑战赛的进展，如威诺格拉德模式挑战赛、AI2的Aristo项目等。此外，如通过人工智能增强人类智能，而非取代人类智能，那么非常重要的一点应是从人机对抗环境向人机合作环境转变。因此，报告中可增加非自主系统数量这一指标，以显示人机合作方面的进展。
（二）带有人工智能组件的机器人
麻省理工学院的罗德尼·布鲁克斯（Rodney Brooks）希望进一步改善机器人出货量指标。机器人出货量指标的有效性取决于信息源，然而许多信息源提供的工业机器人出货量中仅含有极少的（甚至根本没有）人工智能组件，这就使得机器人出货量指标难以衡量人工智能的真实进展。此外，也可着眼于带有人工智能组件的机器人，如无人机、家庭机器人等。
（三）政府支出与军事应用
悉尼威尔士大学和柏林工业大学的托比·沃尔什（Toby Walsh）指出，近两年，人工智能领域的最大进展之一可能是政府和行业投资的增加。他建议：一方面增加衡量投资增长的量化指标，通过相关指标对各国投资进行有效分析，可以衡量人工智能研发重点的转移情况。另一方面，人工智能的军事应用备受关注，可增加可衡量各国军方对人工智能技术的开发和采用情况的指标。（译自：The AI Index 2018 Annual Report,December 2018 by MIT,Stanford University,OpenAI，有删节）