VoxEU列经济研究前沿生产力与创新

人工智能时代的数据超级力量:研究议程

10月23日

要求监管大型科技公司的呼声越来越高。本专栏认为，应该通过对人工智能发展的影响来评估政策建议。它提出了一个整体框架，包括消费者对数据的控制、产品市场竞争、创新激励以及对国际贸易的影响。它还突显了大型科技公司所扮演的角色，以及数据和人工智能垄断的威胁。

保罗Ciocca

专员commission one Nazionale per le Società e la Borsa

在发达经济体，谷歌、亚马逊、Facebook和苹果(以下统称为“GAFA”)等大型科技公司正受到当局和公众越来越多的审查。就像许多不同行业的企业巨头一样，GAFA因滥用市场权力和逃税而受到指责。它们还招致了针对特定行业的新指控，从无视用户隐私，到无意中参与颠覆民主的企图。

到目前为止，政策制定者已经分别解决了每个问题。例如，在大多数经合组织(OECD)国家，隐私问题被定义为纯粹的消费者保护问题，而非竞争性租金的个别案例则被标准的反垄断工具处理。但这种细分的方法可能不是最优的，因为大型科技公司带来的问题是相互关联的。

市场效率、消费者保护和信息的公平获取——仅举几个主要问题——都是一个故事的互补方面，围绕着人工智能(AI)作为通用技术的出现(Trajtenberg 2018)。从长远来看，问题是:谁将拥有人工智能?

N-faced市场

GAFA有时被表示为双边平台，即在具有跨网络外部性的市场中，通过促进两组代理之间的交易获得收入的公司。至少对其中一个群体来说，中介的价值取决于另一个群体的规模。

双边市场通常表现出不对称的价格结构(Rochet和Tirole 2003)——平台在价格更敏感的一方以低于成本的价格出售，以扩大网络，并通过向另一方收取由此产生的外部性价值来抵消损失(Evans和Schmalensee 2007, Rysman 2009)。一个典型的例子是报纸，广告商补贴读者。

事实上，如果GAFA只是双边市场的中间人，就没有必要进行监管创新。他们对从用户收集的信息的处理应受普通数据和消费者保护规则的约束，任何涉嫌反竞争的行为都应根据普通的反垄断类别进行分析，并进行修订，以考虑到跨网络外部性(Evans和Schmalensee, 2014年)。

除了GAFA看起来更像一个n面骰子(有一个坚实的AI核心)，而不是一个双面平台。它们同时活跃在大量市场上，远远超出了原来的旗舰产品和服务。亚马逊先是在电子商务领域占据主导地位，现在又在云计算和数字家庭助理的开发方面处于领先地位。与以生产电脑起家的苹果公司(Apple)一样，该公司正在向医疗保健领域扩张。Facebook最出名的是社交网络和即时通讯，但它也非常擅长识别图像，并为信用评分方法申请了专利。谷歌最初是一个搜索引擎，但今天Gmail和谷歌地图无处不在，Duplex系统可以模拟电话通话。

GAFA运营的一些市场是双向的——社交平台和搜索引擎都是用户的一方，广告商的另一方，价格结构预期是不对称的。其他市场，比如云存储，是一边倒的。然而，所有N面的关键特征是，它们可以作为大量用户提供数据的入口点;从应用程序到可穿戴设备，所有提供的产品都包含AI组件，其性能取决于这些数据。

此外，人工智能之间也会相互作用。嵌入搜索引擎的人工智能可以通过处理数以百万计的用户查询来学习自然语言，然后将其传递给另一个旨在自动回复电子邮件的人工智能;双边市场中的跨网络外部性与整个生态系统中的跨产品外部性相辅相成。GAFA意识到这种影响的重要性，正在将大量资源投入人工智能开发。

一个全视AI?

虽然估计人工智能对生产率增长的总贡献并不容易，尤其是在技术仍在成熟的情况下(Brynjolfsson等人，2017年)，但投资者相信算法是有希望的。根据斯坦福大学的研究2017人工智能指数报告(Shoham et al. 2017)，在美国，自2000年以来，对人工智能初创公司的风险投资增长了6倍;现在，它占到了年度风险投资总额的4-6%。在商业应用方面取得了显著成果，但在医疗诊断等可能与人类福祉更密切相关的领域也取得了显著成果(Brynjolfsson和Mitchell 2017)。

原则上，政策制定者应该欢迎这样一个事实:一些以高水平人力资本闻名的全球最大企业，正在努力进行可能促进经济和社会进步的创新。但他们也应该警惕垄断风险。

算法已经知道如何自主高效地执行特定任务并将其例程化;这有时被称为“窄AI”。它最成功的化身是机器学习，一种模式识别的统计策略(Cockburn et al. 2018)。人工通用智能——即类似于人类思维的计算机智能，具有先进的灵活性和发明能力——还不是我们日常生活的一部分;尽管如此，研究仍在取得进展，人工智能正在学习如何自我改进和处理抽象概念。

目前，数据饥渴算法占主导地位。机器学习工具，如深度神经网络和支持向量机，本质上是巨大的非参数分类器;因此，他们受到计量经济学家所熟悉的“维度诅咒”的影响(例如Pagan和Ullah 1999)。为了提供可靠的见解，它们需要在非常大的数据集上进行估计(或者用机器学习的说法是“训练”)，并在更大的数据集上进行验证。少数公司对某些类型大数据的独家所有权可能会构成进入基于人工智能服务市场的障碍(Rubinfeld和Gal 2017, Rogoff 2018)，其中交易的对象通常是由估计模型提供的预测(Agrawal等人，2018)。

随着机器不断改进符号表示的能力，数据的可用性可能不再像今天这样对增长至关重要。然而，今天拥有最好的ai仍可能在未来创造最好的ai时巩固竞争优势。考虑到人工智能可能朝着群体智能模型(例如Bonabeau et al. 1999)发展，这一点尤其相关，在这种模型中，具有互补能力的算法自组织合作，创造了事实上的集体思维。如果这一过程不受约束，网络效应的规模可能会使先行者受益，其程度与任何市场竞争力都不相容。

人工智能的垄断，鉴于其潜在的普遍性，可能会从产品市场溢出到敏感的非经济领域——比如政治信息——这在今天可能是无法想象的。

研究挑战

为了理解在人工智能时代是否应该监管数据超级大国，以及如何监管，需要一个统一的框架。一项研究议程，理想情况下是将经济学家、科学家和法律专家聚集在一起，至少必须包括三个核心部分:

1)数据产权和数据可交易性的一般理论。

能够让人工智能为GAFA盈利的信息主要是由人类在在线时产生的，但对于应该规定什么可以提供以及在什么条件下提供的规则，人们没有达成共识。是否所有数据都可以拥有和交易，是否有例外(欧洲数据保护监督员2017年)?假设存在可以拥有的数据，数据主体是否总是拥有它们而不依赖于它们是如何生成的，还是它们有时属于收集者?从一条明显具有货币价值的信息，到只有在聚合后才有利可图的信息，在连续统一体中，数据提供者和收集者应该如何分享数据带来的收益?谁拥有算法产生的洞察力?在什么情况下可以免费提供数据?

直观地说，消费废气(如在线购物时执行的搜索查询)、用户故意提供的内容(如平台上共享的视频)，以及通过重复任务(如为照片贴标签，对贴标签者没有个人意义)明确为机器学习目的产生的数据之间存在差异。只有在后者的情况下，一个透明的市场才会发展起来，就像亚马逊机械土耳其人的例子一样。这种设置是最佳的吗?或者GAFA是从一个关键的信息不对称(用户无法估计他们提供的数据的价值)中提取租金?如果用户有一种协调他们的数据提供决策的方法，均衡看起来会不同吗?

对产权的理解对有意避免人工智能垄断的政策制定者的可用选项具有影响。如果在一个极端情况下，数据提供被视为劳动力(Lanier 2013, Posner和Weyl 2018)，那么目标是将GAFA的劳动力寡头垄断转变为一个竞争市场，从而最终也减少人工智能产品寡头垄断中的非竞争性租金。

另一方面，如果数据只是另一种商品，但人工智能的发展仍然是社会所希望的，那么监管机构应该确保较小的公司拥有足够的高质量信息，能够与大公司有效竞争，并且科学研究不会完全变成依赖私人数据集的营利性活动。在英国，政府最近委托的一份报告建议创建有公共担保的私人数据信托(Hall and Pesenti 2017);在法国的国家人工智能战略中，有一个选项是在公共利益领域实施数据开放(Villani 2018)。

2)收集和分析经验证据，说明哪些数据的可用性如何在开发哪些应用程序时具有竞争优势。

如果不知道让人工智能变得更好的重要因素是什么，就很难量化跨网络和跨产品的外部性。这可能会导致低效的监管决策，比如要求GAFA共享与人工智能改进无关的数据。

这个问题是一个更大的黑箱问题的一部分。在参数设置中，预测通常是可以解释的——例如，回归系数显示给定自变量的变化对结果的影响是积极的还是消极的，以及影响的程度。个体预测因子对模型整体拟合的贡献可以用方差分解技术进行评估(尽管有时不完全)。作为一般规则，至少就目前而言，人工智能模型的结果不能以同样的方式解读——计算复杂性太高，无法隔离单一变量的影响。

大量资源被用于解决人工智能的可解释性(Gunning 2017)，也是在围绕算法偏见的道德担忧(Boddington 2017)之后;如果我们不知道计算机是如何做出决定的，我们就无法阻止它们根据种族来评估信誉。在数据集多样性和消除变量选择中的人为偏差方面已经取得了进展——然而，关于测量变量显著性的见解仍然很少。

最近，有几篇论文在一定程度上绕过了这个问题，方法是将黑盒作为已知条件，而不是试图撬开它，并研究它的存在对结果的影响;除其他外，Schaefer等人(2018)量化了搜索引擎可用的用户历史记录长度如何影响搜索结果的点击率。虽然不能取代解释性研究，但这方面的更多工作仍然是有用的。

3)分析大型科技公司的监管将如何影响人工智能的国际贸易。

GAFA在世界上并不孤单。中国拥有自己的数据超级大国，在人工智能开发方面投入了大量资金:搜索引擎百度、电子商务巨头阿里巴巴和多功能社交平台腾讯(以下简称“BAT”)。目前，在最大的市场中，重叠很少;GAFA在经合组织中占主导地位，而BAT在中国处于领先地位。然而，“分区化”可能正在迅速消失。

一方面，英美烟草正加紧向发达经济体渗透——迄今为止，它们受到纯粹经济层面的竞争劣势和国家安全保障措施的共同阻碍。前者可能不会无限期地持续下去，后者可能不会在所有地方以同样的方式演变——在美国，与中国在贸易问题上的政治摩擦加剧，可能会产生更多限制，但其他经合组织成员国可能会采取不同的立场。

另一方面，拥有精通技术的年轻中产阶级的新兴国家对基于人工智能的服务的需求正在增长。印度和印度尼西亚的人口加起来有16亿，正成为GAFA-BAT的主要战场;非洲大陆可能很快也会效仿。

随着数据和人工智能市场的开放，旨在遏制GAFA权力的政策的出台将如何影响经合组织国家的社会福利?如果BAT因此获得更多的市场份额，GAFA主场的消费者可能会享受到竞争加剧带来的积极影响，比如更低的价格和更好的商品和服务质量，但可能会面临对数据控制减弱带来的负面影响(有关中国在线隐私的复杂政治，请参阅Chorzempa等人，2018)。

更重要的是，由于网络效应和规模经济的增强，人工智能垄断的风险在全球市场中变得更糟。如果GAFA被国内政策削弱，而中国不采取行动遏制自己的庞然大物，我们可能仍然会看到一个无所不在的人工智能，只不过它对人-机-政府关系的理解可能反映出不同于自由民主国家普遍存在的价值观。

这种设想并不牵强。中国计划到2025年成为全球人工智能领导者(中华人民共和国国务院2017);BAT有助于实现这一目标;中国当局将指导他们的努力，监督他们的进展，并可能试图盗用他们的部分(如果不是大部分)数据和结果。那么，边境后政策选择对国际竞争力的影响是什么(Goldfarb and Trefler 2018)?换句话说，经合组织的政策制定者应该做些什么，才能最大限度地提高国内的效率和创新，而不是把全球人工智能的垄断拱手让给中国?中国与经合组织是否有联合开发人工智能的空间?在哪些条件下?是否存在贸易限制的理由?如果有，是哪些理由?在非军事部门中，是否有些领域(比如金融科技)比其他领域更敏感?

一个值得探索的想法是，在上面概述的群体智能假设的基础上，建立一个由多个利益相关者开发和拥有的合作人工智能网络。这个网络能比由单一实体管理的综合生态系统表现得更好吗?是否可以引入防止知识和权力集中的技术机制(Buterin和Weyl 2018)?根据治理规则的失效保护程度，以及在政治上被认为是可取的，这种机制可以在多公司环境中实现全球合作，也可以在分散的国家冠军企业中实现权力。在这两种情况下，垄断风险都可能降低。

作者注:本文仅代表个人观点，不代表意大利央行、彼得森国际经济研究所或Consob的观点。我们要感谢里卡多-克里斯托多罗，马里奥-拉塞蒂，格萨-萨皮和乔瓦尼-维罗内塞对早期草案的评论。