VoxEU列经济研究前沿制度与经济学政治与经济

与腐败作斗争的机器

11月27日

人工智能在预防犯罪方面的应用越来越受到研究和政策制定界的关注。本专栏讨论如何利用机器学习来预测意大利的地方腐败。它强调了如何利用这种算法预测为反腐败工作服务，同时保持决策者决策的透明度和问责制。

作者

马可使得

腐败会产生巨大的负面影响。由于贿赂和欺诈，国家和地方政府为商品和服务或投资项目支付了过多的费用(Bosio et al. 2020)，耗尽了有利于增长的支出的公共资源(Baum et al. 2020)。公共部门招聘中的赞助可能会对公共产品的提供产生长期影响(Colonnelli等人，2019年)。另一方面，遏制腐败已被证明能有效重振私营部门发展(Giannetti等人，2017年)。

一个存在腐败问题的国家

透明国际根据专家和商界人士对180个国家的公共部门腐败程度进行了反向排名，根据该指数，意大利在2019年排名第51位，远远落后于德国(第9位)、法国(第23位)和西班牙(第30位)虽然有组织犯罪传统上与韩国有关，但腐败最近转移到了朝鲜，这既是因为有组织犯罪从非法活动转变为“正常”的创业业务，也是由于政治机构中任人唯亲和贪污的紧急情况。正如2014年至2019年担任意大利反腐败局总统的Raffaele Cantone所说:“腐败在意大利普遍存在，是其发展的最大障碍之一，不仅在民事方面，而且在社会和经济方面。根据不同地区的特点，确定最容易发生腐败的地区，并起草一份意大利贿赂地图，这是打击腐败的一个重要工具。”

算法

这样的地图是如何绘制的呢?在我们最近的论文(de Blasio et al. 2020)中，我们展示了如何利用机器学习(ML)算法来预测地方一级腐败犯罪的发生。我们的主要目的是记录这些数据驱动工具的潜力，以支持和改善反腐败政策的针对性。关于会计欺诈，近藤等人(2020)提出了类似的练习。

利用内政部的档案，我们应用ML来预测意大利刑法分类的白领犯罪，其中包括腐败、欺诈和共谋。我们观察到(截至2014年)每个城市和年份的白领犯罪数量，但犯罪的经济价值和涉及的人数都是未知的。图1显示了2012年腐败事件增加的城市地图。

图12012年意大利各地的腐败事件有所增加

笔记:∆WC犯罪率是一个二元变量，如果白领犯罪率(即每1000名居民的白领犯罪数量)较前一年(黄色)有所增加，则为1，否则为0(绿色)。

有了大量2011年的市级特征，我们在2011-2012年期间的数据上训练和测试我们的算法。然后，我们使用2012年至2014年的数据来评估预测的准确性。我们提出的基于分类树的结果(hasttie et al. 2009)表明，即使是一个简单的算法也可以实现较高的样本外预测精度。例如，我们正确地确定了大约80%的城市将经历腐败犯罪的增长。

如图2所示，预测取决于几个变量的值，主要包括当地劳动力和住房市场的特征。例如，该算法预测，在人口超过7361人、流动性占比高于38%、建筑平均面积小于106平方米、废弃建筑占比大于1.2%的城市，白领犯罪将会增加。

图2分类树为白领犯罪的增加

意大利法律190/2012提供了一个评估ML算法在打击腐败方面的潜在收益的基准，“预防和镇压公共行政中的腐败和违法行为的规则”，非正式地称为“Legge Severino”(来自当时的司法部长的名字)。这部法律引入了新的和更严格的标准来打击腐败。例如，它扩大了腐败的定义，并提高了公共部门工作人员的透明度和信息披露要求。除了这些适用于整个意大利公共行政的一般规定之外，该法律还规定了一些额外的限制，涉及向前几年担任过政治责任的人指派公共行政指导职务的可能性。在地方一级，这些限制性更强的规定只适用于人口超过1.5万的城市。

排除较小城市的理由是，与监管相关的成本可能比较小城市的相关收益要大，因为这些城市的白领犯罪案件很少。较小的城市获得的公共资源也较少，这使得它们在原则上较少受到腐败风险的影响。根据De Angelis等人(2020)的发现，至少在意大利南部，第190/2012号法律似乎产生了积极的影响，2012年之后，拥有超过15,000名居民的城市与欧盟地区转移有关的腐败事件减少了。

表1比较了ML算法与反腐阈值的预测结果。后者在腐败犯罪没有增加的城市中表现出色，因为其中94.5%属于低于分界线的城市。相反，在犯罪率上升的城市中，只有45.6%的城市落在了分界线以上，因此陷入了更严厉的反腐网中。对于经历增长的城市，ML预测做得更好，并捕获了所有增长的城市的80%。

然而，在目前的情况下，很难想象法律会将城市的识别委托给一种算法。更现实的是，ML预测可用于优先考虑实地的反腐败工作，例如与警方调查相关的工作，排除那些预计不会经历腐败事件增加的人口超过1.5万的城市。

表1ML预测和反腐门槛

透明度和偏见

即使没有强大的统计背景，我们的分类树也是直观且易于理解的(参见图2)。这使得它在一个假设的场景中具有吸引力，即可以使用一种算法来决定应用某些法律规定的领域。显然，仅基于单一阈值的机制，如190/2012号法律所设想的机制，更容易理解。然而，支持一棵树而不是单一的基于人口的阈值规则的成本可能不会那么大:基于决策树的预测可以提高发现“腐败”市政当局的效率，而人口阈值没有这样一个健全的基础。因此，复杂性的增加可以被证明是合理的，并作为服务于公共目标的必要进行沟通。

同样与透明度相关的是，ML方法可以突出有兴趣打击腐败的当局应该采取的目标。因此，他们还可以提供其他附加目标(所谓的“被忽略的收益”;见Kleinberg et al. 2018)在这种公共决策中发挥作用。例如，腐败的政客可能合谋命令警方在远离特定地点的地方进行调查。有一个ML预测地图，可以很容易地与警方实际行动的地区进行比较，可能会揭示这类事件。

ML文献的一个重要焦点是其潜在的偏见。假设我们的数据受到污染，因为腐败事件在某些社区更有可能被报告，例如在社会资本较高的城市(Putnam 1993)。如果是这样的话，那么ML的预测也很可能是有偏见的，社会资本禀赋较高的城市最有可能被归类为经历腐败增加的城市。然而，我们使用了一个在许多可观察指标上人为平衡的样本，这一事实可能意味着我们的结果较少受到这种偏差的影响。无论如何，污染问题都没有简单的解决办法。Kleinberg等人(2020)认为，使用数据驱动的方法，而不是非定量方法，可以确保在这方面取得更大进展。

作者注:本文仅代表作者个人观点，并不代表其所在机构。