VoxEU列金融市场生产力和创新

机器学习在信贷市场的影响

2019年1月11日

使用机器学习在信贷分配应该允许银行更好的提供信贷,但从传统的机器学习贷款模式的转变可能会对消费者重要的分配效应。本专栏研究机器学习的效果在美国抵押贷款。发现机器学习种族将提供更低的利率已经处于一个优势在传统模式下,但它也将从中受益弱势群体通过使他们在第一时间获得抵押贷款。

作者

最近的许多成功的机器学习和人工智能已经由技术的快速发展从大量的数据做出准确的预测。一般来说,在这样的监督学习问题,一个算法训练向量的特性(例如,医学扫描的像素),用它来产生一个分类(例如,是否扫描显示肿瘤的存在)。其他著名的商业例子是有针对性的在线广告,使用过去的消费行为来预测未来的购买决定,在信贷市场和承销,特性,如申请人的收入和信用记录是用来预测违约的可能性。Agarwal et al。(2018)提供了一个良好的调查这些和类似的应用程序。

决策依据算法预测可以有正面和负面的影响个人消费者的福利。信贷市场是一个典型的例子,考虑一个假设的消费者,在信贷检查机器学习算法的引入,将提供抵押贷款处理5%的利率。如果银行开始使用一种预测算法,改变消费者的分类从高度信誉卓著的信誉,消费者可以完全排除在抵押贷款市场或提供一个更高的利率。相反,消费者以前排除在抵押贷款市场可能提供抵押贷款如果算法学习,他们比此前认为的“真正的”信用风险较低。

这个简单的例子突出了一个更深层次的问题与机器学习技术的广泛采用,即采用可以有如此重要的分配结果。人工智能的影响的讨论日益关心的问题技术的快速增长会促进还是使不平等(例如奥尼尔2016)。1信用检查的情况下,如果新算法一致价格弱势种族的成员,然后决策者可能认为任何预测效率提升他们创造更重要的光。

在最近的一篇论文(柱身et al . 2018年),我们研究机器学习对信贷市场的影响。我们构建简单的理论框架,以更好地理解所涉及的问题,和经验估计可能影响使用大量的管理数据集从美国抵押贷款市场,包括大约1000万抵押贷款在2009年和2013年之间。在此设置,我们比较的预测假定银行将在使用传统统计数据(如标准Logit模型)对那些在使用监督机器学习技术,如随机森林和XGBoost。

图1中,从我们的论文,显示了我们的第一个关键结果。在横轴上的变化日志违约概率预测当银行从传统的预测技术(“分对数”分类器)机器学习技术(“随机森林分类器)。纵轴是借款人的累计份额从每个种族经验给定水平的变化。

图1赢家和输家machine-learned信贷分配

借款人左边的固体垂直线代表“赢家”列为风险更小的更复杂的算法比传统的模型。读出累积分享这条线,我们看到,大约65%的非西班牙裔白人和亚洲借款人赢,而大约50%的黑人和西班牙裔借款人。总结,我们发现新技术的益处是倾斜的种族已经享有优势,而弱势群体不太可能受益的数据集。

重要的是要注意,这个结果并不产生于任何非法歧视。在我们的设置和评价,所有算法严格遵守当前美国法律的信。特别是,没有一个这些预测的变量作为输入敏感等比赛的借款人。相反,新技术带来的不平等影响使用的高度非线性组合变量,如借款人的收入、信用评分和贷款价值比率。

那么驱动这些跨种族不平等的影响?其中一个原因可能是高度非线性的组合允许变量(如收入、信用评分和贷款与估值比率)受雇于机器学习算法本质上代表,或由三角形组成的,借款人的竞赛。这将允许算法捕捉种族之间的关系,并预测违约但没有直接的方式规避了监管——包括竞赛模式。另一个原因可能是,由于历史不公或否则,某些种族团体往往允许变量的组合(如收入或财富)真正的预测的默认的方式是独立的种族。一个算法,能够识别这些的组合允许变量会损害少数民族由于其灵活性,而不是由于三角。理清这些不同来源的不平等似乎有效的政策制定的关键。

图2不平等的原因machine-learned信贷分配

图2显示了一个分解,检查是否不平等影响检测是由三角测量,或新技术的灵活性。到达这些数字,我们遵循一个两步的思想实验。在第一步中,我们以Logit模型只包含允许变量,然后增加这个简单的模型来“看”竞赛作为解释变量。在第二步中,我们估计Logit模型明确包括借款人的竞赛,增强其灵活性,通过改变估计技术从简单分对数到更复杂的随机森林。

显然,这两个步骤应该提高预测精度。三离开酒吧在图2中显示的百分比的总根据三种不同的普遍采用样本外预测改进,性能指标——这是实现(即第一步。,增加简单的模型通过增加借款人的种族)。如果新技术的影响主要是由三角测量,然后大部分的性能改进将来自这一步,即这个数字将接近100%。相反,我们发现它是低于10%,表明三角不是极大地重要,而改善灵活性主要负责效果如图1所示。(在这个练习的顺序分解显然是重要但不影响我们的定性结果。)

我们更进一步,使用预测违约概率评估银行使用新旧技术如何治疗不同借款人处于平衡状态。我们发现图1中的不平等的影响强烈反映在银行的决定在密集的优势,也就是说,它们影响的利率向借款人获得抵押贷款。然而,在广泛的利润率——即当决定是否授予借款人的抵押贷款弱势群体——机器学习的好处。

总之,我们的研究采取了第一步的深入了解问题新的机器学习技术的广泛采用。在美国抵押贷款市场,这是最大和最重要的一个家庭信贷市场,我们发现对不平等的影响确实是有效的。我们还发现,这种影响的主要来源是机器学习技术的提高灵活性,而不是不允许的信息,比如种族的三角测量。或许更重要的是,然而,我们制定一个框架,用于评估和分解等效果,可以应用超出了我们的数据集。

我们希望我们的研究结果将为进一步的工作提供动力,尤其是在规范性的问题应该如何规范使用机器学习算法中存在的不平等分配的后果。这些问题可能会保持在机器学习研究的前沿和经济在不久的将来。