gobillon17novfig1.png
VoxEU 经济历史 经济研究前沿

(决策)树和(随机)森林:城市经济、历史数据和机器学习

将机器学习应用到丰富的历史数据源中,为城市和空间经济学等领域提供了新的见解。本专栏利用来自法国的证据,展示了如何从历史地图中获得这些信息,从而对城镇和聚集区的增长提供新的认识,并有助于我们理解从社区进化到农业生产力的各种人类行为。

一个新的,蓬勃发展的文献使用历史数据来研究地区,城市和社区的发展。例如,文献对农业生产力对城市增长的作用(Nunn和Qian 2011年)、城市结构的长期决定因素(Brooks和Lutz 2019年)、交通对经济活动空间分布的作用(Donaldson 2018年)或通信在维持贸易中的作用(Steinwender 2018年)提供了新颖的见解。

依靠历史实验来理解活动空间分布的驱动因素,可以用最近图书馆和档案馆对历史文献的系统扫描来解释。一些历史文献,如地图,有可能捕捉到一个城市或国家在很长一段时间内全面、不断变化的形象。然而,扫描文档还不是一个合适的数据存储库,因为它缺乏一致的数据结构,比如标识良好的观察结果、跨数据集的一致标识符或协调的变量。历史数据的数字化,包括对扫描档案中的变量/观察结果进行识别、编码和标记,通常是一项劳动密集型的任务。由于数据的丰富,研究援助的费用有时令人望而却步。在最近的一篇论文(Combes et al. 2020)中,我们认为是时候利用机器学习的最新发展,用基于算法的方法取代劳动密集型方法。

研究主题

城市经济学中有许多研究问题可以从历史档案的系统化数字化中受益,其中特别包括以下四个问题。

首先,农业生产力和城市化之间的关系可能取决于运输成本(Matsuyama 1992)。当这些成本较高时,农业生产率高的地区就会实现城市化——农业生产率高将劳动力释放到制造业和城市。当这些成本较低时,农业生产率高的地区宁愿专门从事农业并出口其农产品,以受益于比较优势。这些地区可能会以较慢的速度增长,因为它们从制造业的集聚经济中获益较少。从历史地图中提取的城市化和交通网络信息将极大地帮助这些文献。

其次,城市结构的长期演变可能揭示塑造城市土地使用的潜在力量,例如通勤模式的变化或居住隔离的出现。特别是,蒸汽铁路的发展使得伦敦等大城市的工作和居住分离(Heblich et al. coming-a)。污染制造业的位置和有毒烟雾扩散的主要方向导致了居民的收入排序,这种情况持续了很长一段时间(Heblich et al.来来往往-b)。许多不同的因素可能是这些社区动态的基础——例如,城市居民(包括外来人口)对环境便利设施的关注程度不同,逃离环境便利设施的方式也不同,不同地区的土地成本可能导致工厂越来越多地集中在(更便宜的)低便利设施地区,或者在这些行业工作的人可能想要住在附近,因为缺乏通勤选择,尽管便利设施较差。从城市便利设施的提取、生产单位的地理参考和不同交通方式的数字化中,通勤模式和隔离动态的分析将获得巨大的收益。虽然主要的数据来源是历史地图,但居民和公司的信息也可以从人口普查记录的编码或(通常是手稿)贸易目录中检索。

第三,有趣的是,越来越多的文献利用古代历史的考古信息来研究贸易和通信对经济活动的影响。Barjamovic等人(2019)提取亚述商人写在泥板上的行政和商业信息,以确定城市之间的经济互动结构。他们利用推断出的重力结构来预测失落城市的位置。更系统地使用青铜时代的手稿记录可能涉及字符识别和文本分析算法,两者都基于机器学习的最新发展。

最后,另一篇越来越多的文献研究了大规模移民时代的工人跨空间流动、其决定因素及其长期影响(Boustan et al. 2010)。要查明这种流动,就必须利用历史档案,例如人口普查、征兵名单、移民卡和船舶旅客到达名单。主要的挑战是将各个人口普查记录之间的观察结果或与其他来源联系起来,以研究国家内部和国家之间的流动。基于一组不变的特征,机器学习可以用于识别人口普查中的个体。这是一个机器学习算法已经实现的研究领域,最显著的是1850年以后的美国数据(Abramitzky等人,2019年)。

如何将地图转化为数据

地图是高度无组织信息的集合,其中不规则的文字、符号、线条或彩色表面必须被解释并转换为数据。有些地图特征可能会使这种转换变得复杂,例如原始地图的损坏、地图贴图的不完美连接、信息覆盖、符号的微小变化或使用相同颜色绘制不同物体。

我们在这里使用了一系列彩色地图的数字化——“Etat-Major”地图,大约在1860年,覆盖了法国的领土——来说明视觉识别中经常使用的一种方法的力量,称为“随机森林”,它是决策树的(随机)集合。目标是跨预定义类别(例如,建成区、森林、田野、水域)对构成每个地图贴图的大量图像像素进行标记,以便在非常精确的水平上研究土地使用(Gorin等人,2020年)。

随机森林可以直接应用于像素本身。像素也可以被折叠成更大的“超级像素”,作为降低问题维数的初步步骤,并减轻由小尺度噪声(例如,由于轮廓水平或书写)引起的测量误差。当感兴趣的对象很大(例如字段)时,这种转换尤其相关。Quickshift算法允许将像素分组为形状不规则但颜色相同的超级像素,如图1所示。

图1原始地图(左面板)和超像素(右面板)

随机森林过程需要一个训练集,即一组手工分类和标记的像素。训练集不需要很大(几百万个观察值),可能只代表最终要分类的像素的一小部分(几十亿个)。一个决策树由一系列连续的像素二叉分割组成。每次分割都是基于在像素特征中选择的一个变量(至少是它们的RGB颜色带,但也包括,例如,这些颜色带的局部变化,称为“纹理变量”),以及选择的一个阈值,以最小化两个结果组中的异质性。当最终组被认为足够同质时——例如,它们由具有相同土地用途的像素组成——每个决策树就会停止。随机森林是决策树的(随机)集合——每棵树被训练/校准的观察结果只是整个训练集的随机子样本,用于每次分裂的变量是随机绘制的。对于一个给定的像素,土地利用类别的预测被选择为所有决策树(构成随机森林)的主要预测。预测的准确性来自于使用大量不同的树,即使每个树都在少量像素上进行校准。

图2和图3说明了在像素级提取建成区(见图2)和使用超像素进行更详尽的土地使用分类(见图3)时这种程序的输出。这种程序的一个优点是它只需要一个小的训练集。在最初标记的像素集中,验证样本可以从适当的训练集中分离出来,并且可以在这样的验证样本上验证预测。准确率似乎非常高。

图2里昂原始地图(左图)和建成区(右图)

图3图卢兹郊区原始地图(左图)和土地分类(右图)

该程序的输出可以用来更好地理解城市的长期增长。基于de Bellefon等人(2020)开发的统计工具来确定城市边界,图4展示了1860年至2015年期间法国南部大城市马赛周围的城市发展情况。这个数字突出了两个老生常谈的事实:(1)小城市消失了;(2)更大的城市发展起来,有时会把以前的邻近城市吸收成一个大都市。

图4 1860年(左图)至2015年(右图)马赛周边城市发展情况

前面的例子说明了机器学习方法在彩色图案的视觉识别和随后用于研究城市化的能力。另一个挑战在于通过物体的形状或周围环境来识别物体,比如当试图识别建筑物与道路或农田的对比时,或者当试图识别文本时。神经网络——通常被称为深度学习——是强大的工具(Combes等人,2020年)。这些方法对于抄写手稿文件或普查记录也非常有效,而且也可以跨这些来源链接单个条目(见Abramitzky等人2019年)。

参考文献

Abramitzky, R, L Platt Boustan, K Eriksson, J J Feigenbaum,和S Pérez(2019),“历史数据的自动链接”,NBER工作文件no. 1。25825.

Barjamovic, G, T Chaney, K Cosar和A Hortacsu(2019),《贸易、商人和青铜时代失落的城市》,经济学季刊134(3): 1455 - 1503。

王晓明、李晓明、李晓明(2010),“经济大萧条时期美国城市内部移民对当地劳动力市场的影响”,《经济研究》第4期,第7 - 9页。

布鲁克斯、L和B卢茨(2019),“交通的遗迹:微观尺度下的城市持久性”,《经济与统计评论》101(3):385-399。

康贝斯,P-P, L Gobillon和Y Zylberberg(2020),“历史视角下的城市经济学:用机器学习恢复数据”,CEPR讨论文件15308。

唐纳森,D(2018),“印度铁路:评估交通基础设施的影响”,《美国经济评论》108(4-5):899-934。

Gorin, C, P-P Combes, G Duranton和L Gobillon(2020年),“通过机器学习从历史地图中获取土地使用”,正在进行的工作(油印正在进行中)。

Heblich, S, S J Redding, D M Sturm(即将出版),《现代大都市的形成:来自伦敦的证据》,《经济学季刊》。

希布里希、崔、齐尔伯格(即将出版),“东区故事:历史上的污染与持续的社区分类”,《政治经济杂志》。

松山(1992),“农业生产率、比较优势与经济增长”,《经济研究》第58卷第2期:317-334。

钱n、Nunn(2011),“马铃薯对人口和城市化的贡献:来自历史实验的证据”,《经济研究》第126卷第2期:593-650。

C .(2018),“信息摩擦的真实效应:当国家和王国变得统一”,《美国经济评论》第108期第3期:657-96。

2122年读

Baidu
map