Dataset of historical GDP per capita estimates
收藏arXiv2025-05-14 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.09399v1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集利用机器学习方法,通过历史人物出生地、死亡地和职业数据,估计了欧洲和北美数十个国家和数百个地区在过去700年的GDP人均值。数据集涵盖了从1300年到2000年的50年间隔的数据,并使用2011年美元购买力平价(PPP)作为单位。这些估计值与历史收入水平的相关性高达90%,并通过与其他经济产出代理变量的比较得到了外部验证。数据集的创建旨在解决历史GDP人均值数据稀缺的问题,为长期经济增长和发展研究提供更多数据支持。
This dataset employs machine learning techniques to estimate per capita GDP for dozens of countries and hundreds of regions across Europe and North America over the past 700 years, utilizing data on historical individuals' birthplaces, places of death, and occupations. The dataset includes observations at 50-year intervals spanning from 1300 to 2000, with all values denominated in 2011 U.S. dollars adjusted for purchasing power parity (PPP). These estimates exhibit a correlation coefficient of up to 90% with observed historical income levels, and have been externally validated via comparisons with other proxy variables for economic output. This dataset was developed to mitigate the scarcity of available historical per capita GDP data, thereby providing enhanced data support for research on long-term economic growth and development.
提供机构:
Center for Collective Learning, ANITI, IRIT, Université de Toulouse, Toulouse, France; EcoAustria – Institute for Economic Research, Vienna, Austria; Faculty of Economics, University Ss. Cyril and Methodius, Skopje, North Macedonia; Center for Collective Learning, CIAS, Corvinus University, Budapest, Hungary; Toulouse School of Economics, Université de Toulouse, Toulouse, France
创建时间:
2025-05-14
搜集汇总
数据集介绍

构建方式
该数据集通过机器学习方法,结合历史人物的出生地、死亡地和职业等传记数据,构建了一个弹性网络回归模型,用于估计过去700年欧洲和北美数十个国家和数百个地区的GDP人均水平。模型采用了特征选择和样本外估计技术,解释了已知历史收入水平90%的方差。此外,数据集还通过城市化率、身高、福祉和教堂建设活动等四个经济产出代理指标进行了外部验证。
特点
该数据集的特点在于其广泛的时间和地理覆盖范围,涵盖了从1300年到2000年的数据,并以50年为间隔进行记录。数据集中包含了1,336个GDP人均观测值,并提供了4,364个样本外估计值。数据集还提供了90%的置信区间,增强了数据的可靠性。此外,数据集通过多个代理指标验证了其估计的准确性,展示了其在经济历史研究中的重要价值。
使用方法
该数据集的使用方法包括利用弹性网络回归模型进行特征选择和GDP人均估计。研究人员可以通过该数据集探索长期经济增长和发展的模式,比较不同地区和国家的经济表现。数据集还适用于验证历史经济理论,例如大西洋贸易对欧洲经济的影响。此外,数据集的结构化设计使其易于与其他经济指标进行整合和分析,为经济历史研究提供了丰富的资源。
背景与挑战
背景概述
历史人均GDP估计数据集由Philipp Koch、Viktor Stojkoski和César A. Hidalgo等研究人员于近年创建,旨在通过机器学习方法扩充历史人均GDP数据的可用性。该数据集利用历史人物的出生地、死亡地和职业等传记数据,构建弹性网络回归模型,预测欧洲和北美地区过去700年的经济产出水平。这一创新方法不仅填补了传统经济史数据在时间和空间上的空白,还通过外部验证(如城市化率、身高、福祉等指标)证明了其可靠性。该数据集对长期经济增长和发展的研究具有重要影响,为经济史和机器学习交叉领域提供了新的研究工具。
当前挑战
该数据集面临的主要挑战包括:1)领域问题方面,历史GDP数据的稀缺性和不完整性使得模型训练和验证变得复杂,尤其是在缺乏可靠基准数据的时期和地区;2)构建过程中,数据来源(如维基百科)存在偏差,如西方历史人物的过度代表,可能影响模型的泛化能力。此外,传记数据仅包含出生地和死亡地信息,无法全面反映人物的生活轨迹,可能引入噪声。模型还需处理不同时期经济结构的动态变化,如工业革命前后职业与经济增长关系的演变,这对特征选择和模型解释提出了更高要求。
常用场景
经典使用场景
历史人均GDP估算数据集在经济学和历史学研究中扮演着重要角色,特别是在探讨长期经济增长和发展的模式时。该数据集通过机器学习方法,利用历史人物的出生地、死亡地和职业等传记数据,重建了过去700年欧洲和北美数十个国家和地区的人均GDP估算。这一方法不仅填补了历史经济数据的空白,还为研究经济变迁提供了新的视角。
衍生相关工作
该数据集衍生了许多相关研究,特别是在经济复杂性和历史经济地理领域。例如,研究者利用该数据集进一步探讨了经济复杂性指数(ECI)与历史经济增长的关系,或者分析了历史人物迁移与经济集聚的关联。此外,该数据集还为研究宗教改革对经济的影响、城市化与经济发展的关系等经典问题提供了新的数据支持。
数据集最近研究
最新研究方向
近年来,历史人均GDP估算数据集的研究方向主要集中在利用机器学习技术填补历史经济数据的空白。通过分析数十万历史人物的出生地、死亡地和职业等传记数据,研究者构建了弹性网络回归模型,成功预测了欧洲和北美地区过去700年的历史人均GDP水平,解释了90%的已知历史收入水平的方差。这一方法不仅显著扩展了历史经济数据的覆盖范围,还为研究长期经济增长和发展提供了新的视角。此外,该数据集的研究还揭示了欧洲历史上著名的“小分歧”现象,即英格兰和低地国家在1300年至1800年间经历了比南欧国家更快的经济增长,这一现象在很大程度上是由大西洋贸易的兴起驱动的。这些研究成果不仅验证了细粒度传记数据在历史经济估算中的有效性,还为利用结构化历史数据估算长期经济时间序列开辟了新途径。
相关研究论文
- 1Augmenting the availability of historical GDP per capita estimates through machine learningCenter for Collective Learning, ANITI, IRIT, Université de Toulouse, Toulouse, France; EcoAustria – Institute for Economic Research, Vienna, Austria; Faculty of Economics, University Ss. Cyril and Methodius, Skopje, North Macedonia; Center for Collective Learning, CIAS, Corvinus University, Budapest, Hungary; Toulouse School of Economics, Université de Toulouse, Toulouse, France · 2025年
以上内容由遇见数据集搜集并总结生成



