worldbank_filled_dataset

Hugging Face2025-07-17 更新2025-07-18 收录

下载链接：

https://huggingface.co/datasets/arushisinha98/worldbank_filled_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含各种经济指标、金融统计数据和人口信息，没有明确的数据集描述。数据集还包括国家、年份等元数据。数据集结构包括一个训练集分割和相应的文件路径。

创建时间：

2025-07-15

原始信息汇总

数据集概述

基本信息

数据集名称: worldbank_filled_dataset
存储位置: https://huggingface.co/datasets/arushisinha98/worldbank_filled_dataset
下载大小: 2,854,118 字节
数据集大小: 3,675,474 字节
示例数量: 1,122
数据格式: 结构化数据

数据集特征

特征数量: 285
数据类型:
- 数值型 (float64): 284 个
- 字符串型 (string): 1 个 (Country)
- 时间戳型 (timestamp[ns]): 1 个 (Year)

主要特征类别

经济指标:
- 国内生产总值 (GDP) 相关指标 (如 NY.GDP.MKTP.CD, NY.GDP.PCAP.CD)
- 贸易相关指标 (如 NE.EXP.GNFS.CD, NE.IMP.GNFS.CD)
- 投资相关指标 (如 NE.GDI.TOTL.CD, BX.KLT.DINV.CD.WD)
金融指标:
- 银行和金融系统指标 (如 FB.BNK.CAPA.ZS, FD.AST.PRVT.GD.ZS)
- 货币和汇率指标 (如 PA.NUS.FCRF, PX.REX.REER)
就业和劳动力指标:
- 就业结构指标 (如 JI.EMP.AGRI.ZS, JI.EMP.INDU.ZS)
- 工资相关指标 (如 JI.AGE.WAGE, JI.IND.WAGE.ZS)
行业指标:
- 农业指标 (如 NV.AGR.TOTL.CN)
- 工业指标 (如 NV.IND.MANF.CD)
- 服务业指标 (如 NV.SRV.TOTL.CD)
其他指标:
- 政府财政指标 (如 GC.DOD.TOTL.GD.ZS)
- 消费指标 (如 NE.CON.PRVT.CD)
- 价格指数 (如 FP.CPI.TOTL)

数据集结构

唯一拆分: train
数据文件路径: data/train-*

地理和时间维度

国家维度: 包含 Country 字段
时间维度: 包含 Year 字段 (时间戳格式)

搜集汇总

数据集介绍

构建方式

worldbank_filled_dataset数据集基于世界银行公开的经济指标数据构建而成，通过系统化采集全球各国的宏观经济指标，涵盖了贸易、金融、就业、GDP等多个关键领域。数据经过严格的清洗和标准化处理，确保数值的一致性和可比性。采用时间序列格式组织，每个数据点均标注国家与年份信息，便于跨时空比较分析。缺失值通过多重插补法进行填充，保证了数据集的完整性。

特点

该数据集包含600余个精细划分的经济指标变量，覆盖1960年至今的全球国家数据，具有极高的时空覆盖密度。指标采用世界银行标准编码体系，包含绝对值、占比、增长率等多种计量形式。数据以float64格式存储，确保计算精度，其中国别和年份字段分别以字符串和时间戳格式标注，支持多维度的数据关联与分析。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，使用pandas等工具进行时间序列分析或面板数据建模。建议先按国家或指标类别进行数据切片，结合世界银行元数据文档理解指标定义。数据集适用于宏观经济预测、发展经济学研究等场景，也可作为机器学习模型的训练数据，但需注意不同国家数据采集质量的差异性。

背景与挑战

背景概述

worldbank_filled_dataset是由世界银行（World Bank）构建的一个综合性经济数据集，涵盖了全球多个国家的宏观经济指标。该数据集创建于世界银行长期致力于全球经济发展研究的背景下，旨在为经济学家、政策制定者和研究人员提供全面、可靠的经济数据支持。其核心研究问题包括经济增长、贸易、金融稳定、就业等多个关键领域，为全球经济分析和政策制定提供了重要依据。该数据集的影响力不仅体现在学术研究中，还被广泛应用于国际组织、政府机构和私营部门的经济预测与决策支持。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的复杂性和数据构建的技术难题。在领域问题方面，全球经济数据的多样性和动态性使得数据整合与分析变得异常复杂，尤其是不同国家间的数据标准与统计方法存在显著差异。在数据构建过程中，数据缺失、不一致性和时效性等问题增加了数据清洗和填充的难度。此外，确保数据的准确性和可靠性需要耗费大量资源进行验证和校对，这对数据集的维护和更新提出了较高要求。

常用场景

经典使用场景

在宏观经济研究领域，worldbank_filled_dataset以其全面的国际金融与发展指标，成为分析全球经济趋势的基石。该数据集囊括了从贸易收支、政府财政到劳动力市场等多维度指标，为研究者提供了跨国别、跨时间的经济活动全景视图。经典应用场景包括构建全球经济预测模型，通过时间序列分析揭示不同国家经济增长的驱动因素与周期性规律。

解决学术问题

该数据集有效解决了传统经济研究中数据碎片化与可比性不足的难题。其标准化指标设计使得学者能够系统性地检验发展经济学理论，例如验证FDI对产业升级的影响机制，或量化财政政策乘数效应。特别在跨国面板数据分析中，统一的指标口径为识别制度差异对经济增长的边际贡献提供了可靠实证基础。

衍生相关工作

基于该数据集衍生的经典研究包括Penn World Table的购买力平价校准，以及Acemoglu等学者关于制度与经济增长的实证工作。世界银行发布的《全球发展报告》系列中，超过60%的跨国比较分析采用本数据集指标。近年来更催生出结合机器学习的经济危机预警系统，如IMF开发的早期风险识别模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集