five

imputed-worldbank

收藏
Hugging Face2025-08-05 更新2025-08-06 收录
下载链接:
https://huggingface.co/datasets/arushisinha98/imputed-worldbank
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个主要配置:'developed'和'emerging'。每个配置都有一系列特征和数据类型,以及数据集分割信息。特征包括各种经济和金融指标,分割信息包括训练集的示例数量和文件大小。数据集还包含关于下载大小和总数据集大小的元数据。
创建时间:
2025-08-04
原始信息汇总

数据集概述

基本信息

  • 数据集名称: imputed-worldbank
  • 来源: Hugging Face (https://huggingface.co/datasets/arushisinha98/imputed-worldbank)
  • 配置:
    • developed(发达国家)
    • emerging(新兴国家)

数据集结构

developed(发达国家)

  • 特征数量: 80
  • 关键特征:
    • Country(国家)
    • 经济指标(如GDP、GNI、贸易、投资等)
    • 金融指标(如外汇储备、通货膨胀率等)
    • 日期(Date)
  • 数据量:
    • 训练集样本数: 13,277
    • 训练集大小: 10,566,149字节
    • 下载大小: 1,562,876字节

emerging(新兴国家)

  • 特征数量: 92
  • 关键特征:
    • Country(国家)
    • 经济指标(如GDP、债务、贸易等)
    • 金融指标(如外汇储备、通货膨胀率等)
    • 日期(Date)
  • 数据量:
    • 训练集样本数: 88,961
    • 训练集大小: 94,375,798字节
    • 下载大小: 9,899,060字节

数据特征

developed(发达国家)

  • 主要经济指标:
    • BM.KLT.DINV.CD.WD(外国直接投资)
    • NY.GDP.MKTP.CD(GDP,现价美元)
    • NY.GDP.PCAP.CD(人均GDP,现价美元)
    • NE.EXP.GNFS.CD(商品和服务出口)
    • NE.IMP.GNFS.CD(商品和服务进口)
  • 金融指标:
    • FI.RES.TOTL.CD(总储备)
    • FP.CPI.TOTL(消费者价格指数)
    • GFDD.DI系列(金融发展指标)

emerging(新兴国家)

  • 主要经济指标:
    • BX.KLT.DINV.CD.WD(外国直接投资)
    • NY.GDP.MKTP.CD(GDP,现价美元)
    • NY.GDP.PCAP.CD(人均GDP,现价美元)
    • DT.DOD.DECT.CD(外债总额)
    • NE.EXP.GNFS.CD(商品和服务出口)
  • 金融指标:
    • FI.RES.TOTL.CD(总储备)
    • FP.CPI.TOTL(消费者价格指数)
    • GFDD.DI系列(金融发展指标)

数据用途

  • 经济研究
  • 金融分析
  • 国家间经济比较
  • 时间序列分析
搜集汇总
数据集介绍
main_image_url
构建方式
imputed-worldbank数据集基于世界银行公开经济指标构建,采用先进的数据插补技术处理缺失值,确保时间序列完整性。该数据集分为developed和emerging两个子集,分别收录发达国家和新兴市场国家的宏观经济指标,涵盖GDP构成、贸易收支、政府债务等关键维度。数据经过标准化处理,每个记录包含国家名称、时间戳及78-112个经济指标,形成结构化面板数据。
使用方法
使用该数据集时,可通过HuggingFace接口直接加载developed或emerging配置。数据以pandas.DataFrame格式呈现,支持时间序列操作与面板回归分析。建议先筛选目标国家组和指标类别,利用时间戳字段进行纵向追踪。对于机器学习应用,可将国家字段编码为类别变量,经济指标标准化后输入模型。该数据集尤其适合全球经济预测、发展经济学实证研究等场景。
背景与挑战
背景概述
imputed-worldbank数据集是基于世界银行公开经济指标构建的高维时序数据集,其核心价值在于通过插补技术处理了国际宏观经济数据中普遍存在的缺失值问题。该数据集由经济学与数据科学交叉领域的研究团队创建,旨在解决发展中国家与发达国家经济指标可比性这一经典难题。数据集涵盖GDP构成、国际收支、政府财政等关键维度,其多指标平行时序特性为研究全球经济波动传导机制提供了新的数据支持。
当前挑战
该数据集面临双重挑战:在领域层面,如何通过插补技术保持跨国经济指标的可比性,同时避免引入方法学偏差成为核心难题,特别是当处理高频缺失的脆弱经济体数据时。在构建层面,原始数据存在非随机缺失、指标口径不一致等问题,需开发自适应插补算法以兼容截面与时序特征。此外,新兴市场与发达国家的经济结构差异导致统一插补策略难以平衡各组别数据的保真度。
常用场景
经典使用场景
在宏观经济研究领域,imputed-worldbank数据集以其全面的国家经济指标为特征,成为分析发达国家与新兴市场国家经济动态的基石。该数据集通过整合世界银行的多维度经济数据,如GDP构成、国际贸易、政府财政等核心指标,为研究者提供了跨国比较和时间序列分析的标准化平台。其插补处理技术有效解决了原始数据中的缺失值问题,使得面板数据模型和结构方程建模得以实现。
解决学术问题
该数据集显著缓解了发展经济学中数据不连续性的研究障碍。通过系统性地填补发展中国家常见的统计数据缺口,研究者能够更准确地评估财政政策效应、验证经济增长理论中的收敛假说,以及量化全球化对产业结构的影响。特别是在研究中等收入陷阱和债务可持续性等前沿课题时,其标准化的跨国可比指标为因果推断提供了可靠的数据支撑。
实际应用
国际金融机构运用该数据集进行主权信用评级建模,通过整合各国的债务占比、外汇储备等关键参数,构建风险预警系统。政府部门则利用其区域经济对比功能,制定差异化的贸易政策。在商业领域,跨国企业参考数据集中的消费指数和投资流向指标,优化全球供应链布局和市场进入策略。
数据集最近研究
最新研究方向
在全球化经济格局深度演变的背景下,imputed-worldbank数据集凭借其覆盖发达与新兴经济体的多维宏观经济指标,正成为研究全球经济动态的重要基准。近期研究聚焦于利用该数据集构建高精度经济预测模型,通过整合外商直接投资、政府债务占比等时序特征,探索地缘政治风险对经济增长的传导机制。特别是在新兴市场领域,学者们正基于债务可持续性指标(DT.DOD.DECT.GN.ZS)与外汇储备(FI.RES.TOTL.CD)的关联分析,开发主权信用风险早期预警系统。该数据集在解释全球供应链重构对贸易顺差(NE.TRD.GNFS.ZS)的影响机制方面展现出独特价值,为国际货币基金组织等机构制定政策提供了数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作