africa-world-bank-trade-indicators-for-tunisia
收藏Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-world-bank-trade-indicators-for-tunisia
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为“突尼斯 - 贸易”,包含世界银行数据门户提供的突尼斯贸易指标数据,旨在通过提供国家层面的贸易政策数据,支持对抗贫困和实现千年发展目标。数据集由Electric Sheep Africa整理为适合机器学习的格式,包含5,763条记录,分为4,610条训练数据和1,152条测试数据。每条记录代表国家层面的汇总数据,包含8个字段(2个数值型,6个类别型),涵盖地理信息(国家名称、ISO3代码、年份)、贸易指标名称与代码、数值测量值等。数据集适用于表格分类和回归任务,特别关注贫困和经济脆弱性领域。数据最后更新于2026年3月27日,覆盖时间范围为1960年至2024年。使用该数据集时需注意,原始数据未经独立验证,可能存在报告错误或定义不一致的情况。
创建时间:
2026-04-13
原始信息汇总
数据集概述
基本信息
- 数据集名称:Tunisia - Trade
- 发布者:World Bank Group
- 数据来源:HDX (https://data.humdata.org/dataset/world-bank-trade-indicators-for-tunisia)
- 许可证:cc-by-4.0
- 语言:英语
- 多语言性:单语
- 数据规模:1K<n<10K
- 任务类别:表格分类、表格回归
- 标签:africa, humanitarian, hdx, electric-sheep-africa, indicators, trade, tun
- 最后更新:2026-03-27 (HDX)
- 数据处理时间:2026-04-13 (ESA)
数据集特征
- 领域:贫困与经济脆弱性
- 观察单位:国家层面汇总数据
- 总行数:5,763
- 列数:8 (2个数值型,6个分类型,0个日期时间型)
- 训练集:4,610行
- 测试集:1,152行
- 地理范围:TUN (突尼斯)
变量说明
- 地理变量:
country_name:国家名称 (Tunisia)country_iso3:国家ISO3代码 (TUN)year:年份 (范围:1960.0–2024.0)
- 结果/测量变量:
value:数值 (范围:-10598412183.1808–43696489232.0153)
- 标识符/元数据变量:
indicator_name:指标名称 (商品进口额(现价美元)、商品出口额(现价美元)、报告经济体商品进口额残差(占商品进口总额百分比))indicator_code:指标代码 (TM.VAL.MRCH.CD.WT, TX.VAL.MRCH.CD.WT, TM.VAL.MRCH.RS.ZS)esa_source:数据来源 (HDX)esa_processed:数据处理日期 (2026-04-13)
数据模式
| 列名 | 类型 | 空值比例 | 范围/示例值 |
|---|---|---|---|
country_name |
object | 0.0% | Tunisia |
country_iso3 |
object | 0.0% | TUN |
year |
int64 | 0.0% | 1960.0 – 2024.0 (均值 1997.0241) |
indicator_name |
object | 0.0% | Merchandise imports (current US$), Merchandise exports (current US$), Merchandise imports by the reporting economy, residual (% of total merchandise imports) |
indicator_code |
object | 0.0% | TM.VAL.MRCH.CD.WT, TX.VAL.MRCH.CD.WT, TM.VAL.MRCH.RS.ZS |
value |
float64 | 0.0% | -10598412183.1808 – 43696489232.0153 (均值 1594066064.2555) |
esa_source |
object | 0.0% | HDX |
esa_processed |
object | 0.0% | 2026-04-13 |
数值摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
year |
1960.0 | 2024.0 | 1997.0241 | 1999.0 |
value |
-10598412183.1808 | 43696489232.0153 | 1594066064.2555 | 20.7709 |
数据处理
- 原始数据通过CKAN API从HDX下载并转换为Parquet格式。
- 列名被转换为小写并标准化为snake_case。
- 常见的缺失值标记(
N/A,null,none,-,unknown,no data,#N/A)被统一为NaN。 - 数据集使用固定随机种子(42)按80/20的比例划分为训练集和测试集,并保存为Snappy压缩的Parquet文件。
使用说明
python from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-trade-indicators-for-tunisia") train = ds["train"].to_pandas() test = ds["test"].to_pandas()
print(train.shape) train.head()
局限性
- 数据来源于世界银行集团,未经ESA独立验证。
- 自动清洗无法纠正原始收集中误报的值、定义不一致或抽样偏差。
- 有关发布者自身的方法说明和注意事项,请参考原始HDX数据集页面 (https://data.humdata.org/dataset/world-bank-trade-indicators-for-tunisia)。
引用
bibtex @dataset{hdx_africa_world_bank_trade_indicators_for_tunisia, title = {Tunisia - Trade}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-trade-indicators-for-tunisia}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
在贸易经济学领域,数据集的构建往往依赖于权威国际机构发布的宏观经济指标。本数据集源自世界银行集团的数据门户,通过人道主义数据交换平台获取原始资料,并由Electric Sheep Africa团队进行系统化整理。构建过程涉及从HDX平台经由CKAN API下载原始数据,随后进行格式转换与标准化处理,包括将列名统一为蛇形命名法,并将各类缺失值标记规范为NaN值。最终,数据被划分为训练集与测试集,以80/20的比例分配,并存储为Snappy压缩的Parquet格式,确保了数据的机器学习可用性与高效访问。
特点
该数据集聚焦于突尼斯的贸易指标,涵盖了自1960年至2024年的国家层面聚合数据,总计包含5,763条观测记录。其核心特征体现在数据结构的简洁性与完整性上,仅包含8个变量,其中2个为数值型,6个为分类型,且无一缺失值,保证了分析的可靠性。数据集具体囊括了商品进出口额等关键贸易指标,数值范围广泛,从负值到数百亿美元,反映了不同时期经济活动的波动。地理范围严格限定于突尼斯,为单位国家的时间序列分析提供了高度集中的样本,适用于探究贸易模式与经济发展的长期关联。
使用方法
在应用机器学习方法研究经济发展问题时,本数据集为回归与分类任务提供了结构化输入。使用者可通过Hugging Face的datasets库直接加载数据,便捷地转换为Pandas DataFrame以进行后续分析。数据已预分为训练集与测试集,便于直接投入模型训练与评估流程。典型应用场景包括基于历史年份与指标代码预测贸易价值,或对贸易指标类别进行分类。研究者需注意,数据源自世界银行的原始报告,在使用时应参考其方法论说明,并理解自动化清洗过程未修正原始数据可能存在的报告偏差或定义不一致问题。
背景与挑战
背景概述
该数据集由世界银行集团发布,并由Electric Sheep Africa于2026年重新整理为机器学习就绪格式,聚焦于突尼斯的贸易指标分析。作为全球发展数据基础设施的重要组成部分,该数据集旨在通过提供国家层面的贸易政策透明度,支持减贫与千年发展目标的实现。其核心研究问题在于量化并监测突尼斯自1960年至2024年间的商品进出口动态,为经济脆弱性与发展政策评估提供实证基础。该数据集不仅丰富了非洲区域经济研究的微观数据资源,也为机器学习在宏观经济预测与政策模拟领域的应用开辟了新的路径。
当前挑战
该数据集致力于解决贸易政策透明度与经济发展关联性量化分析的挑战,具体涉及如何从高维时序数据中提取有效的经济预测特征,并应对指标定义不一致与数据报告偏差所带来的建模复杂性。在构建过程中,挑战主要源于原始数据源的异构性,包括缺失值标记的标准化、数值范围的极端波动处理,以及跨年份指标可比性的维护。此外,自动化清洗流程难以纠正原始数据收集中的系统性误差,这要求研究者在应用时需结合领域知识进行谨慎的验证与解释。
常用场景
经典使用场景
在经济学与发展研究领域,贸易数据是分析国家经济动态与全球化参与度的核心要素。该数据集以突尼斯为案例,系统收录了自1960年至2024年间多项关键贸易指标,如商品进出口额及其占比。研究者通常利用此类结构化时序数据,构建回归模型或时间序列分析框架,以量化贸易流量与宏观经济变量(如GDP增长、汇率波动)之间的关联性,进而评估贸易开放度对经济发展的长期影响。
衍生相关工作
围绕该数据集衍生的经典工作多聚焦于经济预测与政策模拟领域。例如,研究者常将其与劳动力市场、外国直接投资等面板数据融合,构建突尼斯经济结构的多方程模型。亦有学者利用机器学习方法,如梯度提升树或长短期记忆网络,基于历史贸易序列预测未来进出口波动。这些工作不仅深化了对北非经济体转型的理解,也为数据驱动的可持续发展研究设立了方法论范例。
数据集最近研究
最新研究方向
在贸易经济学与机器学习交叉领域,突尼斯世界银行贸易指标数据集正推动前沿探索。研究者借助时序预测模型,分析该国自1960年以来的商品进出口动态,以揭示全球化背景下北非经济体的贸易脆弱性与韧性。结合气候变化与地缘政治事件,学者们运用因果推断方法评估外部冲击对贸易流量的影响,为可持续发展目标中的减贫策略提供数据驱动洞见。该数据集亦被整合入多国对比研究,通过迁移学习技术探究区域贸易协定的异质性效应,助力构建更精准的宏观经济预警系统。
以上内容由遇见数据集搜集并总结生成



