electricsheepafrica/africa-world-bank-trade-indicators-for-south-sudan
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-trade-indicators-for-south-sudan
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- n<1K
source_datasets:
- original
task_categories:
- tabular-classification
- tabular-regression
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- indicators
- trade
- ssd
pretty_name: "South Sudan - Trade"
dataset_info:
splits:
- name: train
num_examples: 585
- name: test
num_examples: 146
---
# South Sudan - Trade
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-trade-indicators-for-south-sudan) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-south-sudan) on HDX.
Trade is a key means to fight poverty and achieve the Millennium Development Goals, specifically by improving developing country access to markets, and supporting a rules based, predictable trading system. In cooperation with other international development partners, the World Bank launched the Transparency in Trade Initiative to provide free and easy access to data on country-specific trade policies.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **SSD**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Poverty and economic vulnerability |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 732 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 585 rows |
| **Test split** | 146 rows |
| **Geographic scope** | SSD |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (South Sudan), `country_iso3` (SSD), `year` (range 2007.0–2024.0).
**Outcome / Measurement** — `value` (range -5772963152.5424–38657622781.0504).
**Identifier / Metadata** — `indicator_name` (Merchandise imports from low- and middle-income economies outside region (% of total merchandise imports), Merchandise imports from low- and middle-income economies in East Asia & Pacific (% of total merchandise imports), Merchandise exports by the reporting economy (current US$)), `indicator_code` (TM.VAL.MRCH.OR.ZS, TM.VAL.MRCH.R1.ZS, TX.VAL.MRCH.WL.CD), `esa_source` (HDX), `esa_processed` (2026-04-10).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-trade-indicators-for-south-sudan")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | South Sudan |
| `country_iso3` | object | 0.0% | SSD |
| `year` | int64 | 0.0% | 2007.0 – 2024.0 (mean 2017.25) |
| `indicator_name` | object | 0.0% | Merchandise imports from low- and middle-income economies outside region (% of total merchandise imports), Merchandise imports from low- and middle-income economies in East Asia & Pacific (% of total merchandise imports), Merchandise exports by the reporting economy (current US$) |
| `indicator_code` | object | 0.0% | TM.VAL.MRCH.OR.ZS, TM.VAL.MRCH.R1.ZS, TX.VAL.MRCH.WL.CD |
| `value` | float64 | 0.0% | -5772963152.5424 – 38657622781.0504 (mean 998632640.0456) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-10 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 2007.0 | 2024.0 | 2017.25 | 2017.0 |
| `value` | -5772963152.5424 | 38657622781.0504 | 998632640.0456 | 37.8557 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-trade-indicators-for-south-sudan) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_trade_indicators_for_south_sudan,
title = {South Sudan - Trade},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-trade-indicators-for-south-sudan},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在贸易经济学领域,数据质量直接影响政策分析与模型预测的可靠性。本数据集源自世界银行集团发布的原始贸易指标,通过人道主义数据交换平台获取,并由Electric Sheep Africa团队进行系统化处理。原始数据经由CKAN API下载后,经过列名标准化与缺失值统一清洗,转换为Parquet格式以提升存储与读取效率。为确保机器学习任务的可复现性,数据按80:20比例使用固定随机种子划分为训练集与测试集,最终形成包含732条国家层面聚合记录的结构化表格。
特点
该数据集聚焦于南苏丹的贸易动态,涵盖2007年至2024年的年度观测,体现了时间序列与横截面数据的结合。其核心特征在于整合了多维贸易指标,包括商品进出口金额及其区域占比,同时通过标准化编码确保指标的可追溯性。数据规模精炼,共包含8个变量,其中数值型与分类型变量分布均衡,且无缺失值,为经济建模提供了洁净的基础。地理范围严格限定于南苏丹,使得分析能够深入揭示单一经济体的贸易演变轨迹。
使用方法
在应用层面,该数据集适用于监督学习任务,如基于历史指标的贸易趋势回归预测或经济状态分类。用户可通过Hugging Face的datasets库直接加载,并利用Pandas进行进一步的数据探索与特征工程。典型工作流程包括划分训练测试集、构建时序特征以及评估模型在未见数据上的泛化能力。研究者应结合世界银行的方法论说明,审慎解释指标定义,并注意原始数据可能存在的报告偏差,以确保分析结论的稳健性。
背景与挑战
背景概述
在全球化与经济发展研究领域,贸易数据作为衡量国家经济健康状况与对外联系的关键指标,长期受到国际组织与学术界的重视。世界银行集团作为全球发展数据的重要提供者,于2026年发布了针对南苏丹的贸易指标数据集,旨在通过透明化贸易政策数据,支持减贫与千年发展目标的实现。该数据集由Electric Sheep Africa机构进行机器学习友好型整理,涵盖了2007年至2024年的国家层面聚合数据,核心研究问题聚焦于南苏丹的贸易结构、区域经济联系及其发展轨迹,为非洲经济脆弱性分析与政策评估提供了实证基础。
当前挑战
该数据集所针对的领域问题在于如何从有限的贸易指标中解析南苏丹的经济脆弱性与发展潜力,挑战体现在数据的高维度稀疏性、指标间的复杂相关性以及小样本环境下模型的泛化能力。在构建过程中,原始数据来源于世界银行,虽经自动化清洗与格式统一,但仍面临原始数据报告不一致、定义差异以及潜在采样偏差等固有局限,这些因素可能影响后续机器学习模型在分类与回归任务中的准确性与可靠性。
常用场景
经典使用场景
在非洲经济与发展研究领域,该数据集为南苏丹的贸易指标提供了结构化时序数据,涵盖2007年至2024年的国家层面聚合信息。其经典使用场景聚焦于机器学习模型的训练与评估,特别是针对表格分类与回归任务。研究人员常利用该数据集构建预测模型,分析南苏丹与低收入及中等收入经济体之间的贸易依存度,或预测其商品出口价值的动态变化。通过标准化的训练与测试划分,该数据集支持监督学习流程,为经济指标的时序预测与模式识别提供基准。
解决学术问题
该数据集主要解决了发展经济学与国际贸易研究中的若干关键问题。通过提供南苏丹的详细贸易指标,它助力学者探究贸易开放度与贫困缓解之间的关联,验证千年发展目标中市场准入政策的实际成效。数据集中的指标如商品进口来源分布与出口价值,为量化分析贸易结构、区域经济一体化程度以及外部冲击的传导机制提供了实证基础。其意义在于填补了脆弱国家高频贸易数据的空白,促进了基于证据的政策评估,并推动了透明贸易倡议在学术研究中的落地。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在经济预测模型与区域比较研究。学者们利用其构建了南苏丹贸易流的ARIMA与机器学习预测框架,探究外部经济冲击对脆弱经济体的传导路径。相关研究还扩展到跨非洲国家的贸易指标对比分析,将南苏丹数据与世界银行其他数据集结合,评估区域贸易协定的异质性影响。在方法学层面,该数据集促进了表格数据清洗与特征工程技术的改进,特别是在处理缺失值与标准化经济指标方面,为后续类似发展数据集的机器学习预处理树立了范例。
以上内容由遇见数据集搜集并总结生成



