electricsheepafrica/africa-world-bank-combined-indicators-for-eswatini
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-combined-indicators-for-eswatini
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 10K<n<100K
source_datasets:
- original
task_categories:
- tabular-classification
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- agriculture-livestock
- aid-effectiveness
- climate-weather
- development
- economics
- education
- energy
- environment
- swz
pretty_name: "Eswatini - Economic, Social, Environmental, Health, Education, Development and Energy"
dataset_info:
splits:
- name: train
num_examples: 45481
- name: test
num_examples: 11370
---
# Eswatini - Economic, Social, Environmental, Health, Education, Development and Energy
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-combined-indicators-for-eswatini) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/) covering the following topics which also exist as individual datasets on HDX: [Agriculture and Rural Development](https://data.humdata.org/dataset/world-bank-agriculture-and-rural-development-indicators-for-eswatini), [Aid Effectiveness](https://data.humdata.org/dataset/world-bank-aid-effectiveness-indicators-for-eswatini), [Economy and Growth](https://data.humdata.org/dataset/world-bank-economy-and-growth-indicators-for-eswatini), [Education](https://data.humdata.org/dataset/world-bank-education-indicators-for-eswatini), [Energy and Mining](https://data.humdata.org/dataset/world-bank-energy-and-mining-indicators-for-eswatini), [Environment](https://data.humdata.org/dataset/world-bank-environment-indicators-for-eswatini), [Financial Sector](https://data.humdata.org/dataset/world-bank-financial-sector-indicators-for-eswatini), [Health](https://data.humdata.org/dataset/world-bank-health-indicators-for-eswatini), [Infrastructure](https://data.humdata.org/dataset/world-bank-infrastructure-indicators-for-eswatini), [Social Protection and Labor](https://data.humdata.org/dataset/world-bank-social-protection-and-labor-indicators-for-eswatini), [Poverty](https://data.humdata.org/dataset/world-bank-poverty-indicators-for-eswatini), [Private Sector](https://data.humdata.org/dataset/world-bank-private-sector-indicators-for-eswatini), [Public Sector](https://data.humdata.org/dataset/world-bank-public-sector-indicators-for-eswatini), [Science and Technology](https://data.humdata.org/dataset/world-bank-science-and-technology-indicators-for-eswatini), [Social Development](https://data.humdata.org/dataset/world-bank-social-development-indicators-for-eswatini), [Urban Development](https://data.humdata.org/dataset/world-bank-urban-development-indicators-for-eswatini), [Gender](https://data.humdata.org/dataset/world-bank-gender-indicators-for-eswatini), [Millenium development goals](https://data.humdata.org/dataset/world-bank-millenium-development-goals-indicators-for-eswatini), [Climate Change](https://data.humdata.org/dataset/world-bank-climate-change-indicators-for-eswatini), [External Debt](https://data.humdata.org/dataset/world-bank-external-debt-indicators-for-eswatini), [Trade](https://data.humdata.org/dataset/world-bank-trade-indicators-for-eswatini).
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **SWZ**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Public health |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 56,852 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 45,481 rows |
| **Test split** | 11,370 rows |
| **Geographic scope** | SWZ |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (Eswatini), `country_iso3` (SWZ), `year` (range 1960.0–2025.0).
**Outcome / Measurement** — `value` (range -7859805600.0–89003550000.0).
**Identifier / Metadata** — `indicator_name` (Domestic credit to private sector (% of GDP), Net migration, Population ages 0-14, total), `indicator_code` (SM.POP.NETM, NY.TAX.NIND.CN, SP.POP.2529.MA.5Y), `esa_source` (HDX), `esa_processed` (2026-04-10).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-combined-indicators-for-eswatini")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | Eswatini |
| `country_iso3` | object | 0.0% | SWZ |
| `year` | int64 | 0.0% | 1960.0 – 2025.0 (mean 1999.5279) |
| `indicator_name` | object | 0.0% | Domestic credit to private sector (% of GDP), Net migration, Population ages 0-14, total |
| `indicator_code` | object | 0.0% | SM.POP.NETM, NY.TAX.NIND.CN, SP.POP.2529.MA.5Y |
| `value` | float64 | 0.0% | -7859805600.0 – 89003550000.0 (mean 484626916.0744) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-10 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1960.0 | 2025.0 | 1999.5279 | 2002.0 |
| `value` | -7859805600.0 | 89003550000.0 | 484626916.0744 | 47.1661 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. 16,354 exact duplicate rows were removed. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-combined-indicators-for-eswatini) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_combined_indicators_for_eswatini,
title = {Eswatini - Economic, Social, Environmental, Health, Education, Development and Energy},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-combined-indicators-for-eswatini},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源于世界银行集团官方数据门户,经人道主义数据交换平台(HDX)整合后,由Electric Sheep Africa团队精心梳理并转换为机器学习就绪的Parquet格式。构建过程中,原始数据通过CKAN API获取,依次执行了列名小写化与蛇形命名规范统一、常见缺失值标记(如N/A、null等)标准化为NaN、以及精确去重(剔除16,354行重复记录)等清洗工序。最终,数据集以固定随机种子(42)按80/20比例划分为训练集(45,481行)与测试集(11,370行),并采用Snappy压缩Parquet格式存储,兼顾了存储效率与加载速度。
特点
此数据集聚焦于斯威士兰(Eswatini)一国,囊括农业、教育、能源、环境、健康、经济发展等二十余个主题领域的世界银行综合指标,时间跨度从1960年至2025年,覆盖长达65年的发展轨迹。其独特之处在于以国家层级聚合观测单位,包含8个字段,其中2个为数值型(年份与指标值),6个为分类型,整体数据量达56,852行。指标值范围从-78.6亿至890.0亿不等,反映了该国经济与社会发展进程中波动剧烈的多维面相,为区域国别研究提供了丰富的时间序列基础。
使用方法
使用者可通过Hugging Face Datasets库无缝加载该数据集,仅需一行代码即可获取训练与测试分割,并便捷转换为Pandas DataFrame进行深入分析。数据集适用于表格分类任务,可基于年份、指标名称与国家代码等特征,构建预测模型以探究斯威士兰各发展领域的演变规律。此外,其标准化的列结构与清晰的模式定义(包含列名、类型及缺失值比例)使得数据探索与特征工程流畅高效。用户亦可回溯至HDX原始页面,参详世界银行官方的方法论说明,以确保分析的科学严谨性。
背景与挑战
背景概述
在非洲大陆的发展进程中,数据驱动决策对于应对复杂的社会经济挑战至关重要。由世界银行集团于2026年发布的非洲世界银行综合指标数据集(Eswatini版),由Electric Sheep Africa团队精心整理并托管于HuggingFace平台,旨在为机器学习研究提供一个全面、统一的国家级指标集合。该数据集涵盖了农业、教育、能源、健康、气候变化等20多个领域的宏观数据,聚焦于斯威士兰(SWZ)这一地理单元,时间跨度从1960年至2025年,总计超过5.6万条记录。其核心研究问题在于如何通过整合官方统计指标,构建一个可用于分类与预测任务的标准化数据资源,从而推动非洲地区的发展分析与政策评估。该数据集的出现,为研究者提供了从原始多源异构数据到机器学习就绪格式的桥梁,在非洲数据基础设施建设中具有开创性意义。
当前挑战
该数据集所解决的领域问题在于,非洲地区长期面临数据碎片化、格式不统一和指标定义不一致的困境,阻碍了跨领域分析与预测模型的构建。原始数据来自世界银行多个独立主题指标集,整合过程中需处理数值范围差异巨大(从负数十亿到正数百亿)、不同指标间的计量单位混杂等挑战,给模型泛化带来显著压力。在构建过程中,团队面临多重技术难题:首先,需通过CKAN API从HDX平台下载原始数据并转为Parquet格式;其次,需统一缺失值标记,将16种常见符号标准化为NaN;再者,需删除1.6万余条精确重复行;最后,按80/20比例划分训练集与测试集。此外,数据未经独立验证,自动化清洗无法修正原始收集中的报告误差或采样偏差,这进一步加剧了数据质量的不确定性。
常用场景
经典使用场景
在非洲区域发展研究领域,africa-world-bank-combined-indicators-for-eswatini数据集以其涵盖经济、社会、环境、健康、教育、能源等二十余个维度的综合指标,成为经典的多标签时序分类与回归任务基准。研究者常利用该数据集训练模型以预测斯威士兰国家层面的发展态势,例如基于历史年份的农业与农村发展指标、教育经费占比、医疗卫生支出等特征,建模预测未来的经济增长或贫困率变化。该数据集不仅提供了从1960年至2025年的长时序观测,还整合了世界银行官方发布的标准化指标代码,使得跨指标的比较分析与机器学习特征工程得以顺畅进行。其在HuggingFace上的结构化Parquet格式与预设的train/test划分,大幅降低了数据预处理门槛,成为非洲国别发展量化研究的理想起点。
解决学术问题
该数据集直面非洲小国发展研究中长期存在的数据碎片化与口径不一致问题。通过统一聚合世界银行覆盖斯威士兰的二十一个主题指标,它为学者提供了一套完整、可复现的时间序列数据,从而支撑了多项关键学术探索:其一,揭示农业、教育、健康与经济增长之间的动态耦合关系,尤其是验证人力资本投资对长期发展的驱动效应;其二,评估气候与环境变化对农业产出和贫困率的量化影响,填补了区域模型校验的基础数据空白;其三,为开发适用于低资源国家的数据插补与预测算法提供真实基准,推动统计学习方法在欠完备数据场景下的鲁棒性研究。这一数据整合显著降低了学术研究的数据获取成本,提升了成果的可比较性与可验证性。
衍生相关工作
该数据集衍生了一系列具有影响力的后续工作。研究社区基于其综合指标,构建了针对斯威士兰的经济发展预测模型与教育健康联动分析框架。此外,Electric Sheep Africa团队以本数据集为原型,推广了面向非洲各国世界银行指标的标准化处理流水线(Parquet格式、缺失值统一、固定随机种子划分),催生了横跨多个非洲国家的平行数据集。在方法论层面,部分学者利用该数据集的长时序、多指标特性,开发了适用于高维稀疏时序数据的特征选择算法与多任务学习模型。这些衍生工作不仅丰富了非洲发展研究的方法工具箱,也促进了世界银行官方数据与机器学习社区之间的桥梁建设,使得结构化公共数据不再是纯粹的统计资料,而成为可驱动预测与解释的算法输入。
以上内容由遇见数据集搜集并总结生成



