electricsheepafrica/africa-world-bank-millenium-development-goals-indicators-for-ghana
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-millenium-development-goals-indicators-for-ghana
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- n<1K
source_datasets:
- original
task_categories:
- tabular-classification
- tabular-regression
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- indicators
- sustainable-development-goals-sdg
- gha
pretty_name: "Ghana - Millenium development goals"
dataset_info:
splits:
- name: train
num_examples: 24
- name: test
num_examples: 6
---
# Ghana - Millenium development goals
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-millenium-development-goals-indicators-for-ghana) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-ghana) on HDX.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GHA**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Humanitarian and development data |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 31 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 24 rows |
| **Test split** | 6 rows |
| **Geographic scope** | GHA |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (Ghana), `country_iso3` (GHA), `year` (range 2000.0–2019.0).
**Outcome / Measurement** — `value` (range 1.0–5964238584.5133).
**Identifier / Metadata** — `indicator_name` (Status under enhanced HIPC initiative, Mosquito net use by children (insecticide-treated net) (% of children under 5): Q1 (lowest), Mosquito net use by children (insecticide-treated net) (% of children under 5): Q5 (highest)), `indicator_code` (DT.HPC.STTS, SH.MLR.NETS.Q1.ZS, SH.MLR.NETS.Q5.ZS), `esa_source` (HDX), `esa_processed` (2026-04-10).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-millenium-development-goals-indicators-for-ghana")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | Ghana |
| `country_iso3` | object | 0.0% | GHA |
| `year` | int64 | 0.0% | 2000.0 – 2019.0 (mean 2009.4194) |
| `indicator_name` | object | 0.0% | Status under enhanced HIPC initiative, Mosquito net use by children (insecticide-treated net) (% of children under 5): Q1 (lowest), Mosquito net use by children (insecticide-treated net) (% of children under 5): Q5 (highest) |
| `indicator_code` | object | 0.0% | DT.HPC.STTS, SH.MLR.NETS.Q1.ZS, SH.MLR.NETS.Q5.ZS |
| `value` | float64 | 0.0% | 1.0 – 5964238584.5133 (mean 384789604.6234) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-10 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 2000.0 | 2019.0 | 2009.4194 | 2009.0 |
| `value` | 1.0 | 5964238584.5133 | 384789604.6234 | 22.2 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-millenium-development-goals-indicators-for-ghana) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_millenium_development_goals_indicators_for_ghana,
title = {Ghana - Millenium development goals},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-millenium-development-goals-indicators-for-ghana},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在人类发展数据领域,该数据集源自世界银行集团的官方数据门户,经由人道主义数据交换平台发布。原始数据通过CKAN应用程序接口获取,随后经历系统的数据清洗与标准化处理,包括统一缺失值标记、转换列名为蛇形命名法,并采用Snappy压缩算法将数据封装为Parquet格式。为确保机器学习任务的可行性,数据集按照固定随机种子以80:20的比例划分为训练集与测试集,最终由Electric Sheep Africa团队完成结构化整理与发布。
特点
该数据集聚焦于加纳的千年发展目标指标,涵盖2000年至2019年的国家层面聚合数据。其核心特征体现在精简而多维的数据结构上,仅包含8个变量,其中既包含地理标识与年份信息,也涵盖了具体的发展指标名称、代码及数值。数据集中数值型变量跨度显著,从微观的百分比指标到宏观的经济规模均有体现,且所有字段均无缺失值,保证了数据的完整性与一致性。这种高度结构化的设计使其能够直接适用于表格分类与回归等机器学习任务。
使用方法
研究者可通过Hugging Face的datasets库便捷加载此数据集,利用Python环境快速导入训练与测试分区。数据以Pandas DataFrame形式呈现后,可直接用于探索性分析或模型构建。鉴于其清晰的模式定义与完整的元数据,用户能够依据指标代码与年份进行时间序列分析或跨指标比较。在应用时,建议参考原始发布方的方法论说明,以充分理解数据背后的收集逻辑与潜在局限,确保分析结论的稳健性。
背景与挑战
背景概述
在全球化与可持续发展议程的背景下,联合国千年发展目标(MDGs)为国际社会提供了衡量发展进程的关键框架。世界银行集团作为全球发展数据的重要提供者,自2000年起系统性地收集并发布了各国在减贫、健康、教育等领域的指标数据。该数据集由Electric Sheep Africa于2026年重新整理并发布,聚焦于加纳的国家级聚合数据,涵盖了2000年至2019年间多个发展指标的观测值。其核心研究问题在于通过量化指标追踪加纳在实现千年发展目标方面的进展,为政策制定者、研究人员及人道主义组织提供了评估发展干预效果的数据基础,对非洲区域的发展研究与政策分析具有显著的参考价值。
当前挑战
该数据集旨在解决发展指标分析与预测中的挑战,特别是如何利用有限的国家级时间序列数据进行可靠的趋势建模与政策评估。数据规模较小,仅包含31条观测记录,这限制了复杂机器学习模型的训练与应用,可能导致过拟合或泛化能力不足。在构建过程中,数据源自世界银行集团的原始收集,存在潜在的报告不一致性、定义差异或抽样偏差,而自动化清洗流程难以纠正这些深层次的数据质量问题。此外,指标覆盖范围相对狭窄,仅涉及少数几个具体领域,可能无法全面反映加纳多维度的社会发展状况,为跨领域综合分析带来局限。
常用场景
经典使用场景
在发展与经济学研究领域,该数据集为分析加纳千年发展目标的进展提供了关键数据支撑。其经典使用场景集中于利用机器学习方法,如表格分类或回归模型,对加纳在2000年至2019年间的发展指标进行建模与预测。研究者通过整合国家层面的聚合数据,能够评估不同发展指标随时间的变化趋势,从而揭示政策干预的效果与经济发展动态。
实际应用
在实际应用中,该数据集被广泛用于人道主义与发展项目的监测与评估。政府机构与非政府组织可依据这些指标数据,优化资源分配,设计针对性的干预措施,例如改善儿童健康项目或债务减免计划。同时,数据支持可持续发展目标的本地化跟踪,帮助决策者识别加纳的发展瓶颈,制定更有效的国家战略,促进社会经济的包容性增长。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在发展指标预测与因果推断领域。例如,学者利用机器学习模型预测加纳的蚊帐使用率趋势,或分析重债穷国倡议对经济指标的影响。这些工作不仅扩展了数据在表格学习中的应用,还促进了跨学科合作,将发展数据与人工智能技术结合,为全球南方国家的政策制定提供了创新见解。
以上内容由遇见数据集搜集并总结生成



