electricsheepafrica/africa-world-bank-health-indicators-for-ghana
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-health-indicators-for-ghana
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 10K<n<100K
source_datasets:
- original
task_categories:
- tabular-classification
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- health
- indicators
- gha
pretty_name: "Ghana - Health"
dataset_info:
splits:
- name: train
num_examples: 8636
- name: test
num_examples: 2159
---
# Ghana - Health
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-health-indicators-for-ghana) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-ghana) on HDX.
Improving health is central to the Millennium Development Goals, and the public sector is the main provider of health care in developing countries. To reduce inequities, many countries have emphasized primary health care, including immunization, sanitation, access to safe drinking water, and safe motherhood initiatives. Data here cover health systems, disease prevention, reproductive health, nutrition, and population dynamics. Data are from the United Nations Population Division, World Health Organization, United Nations Children's Fund, the Joint United Nations Programme on HIV/AIDS, and various other sources.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GHA**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Public health |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 10,796 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 8,636 rows |
| **Test split** | 2,159 rows |
| **Geographic scope** | GHA |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (Ghana), `country_iso3` (GHA), `year` (range 1960.0–2025.0).
**Outcome / Measurement** — `value` (range -106855.0–34427414.0).
**Identifier / Metadata** — `indicator_name` (Net migration, Population ages 75-79, female (% of female population), Population ages 00-04, male (% of male population)), `indicator_code` (SM.POP.NETM, SP.POP.7579.FE.5Y, SP.POP.0004.MA.5Y), `esa_source` (HDX), `esa_processed` (2026-04-11).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-health-indicators-for-ghana")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | Ghana |
| `country_iso3` | object | 0.0% | GHA |
| `year` | int64 | 0.0% | 1960.0 – 2025.0 (mean 1999.5278) |
| `indicator_name` | object | 0.0% | Net migration, Population ages 75-79, female (% of female population), Population ages 00-04, male (% of male population) |
| `indicator_code` | object | 0.0% | SM.POP.NETM, SP.POP.7579.FE.5Y, SP.POP.0004.MA.5Y |
| `value` | float64 | 0.0% | -106855.0 – 34427414.0 (mean 431716.0226) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-11 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1960.0 | 2025.0 | 1999.5278 | 2003.0 |
| `value` | -106855.0 | 34427414.0 | 431716.0226 | 28.8 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-health-indicators-for-ghana) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_health_indicators_for_ghana,
title = {Ghana - Health},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-health-indicators-for-ghana},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在公共卫生领域,数据质量与标准化处理是确保研究可靠性的基石。该数据集由世界银行集团发布,原始数据来源于联合国人口司、世界卫生组织等多个权威机构,涵盖了加纳自1960年至2025年的国家层面健康指标。Electric Sheep Africa团队通过CKAN API从HDX平台获取数据,并进行了系统性的清洗与转换:将列名统一为蛇形命名法,将常见的缺失值标记规范化为NaN,最终以Snappy压缩的Parquet格式存储。数据按80:20的比例使用固定随机种子划分为训练集与测试集,确保了机器学习任务的可复现性。
特点
该数据集聚焦于加纳的公共卫生动态,其核心特征体现在多维度的结构化设计上。数据集共包含10,796条记录,涵盖8个变量,其中既包括年份、国家代码等地理标识,也纳入了净迁移率、特定年龄人口比例等多样化的健康指标。数值型变量如“value”覆盖了从负值到千万量级的广泛范围,反映了人口变动与健康测量的复杂性。所有字段均无缺失值,且经过统一的标准化处理,为模型训练提供了高完整性的表格数据。数据集以英语呈现,采用CC-BY许可协议,兼具学术严谨性与开放性。
使用方法
为便于机器学习研究与应用,该数据集已预置为可直接加载的格式。用户可通过Hugging Face的`datasets`库,使用`load_dataset`函数轻松导入,并利用`to_pandas`方法转换为Pandas DataFrame进行后续分析。数据集已明确划分为训练集(8,636行)与测试集(2,159行),支持分类或回归等表格数据任务的模型开发。研究者可基于年份、指标代码等特征探索加纳健康趋势,或结合其他社会经济数据进行跨领域分析。使用时应参考原始发布方的方法说明,并注意数据源于聚合统计可能存在的定义差异。
背景与挑战
背景概述
在公共卫生与全球发展领域,系统性的健康指标监测对于评估国家卫生体系效能、追踪千年发展目标进展至关重要。世界银行集团作为国际发展数据的重要提供者,长期致力于收集与整合各国健康相关数据,以支持政策制定与研究分析。该数据集由世界银行集团发布,并由Electric Sheep Africa于2026年重新整理为机器学习可用格式,聚焦于加纳国家层面的健康指标,涵盖卫生系统、疾病预防、生殖健康、营养及人口动态等多个维度。其核心研究问题在于通过结构化数据揭示加纳公共卫生状况的长期趋势与模式,为公共卫生决策、资源分配及国际比较提供实证基础,对发展经济学、公共卫生政策及数据驱动的人道主义干预具有显著影响力。
当前挑战
该数据集旨在解决公共卫生领域中健康指标的系统性监测与分析的挑战,具体包括如何从多源异构数据中整合出统一、可比的指标,以及如何利用这些指标评估卫生干预措施的效果、识别健康不平等现象。在构建过程中,挑战主要源于原始数据的复杂性:世界银行集团的数据来源于联合国人口司、世界卫生组织等多个国际机构,不同来源的数据在定义、统计口径与收集频率上存在差异,导致指标间可能存在不一致性。此外,数据清洗过程虽统一了缺失值标记,但无法修正原始数据中可能存在的误报、定义偏差或抽样偏误,这要求使用者具备领域知识以审慎解读数据。机器学习应用时还需处理数值范围极广、时间跨度长的序列数据,对模型的稳健性与解释性提出了较高要求。
常用场景
经典使用场景
在公共卫生与人口统计学领域,该数据集为研究者提供了加纳国家层面的健康指标时间序列数据,涵盖人口结构、迁移、免疫接种及营养状况等多元维度。其经典使用场景在于支持机器学习模型进行健康趋势预测与分类任务,例如利用历史年份的指标数据构建回归模型,预测未来人口年龄分布或疾病预防覆盖率的变化,从而为公共卫生政策制定提供数据驱动的决策依据。
解决学术问题
该数据集有效解决了发展经济学与公共卫生交叉研究中的关键问题,包括健康不平等量化、初级卫生保健干预效果评估以及人口动态建模。通过整合世界银行、联合国等权威机构的标准化指标,它使得学者能够系统分析加纳健康系统的长期演变,识别影响健康成果的社会经济决定因素,并为联合国千年发展目标的实证研究提供可靠的数据基础。
衍生相关工作
围绕该数据集衍生的经典工作主要包括健康指标缺失值插补算法开发、多变量时间序列预测模型构建以及跨国家健康差异比较研究。例如,研究者利用其训练递归神经网络以预测传染病爆发风险;亦有工作结合地理空间数据,分析加纳区域间健康不平等模式,为后续非洲国家健康数据集的标准化与机器学习应用提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



