electricsheepafrica/africa-world-bank-poverty-indicators-for-ghana
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-poverty-indicators-for-ghana
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- n<1K
source_datasets:
- original
task_categories:
- tabular-regression
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- indicators
- poverty
- gha
pretty_name: "Ghana - Poverty"
dataset_info:
splits:
- name: train
num_examples: 112
- name: test
num_examples: 28
---
# Ghana - Poverty
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-poverty-indicators-for-ghana) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-ghana) on HDX.
For countries with an active poverty monitoring program, the World Bank—in collaboration with national institutions, other development agencies, and civil society—regularly conducts analytical work to assess the extent and causes of poverty and inequality, examine the impact of growth and public policy, and review household survey data and measurement methods. Data here includes poverty and inequality measures generated from analytical reports, from national poverty monitoring programs, and from the World Bank’s Development Research Group which has been producing internationally comparable and global poverty estimates and lines since 1990.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GHA**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Poverty and economic vulnerability |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 141 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 112 rows |
| **Test split** | 28 rows |
| **Geographic scope** | GHA |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (Ghana), `country_iso3` (GHA), `year` (range 1987.0–2022.0).
**Outcome / Measurement** — `value` (range -0.19–98.4).
**Identifier / Metadata** — `indicator_name` (Population living in slums (% of urban population), Poverty headcount ratio at $3.00 a day (2021 PPP) (% of population), Poverty gap at $8.30 a day (2021 PPP) (%)), `indicator_code` (EN.POP.SLUM.UR.ZS, SI.POV.DDAY, SI.POV.UMIC.GP), `esa_source` (HDX), `esa_processed` (2026-04-11).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-poverty-indicators-for-ghana")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | Ghana |
| `country_iso3` | object | 0.0% | GHA |
| `year` | int64 | 0.0% | 1987.0 – 2022.0 (mean 2002.6383) |
| `indicator_name` | object | 0.0% | Population living in slums (% of urban population), Poverty headcount ratio at $3.00 a day (2021 PPP) (% of population), Poverty gap at $8.30 a day (2021 PPP) (%) |
| `indicator_code` | object | 0.0% | EN.POP.SLUM.UR.ZS, SI.POV.DDAY, SI.POV.UMIC.GP |
| `value` | float64 | 0.0% | -0.19 – 98.4 (mean 35.6211) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-11 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1987.0 | 2022.0 | 2002.6383 | 2005.0 |
| `value` | -0.19 | 98.4 | 35.6211 | 33.4868 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-poverty-indicators-for-ghana) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_poverty_indicators_for_ghana,
title = {Ghana - Poverty},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-poverty-indicators-for-ghana},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在贫困与经济发展研究领域,数据质量直接关系到分析结论的可靠性。本数据集由世界银行集团发布,原始数据来源于其官方数据门户,并通过人道主义数据交换平台(HDX)公开获取。Electric Sheep Africa 团队对原始数据进行了系统化整理,利用 CKAN API 下载数据后,将列名统一转换为蛇形命名法,并将各类缺失值标记规范为 NaN 值。最终,数据被转换为 Parquet 格式,并按照 80:20 的比例,使用固定随机种子划分为训练集与测试集,以支持机器学习任务。
特点
该数据集聚焦于加纳的国家级贫困指标,涵盖1987年至2022年的时序数据。其核心特征在于以国家为观测单元,整合了包括贫民窟人口占比、特定贫困线下的贫困人口比例及贫困差距在内的多维度量。数据集结构简洁,共包含8个变量,其中数值型与分类型变量分布明确,且无缺失值,确保了数据的完整性与一致性。地理范围严格限定于加纳,为区域性的深度经济脆弱性研究提供了高度聚焦的数据基础。
使用方法
为便于研究人员快速开展分析,数据集已预分割为训练集与测试集。使用者可通过 Hugging Face 的 `datasets` 库直接加载,并利用 `to_pandas()` 方法转换为 DataFrame 进行后续处理。该数据集适用于表格回归任务,可用于构建预测模型,分析贫困指标随时间或其他社会经济因素的变化趋势。在应用时,建议参考世界银行原始的方法论说明,并注意数据源于机构报告,可能存在定义或测量上的固有局限。
背景与挑战
背景概述
加纳贫困指标数据集由世界银行集团主导构建,其数据源可追溯至1990年代,体现了国际发展机构与各国政府合作监测全球贫困状况的长期努力。该数据集聚焦于评估加纳的贫困与不平等程度,核心研究问题在于量化该国人口在特定贫困线下的生活状况以及城市贫民窟居住比例,旨在为政策制定者提供基于实证的经济脆弱性分析工具。通过整合国家贫困监测项目与世界银行发展研究组的全球可比估计,该数据集为发展经济学、公共政策评估及人道主义干预研究提供了关键的时间序列基准,对理解撒哈拉以南非洲地区的经济社会发展轨迹具有重要参考价值。
当前挑战
该数据集致力于解决贫困测量与趋势预测这一复杂领域问题,其核心挑战在于如何准确捕捉多维贫困的动态变化,并克服不同贫困线标准与购买力平价调整所带来的度量不一致性。在构建过程中,数据集面临原始数据收集的固有局限,包括调查抽样偏差、指标定义随时间演变导致的纵向可比性难题,以及部分年份数据缺失或异常值的存在。尽管经过自动化清洗与标准化处理,但数据集仍无法完全修正源数据中可能存在的误报或方法论差异,这要求研究者在应用时需结合世界银行的方法论说明进行审慎解读。
常用场景
经典使用场景
在贫困与经济发展研究领域,该数据集常被用于构建时间序列回归模型,以分析加纳自1987年至2022年间贫困指标的变化趋势。研究者利用数据集中的贫困发生率、贫困差距及贫民窟人口比例等关键变量,结合年份信息,探究经济增长、政策干预与贫困动态之间的关联,为理解长期贫困演变提供了量化基础。
解决学术问题
该数据集有效解决了发展经济学中关于贫困测量与监测的若干核心问题,如贫困线的国际可比性、不平等程度的量化评估以及城市贫民窟状况的追踪。通过提供标准化的世界银行指标,它支持了跨国贫困比较研究,并助力学者检验减贫政策的有效性,从而深化了对贫困结构性成因的理论认识。
衍生相关工作
围绕该数据集衍生的经典工作包括基于机器学习的贫困预测模型,如利用历史指标预测未来贫困率;以及融合多源数据的因果推断研究,评估特定发展项目对贫困指标的影响。此外,许多研究将其与其他非洲国家数据集结合,进行区域比较分析,探索贫困驱动因素的共性模式与地域差异。
以上内容由遇见数据集搜集并总结生成



