electricsheepafrica/africa-world-bank-education-indicators-for-ghana
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-education-indicators-for-ghana
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 10K<n<100K
source_datasets:
- original
task_categories:
- tabular-classification
- tabular-regression
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- education
- indicators
- gha
pretty_name: "Ghana - Education"
dataset_info:
splits:
- name: train
num_examples: 13315
- name: test
num_examples: 3328
---
# Ghana - Education
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-education-indicators-for-ghana) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-ghana) on HDX.
Education is one of the most powerful instruments for reducing poverty and inequality and lays a foundation for sustained economic growth. The World Bank compiles data on education inputs, participation, efficiency, and outcomes. Data on education are compiled by the United Nations Educational, Scientific, and Cultural Organization (UNESCO) Institute for Statistics from official responses to surveys and from reports provided by education authorities in each country.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GHA**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Education |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 16,644 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 13,315 rows |
| **Test split** | 3,328 rows |
| **Geographic scope** | GHA |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (Ghana), `country_iso3` (GHA), `year` (range 1960.0–2025.0).
**Outcome / Measurement** — `value` (range 0.0–13250486.0).
**Identifier / Metadata** — `indicator_name` (Population ages 15-64 (% of total population), Population ages 0-14 (% of total population), Number of under-five deaths, male), `indicator_code` (SP.POP.1564.TO.ZS, SP.POP.0014.TO.ZS, SH.DTH.MORT.MA), `esa_source` (HDX), `esa_processed` (2026-04-11).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-education-indicators-for-ghana")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | Ghana |
| `country_iso3` | object | 0.0% | GHA |
| `year` | int64 | 0.0% | 1960.0 – 2025.0 (mean 1998.0826) |
| `indicator_name` | object | 0.0% | Population ages 15-64 (% of total population), Population ages 0-14 (% of total population), Number of under-five deaths, male |
| `indicator_code` | object | 0.0% | SP.POP.1564.TO.ZS, SP.POP.0014.TO.ZS, SH.DTH.MORT.MA |
| `value` | float64 | 0.0% | 0.0 – 13250486.0 (mean 483245.5763) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-11 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1960.0 | 2025.0 | 1998.0826 | 2001.0 |
| `value` | 0.0 | 13250486.0 | 483245.5763 | 102.7986 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-education-indicators-for-ghana) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_education_indicators_for_ghana,
title = {Ghana - Education},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-education-indicators-for-ghana},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在教育发展研究领域,数据质量直接关系到政策评估的准确性。该数据集源自世界银行集团,通过联合国教科文组织统计研究所系统收集,整合了加纳自1960年至2025年的国家级教育指标数据。原始数据从人道主义数据交换平台获取,经由Electric Sheep Africa团队进行标准化处理,包括统一缺失值标记、规范列命名格式,并采用固定随机种子将数据划分为训练集与测试集,最终以Snappy压缩的Parquet格式存储,确保了数据的机器可读性与结构一致性。
特点
作为聚焦非洲教育发展的专题数据集,其核心特征体现在时空维度与指标体系的完整性上。数据集涵盖加纳长达65年的纵向观测记录,包含人口结构、儿童死亡率等多类教育相关指标,并通过标准化编码实现跨指标可比性。数据以表格形式呈现,共包含16,644条记录,划分为13,315条训练样本与3,328条测试样本,所有字段均无缺失值,为机器学习任务提供了清洁且结构化的输入基础。
使用方法
在应用层面,该数据集适用于教育政策分析与预测建模等研究场景。使用者可通过Hugging Face的datasets库直接加载数据,并利用Pandas进行进一步处理。数据集已预分割为训练集和测试集,支持回归与分类任务,例如基于历史指标预测教育发展趋势。研究者需注意数据源自世界银行的官方统计,虽经标准化清洗,但仍建议参考原始方法论说明以理解指标定义与收集局限。
背景与挑战
背景概述
教育作为推动社会经济发展与减少不平等的关键力量,其数据监测对于政策制定与学术研究具有深远意义。世界银行集团作为全球发展数据的重要提供者,长期致力于收集与整合各国教育指标,以支持国际比较与趋势分析。该数据集由Electric Sheep Africa于2026年重新整理并发布,聚焦于加纳自1960年至2025年的教育相关统计数据,涵盖了人口结构、儿童死亡率等多个维度的国家层面聚合信息。其核心研究问题在于通过结构化数据揭示加纳教育发展的长期轨迹与影响因素,为发展经济学、教育政策评估及区域研究提供了宝贵的实证基础。
当前挑战
该数据集旨在解决教育发展指标的多维度分析与预测问题,其挑战在于如何从有限的国家级聚合数据中准确捕捉教育系统的动态变化,并应对指标间定义不一致与时间跨度不均衡带来的建模复杂性。在构建过程中,数据清洗面临原始数据中缺失值标记多样性与潜在报告偏差的挑战,自动化处理难以修正源数据可能存在的定义不一致或抽样偏差问题。此外,数据集仅包含加纳单一国家的观测,限制了跨区域比较研究的可行性,且依赖于世界银行集团的原始收集方法,其准确性与完整性需结合官方方法论说明进行审慎评估。
常用场景
经典使用场景
在非洲教育发展研究领域,该数据集为分析加纳教育指标提供了关键数据支持。研究者通常利用其时间序列特征,构建回归模型以预测教育参与率或人口结构变化趋势,例如通过历年人口年龄分布数据,评估教育政策对劳动力市场的影响。数据集的结构化格式便于机器学习算法的直接应用,支持从历史模式中提取洞察,为教育资源配置提供量化依据。
实际应用
在实际政策制定与评估中,该数据集被广泛应用于加纳教育部门的监测与规划。政府部门与非营利组织可依据指标变化趋势,调整教育预算分配或设计针对性干预项目,例如针对学龄人口比例下降的区域优化学校布局。数据还可用于国际比较研究,帮助识别加纳在教育发展中的相对位置与改进空间。
衍生相关工作
围绕该数据集衍生的经典工作包括基于机器学习的教育成果预测模型,以及结合地理信息系统的区域教育不平等分析。许多研究利用其时间序列特征开发了动态面板模型,以评估政策冲击的长期效应。此外,数据集常被整合进更广泛的非洲发展指标库,支持跨领域研究如健康与教育的协同作用分析。
以上内容由遇见数据集搜集并总结生成



