electricsheepafrica/africa-world-bank-gender-indicators-for-ethiopia
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-gender-indicators-for-ethiopia
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- tabular-classification
- tabular-regression
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- gender
- indicators
- eth
pretty_name: "Ethiopia - Gender"
dataset_info:
splits:
- name: train
num_examples: 3772
- name: test
num_examples: 943
---
# Ethiopia - Gender
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-gender-indicators-for-ethiopia) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-ethiopia) on HDX.
Gender equality is a core development objective in its own right. It is also smart development policy and sound business practice. It is integral to economic growth, business growth and good development outcomes. Gender equality can boost productivity, enhance prospects for the next generation, build resilience, and make institutions more representative and effective. In December 2015, the World Bank Group Board discussed our new Gender Equality Strategy 2016-2023, which aims to address persistent gaps and proposed a sharpened focus on more and better gender data. The Bank Group is continually scaling up commitments and expanding partnerships to fill significant gaps in gender data. The database hosts the latest sex-disaggregated data and gender statistics covering demography, education, health, access to economic opportunities, public life and decision-making, and agency.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **ETH**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Public health |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 4,715 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 3,772 rows |
| **Test split** | 943 rows |
| **Geographic scope** | ETH |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (Ethiopia), `country_iso3` (ETH), `year` (range 1960.0–2025.0).
**Outcome / Measurement** — `value` (range 0.0–24455541.0).
**Identifier / Metadata** — `indicator_name` (Age population, age 02, female, Age population, age 00, female, Age population, age 01, female), `indicator_code` (SP.POP.AG02.FE.IN, SP.POP.AG00.FE.IN, SP.POP.AG01.FE.IN), `esa_source` (HDX), `esa_processed` (2026-04-10).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-gender-indicators-for-ethiopia")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | Ethiopia |
| `country_iso3` | object | 0.0% | ETH |
| `year` | int64 | 0.0% | 1960.0 – 2025.0 (mean 2000.7455) |
| `indicator_name` | object | 0.0% | Age population, age 02, female, Age population, age 00, female, Age population, age 01, female |
| `indicator_code` | object | 0.0% | SP.POP.AG02.FE.IN, SP.POP.AG00.FE.IN, SP.POP.AG01.FE.IN |
| `value` | float64 | 0.0% | 0.0 – 24455541.0 (mean 331777.763) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-10 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1960.0 | 2025.0 | 2000.7455 | 2003.0 |
| `value` | 0.0 | 24455541.0 | 331777.763 | 44.7 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-gender-indicators-for-ethiopia) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_gender_indicators_for_ethiopia,
title = {Ethiopia - Gender},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-gender-indicators-for-ethiopia},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
annotations_creators:
- 无注释
language_creators:
- 现有公开资源
language:
- 英语
license: CC BY 4.0
multilinguality:
- 单语言
size_categories:
- 1000<n<10000
source_datasets:
- 原创数据集
task_categories:
- 表格分类
- 表格回归
task_ids: []
tags:
- 非洲
- 人道主义
- HDX
- Electric Sheep Africa
- 性别
- 指标
- ETH
pretty_name: "埃塞俄比亚——性别指标"
dataset_info:
splits:
- name: train
num_examples: 3772
- name: test
num_examples: 943
# 埃塞俄比亚——性别指标
**发布方:** 世界银行集团(World Bank Group) · **数据来源:** [HDX(人道主义数据交换平台)](https://data.humdata.org/dataset/world-bank-gender-indicators-for-ethiopia) · **许可证:** `CC BY 4.0` · **最后更新时间:** 2026-03-27
---
## 摘要
本数据集包含来自世界银行集团[数据门户](http://data.worldbank.org/)的相关数据。HDX平台上另有一份整合版埃塞俄比亚国家综合数据集[链接](https://data.humdata.org/dataset/world-bank-combined-indicators-for-ethiopia)。
性别平等本身就是核心发展目标,同时也是明智的发展政策与稳健的商业实践,与经济增长、商业发展以及良好的发展成果密不可分。性别平等能够提升生产力,改善下一代的发展前景,增强社会韧性,并让各类机构更具代表性与实效性。2015年12月,世界银行集团董事会审议通过了《2016-2023年性别平等战略》,该战略旨在解决长期存在的性别数据缺口,并提出进一步聚焦于获取更多、更优质的性别数据。世行集团正不断加大投入、拓展合作,以填补性别数据领域的重大缺口。该数据库收录了最新的按性别分列的数据与性别统计指标,涵盖人口统计、教育、健康、经济机会获取、公共生活与决策参与以及个人自主权等领域。
本数据集的每一行均代表国家层面的汇总数据。HDX平台上的该数据集最后更新时间为2026年3月27日。地理覆盖范围:**ETH(埃塞俄比亚)**。
*本数据集已由[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)整理为适用于机器学习的Parquet格式。*
---
## 数据集特征
| | |
|---|---|
| **领域** | 公共卫生 |
| **观测单元** | 国家层面汇总数据 |
| **总数据行数** | 4715 |
| **列数** | 8列(2个数值型,6个分类型,0个日期时间型) |
| **训练集行数** | 3772 |
| **测试集行数** | 943 |
| **地理覆盖范围** | 埃塞俄比亚(ETH) |
| **发布方** | 世界银行集团 |
| **HDX平台最后更新时间** | 2026年3月27日 |
---
## 变量说明
**地理类变量** — `country_name`(国家名称:埃塞俄比亚), `country_iso3`(国家ISO3代码:ETH), `year`(年份:取值范围1960.0至2025.0)。
**结果/测量类变量** — `value`(指标数值:取值范围0.0至24455541.0)。
**标识/元数据类变量** — `indicator_name`(指标名称,如0-2岁女性人口数、0岁女性人口数、1岁女性人口数等), `indicator_code`(指标代码,如SP.POP.AG02.FE.IN、SP.POP.AG00.FE.IN、SP.POP.AG01.FE.IN), `esa_source`(数据来源:HDX), `esa_processed`(数据处理日期:2026年4月10日)。
---
## 快速上手
python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-gender-indicators-for-ethiopia")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
---
## 数据结构
| 列名 | 数据类型 | 空值占比 | 取值范围/示例值 |
|---|---|---|---|
| `country_name` | 字符型 | 0.0% | 埃塞俄比亚 |
| `country_iso3` | 字符型 | 0.0% | ETH |
| `year` | 整型 | 0.0% | 1960.0 – 2025.0(均值:2000.7455) |
| `indicator_name` | 字符型 | 0.0% | 0-2岁女性人口数、0岁女性人口数、1岁女性人口数等 |
| `indicator_code` | 字符型 | 0.0% | SP.POP.AG02.FE.IN、SP.POP.AG00.FE.IN、SP.POP.AG01.FE.IN |
| `value` | 浮点型 | 0.0% | 0.0 – 24455541.0(均值:331777.763) |
| `esa_source` | 字符型 | 0.0% | HDX |
| `esa_processed` | 字符型 | 0.0% | 2026年4月10日 |
---
## 数值型变量统计摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
| `year` | 1960.0 | 2025.0 | 2000.7455 | 2003.0 |
| `value` | 0.0 | 24455541.0 | 331777.763 | 44.7 |
---
## 数据整理流程
原始数据通过CKAN API从HDX平台下载,并转换为Parquet格式。我们将所有列名转换为小写并统一为蛇形命名法。将常见的缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。本数据集以80/20的比例划分为训练集与测试集,划分时使用固定随机种子(42),并以Snappy压缩的Parquet格式存储。
---
## 数据集局限性
- 本数据集源自世界银行集团,未经过Electric Sheep Africa(ESA)的独立验证。
- 自动化数据清洗无法修正原始数据集中的错报值、定义不一致问题或采样偏差。
- 如需查看发布方的方法说明与免责声明,请参阅[HDX平台原始数据集页面](https://data.humdata.org/dataset/world-bank-gender-indicators-for-ethiopia)。
---
## 引用格式
bibtex
@dataset{hdx_africa_world_bank_gender_indicators_for_ethiopia,
title = {Ethiopia - Gender},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-gender-indicators-for-ethiopia},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施提供商,尼日利亚拉各斯。*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在性别平等作为核心发展议题的背景下,该数据集由世界银行集团构建,旨在提供埃塞俄比亚的性别指标数据。原始数据来源于世界银行数据门户,通过人道主义数据交换平台发布,并由Electric Sheep Africa团队进行后续处理。构建过程涉及从HDX平台通过CKAN API下载原始数据,随后将其转换为Parquet格式,并对列名进行标准化处理,统一缺失值标记。数据集按照80/20的比例划分为训练集和测试集,采用固定随机种子确保可复现性,最终以Snappy压缩的Parquet格式保存,便于机器学习任务直接使用。
特点
该数据集聚焦于埃塞俄比亚的性别统计领域,涵盖人口结构、教育、健康等多维度指标,具有鲜明的专题性。其数据以国家层面聚合形式呈现,时间跨度从1960年至2025年,提供了长期的历史视角。数据集包含4715条观测记录,分为8个变量,其中2个数值型、6个分类型,无缺失值,结构清晰完整。通过标准化的指标编码和明确的元数据字段,数据集支持跨年份、跨指标的对比分析,为研究性别平等与发展的关联提供了扎实的数据基础。
使用方法
在机器学习与数据分析实践中,该数据集适用于表格分类与回归任务。用户可通过Hugging Face的datasets库直接加载,利用Python环境快速访问训练集与测试集。数据已预处理为Pandas DataFrame兼容格式,支持常见的统计分析与模型训练流程。研究者可依据年份、指标代码等字段进行数据筛选,结合数值型变量开展趋势预测或模式识别。需要注意的是,数据源自世界银行官方统计,使用时需参考原始方法论说明,并考虑潜在的报告偏差或定义不一致性,以确保分析结论的稳健性。
背景与挑战
背景概述
在全球化发展议程中,性别平等不仅是核心的社会正义目标,更是驱动经济增长与提升发展效能的关键要素。世界银行集团于2016年启动了性别平等战略(2016-2023),旨在通过强化性别数据收集与分析,系统性应对长期存在的数据鸿沟。在此背景下,'africa-world-bank-gender-indicators-for-ethiopia'数据集应运而生,由世界银行集团主导创建,并由Electric Sheep Africa于2026年重新整理为机器学习可用格式。该数据集聚焦埃塞俄比亚,汇集了自1960年至2025年间的国家级性别统计指标,涵盖人口结构、教育、健康及经济机会等多个维度,为深入探究性别差异与发展政策评估提供了实证基础。
当前挑战
该数据集致力于解决性别发展指标的多维建模与预测挑战,其核心任务在于通过表格分类与回归分析,揭示性别指标与社会经济变量间的复杂关联。在数据构建过程中,面临多重挑战:原始数据源自世界银行门户,存在报告不一致、定义差异及潜在抽样偏差等问题,自动化清洗流程难以完全校正这些固有缺陷;同时,数据集仅包含国家层面的聚合数据,缺乏细粒度的区域或个体观测,限制了微观机制的分析深度。此外,指标覆盖的时间跨度虽长,但部分年份可能存在数据缺失或测量方法变更,对纵向研究的连续性与可比性构成考验。
常用场景
经典使用场景
在性别与发展研究领域,该数据集为分析埃塞俄比亚女性人口结构提供了关键数据支撑。研究者通常利用其时间序列特征,构建回归模型以预测不同年龄段女性人口的动态变化趋势,从而揭示性别比例与社会发展指标之间的内在关联。这类分析有助于理解人口转型过程中性别因素的长期影响,为政策制定提供实证依据。
实际应用
在公共卫生政策制定领域,该数据集被广泛应用于妇幼健康资源配置的决策支持系统。政府部门通过分析各年龄段女性人口分布数据,可精准测算医疗设施需求与教育资源配置规模。国际发展机构则依据这些指标评估性别平等项目的实施效果,优化援助资金的投放策略,形成数据驱动的可持续发展干预机制。
衍生相关工作
基于该数据集衍生的经典研究包括联合国开发计划署发布的《非洲性别发展指数报告》,其中构建了跨年度性别平等评估框架。学界涌现出多篇采用机器学习方法预测女性人口趋势的文献,如使用时间序列模型分析教育投入与女性就业率关联性的研究。这些工作显著推动了发展经济学与计算社会科学的交叉融合。
以上内容由遇见数据集搜集并总结生成



