electricsheepafrica/africa-world-bank-gender-indicators-for-zimbabwe
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-gender-indicators-for-zimbabwe
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- tabular-classification
- tabular-regression
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- gender
- indicators
- zwe
pretty_name: "Zimbabwe - Gender"
dataset_info:
splits:
- name: train
num_examples: 3484
- name: test
num_examples: 871
---
# Zimbabwe - Gender
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-gender-indicators-for-zimbabwe) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-zimbabwe) on HDX.
Gender equality is a core development objective in its own right. It is also smart development policy and sound business practice. It is integral to economic growth, business growth and good development outcomes. Gender equality can boost productivity, enhance prospects for the next generation, build resilience, and make institutions more representative and effective. In December 2015, the World Bank Group Board discussed our new Gender Equality Strategy 2016-2023, which aims to address persistent gaps and proposed a sharpened focus on more and better gender data. The Bank Group is continually scaling up commitments and expanding partnerships to fill significant gaps in gender data. The database hosts the latest sex-disaggregated data and gender statistics covering demography, education, health, access to economic opportunities, public life and decision-making, and agency.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **ZWE**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Public health |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 4,355 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 3,484 rows |
| **Test split** | 871 rows |
| **Geographic scope** | ZWE |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (Zimbabwe), `country_iso3` (ZWE), `year` (range 1960.0–2025.0).
**Outcome / Measurement** — `value` (range 0.0–3401297.0).
**Identifier / Metadata** — `indicator_name` (Age population, age 03, female, Age population, age 01, female, Age population, age 05, male), `indicator_code` (SP.POP.AG03.FE.IN, SP.POP.AG01.FE.IN, SP.POP.AG05.MA.IN), `esa_source` (HDX), `esa_processed` (2026-04-11).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-gender-indicators-for-zimbabwe")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | Zimbabwe |
| `country_iso3` | object | 0.0% | ZWE |
| `year` | int64 | 0.0% | 1960.0 – 2025.0 (mean 2000.4237) |
| `indicator_name` | object | 0.0% | Age population, age 03, female, Age population, age 01, female, Age population, age 05, male |
| `indicator_code` | object | 0.0% | SP.POP.AG03.FE.IN, SP.POP.AG01.FE.IN, SP.POP.AG05.MA.IN |
| `value` | float64 | 0.0% | 0.0 – 3401297.0 (mean 50606.1126) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-11 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1960.0 | 2025.0 | 2000.4237 | 2002.0 |
| `value` | 0.0 | 3401297.0 | 50606.1126 | 52.5 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-gender-indicators-for-zimbabwe) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_gender_indicators_for_zimbabwe,
title = {Zimbabwe - Gender},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-gender-indicators-for-zimbabwe},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
annotations_creators:
- 无注释
language_creators:
- 现有资源获取
language:
- 英语(en)
license: cc-by-4.0
multilinguality:
- 单语言
size_categories:
- 1000 < n < 10000
source_datasets:
- 原创数据集
task_categories:
- 表格分类
- 表格回归
task_ids: []
tags:
- 非洲
- 人道主义
- HDX
- electric-sheep-africa
- 性别
- 指标
- ZWE
pretty_name: "津巴布韦 - 性别指标"
---
# 津巴布韦 - 性别指标
**发布方:** 世界银行集团 · **数据源:** [HDX](https://data.humdata.org/dataset/world-bank-gender-indicators-for-zimbabwe) · **许可证:** `cc-by` · **更新时间:** 2026-03-27
---
## 摘要
本数据集包含来自世界银行[数据门户](http://data.worldbank.org/)的公开数据。HDX平台上另有一份[津巴布韦综合国家指标数据集](https://data.humdata.org/dataset/world-bank-combined-indicators-for-zimbabwe)。
性别平等本身即是核心发展目标,同时也是明智的发展政策与稳健的商业实践。它与经济增长、商业发展及良好发展成果密不可分。性别平等可提升生产力、改善下一代的发展前景、增强社会韧性,并让治理机构更具代表性与实效性。2015年12月,世界银行集团董事会审议通过了《2016-2023年性别平等战略》,该战略旨在解决长期存在的性别数据缺口,并提出进一步聚焦于获取更多、更优质的性别数据。世界银行集团正持续扩大相关承诺与合作范围,以填补性别数据领域的重大缺口。本数据库收录了最新的按性别分类的数据与性别统计指标,涵盖人口统计、教育、健康、经济机会获取、公共生活与决策参与以及个人自主权等领域。
本数据集的每一行均代表国家层面的汇总统计数据。该数据集在HDX平台的最后更新时间为2026-03-27。地理覆盖范围:**ZWE(津巴布韦ISO 3166-1 α3代码)**。
本数据集已由[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)整理为适用于机器学习的Parquet格式。
---
## 数据集特征
| | |
|---|---|
| **领域** | 公共卫生 |
| **观测单元** | 国家层面汇总数据 |
| **总行数** | 4355 |
| **列数** | 8(2个数值型,6个分类型,0个日期时间型) |
| **训练集划分** | 3484条数据 |
| **测试集划分** | 871条数据 |
| **地理覆盖范围** | ZWE |
| **发布方** | 世界银行集团 |
| **HDX最后更新时间** | 2026-03-27 |
---
## 变量说明
**地理类变量** — `country_name`(国家名称:津巴布韦)、`country_iso3`(国家ISO3代码:ZWE)、`year`(年份:取值范围1960.0–2025.0)。
**结果/测量类变量** — `value`(指标数值:取值范围0.0–3401297.0)。
**标识符/元数据类变量** — `indicator_name`(指标名称:3岁女性人口、1岁女性人口、5岁男性人口)、`indicator_code`(指标代码:SP.POP.AG03.FE.IN、SP.POP.AG01.FE.IN、SP.POP.AG05.MA.IN)、`esa_source`(数据来源:HDX)、`esa_processed`(数据处理时间:2026-04-11)。
---
## 快速上手
python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-gender-indicators-for-zimbabwe")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
---
## 数据 Schema
| 列名 | 数据类型 | 空值占比 | 取值范围/示例值 |
|---|---|---|---|
| `country_name` | 字符型 | 0.0% | 津巴布韦 |
| `country_iso3` | 字符型 | 0.0% | ZWE |
| `year` | 64位整型 | 0.0% | 1960.0 – 2025.0(均值2000.4237) |
| `indicator_name` | 字符型 | 0.0% | 3岁女性人口、1岁女性人口、5岁男性人口 |
| `indicator_code` | 字符型 | 0.0% | SP.POP.AG03.FE.IN、SP.POP.AG01.FE.IN、SP.POP.AG05.MA.IN |
| `value` | 64位浮点型 | 0.0% | 0.0 – 3401297.0(均值50606.1126) |
| `esa_source` | 字符型 | 0.0% | HDX |
| `esa_processed` | 字符型 | 0.0% | 2026-04-11 |
---
## 数值型变量统计摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
| `year` | 1960.0 | 2025.0 | 2000.4237 | 2002.0 |
| `value` | 0.0 | 3401297.0 | 50606.1126 | 52.5 |
---
## 数据整理流程
原始数据通过CKAN API从HDX平台下载,并转换为Parquet格式。列名统一转换为小写并采用蛇形命名法(snake_case)进行标准化。将常见的缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。本数据集以固定随机种子(42)按照80/20的比例划分为训练集与测试集,并以Snappy压缩格式的Parquet文件保存。
---
## 局限性说明
- 本数据集源自世界银行集团,未由Electric Sheep Africa进行独立验证。
- 自动化清洗流程无法修正原始数据收集中的错报值、定义不一致或抽样偏差问题。
- 如需了解发布方的方法论说明与注意事项,请参阅[HDX原始数据集页面](https://data.humdata.org/dataset/world-bank-gender-indicators-for-zimbabwe)。
---
## 引用格式
bibtex
@dataset{hdx_africa_world_bank_gender_indicators_for_zimbabwe,
title = {Zimbabwe - Gender},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-gender-indicators-for-zimbabwe},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施。尼日利亚拉各斯。*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在性别与发展研究领域,数据质量直接影响政策评估的准确性。该数据集源自世界银行集团的官方数据门户,由Electric Sheep Africa团队通过HDX平台的CKAN API获取原始资料,并进行了系统化处理。原始数据经过标准化转换,列名统一为蛇形命名法,缺失值标记被规范为NaN,以确保数据一致性。随后,采用固定随机种子将总计4,355条国家级聚合记录按80:20的比例划分为训练集与测试集,最终以Snappy压缩的Parquet格式存储,为机器学习应用提供了结构化的基础。
特点
该数据集聚焦于津巴布韦的性别指标,涵盖了从1960年至2025年长达六十五年的时间跨度,深刻反映了人口结构、教育、健康等多维度的发展轨迹。其核心特征在于以国家为观测单元,包含8个变量,其中2个数值型字段如年份与指标值,6个分类型字段如指标名称与代码,无缺失值的完整结构增强了分析的可靠性。数据集不仅提供了性别分列的人口统计数据,还通过标准化的指示符编码体系,支持跨时期、跨指标的纵向比较,为深入探究性别平等与经济社会发展的关联提供了细致而全面的实证基础。
使用方法
在应用该数据集进行机器学习建模时,研究者可借助Hugging Face的datasets库便捷加载。通过调用load_dataset函数,即可访问已划分的训练集与测试集,并利用to_pandas方法转换为DataFrame格式,便于后续的特征工程与模型训练。数据集适用于表格分类或回归任务,例如基于历史指标预测性别相关发展趋势。用户需注意数据源自世界银行,虽经清洗但未独立验证,建议参考原始发布方的方法说明以确保分析严谨性。
背景与挑战
背景概述
在性别平等作为全球可持续发展核心议题的背景下,世界银行集团于2016年启动了性别平等战略(2016-2023),旨在通过增强性别数据来推动政策制定与发展评估。该数据集由世界银行集团发布,并由Electric Sheep Africa于2026年重新整理为机器学习可用格式,聚焦于津巴布韦的国家级性别指标。其核心研究问题在于量化并追踪该国在人口结构、教育、健康及经济机会等维度的性别差异,为公共政策分析与社会科学研究提供了时序性的实证基础。该数据集不仅响应了国际社会对高质量性别统计的迫切需求,也为评估发展干预措施的效果建立了数据基准。
当前挑战
该数据集致力于解决性别发展指标的多维度量化与预测挑战,涉及从人口统计到社会经济机会的复杂分类与回归任务。构建过程中的主要挑战包括原始数据中可能存在报告不一致、定义差异以及采样偏差,这些因素可能影响指标的跨年度可比性。此外,自动化清洗流程难以纠正源数据中的误报值或方法论变化带来的不一致性,要求使用者必须结合世界银行的方法论说明进行谨慎解读。数据集的国家级聚合特性也限制了对子群体或区域差异的深入分析,在应用于精细化的政策模拟时存在一定局限性。
常用场景
经典使用场景
在性别与发展研究领域,该数据集作为津巴布韦国家层面性别指标的权威汇编,为学者提供了跨越1960年至2025年的长期面板数据。其经典应用场景在于支持时间序列分析与横截面比较,研究者可依据人口年龄结构、性别分类等指标,深入探究该国性别人口动态变迁规律。通过整合教育、健康与经济机会等多维度变量,该数据集能够构建复杂的计量模型,用以揭示性别不平等与社会经济发展之间的内在关联。
解决学术问题
该数据集有效解决了发展经济学与公共政策研究中性别数据碎片化的核心难题。通过系统化整合世界银行官方性别统计指标,研究者能够突破微观调查数据的时空局限性,开展宏观层面的长期趋势分析。其价值体现在为验证性别平等与经济增长理论假说提供实证基础,例如通过面板回归模型检验女性人口结构变化对劳动力市场的影响机制,从而推动发展政策评估从定性论述向定量证据支持的范式转型。
衍生相关工作
基于该数据集衍生的经典研究涵盖多个学术前沿。发展经济学家利用其构建了性别差距指数动态预测模型,发表于《世界发展》等顶级期刊;公共卫生学者通过耦合疾病负担数据,揭示了女性生命周期健康指标与生育政策的关联性。在方法论层面,该数据集催生了针对稀疏宏观面板数据的多重插补技术改进,同时促进了机器学习在发展中国家性别预测中的应用探索,如使用梯度提升树模型解析教育性别平等的影响因子。
以上内容由遇见数据集搜集并总结生成



