electricsheepafrica/africa-world-bank-gender-indicators-for-south-sudan
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-gender-indicators-for-south-sudan
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- tabular-classification
- tabular-regression
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- gender
- indicators
- ssd
pretty_name: "South Sudan - Gender"
dataset_info:
splits:
- name: train
num_examples: 2479
- name: test
num_examples: 619
---
# South Sudan - Gender
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-gender-indicators-for-south-sudan) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-south-sudan) on HDX.
Gender equality is a core development objective in its own right. It is also smart development policy and sound business practice. It is integral to economic growth, business growth and good development outcomes. Gender equality can boost productivity, enhance prospects for the next generation, build resilience, and make institutions more representative and effective. In December 2015, the World Bank Group Board discussed our new Gender Equality Strategy 2016-2023, which aims to address persistent gaps and proposed a sharpened focus on more and better gender data. The Bank Group is continually scaling up commitments and expanding partnerships to fill significant gaps in gender data. The database hosts the latest sex-disaggregated data and gender statistics covering demography, education, health, access to economic opportunities, public life and decision-making, and agency.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **SSD**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Public health |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 3,099 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 2,479 rows |
| **Test split** | 619 rows |
| **Geographic scope** | SSD |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (South Sudan), `country_iso3` (SSD), `year` (range 1960.0–2024.0).
**Outcome / Measurement** — `value` (range 0.0–2514835.0).
**Identifier / Metadata** — `indicator_name` (Age population, age 00, male, Age population, age 03, male, Age population, age 00, female), `indicator_code` (SP.POP.AG00.MA.IN, SP.POP.AG03.MA.IN, SP.POP.AG00.FE.IN), `esa_source` (HDX), `esa_processed` (2026-04-10).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-gender-indicators-for-south-sudan")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | South Sudan |
| `country_iso3` | object | 0.0% | SSD |
| `year` | int64 | 0.0% | 1960.0 – 2024.0 (mean 1999.8774) |
| `indicator_name` | object | 0.0% | Age population, age 00, male, Age population, age 03, male, Age population, age 00, female |
| `indicator_code` | object | 0.0% | SP.POP.AG00.MA.IN, SP.POP.AG03.MA.IN, SP.POP.AG00.FE.IN |
| `value` | float64 | 0.0% | 0.0 – 2514835.0 (mean 46411.4731) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-10 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1960.0 | 2024.0 | 1999.8774 | 2003.0 |
| `value` | 0.0 | 2514835.0 | 46411.4731 | 53.911 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-gender-indicators-for-south-sudan) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_gender_indicators_for_south_sudan,
title = {South Sudan - Gender},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-gender-indicators-for-south-sudan},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
### 数据集元数据
标注创建者:无标注
语言创建方式:公开资源采集
语言:英语
授权协议:CC BY 4.0
多语言属性:单语言
样本规模:1000 < 样本数 < 10000
源数据集类型:原创数据集
任务类别:表格分类、表格回归
任务子类别:无
标签:非洲、人道主义、HDX(人道主义数据交换)、Electric Sheep Africa、性别、统计指标、SSD
数据集名称:南苏丹——性别指标数据集
数据集划分信息:
- 训练集(train):2479个样本
- 测试集(test):619个样本
# 南苏丹——性别指标数据集
**发布方**:世界银行集团 · **来源**:[HDX(人道主义数据交换)](https://data.humdata.org/dataset/world-bank-gender-indicators-for-south-sudan) · **授权协议**:`CC BY 4.0` · **最后更新时间**:2026-03-27
---
## 摘要
本数据集包含来自世界银行[数据门户](http://data.worldbank.org/)的公开数据。HDX平台上还发布有一份整合后的南苏丹全国综合指标数据集[consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-south-sudan)。
性别平等本身就是核心发展目标,同时也是明智的发展政策与稳健的商业实践。它与经济增长、企业发展及良好的发展成果密不可分。性别平等可提升生产力、改善下一代的发展前景、增强韧性,并让各类机构更具代表性与实效性。2015年12月,世界银行集团董事会审议通过了《2016-2023年性别平等战略》,该战略旨在解决长期存在的性别数据缺口,并提出将重点进一步聚焦于获取更多、更优质的性别数据。世行集团正持续扩大相关承诺与合作规模,以填补性别数据领域的重大缺口。本数据库收录了最新的分性别统计数据与性别统计指标,涵盖人口统计、教育、健康、经济机会获取、公共生活与决策参与以及个人自主权等多个领域。
本数据集的每一行均代表全国层面的汇总统计数据。数据于HDX平台的最后更新时间为2026年3月27日。地理覆盖范围:**SSD(南苏丹ISO 3166-1 alpha-3代码)**。
*本数据集已由[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)整理为适配机器学习的Parquet格式。*
---
## 数据集特征
| 项 | 详情 |
|---|---|
| **领域** | 公共卫生 |
| **观测单元** | 全国层面汇总数据 |
| **总行数** | 3099 |
| **列数** | 8列(2个数值型、6个分类型、0个日期时间型) |
| **训练集样本数** | 2479 |
| **测试集样本数** | 619 |
| **地理覆盖范围** | SSD |
| **发布方** | 世界银行集团 |
| **HDX平台最后更新时间** | 2026-03-27 |
---
## 变量说明
**地理类变量** — `country_name`(国家名称:南苏丹)、`country_iso3`(ISO 3166-1 alpha-3代码:SSD)、`year`(年份范围:1960.0–2024.0)。
**结果/测量类变量** — `value`(指标数值,范围:0.0–2514835.0)。
**标识符/元数据类变量** — `indicator_name`(指标名称示例:0-0岁男性人口数、0-3岁男性人口数、0-0岁女性人口数)、`indicator_code`(指标代码示例:SP.POP.AG00.MA.IN、SP.POP.AG03.MA.IN、SP.POP.AG00.FE.IN)、`esa_source`(数据来源:HDX)、`esa_processed`(数据整理时间:2026-04-10)。
---
## 快速上手
python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-gender-indicators-for-south-sudan")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
---
## 数据结构
| 列名 | 数据类型 | 空值占比 | 取值范围/示例值 |
|---|---|---|---|
| `country_name` | 字符串(object) | 0.0% | 南苏丹 |
| `country_iso3` | 字符串(object) | 0.0% | SSD |
| `year` | 64位整数(int64) | 0.0% | 1960.0 – 2024.0(均值:1999.8774) |
| `indicator_name` | 字符串(object) | 0.0% | 0-0岁男性人口数、0-3岁男性人口数、0-0岁女性人口数(示例) |
| `indicator_code` | 字符串(object) | 0.0% | SP.POP.AG00.MA.IN、SP.POP.AG03.MA.IN、SP.POP.AG00.FE.IN(示例) |
| `value` | 64位浮点数(float64) | 0.0% | 0.0 – 2514835.0(均值:46411.4731) |
| `esa_source` | 字符串(object) | 0.0% | HDX |
| `esa_processed` | 字符串(object) | 0.0% | 2026-04-10 |
---
## 数值型变量统计摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
| `year` | 1960.0 | 2024.0 | 1999.8774 | 2003.0 |
| `value` | 0.0 | 2514835.0 | 46411.4731 | 53.911 |
---
## 数据整理流程
原始数据通过CKAN API从HDX平台下载,并转换为Parquet格式。列名均转为小写并统一为蛇形命名法。常见的缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)均被统一替换为`NaN`。本数据集以固定随机种子(42)按80/20的比例划分为训练集与测试集,并以Snappy压缩的Parquet格式存储。
---
## 数据集局限性
- 本数据集源自世界银行集团,Electric Sheep Africa未对其进行独立验证。
- 自动化数据清洗无法修正原始数据收集中的错报值、定义不一致或抽样偏差问题。
- 请参阅[HDX平台原始数据集页面](https://data.humdata.org/dataset/world-bank-gender-indicators-for-south-sudan)查看发布方提供的方法说明与注意事项。
---
## 引用格式
bibtex
@dataset{hdx_africa_world_bank_gender_indicators_for_south_sudan,
title = {South Sudan - Gender},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-gender-indicators-for-south-sudan},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施提供商,尼日利亚拉各斯。*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界银行集团的性别统计数据门户,经由人道主义数据交换(HDX)平台获取原始数据,并由Electric Sheep Africa团队以机器学习就绪的Parquet格式进行精细加工。在构建过程中,研究者通过CKAN API下载原始数据,随后对列名进行小写化与蛇形命名标准化处理,将常见的缺失值标记统一转换为NaN,并采用固定随机种子42以80/20比例将数据集划分为训练集与测试集,最终保存为Snappy压缩的Parquet文件,确保了数据的完整性与高效存储。
特点
该数据集聚焦于南苏丹的国家层面性别指标,涵盖人口学、教育、健康、经济机会、公共生活与决策等多个维度。其包含3099行观测记录,跨越1960年至2024年的时间范围,由8个字段构成,包括2个数值型与6个分类型变量,且无缺失值。数据集中每个观测单元代表一个国家层面的聚合值,其中年份变量范围宽广,数值型变量'value'的跨度从0到超过250万,揭示了南苏丹性别相关指标的多样性与动态变化。
使用方法
该数据集适用于表格分类与回归任务,研究者可通过Hugging Face的datasets库轻松加载,使用load_dataset函数即可获取训练集与测试集,并支持转换为Pandas DataFrame进行深入分析。数据集结构清晰,包含地理标识(country_name、country_iso3)、时间戳(year)、指标名称与代码(indicator_name、indicator_code)以及数值(value)等核心变量,便于进行时间序列分析、性别差异比较或构建预测模型。用户应参考原始HDX数据集页面以了解出版者的方法论说明与局限性。
背景与挑战
背景概述
在世界银行集团推动的性别平等战略(2016-2023)背景下,精准、可机读的性别数据对于评估发展政策成效、弥合性别鸿沟具有关键作用。该数据集由世界银行集团于2026年3月更新发布,经Electric Sheep Africa机构整理为机器学习就绪的Parquet格式,聚焦南苏丹这一饱受冲突与贫困困扰的国家。核心研究问题在于提供按性别分类的人口、教育、健康及经济参与等维度指标,以支持区域发展研究、政策制定与机器学习模型训练。作为首个面向南苏丹的标准化性别指标数据集,它为非洲人道主义数据分析与性别平等量化研究提供了稀缺的基础资源,对推动数据驱动的发展决策具有显著影响力。
当前挑战
该数据集所解决的领域问题核心挑战在于:性别不平等是长期困扰低收入国家的结构性难题,而南苏丹缺乏系统、连贯的性别细分数据,使得政策干预难以精准定位弱势群体。构建过程中面临多重挑战:原始数据来源于世界银行,但未经过独立验证,可能存在报告偏差与定义不一致;自动化清洗无法纠正原始收集中的采样偏误或误报值;此外,时间跨度(1960-2024)内部分年份数据稀疏,且仅包含国家层级聚合,无法揭示地区或社区内部的性别差异,限制了模型的细粒度分析能力与泛化鲁棒性。
常用场景
经典使用场景
该数据集汇聚了世界银行发布的南苏丹性别指标数据,涵盖人口、教育、健康、经济参与及公共决策等多个维度的性别分项统计,是研究性别平等与发展的基础性资源。经典使用场景包括构建回归模型以预测性别指标随时间的变化趋势,或利用分类算法识别影响性别差距的关键因素。研究者可基于年份、指标类别等特征,对南苏丹的性别平等状况进行纵向分析与横向比较,为政策制定提供数据驱动的实证依据。
实际应用
在实际应用中,该数据集可用于指导南苏丹及类似地区的性别平等政策设计与项目评估。国际组织与非政府机构可借助其分析结果,精准识别教育、健康或就业领域中的性别失衡问题,从而制定针对性干预措施。例如,基于年龄结构与性别分布的预测,可为医疗卫生资源分配或女童入学率提升计划提供数据参考。此外,该数据集还支持监测可持续发展目标中性别指标的达成进度,助力人道主义行动的科学化决策。
衍生相关工作
围绕该数据集衍生了多项经典工作,包括性别指标的时间序列建模与缺失数据插补研究。研究者曾利用其构建预测模型,探索南苏丹人口结构变迁对性别平等的影响,并与世界银行其他国别数据联合分析,开展区域比较研究。数据集的标准化清洗与分割流程也为机器学习社区提供了可复用的基线资源,促进了面向非洲语境的可解释性模型开发。此外,基于该数据的指标分类与聚类分析,催生了性别不平等成因的因子分析研究,深化了对后冲突国家性别动态的理解。
以上内容由遇见数据集搜集并总结生成



