electricsheepafrica/africa-gender-madagascar
收藏Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-gender-madagascar
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Madagascar - Gender,包含世界银行数据门户中关于马达加斯加性别平等指标的数据。数据集旨在提供按性别分列的数据和性别统计,涵盖人口统计、教育、健康、经济机会获取、公共生活和决策以及自主权等方面。每一行数据代表国家层面的汇总数据。数据集由Electric Sheep Africa重新打包为适合机器学习的Parquet格式,并分为训练集和测试集。数据集包含地理、结果/测量以及标识符/元数据等变量。数据最后更新于2026年3月27日。
### 数据集元数据
- 注释生成方式:无注释
- 语言来源:公开采集
- 语言:英语
- 授权协议:知识共享署名4.0(CC-BY-4.0)
- 多语言属性:单语言
- 样本量范围:1000 < n < 10000
- 原始数据集来源:原始数据集
- 任务类别:表格分类、表格回归
- 任务子项:无
- 标签:非洲、人道主义、人道主义数据交换平台(HDX)、电动绵羊非洲(Electric Sheep Africa)、性别、指标、千年发展目标(MDG)
- 数据集名称:马达加斯加——性别议题
---
# 马达加斯加——性别数据集
**发布方:世界银行集团 · 数据源:[人道主义数据交换平台(HDX)](https://data.humdata.org/dataset/world-bank-gender-indicators-for-madagascar) · 授权协议:`知识共享署名(CC-BY)` · 最后更新:2026-03-27**
---
## 摘要
本数据集收录源自世界银行官方数据门户的统计数据。人道主义数据交换平台(HDX)同时提供马达加斯加综合国别数据集。
性别平等本身就是核心发展目标,同时也是明智的发展政策与稳健的商业实践。它是经济增长、商业发展与良好发展成果不可或缺的组成部分。性别平等能够提升生产力,改善下一代的发展前景,增强韧性,并让各类机构更具代表性与实效性。2015年12月,世界银行集团董事会审议通过了《2016-2023年性别平等战略》,该战略旨在解决长期存在的性别数据缺口,并提出进一步聚焦于获取更多、更优质的性别数据。世行集团正持续扩大相关承诺与合作伙伴关系,以填补性别数据领域的显著缺口。本数据库收录最新的按性别分类数据与性别统计指标,涵盖人口统计、教育、健康、经济机会获取、公共生活与决策参与以及个人自主权等领域。
本数据集的每一行均代表国家级汇总数据。该数据集在HDX平台的最后更新时间为2026年3月27日。地理覆盖范围:千年发展目标(MDG,马达加斯加国家代码)。
*本数据集由[电动绵羊非洲(Electric Sheep Africa)](https://huggingface.co/electricsheepafrica)整理为机器学习可用的Parquet格式。*
---
## 数据集特征
| | |
|---|---|
| **领域** | 公共卫生 |
| **观测单元** | 国家级汇总数据 |
| **总样本行数** | 4610 |
| **列数** | 8列(2个数值型、6个分类型、0个日期时间型) |
| **训练集划分** | 3688行 |
| **测试集划分** | 922行 |
| **地理覆盖范围** | MDG |
| **发布方** | 世界银行集团 |
| **HDX平台最后更新时间** | 2026-03-27 |
---
## 字段说明
### 地理类字段
`country_name`(国家名称:马达加斯加)、`country_iso3`(国家ISO3代码:MDG)、`year`(年份范围:1960.0至2025.0)。
### 结果/测量类字段
`value`(数值范围:0.0至8315353.0)。
### 标识符/元数据类字段
`indicator_name`(指标名称:5岁男性人口数、0岁男性人口数、3岁女性人口数等)、`indicator_code`(指标代码:SP.POP.AG05.MA.IN、SP.POP.AG00.MA.IN、SP.POP.AG03.FE.IN)、`esa_source`(数据来源:HDX)、`esa_processed`(数据处理日期:2026-04-27)。
---
## 快速使用示例
python
from datasets import load_dataset
# 加载目标数据集
ds = load_dataset("electricsheepafrica/africa-gender-madagascar")
# 将训练集转换为Pandas DataFrame格式
train = ds["train"].to_pandas()
# 将测试集转换为Pandas DataFrame格式
test = ds["test"].to_pandas()
# 打印训练集的形状信息
print(train.shape)
# 查看训练集前5条样本数据
train.head()
---
## 数据Schema
| 列名 | 数据类型 | 空值占比 | 取值范围/示例值 |
|---|---|---|---|
| `country_name` | 字符型 | 0.0% | 马达加斯加 |
| `country_iso3` | 字符型 | 0.0% | MDG |
| `year` | 64位整型 | 0.0% | 1960.0 – 2025.0(均值:2000.9616) |
| `indicator_name` | 字符型 | 0.0% | 5岁男性人口数、0岁男性人口数、3岁女性人口数等 |
| `indicator_code` | 字符型 | 0.0% | SP.POP.AG05.MA.IN、SP.POP.AG00.MA.IN、SP.POP.AG03.FE.IN |
| `value` | 64位浮点型 | 0.0% | 0.0 – 8315353.0(均值:83721.2215) |
| `esa_source` | 字符型 | 0.0% | HDX |
| `esa_processed` | 字符型 | 0.0% | 2026-04-27 |
---
## 数值型字段统计摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
| `year` | 1960.0 | 2025.0 | 2000.9616 | 2004.0 |
| `value` | 0.0 | 8315353.0 | 83721.2215 | 48.965 |
---
## 数据整理流程
原始数据通过CKAN API从HDX平台下载,并转换为Parquet格式。列名统一转换为小写并采用蛇形命名法进行标准化。将常见的缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。本数据集以固定随机种子(42)按照80/20的比例划分为训练集与测试集,并以Snappy压缩格式保存为Parquet文件。
---
## 局限性说明
- 本数据集源自世界银行集团,未经过电动绵羊非洲的独立验证。
- 自动化清洗流程无法修正原始数据收集阶段的错报值、定义不一致或抽样偏差问题。
- 请参阅[HDX原始数据集页面](https://data.humdata.org/dataset/world-bank-gender-indicators-for-madagascar)获取发布方提供的方法论说明与相关免责声明。
---
## 引用格式
bibtex
@dataset{hdx_africa_gender_madagascar,
title = {马达加斯加——性别数据集},
author = {世界银行集团},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-gender-indicators-for-madagascar},
note = {由电动绵羊非洲(Electric Sheep Africa)重新打包为机器学习可用格式(https://huggingface.co/electricsheepafrica)}
}
---
*[电动绵羊非洲(Electric Sheep Africa)](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施,尼日利亚拉各斯。
提供机构:
electricsheepafrica



