five

electricsheepafrica/africa-gender-madagascar

收藏
Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-gender-madagascar
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Madagascar - Gender,包含世界银行数据门户中关于马达加斯加性别平等指标的数据。数据集旨在提供按性别分列的数据和性别统计,涵盖人口统计、教育、健康、经济机会获取、公共生活和决策以及自主权等方面。每一行数据代表国家层面的汇总数据。数据集由Electric Sheep Africa重新打包为适合机器学习的Parquet格式,并分为训练集和测试集。数据集包含地理、结果/测量以及标识符/元数据等变量。数据最后更新于2026年3月27日。

### 数据集元数据 - 注释生成方式:无注释 - 语言来源:公开采集 - 语言:英语 - 授权协议:知识共享署名4.0(CC-BY-4.0) - 多语言属性:单语言 - 样本量范围:1000 < n < 10000 - 原始数据集来源:原始数据集 - 任务类别:表格分类、表格回归 - 任务子项:无 - 标签:非洲、人道主义、人道主义数据交换平台(HDX)、电动绵羊非洲(Electric Sheep Africa)、性别、指标、千年发展目标(MDG) - 数据集名称:马达加斯加——性别议题 --- # 马达加斯加——性别数据集 **发布方:世界银行集团 · 数据源:[人道主义数据交换平台(HDX)](https://data.humdata.org/dataset/world-bank-gender-indicators-for-madagascar) · 授权协议:`知识共享署名(CC-BY)` · 最后更新:2026-03-27** --- ## 摘要 本数据集收录源自世界银行官方数据门户的统计数据。人道主义数据交换平台(HDX)同时提供马达加斯加综合国别数据集。 性别平等本身就是核心发展目标,同时也是明智的发展政策与稳健的商业实践。它是经济增长、商业发展与良好发展成果不可或缺的组成部分。性别平等能够提升生产力,改善下一代的发展前景,增强韧性,并让各类机构更具代表性与实效性。2015年12月,世界银行集团董事会审议通过了《2016-2023年性别平等战略》,该战略旨在解决长期存在的性别数据缺口,并提出进一步聚焦于获取更多、更优质的性别数据。世行集团正持续扩大相关承诺与合作伙伴关系,以填补性别数据领域的显著缺口。本数据库收录最新的按性别分类数据与性别统计指标,涵盖人口统计、教育、健康、经济机会获取、公共生活与决策参与以及个人自主权等领域。 本数据集的每一行均代表国家级汇总数据。该数据集在HDX平台的最后更新时间为2026年3月27日。地理覆盖范围:千年发展目标(MDG,马达加斯加国家代码)。 *本数据集由[电动绵羊非洲(Electric Sheep Africa)](https://huggingface.co/electricsheepafrica)整理为机器学习可用的Parquet格式。* --- ## 数据集特征 | | | |---|---| | **领域** | 公共卫生 | | **观测单元** | 国家级汇总数据 | | **总样本行数** | 4610 | | **列数** | 8列(2个数值型、6个分类型、0个日期时间型) | | **训练集划分** | 3688行 | | **测试集划分** | 922行 | | **地理覆盖范围** | MDG | | **发布方** | 世界银行集团 | | **HDX平台最后更新时间** | 2026-03-27 | --- ## 字段说明 ### 地理类字段 `country_name`(国家名称:马达加斯加)、`country_iso3`(国家ISO3代码:MDG)、`year`(年份范围:1960.0至2025.0)。 ### 结果/测量类字段 `value`(数值范围:0.0至8315353.0)。 ### 标识符/元数据类字段 `indicator_name`(指标名称:5岁男性人口数、0岁男性人口数、3岁女性人口数等)、`indicator_code`(指标代码:SP.POP.AG05.MA.IN、SP.POP.AG00.MA.IN、SP.POP.AG03.FE.IN)、`esa_source`(数据来源:HDX)、`esa_processed`(数据处理日期:2026-04-27)。 --- ## 快速使用示例 python from datasets import load_dataset # 加载目标数据集 ds = load_dataset("electricsheepafrica/africa-gender-madagascar") # 将训练集转换为Pandas DataFrame格式 train = ds["train"].to_pandas() # 将测试集转换为Pandas DataFrame格式 test = ds["test"].to_pandas() # 打印训练集的形状信息 print(train.shape) # 查看训练集前5条样本数据 train.head() --- ## 数据Schema | 列名 | 数据类型 | 空值占比 | 取值范围/示例值 | |---|---|---|---| | `country_name` | 字符型 | 0.0% | 马达加斯加 | | `country_iso3` | 字符型 | 0.0% | MDG | | `year` | 64位整型 | 0.0% | 1960.0 – 2025.0(均值:2000.9616) | | `indicator_name` | 字符型 | 0.0% | 5岁男性人口数、0岁男性人口数、3岁女性人口数等 | | `indicator_code` | 字符型 | 0.0% | SP.POP.AG05.MA.IN、SP.POP.AG00.MA.IN、SP.POP.AG03.FE.IN | | `value` | 64位浮点型 | 0.0% | 0.0 – 8315353.0(均值:83721.2215) | | `esa_source` | 字符型 | 0.0% | HDX | | `esa_processed` | 字符型 | 0.0% | 2026-04-27 | --- ## 数值型字段统计摘要 | 列名 | 最小值 | 最大值 | 均值 | 中位数 | |---|---|---|---|---| | `year` | 1960.0 | 2025.0 | 2000.9616 | 2004.0 | | `value` | 0.0 | 8315353.0 | 83721.2215 | 48.965 | --- ## 数据整理流程 原始数据通过CKAN API从HDX平台下载,并转换为Parquet格式。列名统一转换为小写并采用蛇形命名法进行标准化。将常见的缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。本数据集以固定随机种子(42)按照80/20的比例划分为训练集与测试集,并以Snappy压缩格式保存为Parquet文件。 --- ## 局限性说明 - 本数据集源自世界银行集团,未经过电动绵羊非洲的独立验证。 - 自动化清洗流程无法修正原始数据收集阶段的错报值、定义不一致或抽样偏差问题。 - 请参阅[HDX原始数据集页面](https://data.humdata.org/dataset/world-bank-gender-indicators-for-madagascar)获取发布方提供的方法论说明与相关免责声明。 --- ## 引用格式 bibtex @dataset{hdx_africa_gender_madagascar, title = {马达加斯加——性别数据集}, author = {世界银行集团}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-gender-indicators-for-madagascar}, note = {由电动绵羊非洲(Electric Sheep Africa)重新打包为机器学习可用格式(https://huggingface.co/electricsheepafrica)} } --- *[电动绵羊非洲(Electric Sheep Africa)](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施,尼日利亚拉各斯。
提供机构:
electricsheepafrica
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作