africa-gender-all
收藏Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-gender-all
下载链接
链接失效反馈官方服务:
资源简介:
《2022年全球性别差距报告》数据集由世界经济论坛发布,旨在衡量和追踪性别差距在四个关键维度(经济参与与机会、教育程度、健康与生存、政治赋权)上的演变。数据集包含非洲多个国家的国家层面聚合数据,每行代表一个国家。数据以表格形式呈现,包含6个字段(2个数值型,4个分类型),总样本量为36条,其中训练集28条,测试集7条。主要字段包括国家名称、货币代码、女性平均年收入、男性平均年收入等。数据集经过Electric Sheep Africa的预处理,转换为Parquet格式,并进行了标准化清洗。适用于表格分类和回归任务,特别适合用于性别差距分析和公共健康研究。
创建时间:
2026-04-27
原始信息汇总
数据集概述:Global Gender Gap Report 2022
数据集名称:Global Gender Gap Report 2022
数据集标识:electricsheepafrica/africa-gender-all
发布者:World Economic Forum
更新日期:2022-10-13
许可证:Creative Commons Attribution 4.0 International (CC-BY-4.0)
语言:英语
多语言性:单语
标注类型:无标注
来源:原始数据(从 OpenAfrica 获取)
领域:公共健康
地理范围:非洲(多个国家)
标签:africa, humanitarian, hdx, electric-sheep-africa, female, gender, male
数据集大小与划分
- 总行数:36 行
- 列数:6 列(包含 2 个数值列、4 个类别列,无日期时间列)
- 数据划分:
- 训练集:28 行
- 测试集:7 行
- 大小类别:n < 1K
数据内容与变量
该数据集衡量2022年全球性别差距指数,跟踪四个关键维度(经济参与与机会、教育程度、健康与生存、政治赋权)的性别差距演变。每行代表国家层面的汇总数据。
| 列名 | 类型 | 缺失比例 | 范围 / 示例值 |
|---|---|---|---|
country |
类别 | 0.0% | 安哥拉、布隆迪、毛里求斯等 |
currency_code |
类别 | 0.0% | CFA、AOA、SLL |
average_annual_salary_women |
数值 | 0.0% | 833.2474 – 13257.6191 |
average_annual_salary_men |
数值 | 0.0% | 627.2471 – 25815.1115 |
esa_source |
类别 | 0.0% | HDX |
esa_processed |
类别 | 0.0% | 2026-04-28 |
数值统计摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
average_annual_salary_women |
833.2474 | 13257.6191 | 3273.0024 | 2035.2775 |
average_annual_salary_men |
627.2471 | 25815.1115 | 5107.017 | 2965.2888 |
数据整理与使用
- 数据来源:通过 CKAN API 从 OpenAfrica 下载原始数据,转换为 Parquet 格式。
- 预处理:列名统一为小写蛇形命名法;缺失值标记(如 N/A, null, none, -, unknown, no data, #N/A)统一为 NaN。
- 数据划分:按固定随机种子(42)以 80/20 比例划分训练集和测试集,保存为 Snappy 压缩的 Parquet 格式。
- 快速使用:可通过
datasets库加载: python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-gender-all") train = ds["train"].to_pandas() test = ds["test"].to_pandas()
局限性
- 数据来源于世界经济论坛,未经独立验证。
- 自动清洗无法纠正原始数据中的误报、定义不一致或抽样偏差。
- 建议参考 OpenAfrica 上的原始数据集页面以获取发布者的方法论说明和注意事项。
搜集汇总
数据集介绍

构建方式
数据集africa-gender-all源自世界经济论坛发布的《2022年全球性别差距报告》,由Electric Sheep Africa团队从OpenAfrica平台通过CKAN API获取原始数据,并转化为Parquet格式以优化机器学习应用。数据预处理包括将列名统一为小写下划线命名法,将常见缺失值标记(如N/A、null等)统一转换为NaN。最终,数据集以固定随机种子42按80/20比例划分为训练集和测试集,并以Snappy压缩的Parquet格式存储,确保高效读取与存储。
特点
该数据集以国家层级为观测单位,聚焦非洲地区多个国家的性别差距状况,涵盖经济参与与机会、教育程度、健康与生存、政治赋权四个核心维度。数据包含36个样本,6个特征列,其中2个为数值型(女性与男性年均薪资),4个为类别型(国家、货币代码、数据来源及处理日期)。数值特征展现了显著的性别薪资差异,女性均值约为3273,男性均值约为5107,突显了性别不平等现象的持续存在。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,使用load_dataset("electricsheepafrica/africa-gender-all")命令即可获取训练集与测试集。加载后的数据可直接转换为Pandas DataFrame进行后续分析,适用于表格分类或回归任务。数据集规模小巧,训练集含28条记录,测试集含7条记录,便于快速原型开发与教学演示。用户可基于国家间的薪资对比进行性别差距建模、可视化分析或政策评估研究。
背景与挑战
背景概述
性别平等是全球可持续发展议程中的核心议题,而精准的数据支撑是制定有效政策与评估进展的基石。由世界经济论坛(World Economic Forum)于2022年发布的《全球性别差距报告》,经由Electric Sheep Africa团队策划整理,形成了名为africa-gender-all的数据集。该数据集聚焦非洲多个国家的性别差距现状,围绕经济参与与社会、教育成就、健康生存及政治赋权四个关键维度,以国家层面的聚合数据揭示性别平等动态。其核心研究问题在于量化非洲地区的性别鸿沟,并追踪随时间推移的弥合进程。作为面向机器学习精心构建的数据集,它不仅为区域性别研究提供了标准化的基础资源,还促进了学术界与政策制定者对非洲性别问题的量化分析与循证决策,在公共健康与发展经济学领域具有重要的参考价值。
当前挑战
该数据集所应对的领域挑战在于,大多数全球性别平等指数因缺乏非洲国家的细粒度数据而难以反映区域性极端差异,africa-gender-all通过聚焦非洲多国,旨在填补这一空白,使模型能够学习并预测本地化的薪资差距等不平等模式。然而,构建过程中面临显著障碍:原始数据源自世界经济论坛,却未经独立验证,可能存在报告偏差或采样误差;自动化清洗无法修正因定义不统一或数据误报引起的系统性问题,例如女性与男性平均年薪的范围跨度极大(女性833至13257美元,男性627至25815美元),这暗示了数据质量参差不齐。此外,仅包含36行样本和6个变量的极小规模,限制了深度学习模型的适用性,并容易导致过拟合,对统计推断的稳健性构成挑战。
常用场景
经典使用场景
该数据集以世界经济论坛发布的《2022年全球性别差距报告》为基石,聚焦非洲多国数据,构建了一幅关于性别平等的定量图景。其经典使用场景在于运用表格分类与回归任务,通过国家层面的聚合指标,如女性与男性的平均年薪、政治参与度等,来评估和预测不同非洲国家在性别平等方面所处的阶段与演进趋势。研究者可借助该数据集训练模型,识别影响性别差距的关键因子,或对各国性别表现进行聚类分析,从而揭示区域内部的异质性与共同特征。
实际应用
在现实政策制定与国际发展援助领域,该数据集展现出重要的应用价值。非政府组织、多边开发银行及国家统计部门可将其作为基准工具,快速识别本国或区域内性别差距最为突出的领域,从而精准投放资源,设计有针对性的干预措施,如提升女性高等教育入学率或缩小同工不同酬现象。企业社会影响力评估者亦可利用这些数据,分析投资国别环境中的性别包容程度,优化跨国合作与供应链管理中的社会责任策略,推动可持续发展目标的在地化落实。
衍生相关工作
基于这一数据集,学术界与实践社区衍生出多项富有影响力的深入工作。包括构建性别差距预测模型,探索经济指标与政治赋权之间的非线性关联;以及开发区域性性别平等指数,通过加权整合指标进行国家间排名与动态监测。此外,该数据的发布催生了面向非洲本土的机器学习基准任务,如识别各国性别平等发展路径的聚类分析,以及与历史数据结合进行的时序演变预测,从而推动数据驱动的发展政策研究在非洲大陆的落地生根,并激励后续更多聚焦性别议题的数据基础设施工程。
以上内容由遇见数据集搜集并总结生成



