asia-gender-all

Hugging Face2026-05-04 更新2026-05-05 收录

下载链接：

https://huggingface.co/datasets/electricsheepasia/asia-gender-all

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Korea, Rep. - Gender，由世界银行集团发布，旨在提供韩国性别相关指标的聚合数据。数据集包含1960年至2025年的国家层面统计数据，涵盖人口年龄、性别等指标，用于支持性别平等和发展政策的研究。数据集总共有5,166行数据，分为4,132行的训练集和1,033行的测试集。每行数据包括国家名称、ISO3代码、年份、指标名称、指标代码和数值等8个字段，其中2个为数值型，6个为分类型。数据经过清洗和标准化处理，转换为Parquet格式以便机器学习使用。数据集适用于表格分类和回归任务，特别适合公共健康和性别研究领域。

创建时间：

2026-05-04

原始信息汇总

数据集概述：Korea, Rep. - Gender

基本信息

数据集名称：Korea, Rep. - Gender
发布方：World Bank Group
数据来源：HDX
许可证：cc-by-4.0
更新日期：2026-04-28
地理范围：KOR（韩国）
领域：公共卫生
观测单位：国家级汇总数据

数据规模

总行数：5,166 行
列数：8 列（2 个数值型，6 个类别型，0 个日期时间型）
训练集：4,132 行
测试集：1,033 行

变量说明

列名	类型	范围 / 示例值
`country_name`	文本	Korea, Rep.
`country_iso3`	文本	KOR
`year`	整数	1960.0 – 2025.0（均值 2000.52）
`indicator_name`	文本	Age population, age 00, male 等
`indicator_code`	文本	SP.POP.AG00.MA.IN 等
`value`	浮点数	0.0 – 13,240,510.0（均值 122,872.07）
`esa_source`	文本	HDX
`esa_processed`	文本	2026-05-04

任务类型

分类任务（tabular-classification）
回归任务（tabular-regression）

数据特点

数据来源为世界银行性别指标数据集
涵盖人口、教育、健康、经济机会、公共生活和决策等领域的性别分类数据
经过 Electric Sheep Africa 清洗并转换为 ML 就绪的 Parquet 格式
缺失值已统一处理为 NaN

使用限制

数据未经独立验证，可能存在原始收集中的报告错误或定义不一致
建议参考发布方的原始方法论说明

搜集汇总

数据集介绍

构建方式

该数据集源自世界银行集团的性别平等指标，经由人道主义数据交换（HDX）平台获取原始数据，并由Electric Sheep Africa团队以CKAN API下载后，转化为Parquet格式。在预处理阶段，列名被统一转换为小写蛇形命名法，各类缺失值标记（如N/A、null等）均被标准化为NaN。最终，数据集以固定随机种子（42）按80/20比例划分为训练集与测试集，并使用Snappy压缩算法保存为Parquet文件，确保数据结构的高效性与可复现性。

特点

本数据集聚焦于韩国（Korea, Rep.）的性别相关指标，涵盖1960年至2025年间的人口年龄与性别分布等关键变量，共计5166条记录，包含8个字段，其中2个为数值型，6个为类别型。其地理范围集中于韩国国别层面，提供诸如年龄分层人口（分性别）等精细指标，且数据经过严格的清洗与标准化处理，无缺失值，为性别平等研究提供了可靠、细致的时间序列数据基础。

使用方法

用户可通过HuggingFace的datasets库便捷加载该数据集，具体调用`load_dataset("electricsheepafrica/asia-gender-all")`即可获取训练集与测试集。返回的数据集可直接转换为Pandas DataFrame格式，便于进行统计分析或机器学习建模。该数据集适用于表格分类与回归任务，例如基于年份与指标代码预测人口数值，或进行性别维度的趋势分析。

背景与挑战

背景概述

性别平等作为全球发展议程的核心目标之一，长期以来受到国际社会的高度关注。世界银行集团在其2016-2023年性别平等战略中明确指出，填补性别数据鸿沟对于推动经济增长、提升生产力以及增强制度代表性具有不可替代的作用。在此背景下，韩国-性别数据集（asia-gender-all）于2026年由世界银行集团发布，并经非洲本土机构Electric Sheep Africa精心整理为机器学习就绪格式。该数据集聚焦于韩国（大韩民国）1960至2025年间按性别分类的人口统计指标，涵盖年龄人口、教育、健康等关键维度，旨在为性别相关研究提供标准化、可复用的数据基础。数据集共包含超过5000条国家层面聚合记录，横跨8个字段，为分析韩国性别结构演变及其社会经济影响提供了宝贵资源。

当前挑战

该数据集所面临的挑战首先体现在领域问题层面：性别相关研究长期受限于数据稀疏性、指标定义不统一以及跨时间维度可比性差等顽疾，尤其在人口细分统计中，不同机构对年龄分组、性别分类的界定存在差异，导致模型泛化困难。此外，原始数据源自世界银行通过HDX平台收集的官方统计，而官方数据本身可能存在抽样偏差、报告延迟或特定年份数据缺失等问题。在构建过程中，自动化清洗流程虽统一了缺失值与字段格式，却无法纠正原始数据中的误报或方法论变更带来的系统性偏差。数据集仅覆盖韩国单一国家，其模型在其他地域的迁移能力受限，且时间跨度长达65年，社会经济结构剧变可能引入隐式概念漂移，令时序预测任务更具挑战。

常用场景

经典使用场景

在性别平等与人口发展研究的学术版图中，asia-gender-all数据集凭借世界银行官方发布的韩国性别指标，成为剖析东亚地区性别结构演变的宝贵资源。该数据集涵盖1960年至2025年间按性别分列的人口年龄构成、教育参与及经济机会等关键维度，为研究者提供了跨年代、跨领域的纵向统计样本。其经典使用场景集中于构建多元回归模型，用以量化性别比例与经济发展阶段、教育普及率之间的动态关联。通过该数据集，学者能够系统性地检验性别差距在现代化进程中的收敛或扩大趋势，从而揭示制度变迁与文化传统如何共同塑造性别平等路径。数据集经过规范化清洗与划分训练测试集，极大降低了数据预处理的复杂性，使研究者得以直接聚焦于建模与推论，加速了人口学与公共政策交叉领域的实证探索。

衍生相关工作

该数据集衍生了一系列在人口预测、公平性度量及时间序列分析领域具有标识性的学术工作。基于该数据，研究者开发了针对性别年龄结构的概率预测模型，用于模拟韩国未来劳动力市场供需平衡。在方法论创新上，有学者利用随机森林算法对不同性别指标的重要性进行排序，发现教育指标在预测女性经济活跃度时权重显著高于健康指标。另有团队以此为基础构建了综合性别不平等指数，通过多维视角替代传统的单一收入差异度量，提升了跨国比较的鲁棒性。在公平性机器学习社区，该数据集被用作衡量预测模型是否存在性别偏见的标准基准之一，催生了多种去偏训练技术的对比评估框架。这些衍生作品不仅深化了对韩国性别动态的认知，更将数据集的价值从单纯的数据仓库扩展为方法实验与理论反思的孵化器。

数据集最近研究