electricsheepeurope/europe-ilo-cld-xgpb-sex-age-stu-nb-children-in-child-labour-general-production-bounda

Name: electricsheepeurope/europe-ilo-cld-xgpb-sex-age-stu-nb-children-in-child-labour-general-production-bounda
Creator: electricsheepeurope
Published: 2026-05-29 19:16:05
License: 暂无描述

Hugging Face2026-05-29 更新2026-05-31 收录

下载链接：

https://hf-mirror.com/datasets/electricsheepeurope/europe-ilo-cld-xgpb-sex-age-stu-nb-children-in-child-labour-general-production-bounda

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自国际劳工组织（ILO）ILOSTAT数据库的童工数据，专门针对欧洲地区。数据集涵盖2022年，包含30个观测值，涉及1个欧洲国家（塞尔维亚）。核心指标为CLD_XGPB_SEX_AGE_STU_NB，用于衡量按性别、年龄和上学情况划分的童工儿童数量（以千计）。数据通过ILOSTAT REST API获取，并经过过滤以仅包含欧洲国家。数据集结构包括国家代码、指标、性别分类、年龄分类、观测年份、观测值等列，并提供了数据来源和质量说明（如年度频率、最佳来源选择）。该数据集由Electric Sheep Europe重新打包，旨在为机器学习研究提供标准化、易于使用的欧洲数据层。

This dataset contains child labour data from the International Labour Organization (ILO) ILOSTAT database, specifically for Europe. It includes 30 observations across 1 European country (Serbia) for the year 2022. The key indicator is CLD_XGPB_SEX_AGE_STU_NB, which measures children in child labour by sex, age, and school attendance status (in thousands). Data is sourced via the ILOSTAT REST API and filtered to European countries. The dataset schema includes columns such as country code, indicator, sex classification, age classification, observation year, and observed value, along with source and quality notes (e.g., annual frequency, best source selection). Repackaged by Electric Sheep Europe, it aims to provide a unified, ML-ready data layer for Europe.

提供机构：

electricsheepeurope

搜集汇总

数据集介绍

构建方式

童工现象是全球劳动力市场中备受关注的议题，国际劳工组织（ILO）通过其核心统计数据库ILOSTAT持续监测相关数据。该数据集聚焦于欧洲地区童工劳动的现状，具体涵盖2022年塞尔维亚的30条观测记录，指标为“一般生产边界下按性别、年龄和就学状态划分的童工人数”。数据通过ILOSTAT的REST API直接获取，原始数据源自国家儿童劳动调查的微观数据，并依据国际劳工统计学家会议（ICLS）的定义进行统一化处理。针对欧洲区域，数据集仅筛选出ISO 3166-1 alpha-3国家代码为‘SRB’的观测值，以保证区域聚焦性。每个数据条目均包含来源标签以便追溯，确保数据来源的透明与可信。

使用方法

该数据集的使用极为便捷，完全整合于HuggingFace的datasets库生态中。用户只需一条简单的Python命令‘load_dataset()’即可将数据加载为可供操作的DataFrame格式，随后可借助Pandas工具直接进行探索性分析。例如，可通过过滤‘ref_area’列快速定位特定国家（如塞尔维亚‘SRB’）的完整记录；亦可按时间排序某一指标（如‘CLD_XGPB_SEX_AGE_STU_NB’）以生成时间序列图。对于跨维度的比较，利用‘pivot_table’方法可将数据重塑为国家与年份的矩阵，便于观察不同性别或年龄分类下的数值分布。数据以表格分类与回归任务为导向，亦适用于时间序列预测，为劳动经济学研究者提供了一个轻量级但维度丰富的分析起点。

背景与挑战

背景概述

童工问题是全球劳动市场中的顽疾，国际劳工组织（ILO）自1919年成立以来便致力于消除这一现象，其下属的ILOSTAT数据库作为劳动统计的权威来源，持续追踪各国童工状况。在此背景下，Electric Sheep Europe于2022年基于ILOSTAT数据，构建了名为“Children in child labour -- General Production Boundary by sex, age and school attendance | Europe (ILOSTAT)”的数据集，聚焦欧洲地区童工监测。该数据集包含了来自塞尔维亚的30条观测记录，覆盖2022年，按性别、年龄和就学状况分层，核心研究问题在于揭示童工在一般生产边界内的参与情况，为政策制定者和研究人员提供精细化的量化依据。通过将ILO官方统计指标与标准化数据格式结合，该数据集显著提升了欧洲童工数据的可获取性与可比性，对推动区域性的劳工权益保障研究具有重要价值。

当前挑战

该数据集所解决的领域问题是童工统计中因数据不统一、颗粒度不足而导致的政策盲区。传统上，各国童工调查在定义、年龄分组和性别分类上差异较大，难以进行跨国比较与趋势分析。本数据集通过采用ILO统一标准，按性别、年龄（5-17岁）和就学状况进行维度分解，从而增强了数据的可比性。在构建过程中，面临的挑战包括：原始ILOSTAT数据来源多样（如劳动力调查和行政记录），需要清洗并整合不同来源的指标；同时，塞尔维亚作为唯一覆盖的欧洲国家，样本容量仅30条且部分观测值被标记为不可靠，限制了模型训练和时空外推的准确性。此外，仅涵盖单一国家的短时间跨度也制约了数据集的代表性，亟需后续扩充更多国家与年份以提升其泛化能力。

常用场景

经典使用场景

在童工问题的量化研究中，该数据集以国际劳工组织ILOSTAT官方数据为基础，提供了按性别、年龄和就学状态细分的童工数量（以千人为单位），覆盖欧洲国家2022年的年度观测。其经典使用场景聚焦于时间序列分析和分类回归任务：研究者可借助Python的datasets库快速加载数据，通过过滤性别人口学维度、绘制观测值随时间的变化曲线，或构建国家-年份的透视矩阵，系统揭示童工规模的静态分布与动态波动。数据集的标准化模式（包含ISO国家代码、指标代码与观测状态标记）极大地降低了跨国家、跨年度比较的数据清洗门槛，使学术团队能以极低工程成本开展欧洲童工现象的统计描述与预测建模。

解决学术问题

该数据集直接回应了劳动经济学与发展研究中几个长期面临的学术挑战：如何获取一致且可比较的跨国童工数据？如何将童工统计与国际定义的“一般生产边界”标准准确对齐？通过纳入国际劳动统计学家会议（ICLS）的定义框架，数据集消除了各国调查口径差异带来的偏误，首次以统一指标代码（CLD_XGPB_SEX_AGE_STU_NB）刻画了欧洲区域童工与教育参与之间的交互关系。这一设计使学者能够深入探究从“仅家庭生产”到“市场雇佣”不同边界下童工的规模变化，并实证检验童工发生率是否因性别和学校出勤率产生结构性分异，从而丰富了对童工成因和福利后果的理论理解。

实际应用

在实际政策层面，该数据集是国际组织与欧洲国家劳动部门开展现状监测和干预评估的关键工具。劳工统计师可将其作为童工趋势报告的权威数据基础，快速对比塞尔维亚等单一国家的年度指标；非政府组织和儿童保护机构则能借助数据集的性别与教育分类，精准锁定最需要帮扶的子群体——例如失学男童或面临经济剥削的女童。此外，由于数据集采用CC-BY-4.0开放式许可，教育工作者可在课堂中将其作为真实案例，引导学生练习数据清洗、回归建模或数据可视化，从而将前沿知识转化为可操作的社会科学教学资源。

数据集最近研究