five

asia-social-protection-world-bank-social-protection-and-labor-i

收藏
Hugging Face2026-05-05 更新2026-05-06 收录
下载链接:
https://huggingface.co/datasets/electricsheepasia/asia-social-protection-world-bank-social-protection-and-labor-i
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为“Turkiye - Social Protection and Labor”,由世界银行集团发布,并由Electric Sheep Africa整理为机器学习可用格式。数据集包含土耳其的社会保护与劳动指标,数据来源于世界银行的数据门户,并通过HDX平台提供。数据集包含1960年至2025年的国家层面聚合数据,总共有20,957行,分为16,765行的训练集和4,191行的测试集。数据字段包括地理信息(国家名称、ISO3代码、年份)、结果/测量(值)以及标识符/元数据(指标名称、指标代码、数据来源和处理日期)。数据集适用于人道主义和发展数据分析任务,特别是与劳动力和就业相关的研究。数据以Parquet格式提供,并经过标准化处理,包括列名小写、缺失值统一等。需要注意的是,数据未经ESA独立验证,可能存在原始收集中的报告错误或定义不一致。
创建时间:
2026-05-04
原始信息汇总

数据集概述:Turkiye - Social Protection and Labor

该数据集来源于世界银行集团,并由 Electric Sheep Africa 整理为机器学习友好的 Parquet 格式。数据集关注土耳其(Turkiye)的社会保护与劳动力指标,包含劳动力供应、失业率等国家层面的汇总数据。数据通过人道主义数据交换平台(HDX)获取,最后更新于 2026-04-28。

数据集特征

属性
领域 人道主义与发展数据
观察单位 国家层面汇总
总行数 20,957
列数 8(2 个数值型,6 个分类型,0 个日期时间型)
训练集 16,765 行
测试集 4,191 行
地理范围 TUR(土耳其)
发布者 世界银行集团
HDX 最后更新 2026-04-28
许可证 CC-BY-4.0

变量说明

  • 地理变量country_name(Turkiye)、country_iso3(TUR)、year(1960.0–2025.0)
  • 结果/测量变量value(0.0–36818130.0,均值 46187.4155,中位数 12.3883)
  • 标识符/元数据变量indicator_name(如女性失业率、男性失业率、总失业率)、indicator_code(如 SL.UEM.TOTL.FE.NE.ZS)、esa_source(HDX)、esa_processed(2026-05-05)

数值摘要

列名 最小值 最大值 均值 中位数
year 1960.0 2025.0 2011.0304 2011.0
value 0.0 36818130.0 46187.4155 12.3883

数据整理说明

原始数据通过 CKAN API 从 HDX 下载并转换为 Parquet 格式。列名被转换为小写并标准化为蛇形命名法(snake_case)。常见的缺失值标记(如 N/A、null、none、-、unknown、no data、#N/A)统一为 NaN。数据集按 80/20 比例随机拆分为训练集和测试集(随机种子 fixed 为 42),并保存为 Snappy 压缩的 Parquet 文件。

局限性

  • 数据来源于世界银行集团,未经 Electric Sheep Africa 独立验证。
  • 自动清洗无法纠正原始收集中的误报、定义不一致或抽样偏差。
  • 请参考原始 HDX 数据集页面以获取发布者的方法论说明和注意事项。

引用格式

bibtex @dataset{hdx_asia_social_protection_world_bank_social_protection_and_labor_i, title = {Turkiye - Social Protection and Labor}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-social-protection-and-labor-indicators-for-turkiye}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
在社会保障与劳动统计领域,准确刻画劳动力供给与就业状况的指标体系至关重要。本数据集源自世界银行集团,经由人道数据交换平台(HDX)获取原始数据,并由Electric Sheep Africa团队进行系统性整理与再加工。原始数据通过CKAN接口从HDX下载后,被转化为Parquet格式以提升存取效率;所有列名均转换为小写并统一为蛇形命名法,缺失值标记如“N/A”、“null”等均被标准化为NaN。最终,数据集依据固定随机种子(42)按照80/20比例被划分为训练集与测试集,并保存为Snappy压缩的Parquet文件,确保在机器学习任务中具备高效加载能力。
特点
该数据集聚焦于土耳其(TUR)的社会保障与劳动力指标,包含20,957条国家层面的聚合观测记录,跨越1960年至2025年这一广阔的时间维度。数据集的变量结构精炼而完整,涵盖8个字段,其中包含年份(year)与数值(value)两个数值型变量,以及国家名称、ISO代码、指标名称与编码等类别型变量。核心指标聚焦于失业率的不同维度,包括女性、男性及总劳动力中失业人口所占比例,为深入分析劳动力市场结构提供了量化基础。数据集无缺失值,数值型变量统计特征鲜明,value字段最大可达36,818,130,反映了从绝对人数到百分比等不同尺度的指标混合特征。
使用方法
对于数据驱动的社会科学研究者与机器学习从业者而言,该数据集的使用极为便捷。用户可通过HuggingFace的datasets库直接加载数据,一行命令即可获取已划分好的训练集与测试集,并支持将其转换为Pandas DataFrame进行后续分析。具体而言,调用load_dataset函数并指定数据集名称即可完成加载,随后可通过索引访问train与test分区。数据集结构清晰,包含国家、年份、指标名称及其对应数值等关键字段,适合用于时间序列预测、劳动力市场趋势分析或作为多维指标联合建模的特征输入。研究者亦可结合其他社会经济数据集进行横向比较或因果推断研究。
背景与挑战
背景概述
该数据集由世界银行集团于2026年发布,经Electric Sheep Africa整理为机器学习就绪的Parquet格式,聚焦土耳其的社会保护与劳动市场指标。数据集核心研究问题在于量化分析土耳其的劳动力供给结构,包括就业、失业及初次求职者等关键变量。通过整合国际劳工组织的劳动力调查、人口普查及行政记录等多源数据,该数据集为研究新兴经济体劳动力市场的动态演变提供了标准化、可复用的数据基础。其对相关领域的影响力体现在:一方面为发展经济学、劳动经济学及社会政策研究提供了覆盖1960至2025年间的长期面板数据;另一方面,通过开放许可协议和数据清洗流程,降低了跨学科数据整合的技术门槛,推动了基于机器学习的劳动力市场预测与分析方法的探索。
当前挑战
该数据集面临的首要挑战在于所解决的领域问题:劳动力市场的跨国比较与动态监测长期受困于定义差异与统计口径不一致,例如各国对非付费家务劳动者、军人及学生等群体的处理方式迥异,且失业率的年龄门槛与统计频率各不相同。数据集本身在构建过程中亦遭遇多重难题:原始数据源自世界银行与HDX平台,未经过独立验证,存在误报值与采样偏差的潜在风险;自动化清洗流程虽统一了缺失值标记,却无法修正因不同年代调查方法更替导致的连续可比性断裂;此外,数据仅包含国家层级聚合结果,无法捕捉地区间、行业间及人口群体内部的异质性,限制了其在精细化政策评估中的应用深度。
常用场景
经典使用场景
该数据集汇集了世界银行与联合国国际劳工组织在土耳其劳动力市场的权威统计指标,涵盖失业率、劳动参与率等关键变量,时间跨度从1960年至2025年,可用于探究劳动力供给与结构性失业的长期演变规律。研究者通过时间序列分析、面板回归或贝叶斯结构方程模型,能够揭示土耳其经济转型过程中劳动力市场的动态特征,例如城镇化进程对男女失业率的差异性影响。数据以国家层面聚合指标呈现,适合进行跨年度的政策效果评估与趋势预测,为发展经济学中的劳动力市场研究提供了坚实的数据基础。
解决学术问题
该数据集有效填补了土耳其劳动力市场长期纵向研究中数据碎片化的空白,解决了因观测期短或指标不统一而难以开展稳健实证分析的困境。借助这些高度结构化的指标,学者可深入剖析女性劳动力参与率提升对家庭收入分配的调节效应,以及宏观经济波动对不同性别失业率的非对称冲击。数据集的系统性和权威性还支持研究者通过断点回归或双重差分法检验社会保护制度(如失业保险改革)对就业弹性的干预效果,从而推动劳动经济学中关于发展中国家社会保障政策有效性的理论创新。
衍生相关工作
该数据集推动了多项与劳动力市场预测相关的机器学习基准工作的诞生,例如基于长短期记忆网络与Prophet模型融合的失业率预测框架,显著提升了短期波动捕捉精度。在因果推断领域,衍生工作包括构建合成控制法模型以量化新冠疫情封锁政策对土耳其青年就业的冲击,以及利用梯度提升树识别社会保护支出削减与黑市用工比例升高的阈值关系。这些衍生研究不仅拓展了社会安全网理论在欧亚边境国家的适用性,还催生了面向发展中国家的可解释性劳动力预警系统设计方法论。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务