five

electricsheepafrica/africa-world-bank-social-protection-and-labor-indicators-for-south-sudan

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-social-protection-and-labor-indicators-for-south-sudan
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - 1K<n<10K source_datasets: - original task_categories: - other task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - indicators - socioeconomics - ssd pretty_name: "South Sudan - Social Protection and Labor" dataset_info: splits: - name: train num_examples: 1698 - name: test num_examples: 424 --- # South Sudan - Social Protection and Labor **Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-social-protection-and-labor-indicators-for-south-sudan) · **License:** `cc-by` · **Updated:** 2026-03-27 --- ## Abstract Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-south-sudan) on HDX. The supply of labor available in an economy includes people who are employed, those who are unemployed but seeking work, and first-time job-seekers. Not everyone who works is included: unpaid workers, family workers, and students are often omitted, while some countries do not count members of the armed forces. Data on labor and employment are compiled by the International Labour Organization (ILO) from labor force surveys, censuses, establishment censuses and surveys, and administrative records such as employment exchange registers and unemployment insurance schemes. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **SSD**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Humanitarian and development data | | **Unit of observation** | Country-level aggregates | | **Rows (total)** | 2,123 | | **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) | | **Train split** | 1,698 rows | | **Test split** | 424 rows | | **Geographic scope** | SSD | | **Publisher** | World Bank Group | | **HDX last updated** | 2026-03-27 | --- ## Variables **Geographic** — `country_name` (South Sudan), `country_iso3` (SSD), `year` (range 1990.0–2023.0). **Outcome / Measurement** — `value` (range 0.0–5070344.0). **Identifier / Metadata** — `indicator_name` (Labor force participation rate, female (% of female population ages 15+) (modeled ILO estimate), Labor force participation rate, total (% of total population ages 15-64) (modeled ILO estimate), Labor force, total), `indicator_code` (SL.TLF.CACT.FE.ZS, SL.TLF.ACTI.ZS, SL.TLF.TOTL.IN), `esa_source` (HDX), `esa_processed` (2026-04-10). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-world-bank-social-protection-and-labor-indicators-for-south-sudan") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `country_name` | object | 0.0% | South Sudan | | `country_iso3` | object | 0.0% | SSD | | `year` | int64 | 0.0% | 1990.0 – 2023.0 (mean 2007.5031) | | `indicator_name` | object | 0.0% | Labor force participation rate, female (% of female population ages 15+) (modeled ILO estimate), Labor force participation rate, total (% of total population ages 15-64) (modeled ILO estimate), Labor force, total | | `indicator_code` | object | 0.0% | SL.TLF.CACT.FE.ZS, SL.TLF.ACTI.ZS, SL.TLF.TOTL.IN | | `value` | float64 | 0.0% | 0.0 – 5070344.0 (mean 54314.0558) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-10 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `year` | 1990.0 | 2023.0 | 2007.5031 | 2009.0 | | `value` | 0.0 | 5070344.0 | 54314.0558 | 36.4141 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from World Bank Group and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-social-protection-and-labor-indicators-for-south-sudan) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_world_bank_social_protection_and_labor_indicators_for_south_sudan, title = {South Sudan - Social Protection and Labor}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-social-protection-and-labor-indicators-for-south-sudan}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在社会科学与经济发展研究领域,数据集的构建往往依赖于权威国际机构的系统化数据收集与整合。本数据集以南苏丹的社会保护与劳动力指标为核心,其构建过程依托世界银行集团的数据门户,通过人道主义数据交换平台获取原始资料。数据涵盖了1990年至2023年间的国家层面聚合信息,涉及劳动力参与率、劳动力总量等关键指标。原始数据经由Electric Sheep Africa团队进行标准化处理,包括列名规范化、缺失值统一转换,并采用固定随机种子将数据划分为训练集与测试集,最终以Snappy压缩的Parquet格式存储,确保了数据的机器可读性与结构一致性。
特点
该数据集聚焦于人道主义与发展数据领域,以南苏丹为地理范围,提供了国家层面的劳动力与社会保护指标。其特点体现在数据的时序跨度与指标多样性上,涵盖了女性劳动力参与率、总劳动力参与率及劳动力总量等多个维度。数据集包含2123条观测记录,分为1698条训练样本与424条测试样本,结构清晰,包含8个变量,其中数值型与分类型变量分布均衡。数据经过精心清洗,缺失值已统一处理,且所有字段均无空值,保证了分析的可靠性。同时,数据集以标准化的指标代码与明确的元数据标识,为跨研究比较与模型构建提供了坚实基础。
使用方法
在机器学习与数据分析应用中,本数据集为研究者提供了便捷的接入方式。用户可通过Hugging Face的datasets库直接加载数据,利用Python环境快速导入训练集与测试集,并转换为Pandas DataFrame以进行后续探索。数据集已预分割为80/20的比例,支持直接用于模型训练与评估任务,例如时间序列预测、社会经济指标关联分析等。研究者可依据年份、指标名称等字段进行筛选与聚合,结合数值型变量开展统计建模。需要注意的是,数据源自世界银行集团,使用时需参考原始方法论说明,并考虑可能的定义不一致性或采样偏差,以确保分析结论的稳健性。
背景与挑战
背景概述
在全球化与区域发展研究领域,社会保护与劳动力市场指标是评估国家经济韧性、社会福利水平及可持续发展潜力的关键维度。世界银行集团作为国际发展数据的重要提供者,长期致力于构建覆盖全球的社会经济统计体系。该数据集由世界银行集团于2026年发布,并由Electric Sheep Africa机构进行机器学习友好型格式化处理,聚焦于南苏丹这一新兴国家的劳动力参与率、劳动力总量等核心指标。其核心研究问题在于量化南苏丹劳动力市场的结构与动态,为政策制定者、研究人员及人道主义组织提供基于实证的决策支持,从而深化对冲突后国家社会经济重建过程的理解。
当前挑战
该数据集旨在解决劳动力市场与社会保护领域的量化分析挑战,具体包括如何准确衡量女性劳动力参与率、总劳动力规模及其随时间的变化趋势。然而,构建过程中面临多重挑战:原始数据依赖于国际劳工组织的模型估计,可能存在定义不一致或报告偏差;南苏丹作为新兴国家,数据收集基础设施薄弱,可能导致时间序列不完整或数值缺失;自动化清洗流程虽统一了缺失值标记,但无法校正原始数据中的误报或抽样偏差,这些因素共同制约了数据集的可靠性与跨时期可比性。
常用场景
经典使用场景
在社会科学与发展经济学领域,该数据集为研究南苏丹劳动力市场动态提供了关键实证基础。学者们常利用其时间序列数据,分析女性劳动参与率、总劳动参与率及劳动力总量等指标的变化趋势,揭示该国在冲突后重建与社会转型过程中的就业结构演变。通过建模与统计推断,研究者能够评估政策干预对劳动力供给的影响,为理解脆弱国家的社会经济韧性提供量化依据。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于非洲发展研究领域。学者们常将其与其他世界银行指标或冲突数据集进行融合,构建多维分析模型,以探讨劳动力市场与贫困、教育、健康等社会指标的相互作用。例如,一些研究通过面板数据分析,揭示了南苏丹劳动力流动与国内流离失所者(IDP)安置间的关联;另一些工作则利用机器学习方法预测劳动力趋势,为早期预警系统提供支持。
数据集最近研究
最新研究方向
在非洲发展经济学领域,南苏丹的社会保护与劳动力指标数据集正成为研究脆弱国家社会经济韧性的关键资源。学者们借助此类精细化数据,深入探讨冲突后地区的劳动力市场动态,特别是女性劳动参与率与整体经济稳定之间的关联。当前研究前沿聚焦于利用机器学习模型预测社会干预政策的效果,例如模拟现金转移计划对就业结构的影响。这些分析不仅呼应全球人道主义行动中数据驱动决策的浪潮,也为国际组织在资源分配和危机响应方面提供了实证依据,凸显了数据科学在促进区域可持续发展中的深远意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务