electricsheepafrica/africa-world-bank-social-protection-and-labor-indicators-for-ghana
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-social-protection-and-labor-indicators-for-ghana
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- other
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- indicators
- socioeconomics
- gha
pretty_name: "Ghana - Social Protection and Labor"
dataset_info:
splits:
- name: train
num_examples: 3643
- name: test
num_examples: 910
---
# Ghana - Social Protection and Labor
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-social-protection-and-labor-indicators-for-ghana) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-ghana) on HDX.
The supply of labor available in an economy includes people who are employed, those who are unemployed but seeking work, and first-time job-seekers. Not everyone who works is included: unpaid workers, family workers, and students are often omitted, while some countries do not count members of the armed forces. Data on labor and employment are compiled by the International Labour Organization (ILO) from labor force surveys, censuses, establishment censuses and surveys, and administrative records such as employment exchange registers and unemployment insurance schemes.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GHA**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Humanitarian and development data |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 4,554 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 3,643 rows |
| **Test split** | 910 rows |
| **Geographic scope** | GHA |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (Ghana), `country_iso3` (GHA), `year` (range 1960.0–2025.0).
**Outcome / Measurement** — `value` (range -0.3401–13250486.0).
**Identifier / Metadata** — `indicator_name` (Labor force participation rate, female (% of female population ages 15+) (modeled ILO estimate), Labor force participation rate for ages 15-24, total (%) (modeled ILO estimate), Ratio of female to male labor force participation rate (%) (modeled ILO estimate)), `indicator_code` (SL.TLF.CACT.FE.ZS, SL.TLF.ACTI.1524.ZS, SL.TLF.CACT.FM.ZS), `esa_source` (HDX), `esa_processed` (2026-04-11).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-social-protection-and-labor-indicators-for-ghana")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | Ghana |
| `country_iso3` | object | 0.0% | GHA |
| `year` | int64 | 0.0% | 1960.0 – 2025.0 (mean 2009.6151) |
| `indicator_name` | object | 0.0% | Labor force participation rate, female (% of female population ages 15+) (modeled ILO estimate), Labor force participation rate for ages 15-24, total (%) (modeled ILO estimate), Ratio of female to male labor force participation rate (%) (modeled ILO estimate) |
| `indicator_code` | object | 0.0% | SL.TLF.CACT.FE.ZS, SL.TLF.ACTI.1524.ZS, SL.TLF.CACT.FM.ZS |
| `value` | float64 | 0.0% | -0.3401 – 13250486.0 (mean 163821.6721) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-11 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1960.0 | 2025.0 | 2009.6151 | 2012.0 |
| `value` | -0.3401 | 13250486.0 | 163821.6721 | 20.8755 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-social-protection-and-labor-indicators-for-ghana) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_social_protection_and_labor_indicators_for_ghana,
title = {Ghana - Social Protection and Labor},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-social-protection-and-labor-indicators-for-ghana},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在社会科学与经济发展研究领域,数据集的构建质量直接决定了分析结果的可靠性。该数据集源自世界银行集团发布的社会保护与劳动力指标,原始数据通过人道主义数据交换平台获取,涵盖了加纳自1960年至2025年的国家层面聚合数据。构建过程中,Electric Sheep Africa团队利用CKAN API下载原始资料,并执行了系统的数据清洗与标准化操作,包括统一缺失值标记、规范列名为蛇形命名法,以及将数据转换为Snappy压缩的Parquet格式,最终按照80:20的比例划分训练集与测试集,确保了数据的机器学习就绪性。
特点
该数据集聚焦于加纳的社会保护与劳动力市场动态,其核心特征体现在多维度的结构化信息呈现。数据集共包含4554条记录,涵盖8个变量,其中既包括国家名称、年份等地理与时间标识,也纳入了三项关键劳动力指标的具体数值,如女性劳动参与率、青年劳动参与率及性别平等比率。数据的时间跨度长达65年,为长期趋势分析提供了坚实基础;同时,所有字段均无缺失值,保证了数据的完整性与一致性。这些特征使得数据集能够支持从宏观经济社会变迁到特定群体劳动力状况的深入探索。
使用方法
对于希望利用该数据集进行实证研究的学者与分析师而言,其使用方法便捷且与主流技术栈兼容。用户可通过Hugging Face的datasets库直接加载数据集,并轻松转换为Pandas DataFrame以进行后续处理。数据集已预分为训练集与测试集,便于直接应用于模型训练与评估任务。在具体分析中,研究者可依据年份、指标代码等维度进行筛选与聚合,结合社会经济理论探讨劳动力市场的变化规律。需要注意的是,尽管数据经过清洗,但原始数据可能存在报告偏差或定义不一致的情况,因此建议用户参考世界银行的方法论说明以进行审慎解读。
背景与挑战
背景概述
在全球化与区域发展研究领域,社会保护与劳动力市场指标是评估国家经济韧性、社会福祉及可持续发展进程的核心依据。世界银行集团作为国际发展数据的重要权威机构,长期致力于构建并维护涵盖各国的社会经济指标数据库。该数据集由Electric Sheep Africa于2026年整理并发布,聚焦于加纳的社会保护与劳动力指标,涵盖了自1960年至2025年的国家层面聚合数据。其核心研究问题在于通过标准化的劳动力参与率、性别平等比率等关键指标,揭示加纳劳动力市场的长期演变趋势、结构性特征及其与社会政策之间的互动关系。这一数据资源为人道主义与发展研究提供了实证基础,尤其对非洲区域的经济建模、政策评估及跨国家比较分析具有显著的学术价值与实践影响力。
当前挑战
该数据集旨在解决劳动力市场与社会保护领域的量化分析挑战,其核心问题在于如何准确刻画发展中国家劳动力结构的动态变化及其性别与年龄维度差异。然而,原始数据依赖于国际劳工组织的模型估计,可能存在定义不一致、样本偏差及跨时期可比性局限,这为构建稳健的经济计量模型带来不确定性。在数据集构建过程中,挑战主要体现为数据清洗与标准化工作:尽管自动化流程统一了缺失值标记并转换了数据格式,但无法修正原始数据中可能存在的误报值或方法学差异。此外,数据集仅包含国家层面聚合指标,缺乏更细粒度的区域或个体微观数据,限制了多层次分析的深度。这些挑战要求研究者在应用时审慎考虑数据来源的固有局限,并辅以方法论上的敏感性检验。
常用场景
经典使用场景
在社会科学与经济发展研究领域,该数据集为分析加纳劳动力市场动态提供了关键支撑。学者们常利用其时间序列数据,探究女性劳动参与率、青年就业状况及性别平等指标的变化趋势。通过整合世界银行与国际劳工组织的权威统计,研究人员能够构建计量经济模型,评估政策干预对劳动力供给的结构性影响,从而揭示社会经济转型中的深层规律。
解决学术问题
该数据集有效解决了发展经济学中关于劳动力市场效率与包容性的量化难题。它使得研究者能够系统检验劳动参与率与经济增长、教育投入、社会保障政策之间的因果关系,为理解性别差距和青年就业困境提供了实证基础。这些指标帮助学术界突破理论推演的局限,以精确数据验证人力资本理论,推动形成更具针对性的政策评估框架。
衍生相关工作
围绕该数据集衍生的经典研究包括对西非地区劳动力市场弹性的跨国比较分析,以及基于机器学习的就业趋势预测模型构建。学者们常将其与教育、健康指标融合,探索多维贫困的驱动机制;亦有工作聚焦于劳动参与率的空间异质性,结合地理信息系统揭示区域发展不平衡问题。这些研究深化了对非洲社会经济转型路径的理解。
以上内容由遇见数据集搜集并总结生成



