electricsheepafrica/africa-world-bank-agriculture-and-rural-development-indicators-for-ghana
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-agriculture-and-rural-development-indicators-for-ghana
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- tabular-regression
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- agriculture-livestock
- development
- indicators
- gha
pretty_name: "Ghana - Agriculture and Rural Development"
dataset_info:
splits:
- name: train
num_examples: 1392
- name: test
num_examples: 348
---
# Ghana - Agriculture and Rural Development
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-agriculture-and-rural-development-indicators-for-ghana) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-ghana) on HDX.
For the 70 percent of the world's poor who live in rural areas, agriculture is the main source of income and employment. But depletion and degradation of land and water pose serious challenges to producing enough food and other agricultural products to sustain livelihoods here and meet the needs of urban populations. Data presented here include measures of agricultural inputs, outputs, and productivity compiled by the UN's Food and Agriculture Organization.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GHA**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Food security and nutrition |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 1,740 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 1,392 rows |
| **Test split** | 348 rows |
| **Geographic scope** | GHA |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (Ghana), `country_iso3` (GHA), `year` (range 1960.0–2025.0).
**Outcome / Measurement** — `value` (range 0.0882–17191485762.4444).
**Identifier / Metadata** — `indicator_name` (Rural population, Agriculture, forestry, and fishing, value added (current US$), Agriculture, forestry, and fishing, value added (% of GDP)), `indicator_code` (SP.RUR.TOTL, NV.AGR.TOTL.CD, NV.AGR.TOTL.ZS), `esa_source` (HDX), `esa_processed` (2026-04-11).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-agriculture-and-rural-development-indicators-for-ghana")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | Ghana |
| `country_iso3` | object | 0.0% | GHA |
| `year` | int64 | 0.0% | 1960.0 – 2025.0 (mean 1994.1431) |
| `indicator_name` | object | 0.0% | Rural population, Agriculture, forestry, and fishing, value added (current US$), Agriculture, forestry, and fishing, value added (% of GDP) |
| `indicator_code` | object | 0.0% | SP.RUR.TOTL, NV.AGR.TOTL.CD, NV.AGR.TOTL.ZS |
| `value` | float64 | 0.0% | 0.0882 – 17191485762.4444 (mean 174822764.6465) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-11 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1960.0 | 2025.0 | 1994.1431 | 1996.0 |
| `value` | 0.0882 | 17191485762.4444 | 174822764.6465 | 63.5644 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-agriculture-and-rural-development-indicators-for-ghana) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_agriculture_and_rural_development_indicators_for_ghana,
title = {Ghana - Agriculture and Rural Development},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-agriculture-and-rural-development-indicators-for-ghana},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在农业与农村发展研究领域,数据集的构建往往依赖于权威国际机构的长期监测与统计。本数据集以世界银行数据门户为原始来源,通过人道主义数据交换平台获取加纳国家层面的农业与农村发展指标。原始数据经由Electric Sheep Africa团队进行系统化处理,采用自动化流程从CKAN API下载并转换为Parquet格式。在数据清洗阶段,统一了缺失值标记并规范了列名命名规则,最终按照80:20的比例使用固定随机种子划分为训练集与测试集,形成包含1740条记录的结构化表格数据。
特点
该数据集聚焦于加纳的农业与农村发展进程,其核心特征体现在时空维度与指标体系的完整性上。数据覆盖1960年至2025年长达六十五年的连续观测,囊括农村人口规模、农业增加值及其占GDP比重等关键经济指标。数据集采用国家层面的聚合统计,包含8个字段,其中数值型与分类型变量分布均衡,且不存在缺失值,确保了数据的可直接分析性。其独特的价值在于将宏观发展指标转化为机器学习可读的标准化格式,为研究非洲农业经济演变提供了高颗粒度的纵向数据基础。
使用方法
对于从事发展经济学或农业政策分析的研究者而言,该数据集可直接应用于回归预测与趋势建模等机器学习任务。用户可通过Hugging Face的datasets库快速加载数据,并利用Python生态中的Pandas等工具进行探索性分析。典型应用场景包括基于历史数据预测农业经济指标变化、评估农村人口变迁与农业产出的关联性,或构建加纳农业发展的综合评估模型。需要注意的是,建模时应充分考虑数据源自国际机构的统计汇编特性,建议结合原始方法论说明进行结果解读,以保障研究的稳健性与可解释性。
背景与挑战
背景概述
在农业与农村发展研究领域,长期依赖宏观统计数据来评估政策效果与民生状况。世界银行集团作为全球发展数据的重要提供者,自上世纪中叶起便系统性地收集各国农业与农村发展指标。2026年,Electric Sheep Africa机构基于世界银行开放数据门户与HDX平台发布的原始资料,构建了‘加纳农业与农村发展指标’数据集,旨在为机器学习模型提供结构化输入。该数据集聚焦加纳1960年至2025年的农村人口规模、农业增加值及其占GDP比重等关键指标,为核心研究问题——如何量化农业部门对国民经济与农村生计的贡献——提供了时序性观测基础,对发展经济学、粮食安全政策分析等领域具有重要参考价值。
当前挑战
该数据集致力于解决农业经济与农村发展领域的回归预测问题,其核心挑战在于指标数值跨度极大,从不足0.1至超过170亿,这种量级差异对模型归一化与特征缩放提出了较高要求。构建过程中,数据源自国际组织的聚合统计,可能隐含原始收集阶段的定义不一致、报告偏差或抽样局限,自动化清洗流程难以修正此类底层方法论问题。此外,数据集仅涵盖国家层面的年度聚合值,缺乏区域细分或更细时间粒度的观测,限制了模型对空间异质性或短期波动的捕捉能力,在应用于微观政策模拟或局部干预评估时存在显著局限性。
常用场景
经典使用场景
在农业经济学与发展研究领域,该数据集为分析加纳农业与农村发展动态提供了结构化时序数据。研究者常利用其包含的农村人口、农业增加值等关键指标,构建回归模型以预测农业产值趋势或评估政策干预效果。经典应用场景涉及训练机器学习模型,探索不同年份下农业经济指标与宏观社会经济因素之间的关联,从而揭示加纳农业部门的长期演变规律。
解决学术问题
该数据集有效解决了发展经济学中关于农业转型与农村贫困的量化研究难题。通过提供1960年至2025年的标准化国家层面数据,它使学者能够系统检验农业生产力变化、农村人口迁移与经济增长之间的因果关系。其意义在于为实证分析提供了可靠基准,促进了针对资源依赖型经济体可持续发展路径的学术讨论,并填补了非洲地区精细化农业指标数据集的空白。
衍生相关工作
围绕该数据集衍生的经典工作包括基于机器学习的农业产量预测模型,以及融合多源地理信息的农村贫困空间分析研究。学者常将其与气候数据集、卫星遥感影像进行跨域关联,开发出能够模拟政策情景的计量经济模型。此外,该数据亦成为非洲区域研究比较分析的基础,催生了关于农业价值链数字化转型与生态可持续性评估等一系列创新学术成果。
以上内容由遇见数据集搜集并总结生成



