electricsheepafrica/africa-world-bank-agriculture-and-rural-development-indicators-for-zambia
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-agriculture-and-rural-development-indicators-for-zambia
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language_creators:
- found
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- tabular-regression
task_ids: []
tags:
- africa
- humanitarian
- hdx
- electric-sheep-africa
- agriculture-livestock
- development
- indicators
- zmb
pretty_name: "Zambia - Agriculture and Rural Development"
dataset_info:
splits:
- name: train
num_examples: 1379
- name: test
num_examples: 344
---
# Zambia - Agriculture and Rural Development
**Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-agriculture-and-rural-development-indicators-for-zambia) · **License:** `cc-by` · **Updated:** 2026-03-27
---
## Abstract
Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-zambia) on HDX.
For the 70 percent of the world's poor who live in rural areas, agriculture is the main source of income and employment. But depletion and degradation of land and water pose serious challenges to producing enough food and other agricultural products to sustain livelihoods here and meet the needs of urban populations. Data presented here include measures of agricultural inputs, outputs, and productivity compiled by the UN's Food and Agriculture Organization.
Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **ZMB**.
*Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).*
---
## Dataset Characteristics
| | |
|---|---|
| **Domain** | Food security and nutrition |
| **Unit of observation** | Country-level aggregates |
| **Rows (total)** | 1,724 |
| **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) |
| **Train split** | 1,379 rows |
| **Test split** | 344 rows |
| **Geographic scope** | ZMB |
| **Publisher** | World Bank Group |
| **HDX last updated** | 2026-03-27 |
---
## Variables
**Geographic** — `country_name` (Zambia), `country_iso3` (ZMB), `year` (range 1960.0–2025.0).
**Outcome / Measurement** — `value` (range 0.0–2377303362.9281).
**Identifier / Metadata** — `indicator_name` (Agriculture, forestry, and fishing, value added (% of GDP), Rural population (% of total population), Rural population), `indicator_code` (NV.AGR.TOTL.ZS, SP.RUR.TOTL.ZS, SP.RUR.TOTL), `esa_source` (HDX), `esa_processed` (2026-04-10).
---
## Quick Start
```python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-world-bank-agriculture-and-rural-development-indicators-for-zambia")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
```
---
## Schema
| Column | Type | Null % | Range / Sample Values |
|---|---|---|---|
| `country_name` | object | 0.0% | Zambia |
| `country_iso3` | object | 0.0% | ZMB |
| `year` | int64 | 0.0% | 1960.0 – 2025.0 (mean 1994.4153) |
| `indicator_name` | object | 0.0% | Agriculture, forestry, and fishing, value added (% of GDP), Rural population (% of total population), Rural population |
| `indicator_code` | object | 0.0% | NV.AGR.TOTL.ZS, SP.RUR.TOTL.ZS, SP.RUR.TOTL |
| `value` | float64 | 0.0% | 0.0 – 2377303362.9281 (mean 27470083.6181) |
| `esa_source` | object | 0.0% | HDX |
| `esa_processed` | object | 0.0% | 2026-04-10 |
---
## Numeric Summary
| Column | Min | Max | Mean | Median |
|---|---|---|---|---|
| `year` | 1960.0 | 2025.0 | 1994.4153 | 1996.0 |
| `value` | 0.0 | 2377303362.9281 | 27470083.6181 | 70.3805 |
---
## Curation
Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet.
---
## Limitations
- Data originates from World Bank Group and has not been independently validated by ESA.
- Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection.
- Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-agriculture-and-rural-development-indicators-for-zambia) for the publisher's own methodology notes and caveats.
---
## Citation
```bibtex
@dataset{hdx_africa_world_bank_agriculture_and_rural_development_indicators_for_zambia,
title = {Zambia - Agriculture and Rural Development},
author = {World Bank Group},
year = {2026},
url = {https://data.humdata.org/dataset/world-bank-agriculture-and-rural-development-indicators-for-zambia},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
```
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在农业与农村发展研究领域,数据集的构建往往依赖于权威机构的系统性收集与整理。本数据集源自世界银行集团的数据门户,通过人道主义数据交换平台获取原始资料,并由Electric Sheep Africa团队进行专业化处理。构建过程中,原始数据经由CKAN API下载,经过列名标准化与缺失值统一处理,最终转换为Parquet格式。为确保机器学习任务的适用性,数据按80:20的比例划分为训练集与测试集,并采用固定随机种子以保证可复现性,体现了从原始统计资料到结构化数据集的科学转化路径。
特点
该数据集聚焦于赞比亚的农业与农村发展指标,具有鲜明的领域专属性与时空连续性。其核心特征在于以国家层面聚合数据为观测单元,涵盖从1960年至2025年的长时间序列,囊括农业增加值占比、农村人口比例等关键指标。数据集结构简洁而完整,共包含1,724条记录与8个变量,其中数值型与分类型变量分布均衡,且无缺失值,确保了数据的可直接分析性。地理范围严格限定于赞比亚,为区域发展研究提供了高度聚焦的数据基础。
使用方法
对于致力于发展经济学或农业政策分析的研究者而言,该数据集可直接应用于回归建模等机器学习任务。用户可通过Hugging Face的datasets库便捷加载数据,并利用提供的训练集与测试集进行模型开发与评估。典型工作流程包括将数据转换为Pandas DataFrame以进行探索性分析,随后基于年份、指标代码等特征预测相应的数值指标。鉴于数据已预先完成清洗与分区,研究者可专注于模型构建与结果解读,从而深入探究赞比亚农业与农村发展的长期趋势与影响因素。
背景与挑战
背景概述
在农业与农村发展研究领域,长期依赖宏观统计数据以评估政策效果与民生状况。世界银行集团作为国际发展机构,自上世纪中叶起系统性地收集并发布全球各国的发展指标,为学术研究与政策制定提供了关键数据基础。该数据集由Electric Sheep Africa于2026年重新整理并发布,聚焦赞比亚的农业与农村发展指标,涵盖了从1960年至2025年的国家层面聚合数据。其核心研究问题在于量化农业经济贡献、农村人口结构及其演变趋势,旨在揭示农业在国民经济中的角色变迁与农村可持续发展的动态。此类数据对于理解发展中国家,特别是撒哈拉以南非洲地区的粮食安全、农村就业与经济增长具有深远影响,为跨学科研究提供了实证支撑。
当前挑战
该数据集致力于解决农业与农村发展领域的量化分析挑战,具体涉及如何准确衡量农业增加值占GDP比重、农村人口比例及其绝对数量等关键指标,以评估政策干预效果与长期发展趋势。然而,在构建过程中面临多重挑战:原始数据来源于世界银行,可能存在报告不一致、定义随时间变更或采样偏差等问题,自动化清洗难以纠正这些固有误差;数据集规模相对有限,仅包含1724行国家层面聚合记录,且时间跨度长达65年,期间统计方法与口径可能发生调整,影响时间序列的一致性;此外,指标覆盖范围较为狭窄,主要集中于少数几个核心变量,可能无法全面捕捉农村发展的多维复杂性,如土地退化、水资源压力或生计多样性等深层因素。
常用场景
经典使用场景
在农业经济学与农村发展研究领域,该数据集常被用于构建时间序列回归模型,以分析赞比亚农业增加值占GDP比重、农村人口比例等关键指标与年份之间的动态关联。研究者借助其结构化表格数据,探索农业部门在国家经济结构中的演变轨迹,为理解长期发展趋势提供量化依据。
实际应用
在实际应用中,该数据集被国际组织与赞比亚政府机构用于监测粮食安全状况和制定农村发展政策。例如,依据农业增加值占比的年度变化,决策者可调整农业补贴与基础设施投资策略;农村人口数据则有助于规划教育、医疗等公共服务资源的区域分配,从而推动包容性增长。
衍生相关工作
围绕该数据集衍生的经典工作包括基于机器学习的农业产量预测模型和农村贫困率时空分析研究。部分学者将其与世界银行其他发展指标融合,构建多国比较面板数据,进而探究气候变异对农业绩效的影响;亦有研究利用其训练轻量级回归算法,以支持资源受限环境下的快速政策模拟。
以上内容由遇见数据集搜集并总结生成



