five

electricsheepafrica/africa-world-bank-agriculture-and-rural-development-indicators-for-south-sudan

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-agriculture-and-rural-development-indicators-for-south-sudan
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - n<1K source_datasets: - original task_categories: - tabular-regression task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - agriculture-livestock - development - indicators - ssd pretty_name: "South Sudan - Agriculture and Rural Development" dataset_info: splits: - name: train num_examples: 446 - name: test num_examples: 111 --- # South Sudan - Agriculture and Rural Development **Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-agriculture-and-rural-development-indicators-for-south-sudan) · **License:** `cc-by` · **Updated:** 2026-03-27 --- ## Abstract Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-south-sudan) on HDX. For the 70 percent of the world's poor who live in rural areas, agriculture is the main source of income and employment. But depletion and degradation of land and water pose serious challenges to producing enough food and other agricultural products to sustain livelihoods here and meet the needs of urban populations. Data presented here include measures of agricultural inputs, outputs, and productivity compiled by the UN's Food and Agriculture Organization. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **SSD**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Food security and nutrition | | **Unit of observation** | Country-level aggregates | | **Rows (total)** | 558 | | **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) | | **Train split** | 446 rows | | **Test split** | 111 rows | | **Geographic scope** | SSD | | **Publisher** | World Bank Group | | **HDX last updated** | 2026-03-27 | --- ## Variables **Geographic** — `country_name` (South Sudan), `country_iso3` (SSD), `year` (range 1960.0–2024.0). **Outcome / Measurement** — `value` (range -5.7527–1775539423.7288). **Identifier / Metadata** — `indicator_name` (Rural population (% of total population), Rural population, Rural population growth (annual %)), `indicator_code` (SP.RUR.TOTL.ZS, SP.RUR.TOTL, SP.RUR.TOTL.ZG), `esa_source` (HDX), `esa_processed` (2026-04-10). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-world-bank-agriculture-and-rural-development-indicators-for-south-sudan") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `country_name` | object | 0.0% | South Sudan | | `country_iso3` | object | 0.0% | SSD | | `year` | int64 | 0.0% | 1960.0 – 2024.0 (mean 2006.2419) | | `indicator_name` | object | 0.0% | Rural population (% of total population), Rural population, Rural population growth (annual %) | | `indicator_code` | object | 0.0% | SP.RUR.TOTL.ZS, SP.RUR.TOTL, SP.RUR.TOTL.ZG | | `value` | float64 | 0.0% | -5.7527 – 1775539423.7288 (mean 14254420.0889) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-10 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `year` | 1960.0 | 2024.0 | 2006.2419 | 2013.0 | | `value` | -5.7527 | 1775539423.7288 | 14254420.0889 | 79.0755 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from World Bank Group and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-agriculture-and-rural-development-indicators-for-south-sudan) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_world_bank_agriculture_and_rural_development_indicators_for_south_sudan, title = {South Sudan - Agriculture and Rural Development}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-agriculture-and-rural-development-indicators-for-south-sudan}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在全球范围内,农业与农村发展是关乎民生福祉的核心议题,尤其对于南苏丹这样饱受贫困与资源挑战的国家而言,可靠的数据支撑至关重要。该数据集由世界银行集团发布,经由人道主义数据交换平台(HDX)获取原始数据,并由Electric Sheep Africa团队精炼为机器学习就绪的Parquet格式。构建过程中,原始数据通过CKAN API下载,经过去重、列名标准化为小写蛇形命名法,并将常见的缺失值标记统一转为NaN。最终,数据集按80/20的比例随机划分为训练集和测试集,使用Snappy压缩的Parquet格式存储,确保了高效的存取性能。
特点
该数据集聚焦于南苏丹的农业与农村发展指标,涵盖1960年至2024年间的时间序列数据,共计558条记录,包含8个字段。其中,核心变量包括农村人口比例、农村人口数量及农村人口年增长率等指标,数值范围跨度极大,从负值到百万亿级别,反映了农村发展的复杂动态。数据集以国家层面为观测单位,提供地理标识、时间戳及元数据,且无缺失值,保证了数据的完整性。其领域聚焦于粮食安全与营养,为政策制定和学术研究提供了精准的量化依据。
使用方法
用户可通过Hugging Face的datasets库便捷加载该数据集,仅需一行代码即可获取训练与测试分割。加载后,数据可转换为Pandas DataFrame进行深入分析,如探索年份与指标值的分布趋势。数据集适用于表格型回归任务,可用于预测农村人口变化或评估发展指标的关系。示例代码已预置在README中,用户可直接复制运行,快速上手。此外,数据的分区结构支持高效的批量处理,适合整合到机器学习流水线中,用于模型训练或验证。
背景与挑战
背景概述
在南苏丹,农业是农村地区超过70%贫困人口的主要生计来源与就业支柱,然而土地退化、资源耗竭以及气候变化正对粮食生产与生计可持续性构成严峻挑战。为系统追踪该领域的动态演变,世界银行集团依托其全球数据门户,汇集了涵盖农业投入、产出与生产力等多元维度的指标,并于2026年通过人道主义数据交换平台发布。该数据集经由Electric Sheep Africa机构整理为机器学习友好的Parquet格式,聚焦南苏丹自1960年至2024年间的农村人口变化与农业发展轨迹,为评估政策干预成效、预测农村转型趋势提供了标准化的定量基础,在区域发展研究与人道主义响应中具有重要参考价值。
当前挑战
该数据集首先应对的核心领域挑战在于,如何以可靠的数据捕捉南苏丹这一冲突频发、基础设施薄弱国家的农业与农村发展全貌,尤其是面对土地退化和资源压力对粮食安全影响的量化难题。构建过程中,主要挑战包括:原始数据来源分散,来自世界银行的多个指标需统一清洗与集成;原始记录中广泛存在缺失值、定义不一致及潜在报告偏差,自动化清洗无法矫正数据采集阶段的系统误差;此外,该国统计体系受局势动荡影响,可能导致部分年份数据稀疏或异常值突出。这些因素共同制约了模型预測的稳健性与区域可比性。
常用场景
经典使用场景
在南苏丹这片饱受战乱与气候变迁困扰的土地上,农业与农村发展始终是关乎民生的核心议题。该数据集汇集了世界银行关于南苏丹农业与农村发展的关键指标,涵盖农村人口占比、农村人口总数及年增长率等核心变量。经典使用场景聚焦于利用这些时序指标构建回归模型,以预测农村人口动态变化趋势,或探究农业投入产出与农村发展之间的内在关联。研究者可借助该数据集开展国家层面的纵向分析,揭示南苏丹农村发展的历史轨迹与阶段性特征。
解决学术问题
该数据集有效回应了非洲研究领域中长期存在的数据碎片化与可获取性不足的困境。在学术层面,它解决了南苏丹农村发展量化分析缺乏统一、可信数据结构的问题。通过提供跨年度的标准化面板数据,研究者得以深入探讨农村人口变迁与农业生产力之间的因果机制,检验政策干预对农村生计的潜在影响。这一数据资源的开放共享,为发展经济学、农业经济学以及区域研究领域的学者提供了实证基础,推动了关于脆弱国家农村转型的学术对话。
衍生相关工作
该数据集的发布催生了一系列衍生研究工作,尤其在机器学习与空间分析交叉领域展现出蓬勃活力。研究者基于这些指标开发了农村发展脆弱性预测模型,将时序特征与卫星遥感数据融合,构建南苏丹粮食安全预警系统。此外,有工作利用该数据集检验迁移理论在非洲内陆国家的适用性,探索人口变迁与农业土地利用之间的反馈回路。这些衍生研究不仅拓展了原始数据的分析维度,也为其他非洲战后重建地区的类似研究提供了方法论框架与可复现的工作流程。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务