asia-agriculture-world-bank-agriculture-and-rural-develop
收藏Hugging Face2026-05-05 更新2026-05-06 收录
下载链接:
https://huggingface.co/datasets/electricsheepasia/asia-agriculture-world-bank-agriculture-and-rural-develop
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为吉尔吉斯共和国-农业与农村发展,由世界银行集团发布,聚焦于吉尔吉斯共和国的农业与农村发展指标,旨在为农村地区的贫困人口提供收入与就业相关的农业数据。数据集包含联合国粮农组织编制的农业投入、产出及生产力指标,以国家层面的聚合数据呈现。数据集共1,154行,8列,分为训练集(923行)和测试集(230行)。主要变量包括地理标识(国家名称、ISO3代码、年份)、结果测量(数值范围0.0–1504459312.7279)以及元数据(指标名称、代码、数据来源和处理日期)。数据集适用于表格回归任务,涵盖1960年至2025年的数据。数据集由Electric Sheep Africa重新打包为适合机器学习的Parquet格式,并进行了标准化清理。
创建时间:
2026-05-04
原始信息汇总
数据集概述
基本信息
- 数据集名称:Kyrgyz Republic - Agriculture and Rural Development(吉尔吉斯共和国农业与农村发展)
- 发布者:World Bank Group(世界银行集团)
- 来源:HDX(人道主义数据交换平台)
- 许可证:CC-BY-4.0
- 语言:英语
- 更新日期:2026-04-28
- 地理范围:KGZ(吉尔吉斯共和国)
数据集摘要
本数据集包含世界银行数据门户中关于吉尔吉斯共和国的农业与农村发展指标。数据涵盖农业投入、产出和生产力等相关指标,由联合国粮食及农业组织(FAO)编制。每一行代表国家层面的汇总数据。
数据集特征
| 特征 | 描述 |
|---|---|
| 领域 | 粮食安全与营养 |
| 观察单位 | 国家层面汇总 |
| 总行数 | 1,154 |
| 列数 | 8列(2列数值型,6列类别型,0列日期时间型) |
| 训练集 | 923行 |
| 测试集 | 230行 |
变量说明
- 地理变量:
country_name(国家名称:吉尔吉斯共和国)、country_iso3(国家ISO3代码:KGZ)、year(年份范围:1960.0–2025.0) - 结果/测量变量:
value(数值范围:0.0–1504459312.7279) - 标识/元数据变量:
indicator_name(指标名称,如农村人口、农村人口占比、农村人口年增长率)、indicator_code(指标代码)、esa_source(数据来源:HDX)、esa_processed(处理日期:2026-05-05)
数据模式(Schema)
| 列名 | 类型 | 空值比例 | 范围/样本值 |
|---|---|---|---|
country_name |
object | 0.0% | Kyrgyz Republic |
country_iso3 |
object | 0.0% | KGZ |
year |
int64 | 0.0% | 1960.0 – 2025.0(均值:2003.3804) |
indicator_name |
object | 0.0% | 农村人口、农村人口占比、农村人口年增长率 |
indicator_code |
object | 0.0% | SP.RUR.TOTL、SP.RUR.TOTL.ZS、SP.RUR.TOTL.ZG |
value |
float64 | 0.0% | 0.0 – 1504459312.7279(均值:27236609.5584) |
esa_source |
object | 0.0% | HDX |
esa_processed |
object | 0.0% | 2026-05-05 |
数值型字段摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
year |
1960.0 | 2025.0 | 2003.3804 | 2005.0 |
value |
0.0 | 1504459312.7279 | 27236609.5584 | 79.49 |
数据处理与整理
原始数据通过CKAN API从HDX平台下载,并转换为Parquet格式。列名统一转换为小写和下划线命名风格,常见缺失值标记(如N/A、null、none等)统一为NaN。数据集以固定随机种子(42)进行80/20划分,保存为Snappy压缩的Parquet文件。
局限性
- 数据来源于世界银行集团,未经Electric Sheep Africa(ESA)独立验证。
- 自动化清洗无法纠正原始数据中可能存在的误报、定义不一致或采样偏差问题。
- 建议参考HDX原始数据集页面了解发布方的方法说明和注意事项。
引用格式
bibtex @dataset{hdx_asia_agriculture_world_bank_agriculture_and_rural_develop, title = {Kyrgyz Republic - Agriculture and Rural Development}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-agriculture-and-rural-development-indicators-for-kyrgyz-republic}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
该数据集源自世界银行集团,经由Humanitarian Data Exchange(HDX)平台获取原始农业与农村发展指标数据,后由Electric Sheep Africa团队进行机器学习的适配性重打包。原始数据通过CKAN API从HDX下载后,被转化为Snappy压缩的Parquet格式,以提升存储与读取效率。在数据清洗环节,列名被统一转换为小写并标准化为蛇形命名法,常见缺失值标记如'N/A'、'null'等被统一替换为NaN。最终,数据集采用固定的随机种子(42)按80:20的比例切分为训练集与测试集,形成结构清晰、易于直接应用于回归模型的标准化表格数据集。
特点
该数据集聚焦吉尔吉斯斯坦的农业与农村发展领域,包含1960年至2025年间三个关键指标的观测值:农村人口总数、农村人口占总人口比例及农村人口年增长率。数据涵盖1154行记录,包含8个字段,其中2个为数值型、6个为类别型,没有时间戳字段。每个观测均以国家层面的聚合值为单位,地理范围锁定为KGZ。数据经过精心整理,消除了原始来源中可能存在的格式不一致问题,并提供了明确的训练集与测试集划分,使其特别适用于表格数据回归任务,助力农业政策与农村发展研究。
使用方法
通过HuggingFace的datasets库,用户可一键加载该数据集,例如使用'load_dataset'函数直接获取训练集与测试集,并方便地转换为pandas DataFrame进行深入分析。数据集的模式清晰,包含国家名称、ISO代码、年份、指标名称与代码、数值、数据来源及处理时间等字段。用户可基于'indicator_name'对特定指标进行筛选,或利用'year'字段进行时间序列分析。该数据集已预处理好,无需额外清洗即可直接用于机器学习模型的训练与评估,尤其适用于构建农村发展的预测模型或进行跨年度的趋势分析。
背景与挑战
背景概述
该数据集收录了世界银行集团发布的吉尔吉斯共和国农业与农村发展关键指标,由Electric Sheep Africa于2026年整理并发布在HuggingFace平台上。在全球约70%的贫困人口居住于农村地区、农业是其收入与就业主要来源的背景下,土地退化与水资源短缺对粮食生产和生计可持续性构成了严峻威胁。该数据集聚焦于农业投入、产出和生产力的国别级聚合数据,涵盖农村人口数量、占比及增长率等核心变量,为发展中国家农业政策评估、农村发展研究以及机器学习驱动的预测建模提供了标准化、可复用的数据基础,对推动数据密集型农业科学分析与可持续发展目标监测具有重要价值。
当前挑战
该数据集所解决的领域问题在于,农业与农村发展研究长期受限于数据碎片化、指标口径不一以及跨国可比性不足,难以支撑高精度回归分析与政策仿真。构建过程中面临的挑战包括:原始数据来源于世界银行多源汇总,存在缺失值、异常值与定义不一致问题;自动化清洗流程虽统一了标记格式,但无法纠正原始采集中的报告偏误或抽样偏差;数据集仅涵盖吉尔吉斯共和国单一国家且样本量仅1154行,显著限制了模型泛化能力与时序推断效力。此外,指标类型以分类变量为主,数值型特征仅2列,对复杂回归任务的特征表达构成瓶颈。
常用场景
经典使用场景
该数据集汇聚了世界银行关于吉尔吉斯共和国农业与农村发展的关键指标,涵盖农村人口数量、农村人口占总人口比例以及农村人口年增长率等核心变量,时间跨度从1960年至2025年。经典使用场景集中于利用表格回归模型,对农村发展指标进行时间序列分析与预测。研究者可通过这些数据揭示农业投入、产出与生产率之间的动态关联,尤其适用于探索农村人口变迁与农业可持续发展之间的内在规律,为发展中国家农业政策评估提供量化支撑。
解决学术问题
该数据集有效回应了农业经济学与发展经济学中的若干核心学术问题。首先,它解决了全球70%贫困人口依赖的农业系统面临的土地退化与水资源短缺挑战,为量化分析农村人口变化趋势与农业生产率的关系提供了可靠数据源。其次,通过长期跨度的指标记录,研究者得以检验农业政策干预对农村人口结构与生计转型的实际效果,弥补了以往研究中因数据碎片化导致的实证缺口。这一数据资产显著推动了农业可持续发展领域从定性描述向定量建模的范式跨越。
衍生相关工作
该数据集衍生了一系列具有深远影响的学术工作,最经典的当属世界银行基于这些指标构建的全球农业发展综合评估框架,该框架被多国采纳为制定农村转型战略的基准参照。此外,研究团队利用该数据训练了多种机器学习模型,以预测农村人口结构变化对粮食安全的影响,相关成果发表于《农业经济学》等顶级期刊。另有学者将此数据集与卫星遥感数据融合,开创了农地退化与人口密度耦合分析的新范式,催生了‘社会-生态系统动态建模’这一交叉研究方向。
以上内容由遇见数据集搜集并总结生成



