cameroon-agricultural-data
收藏github2026-03-20 更新2026-03-22 收录
下载链接:
https://github.com/farmstomarket/agri-harvest-cameroon
下载链接
链接失效反馈官方服务:
资源简介:
训练数据集包含300万行,36列原始数据,经过特征工程后扩展至66列以上。涵盖28种作物,分布在8个农业生态区,时间跨度为2018年至2024年。数据来源包括田间测量、气象站和实验室分析。
This training dataset consists of 3 million rows and 36 initial columns of raw data, which is expanded to over 66 columns following feature engineering. It encompasses 28 crop types distributed across 8 agro-ecological regions, with a temporal coverage ranging from 2018 to 2024. The dataset is sourced from field measurements, meteorological station records, and laboratory analyses.
创建时间:
2026-03-17
原始信息汇总
Agri-Harvest 数据集概述
数据集基本信息
- 数据集名称: Agri-Harvest
- 托管地址: https://huggingface.co/datasets/synthi-ai/cameroon-agricultural-data
- 数据规模: 3,000,000 行
- 特征数量: 36 列(原始数据),66+ 列(特征工程后)
- 覆盖作物: 28 种类型,分为 5 个组别
- 生态区域: 8 个农业生态区
- 时间范围: 2018-2024 年
- 数据来源: 实地测量、气象站、实验室分析
数据集内容与结构
特征类别
数据集包含 66 个特征,分为以下 6 个类别:
- 位置特征(14 个):纬度、经度、海拔、区域独热编码、海拔类别独热编码
- 气候特征(13 个):温度(最低、最高、平均)、降水量、湿度、太阳辐射、生长度日、蒸汽压差、干旱指数、强降雨标志
- 土壤特征(9 个):pH 值、有机碳、氮、磷、沙/粘土百分比、肥力指数、碳氮比、阳离子交换量
- 管理特征(8 个):氮磷肥、有机肥、灌溉、投入强度、总矿物肥料、有机/矿物比例
- 时间特征(10 个):月份正弦/余弦、年积日正弦/余弦、月份、年积日、年份、季节序数、雨季标志、降雨制度
- 交互特征(6 个):湿度-温度交互、降雨-有机碳交互、投入-土壤交互、供水指数、病害风险评分、数据质量标志
农业生态区分类
基于纬度、经度和海拔划分为 8 个区域:
- 萨赫勒稀树草原:纬度 > 10°N,典型作物:高粱、小米、棉花
- 苏丹稀树草原:纬度 8-10°N,典型作物:高粱、花生
- 几内亚稀树草原:纬度 6-8°N,典型作物:玉米、山药
- 西部高地:海拔 > 1200 米,经度 < 11.5°,纬度 4.5-7.5°,典型作物:马铃薯、玉米
- 森林-稀树草原过渡带:纬度 5-6°N,典型作物:玉米、木薯
- 湿润森林(沿海):纬度 < 5°,经度 < 10°,海拔 < 500 米,典型作物:可可、大蕉
- 湿润森林(内陆):纬度 < 5°,内陆地区,典型作物:可可、木薯
- 喀麦隆火山:纬度 4.0-4.35°,经度 9.0-9.35°,海拔 > 2500 米,典型作物:特种作物
数据验证与约束
使用 Pydantic v2 模式强制执行喀麦隆特定约束:
- 坐标:纬度 1.6-13.1°N,经度 8.3-16.2°E,海拔 0-4095 米
- 土壤:质地百分比总和为 100%(1% 容差),pH 值 3.5-9.5,容重 0.8-2.0
- 天气:温度 -5 至 50°C,降水量 0-500 毫米,压力 600-1050 百帕,自动派生字段(年积日、季节、降雨制度)
- 作物:7 个组别中的 27 种作物类型,每种作物的收获指数范围,产量 ≤ 生物量,间作土地当量比 0.5-3.0
模型与基准
模型版本
数据集支持两个模型管道版本:
- v0 版本:基于 scikit-learn,适用于最多约 50 万行数据
- v1 版本:基于 LightGBM / XGBoost / PyTorch,适用于 1000 万行以上数据
基准性能
v0 模型比较(80/20 分割,约 60 万测试行)
| 模型 | RMSE (公斤/公顷) | MAE (公斤/公顷) | R2 | MAPE |
|---|---|---|---|---|
| 堆叠(随机森林+直方图梯度提升) | 412.7 | 287.3 | 0.9218 | 11.4% |
| 直方图梯度提升 | 431.5 | 301.8 | 0.9145 | 12.1% |
| 随机森林 | 458.2 | 322.6 | 0.9036 | 13.0% |
| 岭回归 | 689.4 | 512.7 | 0.7821 | 19.8% |
| 基线(均值) | 1534.6 | 1247.1 | 0.0000 | 46.8% |
v1 模型比较(85/15 分割,约 45 万测试行)
| 模型 | RMSE (吨/公顷) | MAE (吨/公顷) | R2 | MAPE |
|---|---|---|---|---|
| LightGBM | 0.3514 | 0.2418 | 0.9435 | 9.6% |
| XGBoost | 0.3687 | 0.2541 | 0.9378 | 10.2% |
| YieldNet(PyTorch) | 0.4023 | 0.2856 | 0.9259 | 11.3% |
v1 LightGBM 按区域性能
| 农业生态区 | RMSE (吨/公顷) | R2 | N |
|---|---|---|---|
| 湿润森林(内陆) | 0.3124 | 0.9542 | 128,430 |
| 湿润森林(沿海) | 0.3287 | 0.9489 | 68,715 |
| 西部高地 | 0.3401 | 0.9451 | 54,180 |
| 几内亚稀树草原 | 0.3598 | 0.9387 | 85,245 |
| 森林-稀树草原过渡带 | 0.3712 | 0.9334 | 49,590 |
| 苏丹稀树草原 | 0.3945 | 0.9258 | 40,320 |
| 萨赫勒稀树草原 | 0.4378 | 0.9124 | 23,520 |
v1 LightGBM 按作物组性能
| 作物组 | RMSE (吨/公顷) | R2 | N |
|---|---|---|---|
| 谷物 | 0.3245 | 0.9512 | 144,870 |
| 根茎类作物 | 0.3412 | 0.9467 | 94,725 |
| 豆类 | 0.3567 | 0.9398 | 70,515 |
| 木本作物 | 0.3734 | 0.9321 | 55,530 |
| 蔬菜 | 0.3856 | 0.9278 | 84,360 |
配置与安装
配置
所有硬编码值都外部化到 YAML 文件(config/yaml/):
geography.yaml:喀麦隆边界、海拔范围、8 个区域阈值、季节定义、验证范围agriculture.yaml:13 种主要作物类型、土壤质地类别、5 个 IRAD 研究中心坐标models_v0.yaml:v0 特征列表(40 个连续、22 个二元、4 个序数)、估计器超参数、80/20 分割配置models_v1.yaml:v1 LightGBM/XGBoost/YieldNet 参数、Optuna 搜索空间、时间序列配置、85/15 分割
安装要求
- Python 3.12+
- 通过
pip install -e "."安装基础包 - 可选安装:
[ml](机器学习)、[geo](地理)、[dev](开发)
使用方式
数据加载
python from datasets import load_dataset ds = load_dataset("synthi-ai/cameroon-agricultural-data", split="train") df = ds.to_pandas() # 300 万行
模型训练
- v0 管道:使用
YieldModelTrainer类 - v1 管道:使用
YieldModelTrainer类(来自models.v1.trainer)
推理预测
使用 YieldPredictor 类加载训练好的模型并进行单样本预测。
许可证与联系
- 许可证:MIT 许可证
- 版权:© 2025 SYNTHI-AI
- 联系:contact@synthi-ai.com, contact@farmstomarket.io
- 问题反馈:在 GitHub 仓库中提交问题
搜集汇总
数据集介绍

构建方式
在农业数据科学领域,构建高质量数据集是精准农业预测模型的基础。该数据集通过整合多源异构数据,系统性地采集了喀麦隆2018年至2024年间八个农业生态区的农业信息。数据来源涵盖实地测量、气象站记录以及实验室分析,原始数据包含36个字段,经过特征工程扩展至66个以上维度。数据生成过程严格遵循空间分组策略,确保训练集与测试集在农业生态区上无信息泄露,并通过Pydantic模式实施喀麦隆特有的地理、土壤与气象约束验证,保障了数据的区域代表性与物理合理性。
特点
该数据集以其规模宏大与特征丰富性著称,包含三百万条记录,覆盖二十八种作物类型,横跨五个作物组别。特征体系设计科学,囊括地理位置、气候条件、土壤属性、农业管理措施、时间维度及交互特征六大类别,例如经纬度、温度极值、土壤pH值、施肥量以及周期性编码的月份信息。特别值得注意的是,数据集引入了时间序列模型所需的每日气象序列,支持最长一百八十天的变量长度序列处理,并通过掩码均值池化技术适配不同长度的输入,为深度学习模型提供了时序建模能力。
使用方法
为便于研究与应用,数据集托管于Hugging Face平台,可通过`datasets`库直接加载。配套代码库提供了两套机器学习流水线:v0版本基于scikit-learn,适用于中等规模数据分析,包含Ridge回归、随机森林等经典模型;v1版本则针对千万级数据规模优化,集成了LightGBM、XGBoost以及PyTorch构建的YieldNet等先进模型,并支持Optuna超参数调优。用户可通过实例化训练器类,指定数据路径与模型列表进行训练与评估,亦可加载预训练模型进行单样本产量预测,完整复现流程封装于项目notebooks中。
背景与挑战
背景概述
在精准农业与粮食安全研究领域,作物产量预测是优化资源配置与提升农业生产效率的核心课题。由SYNTHI-AI于2025年发布的Cameroon-agricultural-data数据集,聚焦喀麦隆农业生态系统的复杂性,整合了2018年至2024年间涵盖土壤理化性质、气象时序、卫星遥感及田间调查等多源异构数据,构建了包含300万条样本、覆盖8个农业生态区与28种作物类型的高维特征集合。该数据集旨在通过机器学习管道解析多因素交互作用下的产量形成机制,为区域尺度上的可持续农业决策提供数据驱动的科学依据,对热带农业生态建模与资源管理研究具有显著的推动作用。
当前挑战
该数据集致力于解决热带地区作物产量预测中固有的高维非线性与时空异质性挑战。具体而言,其构建过程需克服多源数据融合的尺度不一致性,例如气象站观测与卫星数据的时空对齐难题,以及土壤实验室分析与田间实测数据的标准化整合。此外,农业生态区的划分与作物类型的多样性引入了样本分布不均衡与特征交互复杂性问题,要求模型具备处理跨区域泛化与作物特异性响应的能力。在数据质量层面,缺失值处理、异常值检测以及符合喀麦隆农业实际的验证约束(如土壤理化参数范围、作物生长指标逻辑一致性)亦是构建可靠预测模型的关键障碍。
常用场景
经典使用场景
在农业数据科学领域,喀麦隆农业数据集为机器学习模型提供了精准的产量预测基础。该数据集整合了土壤属性、气象序列、卫星遥感及作物调查等多源数据,覆盖全国八个农业生态区和二十八种作物类型,时间跨度从2018年至2024年。研究人员通常利用该数据集构建端到端的预测管道,通过特征工程提取六十六个关键变量,并应用梯度提升树、随机森林及深度学习模型进行训练与验证,以实现对单位面积产量的高精度估算。
实际应用
在实际农业生产中,喀麦隆农业数据集被广泛应用于制定区域化的农艺管理策略。农业推广机构可依据模型输出的产量预测,为不同生态区的农户推荐优化的施肥方案、灌溉计划及作物品种选择。此外,政府部门能够借助该数据集评估气候变迁对粮食安全的风险,进而设计适应性政策,例如调整作物保险条款或规划应急储备,从而增强农业系统的韧性与生产力。
衍生相关工作
基于该数据集,学术界衍生出一系列经典研究工作。例如,结合时间序列建模的混合LSTM-全连接网络,专门用于解析天气序列与静态特征的协同效应;另有研究引入Transformer架构处理多变量农业时序数据,以捕捉长期依赖关系。这些工作不仅拓展了农业预测模型的方法论边界,还催生了开源工具库的集成,促进了跨学科合作,为全球南方国家的农业数字化提供了可复制的技术范例。
以上内容由遇见数据集搜集并总结生成



