cameroon-agricultural-data

github2026-03-20 更新2026-03-21 收录

下载链接：

https://github.com/Farm-sToMarket/agri-harvest-cameroon

下载链接

链接失效反馈

官方服务：

资源简介：

训练数据集包含300万行，36列原始数据，经过特征工程后扩展到66列以上。涵盖28种作物类型，分布在8个农业生态区，时间跨度为2018年至2024年。数据来源包括田间测量、气象站和实验室分析。

The training dataset contains 3 million rows and 36 columns of raw data, which is expanded to more than 66 columns after feature engineering. It covers 28 crop types distributed across 8 agro-ecological zones, with a time span ranging from 2018 to 2024. The data sources include field measurements, meteorological stations, and laboratory analyses.

创建时间：

2026-03-17

原始信息汇总

Agri-Harvest 数据集概述

数据集基本信息

数据集名称: Agri-Harvest (Cameroon agricultural data)
托管平台: Hugging Face
具体地址: https://huggingface.co/datasets/synthi-ai/cameroon-agricultural-data
数据规模: 3,000,000 行
特征维度: 36 列（原始数据），66+ 列（特征工程后）
时间范围: 2018-2024
数据来源: 实地测量、气象站、实验室分析

数据内容与覆盖范围

作物种类: 涵盖 5 个作物组别下的 28 种作物类型
生态区域: 覆盖喀麦隆 8 个农业生态区
特征类别: 包含 66 个特征，分为 6 个类别：
- 地理位置: 纬度、经度、海拔、区域独热编码、海拔等级独热编码（共 14 个）
- 气候: 最低/最高/平均温度、降水量、湿度、太阳辐射、生长度日、蒸气压差、干旱指数、强降雨标志（共 13 个）
- 土壤: pH、有机碳、氮、磷、沙/粘土百分比、肥力指数、碳氮比、阳离子交换量（共 9 个）
- 田间管理: 氮/磷肥、有机肥、灌溉、投入强度、总矿物肥料、有机/矿物肥料比例（共 8 个）
- 时间: 月份正弦/余弦、年积日正弦/余弦、月份、年积日、年份、季节序数、雨季标志、降雨制度（共 10 个）
- 交互特征: 湿度-温度交互、降雨-有机碳交互、投入-土壤交互、供水指数、病害风险评分、数据质量标志（共 6 个）

农业生态区划分

基于纬度、经度和海拔进行分类：

生态区	划分标准	典型作物
萨赫勒稀树草原	纬度 > 10° N	高粱、小米、棉花
苏丹稀树草原	纬度 8-10° N	高粱、花生
几内亚稀树草原	纬度 6-8° N	玉米、山药
西部高地	海拔 > 1200 米，经度 < 11.5°，纬度 4.5-7.5°	马铃薯、玉米
森林-稀树草原过渡带	纬度 5-6° N	玉米、木薯
湿润森林（沿海）	纬度 < 5°，经度 < 10°，海拔 < 500 米	可可、大蕉
湿润森林（内陆）	纬度 < 5°，内陆地区	可可、木薯
喀麦隆火山山区	纬度 4.0-4.35°，经度 9.0-9.35°，海拔 > 2500 米	特色作物

数据验证规则

使用 Pydantic v2 模式强制执行喀麦隆特定的数据约束：

坐标: 纬度 1.6-13.1° N，经度 8.3-16.2° E，海拔 0-4095 米
土壤: 土壤质地百分比总和为 100%（容差 1%），pH 值 3.5-9.5，容重 0.8-2.0
天气: 温度 -5 至 50°C，降水量 0-500 毫米，气压 600-1050 百帕
作物: 7 个组别下的 27 种作物类型，每种作物有特定的收获指数范围，产量 ≤ 生物量，间作土地当量比 0.5-3.0

模型与基准结果

数据集用于训练和评估多个产量预测模型，目标变量为 yield_kg_ha。

v0 模型对比（80/20 分割，约 60 万测试行）

模型	RMSE (公斤/公顷)	MAE (公斤/公顷)	R²	MAPE
堆叠集成 (RF+HGB)	412.7	287.3	0.9218	11.4%
直方图梯度提升	431.5	301.8	0.9145	12.1%
随机森林	458.2	322.6	0.9036	13.0%
岭回归	689.4	512.7	0.7821	19.8%
基线（均值）	1534.6	1247.1	0.0000	46.8%

v1 模型对比（85/15 分割，约 45 万测试行）

模型	RMSE (吨/公顷)	MAE (吨/公顷)	R²	MAPE
LightGBM	0.3514	0.2418	0.9435	9.6%
XGBoost	0.3687	0.2541	0.9378	10.2%
YieldNet (PyTorch)	0.4023	0.2856	0.9259	11.3%

v1 LightGBM 分区域结果

农业生态区	RMSE (吨/公顷)	R²	样本数 (N)
湿润森林（内陆）	0.3124	0.9542	128,430
湿润森林（沿海）	0.3287	0.9489	68,715
西部高地	0.3401	0.9451	54,180
几内亚稀树草原	0.3598	0.9387	85,245
森林-稀树草原过渡带	0.3712	0.9334	49,590
苏丹稀树草原	0.3945	0.9258	40,320
萨赫勒稀树草原	0.4378	0.9124	23,520

v1 LightGBM 分作物组结果

作物组	RMSE (吨/公顷)	R²	样本数 (N)
谷物	0.3245	0.9512	144,870
根茎类作物	0.3412	0.9467	94,725
豆类	0.3567	0.9398	70,515
木本作物	0.3734	0.9321	55,530
蔬菜	0.3856	0.9278	84,360

许可证与联系

许可证: MIT License
版权: Copyright (c) 2025 SYNTHI-AI
联系: SYNTHI-AI — contact@synthi-ai.com, contact@farmstomarket.io

搜集汇总

数据集介绍

构建方式

在农业数据科学领域，精准的产量预测依赖于多源异构数据的有效整合。该数据集通过融合实地测量、气象站记录、实验室分析及卫星遥感等多维度信息，构建了一个覆盖喀麦隆八个农业生态区和二十八种作物类型的综合性数据资源。其构建过程遵循严谨的数据工程流程，原始数据经过特征工程处理，从36个原始字段扩展至66个以上衍生特征，涵盖地理位置、气候条件、土壤属性、农艺管理及时间序列等多个类别，确保了数据在空间与时间维度上的代表性与完整性。

使用方法

该数据集专为机器学习驱动的产量预测模型设计，用户可通过Hugging Face平台便捷加载，并利用附带的标准化流程进行探索性分析、特征工程与模型训练。数据集支持两种规模的建模流水线：针对中等数据量的scikit-learn框架，以及面向海量数据的LightGBM、XGBoost与PyTorch框架。使用方法强调防止数据泄露，训练前需剔除与目标变量直接相关的衍生特征。用户可根据研究需求，执行空间分组拆分以保持农业生态区的独立性，或采用分层抽样策略，并利用提供的配置文件和超参数优化工具，复现或改进基准模型性能，最终实现对新农田场景的产量精准推断。

背景与挑战

背景概述

在精准农业与粮食安全研究领域，作物产量预测是优化资源配置与提升农业生产效率的核心课题。由SYNTHI-AI机构于2025年发布的喀麦隆农业数据集，整合了2018年至2024年间覆盖全国8个农业生态区与28种作物的多源数据，包括土壤理化性质、气象观测、卫星遥感及田间调查记录。该数据集旨在通过构建机器学习管道，解决复杂环境因子交互作用下作物产量精准估算的难题，为热带地区农业决策支持系统提供了高分辨率、跨时空的基准数据，推动了农业信息学在发展中国家可持续农业实践中的应用。

当前挑战

该数据集致力于应对农业产量预测中多变量非线性建模的挑战，其核心问题在于如何融合异质性极强的土壤、气候与管理数据，以准确捕捉不同生态区与作物类型的产量响应机制。在构建过程中，研究团队面临数据采集与整合的复杂性：需协调野外实测、实验室分析与气象站记录的时空对齐，并处理高维特征间的多重共线性与缺失值。此外，确保数据在8个差异显著的农业生态区之间具有代表性，同时避免模型训练中的区域信息泄漏，构成了数据集构建与算法验证的关键技术障碍。

常用场景

经典使用场景

在农业数据科学领域，Cameroon-agricultural-data数据集为作物产量预测提供了经典范例。该数据集整合了土壤属性、气象序列、卫星观测及田间调查等多源异构数据，覆盖喀麦隆八个农业生态区和二十八种作物类型。研究者通常利用其构建机器学习管道，通过特征工程提取六十六个关键变量，并应用随机森林、梯度提升或深度学习模型，以高精度预测单位面积的作物产量。这种综合性建模方法能够捕捉复杂的环境与管理因素交互效应，为精准农业决策提供数据驱动的科学依据。

解决学术问题

该数据集有效解决了农业生态系统中产量形成机制量化解析的学术难题。通过提供大规模、多维度且时空连续的观测记录，它使研究者能够系统评估土壤肥力、气候变异及农艺措施对作物生产力的协同影响。其严谨的数据验证框架与泄漏防护设计，确保了模型泛化能力的可靠性，从而推动了农业系统建模从经验统计向机理与数据融合的范式转变。这一进展对于理解热带农业的可持续性、资源利用效率及气候韧性具有重要的理论意义。

实际应用

在实际农业生产中，该数据集支撑的预测模型可直接服务于喀麦隆及类似生态区域的农事管理。农业推广机构可依据模型输出，为不同生态区的农户提供个性化的施肥、灌溉及种植制度建议，以优化资源投入并降低生产风险。保险与金融机构亦可利用产量预测结果，设计更精准的天气指数保险产品或信贷风险评估方案。此外，政府部门能够借助该数据平台进行区域粮食安全预警与政策模拟，提升农业治理的精细化和前瞻性。

数据集最近研究