AgroBench (Agronomist AI Benchmark)

Name: AgroBench (Agronomist AI Benchmark)
Creator: 日本国立先进工业科学技术研究院（AIST）
Published: 2025-07-28 12:58:29
License: 暂无描述

arXiv2025-07-28 更新2025-07-30 收录

下载链接：

https://dahlian00.github.io/AgroBenchPage/

下载链接

链接失效反馈

官方服务：

资源简介：

AgroBench是一个用于评估视觉语言模型（VLM）在农业领域应用的数据集，由日本国立先进工业科学技术研究院（AIST）等机构创建。该数据集包括203种作物类型、682种疾病类别、134种害虫类别、108种杂草类别，以及与作物管理相关的98种机械类别和77种传统管理方法。数据集包含专家标注的问答对，涵盖了农作物病虫害识别、作物管理、传统农业方法等多个领域。

AgroBench is a dataset designed to evaluate the application of vision-language models (VLMs) in the agricultural field, created by the National Institute of Advanced Industrial Science and Technology (AIST) of Japan and other institutions. This dataset covers 203 crop types, 682 disease categories, 134 pest categories, 108 weed categories, as well as 98 machinery categories and 77 traditional management methods related to crop management. The dataset contains expert-annotated question-answer pairs, covering multiple areas such as crop disease and pest identification, crop management, and traditional agricultural practices.

提供机构：

日本国立先进工业科学技术研究院（AIST）

创建时间：

2025-07-28

搜集汇总

数据集介绍

构建方式

AgroBench数据集通过精心筛选来自植物病理学家监督网站的约50,000张农业图像构建，确保图像质量与类别覆盖的广泛性。在专家农学家的指导下，数据集选择了真实农场环境中的图像，并剔除了标签不明确的样本。对于杂草识别任务，数据集利用了现有公开数据集的图像，并通过边界框标注增强识别精度。所有问答对均由农学专家手动创建，确保问题与图像紧密关联，且答案基于权威农业知识来源。

特点

AgroBench数据集以其广泛的农业类别覆盖和专家标注的高质量问答对著称，包含682种疾病、134种害虫、203种作物和108种杂草的精细分类。数据集特别强调真实农业场景的多样性，涵盖了疾病管理、害虫识别、作物管理等七项关键农业任务。其独特的专家验证机制确保了数据的准确性和可靠性，为视觉语言模型在农业领域的评估提供了全面而严谨的基准。

使用方法

该数据集采用多选问答形式评估视觉语言模型，用户需根据图像内容从五个选项中选择正确答案。针对不同任务设计了特定提示模板，例如疾病识别需结合症状与作物种类进行诊断。数据集支持零样本和少样本链式推理（CoT）评估，通过提供推理示例引导模型分步分析。对于研究用途，建议结合错误分析模块深入探究模型在细粒度分类和农业专业知识上的不足。

背景与挑战

背景概述

AgroBench（Agronomist AI Benchmark）是由大阪大学、京都大学、东京工业大学、日本产业技术综合研究所（AIST）以及牛津大学视觉几何组等机构的研究团队于2025年推出的农业领域视觉-语言模型（VLM）基准测试数据集。该数据集旨在全面评估VLM在农业场景下的多模态理解能力，覆盖203种农作物和682种病害类别，包含7项核心农业任务（如病害识别、虫害管理、杂草检测等），所有数据均经过农学专家标注。作为首个专家验证的农业多模态基准，AgroBench填补了合成数据在专业领域评估的局限性，为农业智能化提供了可靠的模型性能衡量标准。其创新性体现在细粒度分类规模和真实农场场景覆盖度上，推动了精准农业与AI技术的交叉研究。

当前挑战

AgroBench针对的领域挑战包括：1）细粒度农业对象识别（如症状相似的病害区分、生长阶段变化的虫害辨识）；2）跨模态推理（结合视觉特征与农业专业知识回答管理策略问题）。数据集构建过程中面临三大挑战：一是专业标注成本高昂，需协调农学专家完成682种病害的视觉-语言对齐；二是真实场景数据获取困难，需从复杂农田环境中筛选具有诊断价值的图像；三是评估维度设计，需平衡任务多样性（7类任务）与评估严谨性（专家验证的QA对）。当前开源VLM在杂草识别等任务上表现接近随机猜测，反映出农业专业知识的建模不足。

常用场景

经典使用场景

AgroBench作为农业领域首个专家标注的多模态基准数据集，其经典应用场景聚焦于评估视觉-语言模型(VLMs)在复杂农业环境下的细粒度识别与决策能力。该数据集通过7项核心任务（如病害识别、虫害分类、杂草检测等），系统检验模型在真实农田场景中处理作物-病原体交互、生长阶段判断及农机适配等专业问题的性能。尤其在跨作物跨病种的开放词汇识别任务中，AgroBench通过覆盖203种作物和682种疾病的庞大分类体系，为模型提供了接近真实农业复杂度的评估框架。

解决学术问题

AgroBench有效解决了农业AI研究中的三大核心问题：其一，填补了合成数据与专家知识间的质量鸿沟，通过农学家标注的4342个QA对，为多模态模型提供了可靠的评估标准；其二，突破了传统单任务模型的局限，首次实现病害管理、作物生长决策等关联任务的系统性评测；其三，揭示了VLMs在农业细粒度识别中的关键缺陷，如开放模型在杂草识别任务中仅达到17.9%准确率，远低于人类专家水平，为后续研究指明了改进方向。

衍生相关工作

AgroBench的发布催生了多个农业多模态创新研究：其专家标注范式启发了CropDiseaseQA数据集的构建；基于该数据集发现的模型缺陷，后续研究如Agri-LLaVA提出了农业专用适配器微调方法；在基准体系方面，衍生出专注于热带作物的TropiBench评测框架。数据集构建方法论更被MMMU等跨领域基准借鉴，推动专家知识驱动的评估成为多模态研究新标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集