AgriCoT
收藏arXiv2025-11-28 更新2025-12-02 收录
下载链接:
https://huggingface.co/datasets/wenyb/AgriCoT
下载链接
链接失效反馈官方服务:
资源简介:
AgriCoT是由中山大学、清华大学等机构联合创建的一个面向农业领域的视觉问答基准数据集,旨在评估视觉语言模型在复杂农业场景中的推理能力。该数据集包含4,535个精心构建的样本,每个样本均包含问题、答案及人工精炼的思维链推理过程,数据来源于多传感器农业图像和专家标注的文本。其创建过程涉及从真实农业场景中收集图像,并设计涵盖物体检测、定量分析、疾病监测、空间理解和环境管理五个维度的多样化任务类型。该数据集主要应用于农业人工智能领域,旨在解决现有基准在评估模型多步推理、深度理解和问题解决能力方面的不足,推动视觉语言模型在精准农业、作物监测和病虫害诊断等实际应用中的发展。
AgriCoT is an agricultural visual question answering (VQA) benchmark dataset jointly developed by Sun Yat-sen University, Tsinghua University and other institutions, which aims to evaluate the reasoning capabilities of vision-language models (VLMs) in complex agricultural scenarios. This dataset contains 4,535 carefully constructed samples, each consisting of a question, an answer, and manually refined chain-of-thought (CoT) reasoning processes. The data is sourced from multi-sensor agricultural images and expert-annotated text. Its construction process involves collecting images from real agricultural scenarios and designing diverse task types covering five dimensions: object detection, quantitative analysis, disease monitoring, spatial understanding and environmental management. This dataset is mainly applied in the agricultural artificial intelligence field, aiming to address the shortcomings of existing benchmarks in evaluating models' multi-step reasoning, in-depth understanding and problem-solving capabilities, and promote the development of vision-language models in practical applications such as precision agriculture, crop monitoring and pest and disease diagnosis.
提供机构:
中山大学、清华大学、西南大学、华天智慧科技有限公司、中国农业大学、西南交通大学、国家超级计算深圳中心
创建时间:
2025-11-28
原始信息汇总
AgriCoT 数据集概述
数据集基本信息
- 数据集名称:AgriCoT
- 主要用途:评估视觉语言模型在农业领域的推理能力,特别是在零样本场景下。
- 样本数量:4,535 个精心筛选的样本。
- 核心特点:专注于评估模型的逻辑推理和有效问题解决能力。
- 任务类别:问答。
- 相关标签:生物学。
- 规模分类:10K<n<100K。
关键特征
- 问题导向:涵盖物体检测、定量分析、疾病监测、空间理解和环境管理。
- 思维链推理:要求模型遵循理解问题、描述图像、检索相关知识以连接问题与图像、进行逻辑推理并最终给出答案的完整推理过程。
数据来源
数据集整合了以下四个来源的数据:
- CDDM:https://github.com/UnicomAI/UnicomBenchmark/tree/main/CDDMBench
- AGMMU:https://huggingface.co/datasets/AgMMU/AgMMU_v1
- AgroMind:https://huggingface.co/datasets/AgroMind/AgroMind
- AgroBench:https://huggingface.co/datasets/risashinoda/AgroBench
文件结构
数据集根目录包含以下子目录和文件:
AgMMUAgroBenchAgroMindCDDMVQRA.json
数据格式
主要数据文件 VQRA.json 包含结构化的条目,每个条目包含以下字段:
question:自然语言问题文本。image_path:图像文件路径。options:答案选项(当适用时),格式为键值对。answer:正确答案。type_id:问题响应格式类型。reasoning:思维链推理过程文本。item_id:问题在文件中的唯一标识符(从数字1开始)。dimension_id:一级任务维度标识。sub_dimension_id:二级任务维度标识。
相关资源
- 论文:https://arxiv.org/abs/2511.23253
- 项目主页:https://yu-wang-coder.github.io/AgriCoT/
- 许可证:CC BY-SA 4.0
搜集汇总
数据集介绍

构建方式
AgriCoT数据集的构建过程体现了严谨的科学方法论与领域适应性。该数据集从四个代表性农业视觉问答基准(CDDM、AGMMU、AgroMind、AgroBench)中精心筛选样本,通过去重与场景过滤确保数据多样性与任务复杂性。核心创新在于引入思维链推理标注:首先利用GPT-4o生成初始推理步骤,随后由具备农业知识背景的评审员依据标准化指南进行人工修正,确保每条思维链具备多步骤逻辑性、领域知识准确性与结构化表达。最终形成的4,535个样本覆盖物体检测、定量分析、病害监测等五个维度,构建出首个融合显式思维链的农业多模态推理评估基准。
特点
AgriCoT的突出特点在于其深度推理评估框架与农业场景针对性。数据集突破传统农业VQA仅关注答案准确率的局限,通过嵌入人工精修的思维链推理过程,支持对模型逻辑推导能力、多步骤问题分解与跨模态对齐的细粒度评估。其问题体系采用分层任务设计,涵盖从生物计数、形态统计到空间关系分析、环境管理等15类农业典型任务,并融合卫星影像、无人机航拍与地面拍摄等多视角数据。样本的思维链长度与复杂度呈现阶梯分布,既能评估基础认知能力,也能检验复杂场景下的持续推理鲁棒性,为农业领域视觉语言模型的认知能力诊断提供了多维透视。
使用方法
AgriCoT作为评估基准,主要应用于视觉语言模型在零样本场景下的推理能力测评。研究者可将模型在数据集上进行端到端测试,通过对比模型生成的思维链与人工标注参考链的相似度(如ROUGE、BERTScore指标),量化其推理逻辑的完整性与语义一致性;同时计算最终答案准确率以评估任务解决效能。数据集支持跨维度性能分析,例如比较模型在定量计算与空间理解任务上的表现差异,或探究推理步骤数量对模型性能的影响。此外,其结构化标注可用于引导模型的思维链生成训练,或作为领域适应性微调的数据源,推动农业专用多模态模型向可解释、强推理的方向演进。
背景与挑战
背景概述
AgriCoT数据集由中山大学、清华大学等机构的研究团队于2025年联合创建,旨在解决农业领域中视觉语言模型(VLMs)推理能力评估的空白。该数据集聚焦于农业场景下的复杂问题解决,通过引入思维链(Chain-of-Thought, CoT)推理机制,系统评估模型在作物病害诊断、害虫识别、空间理解等任务中的逻辑分析与多步推理能力。其构建基于CDDM、AgroMind等现有农业多模态数据集,经过严格筛选与人工优化,形成了包含4,535个样本的评测基准,覆盖对象检测、定量分析、病害监测、空间理解与环境管理五大维度。AgriCoT的提出推动了农业人工智能从浅层感知向深度认知的范式转变,为领域专用模型的开发与优化提供了关键支撑。
当前挑战
AgriCoT致力于应对农业视觉问答中模型推理能力评估不足的核心挑战。传统农业VQA数据集仅关注答案准确性,难以衡量模型在复杂农业场景下的逻辑推理与问题解决深度。具体而言,该数据集需解决多步推理的连贯性评估、跨模态语义对齐、以及长链推理的稳定性等难题。在构建过程中,研究团队面临高质量CoT标注的生成与校验困难,包括自动化生成的推理链存在逻辑错误、格式不一致、领域知识缺失等问题,需通过严格的人工审核与修正流程确保数据可靠性。此外,农业场景的多样性与专业性要求标注者具备扎实的农学知识,进一步增加了数据构建的复杂度与成本。
常用场景
经典使用场景
在农业智能化的研究背景下,AgriCoT数据集被广泛应用于评估视觉语言模型在复杂农业场景中的推理能力。该数据集通过精心设计的链式思维(Chain-of-Thought)标注,为模型提供了多步骤、结构化的推理范例,使其能够模拟农业专家在诊断作物病害、分析空间关系或制定管理决策时的逻辑思维过程。研究人员利用AgriCoT对模型进行零样本评估,深入探究模型在对象检测、定量分析、病害监测等五个维度的表现,从而揭示现有模型在农业领域推理深度与逻辑连贯性方面的局限。
解决学术问题
AgriCoT针对农业视觉问答领域长期存在的评估浅表化问题,提出了创新的解决方案。传统农业VQA基准大多仅关注最终答案的准确性,忽视了模型内在的推理过程,导致评估结果缺乏解释性。该数据集通过引入链式思维标注,将复杂的农业任务分解为可追溯的推理步骤,使研究者能够定量评估模型在多层次逻辑分析、跨模态对齐以及长序列推理等方面的能力。这一设计不仅填补了农业领域缺乏专业推理评估工具的空白,还为提升视觉语言模型的透明度和可靠性提供了方法论支持。
衍生相关工作
AgriCoT的发布催生了一系列围绕农业多模态推理的研究工作。在数据集构建方法上,后续研究借鉴其链式思维标注范式,开发了针对特定作物或区域的专项评估基准。模型优化方面,部分工作利用AgriCoT的推理步骤作为监督信号,训练具有更强逻辑推理能力的领域适应模型,例如在病虫害诊断任务中引入因果推理模块。同时,该数据集也促进了评估指标的发展,研究者提出了结合语义相似度与逻辑一致性的新型度量方法,以更全面地衡量模型在复杂农业场景下的推理质量。
以上内容由遇见数据集搜集并总结生成



