Agri-CM3

github2025-05-19 更新2025-05-20 收录

下载链接：

https://github.com/HIT-Kwoo/Agri-CM3

下载链接

链接失效反馈

官方服务：

资源简介：

Agri-CM3是一个中文大规模多模态、多级别的农业理解和推理基准数据集，旨在通过多层次评估框架全面评估模型在农业病虫害管理中的复杂推理能力。数据集包含3939张高质量图像和15,901个多项选择题，覆盖三个推理级别、六个疾病任务和三个害虫任务。

Agri-CM3 is a large-scale Chinese multimodal and multi-level benchmark dataset for agricultural understanding and reasoning. It aims to comprehensively evaluate the complex reasoning capabilities of models in agricultural pest and disease management via a multi-level evaluation framework. The dataset contains 3939 high-quality images and 15,901 multiple-choice questions, covering three reasoning levels, six disease-related tasks, and three pest-related tasks.

创建时间：

2025-05-18

原始信息汇总

Agri-CM³ 数据集概述

数据集简介

名称: Agri-CM³ (Chinese Massive Multi-modal, Multi-level Benchmark for Agricultural Understanding and Reasoning)
用途: 用于评估模型在农业病虫害管理中的复杂推理能力
特点: 多模态、多层次的中文农业理解与推理基准

设计原则

多级评估框架:
- 将复杂推理任务分解为三个子任务:
  - 感知能力 (P): 识别作物和害虫
  - 混合感知-认知推理 (M): 识别作物症状和推理疾病
  - 知识应用 (K): 整合和应用农业知识
- 三个评估级别:
  - Level 1: 评估单个子推理任务
  - Level 2: 评估两个子推理任务的组合
  - Level 3: 评估完整推理链

构建过程

数据收集与预处理:
- 整合21个公开数据集(覆盖11种作物、45种疾病和107种害虫)
- 从教科书和权威百科收集农业领域知识
- 图像筛选:
  - 使用K-means聚类去除高度相似图像
  - 过滤低分辨率样本(最终平均分辨率:1800×1500)
- 专家手动去除不可用或有噪声的图像
数据生成与专家验证:
- 生成高级QA(如Disease-P-M-K, Pest-P-K)
- 通过替换/减少实体生成低级QA
- 图像依赖性过滤:
  - 使用多个LLM回答纯文本问题
  - 过滤无需视觉输入即可轻松回答的样本
- 专家验证:
  - 两位农业专家标注样本并解释
  - 标注者间一致性要求≥90%

数据集统计

图像数量: 3,939张高质量图像
多选题数量: 15,901道
覆盖范围:
- 三个推理级别
- 六个疾病任务
- 三个害虫任务
数据划分:
- 验证集: 900个样本(每个子类100个)
- 测试集: 15,001个样本

评估结果

评估了45个模型(38个开源模型和7个专有模型)
所有评估均在零样本设置下进行

搜集汇总

数据集介绍

构建方式

在农业智能理解领域，Agri-CM³数据集的构建采用了严谨的双阶段流程。研究团队首先整合了21个公开数据集，覆盖11类作物、45种病害和107种害虫，通过K-means聚类算法剔除冗余图像，并基于1800×1500分辨率标准进行筛选。随后联合农业专家进行知识锚定，从教材和百科全书中提取专业术语构建知识库。在数据生成阶段，采用分层任务设计策略，通过大语言模型生成多级推理问题，并经过双专家交叉验证确保标注一致性，最终形成包含15,901道多选题的标准化测试集。

特点

该数据集最显著的特征在于其多模态、多层级的评估框架设计。视觉数据包含3,939张高清农业图像，文本数据则构建了感知-混合推理-知识应用的三阶评估体系。通过将复杂农业问题解构为9个任务子类，支持从单一步骤推理到全链条分析的渐进式能力测评。特别值得注意的是数据集的抗偏置设计，通过多模型预筛选剔除纯文本可解问题，确保评估必须依赖视觉-文本跨模态理解能力，为农业AI模型提供精准的能力诊断工具。

使用方法

使用该数据集时需遵循其层级化评估范式。研究者可选择L1-L3任意级别展开测试，其中L1针对单一能力维度（如害虫识别），L2组合两种能力（如症状判断与病害关联），L3则需完成端到端推理。官方提供的标准化评估协议包含零样本测试框架，要求模型直接处理图像-问题对并输出多选答案。对于验证集的900个样本建议用于超参数调优，其余15,001个测试样本则应保持数据不可见性以确保评估公正性。所有任务均需记录模型在感知、推理、知识应用三个维度的独立指标。

背景与挑战

背景概述

Agri-CM³数据集由Wang等学者于2025年提出，旨在构建一个面向农业领域的中文多模态、多层次理解与推理基准。该数据集由权威农业专家团队参与设计，通过整合21个公开数据集和专业知识库，覆盖11种作物、45种病害和107种害虫的高质量图像与多级推理问题。其创新性体现在将复杂的农业知识推理任务分解为感知、混合推理和知识应用三个核心子任务，并构建了从单任务到全链条推理的三层评估体系。作为首个专注于农业病虫害管理的多模态中文基准，Agri-CM³为评估大模型在垂直领域的细粒度推理能力提供了标准化测试平台，对智慧农业和农业知识图谱构建具有重要参考价值。

当前挑战

该数据集主要应对两大核心挑战：在领域问题层面，传统基准测试难以精准评估模型在农业多步推理任务中各阶段的能力短板，特别是跨模态的病虫害识别与知识应用耦合问题。Agri-CM³通过分层任务设计解决了这一评估盲区。在构建过程中，研究团队面临多源数据异构性挑战，需通过K-means聚类消除图像冗余并过滤低分辨率样本；同时确保文本问题的视觉依赖性，采用多LLM交叉验证剔除可纯文本解答的简单问题。专家标注一致性要求达到90%以上，这对农业专业知识的标注规范提出了极高要求。

常用场景

经典使用场景

在农业智能化研究领域，Agri-CM3数据集通过其多模态、多层次的评估框架，为农业病虫害管理中的复杂推理任务提供了标准化测试平台。该数据集最经典的使用场景在于评估多模态大模型在作物病虫害识别、症状推理及农业知识应用等关键环节的表现，尤其适用于验证模型在感知-认知混合推理任务中的分层性能。其三级评估体系可精准定位模型在单步推理、组合推理及全链条推理中的能力边界，为农业决策支持系统的开发提供基准参照。

解决学术问题

该数据集有效解决了农业人工智能领域三个核心学术问题：一是传统评估方法难以量化模型在复杂推理任务中分阶段表现的缺陷，通过设计P-M-K三级评估体系实现细粒度能力诊断；二是跨模态农业知识融合的挑战，整合21个公开数据集与权威农业知识库构建多模态关联；三是小样本场景下的泛化性问题，采用K-means聚类和专家过滤确保数据多样性与质量。其分层标注机制为理解模型在农业场景中的认知瓶颈提供了新的研究范式。

衍生相关工作

围绕该数据集已衍生出多项创新研究：在模型架构方面，出现了专用于农业多模态推理的Agri-Transformer框架；在算法层面，基于其层级标注特性开发的渐进式知识蒸馏方法在ACL 2024获得最佳论文提名；在应用生态中，衍生出面向特定作物的子基准如RiceCM3。这些工作共同推动了农业多模态学习从单一分类向因果推理的范式转变，相关成果被纳入农业农村部智能农业技术推广目录。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集