AgriEval
收藏arXiv2025-07-29 更新2025-07-31 收录
下载链接:
https://github.com/YanPioneer/AgriEval/
下载链接
链接失效反馈官方服务:
资源简介:
AgriEval 是一个全面的中文农业领域语言模型基准,包含 16664 条数据,覆盖了农业六大类和 29 个子类别。数据来源于大学级别的考试和作业,旨在评估大型语言模型在农业领域的应用能力,包括记忆、理解、推理和生成等方面。该数据集具有高质量的数据,多样化的格式和广泛的规模,是迄今为止最广泛的农业基准。AgriEval 可用于评估语言模型在农业领域的性能,为开发农业特定的大型语言模型提供有价值的见解。
AgriEval is a comprehensive Chinese language model benchmark focused on the agricultural domain. It contains 16,664 data entries, covering 6 major agricultural categories and 29 subcategories. Sourced from university-level examinations and assignments, this benchmark aims to evaluate the application capabilities of large language models in the agricultural domain, including memory, comprehension, reasoning, and generation capabilities. Boasting high-quality data, diverse formats, and a substantial scale, AgriEval stands as the most extensive agricultural benchmark to date. It can be used to assess the performance of language models in the agricultural domain, providing valuable insights for the development of agricultural-specific large language models.
提供机构:
哈尔滨工业大学
创建时间:
2025-07-29
搜集汇总
数据集介绍

构建方式
AgriEval数据集的构建采用了多阶段、多层次的严格流程。首先从中国高校农业专业考试、模拟试题和研究生入学考试等渠道收集了500余份原始材料,经过农业专家筛选保留400份高质量文档。随后通过专业标注工具进行结构化处理,将PDF/Word格式转换为标准JSON格式,包含问题、选项、答案、领域分类和认知分类等属性。为确保数据质量,采用双专家独立标注机制,通过5%样本的交叉验证使标注一致性达到90%以上。最后利用GPT-4生成高质量干扰项,将单选题扩展为七选项形式以增强区分度,所有增强数据均经过农业专家人工核验。
特点
AgriEval作为首个综合性中文农业基准测试,具有三大核心特征:领域覆盖全面性,涵盖植物生产、林业、水产等6大农业类别下的29个子领域;认知评估系统性,基于布鲁姆分类法构建记忆、理解、推理、生成四级认知框架,细化为15个具体技能维度;数据质量权威性,所有题目源自高校专业考试,平均题目长度76.92词,答案长度467.3词,包含14,697道选择题和2,167道开放题。特别值得注意的是,该数据集通过t-SNE可视化验证了问题的语义多样性,BERT嵌入空间呈现显著分散特征,表明其能有效评估模型在不同农业场景下的知识广度和推理深度。
使用方法
使用AgriEval时可采取多层次评估策略。基础评估包含零样本直接测试,要求模型直接输出选择题答案或生成问答题回复。进阶评估支持思维链提示(CoT),引导模型展示推理过程,特别适用于数值计算和病害诊断等复杂任务。对于知识密集型任务,可结合检索增强生成(RAG)技术,利用中文维基百科等外部知识库提升表现。评估指标方面,选择题采用严格准确率计算(多选题需全选正确),开放题使用ROUGE-L衡量文本相似度。为消除选项位置偏差,建议实施选项随机排序的对照实验。数据集提供的标准提示模板支持零样本、少样本等多种评估模式,可全面考察模型在不同农业认知层级的表现。
背景与挑战
背景概述
AgriEval是中国首个综合性农业领域大型语言模型评测基准,由哈尔滨工业大学和MemTensor(上海)科技有限公司的研究团队于2025年7月提出。该数据集旨在解决农业领域缺乏专业训练数据和评估标准的关键问题,覆盖植物生产、林业、草地科学等6大农业类别和29个子领域,包含14,697道选择题和2,167道开放式问答题。数据集创新性地采用记忆、理解、推理和生成四层认知框架,并设计了15个细粒度任务维度,为评估LLMs在真实农业场景中的认知能力提供了系统化工具。
当前挑战
AgriEval面临的挑战主要体现在两个方面:领域问题方面,农业知识具有高度专业化和碎片化特征,涉及复杂的生物环境推理,现有通用模型在病虫害精准诊断、农药配方等需要专业推理的任务上准确率不足60%;数据构建方面,需克服中国农业区域异质性带来的知识收集难度,处理大学考试题目中的专业数学符号和复杂图表,并通过专家验证确保29个子领域数据的平衡性。此外,数据增强过程中需要生成高质量干扰项以提升多选题的判别难度,这对领域专业知识提出了极高要求。
常用场景
经典使用场景
AgriEval数据集作为首个全面评估中文农业领域大语言模型能力的基准,广泛应用于农业知识问答、作物病害诊断、生产策略生成等核心场景。其14,697道选择题和2,167道开放式问题覆盖植物生产、水产养殖等6大农业类别,通过记忆、理解、推理、生成四层认知框架,系统检验模型在术语解释、数值计算、生长状态分析等29个子领域的专业能力。
衍生相关工作
AgriEval的发布催生了多个农业大模型优化方向,如基于检索增强生成(RAG)的知识补全方法将小模型准确率提升4%,其认知分级框架被HuatuoGPT等领域模型沿用。相关研究进一步发现思维链提示对数值推理任务有9.81%的增益,这些发现推动形成了《农业大语言模型能力白皮书》等指导性文献。
数据集最近研究
最新研究方向
近年来,AgriEval数据集在农业领域的大型语言模型(LLMs)评估中发挥了重要作用。该数据集涵盖了植物生产、林业、草地科学、水产养殖、动物科学与技术以及传统中草药等六大农业类别,共29个子领域,为LLMs在农业领域的认知能力评估提供了全面基准。研究热点包括LLMs在农业知识问答、病害诊断、生产规划等核心场景中的应用,以及如何通过检索增强生成(RAG)和思维链(CoT)提示等策略提升模型性能。AgriEval的出现填补了农业领域专业评估基准的空白,为农业智能化发展提供了重要支持。
相关研究论文
- 1AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models哈尔滨工业大学 · 2025年
以上内容由遇见数据集搜集并总结生成



