AgriEval

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/PaperHarvester/AgriEval

下载链接

链接失效反馈

官方服务：

资源简介：

AgriEval是一个全面的中文农业领域基准数据集，包含6大农业类别和41个子类别，涵盖了记忆、理解、推理和生成四个核心认知场景。数据集由来自中国顶级大学的大量文档库、研究生考试网站和考试题库中的高质量数据构成，包括20634个选择题和2104个开放式问答问题。数据集设计用于评估现有模型在概念、理解、推理和生成等方面的综合能力。

AgriEval is a comprehensive benchmark dataset for the Chinese agricultural domain, encompassing six major agricultural categories and 41 sub-categories, and covering four core cognitive scenarios: memorization, comprehension, reasoning, and generation. The dataset is built with high-quality data sourced from large-scale document repositories, postgraduate entrance exam websites, and official exam question banks of top Chinese universities, including 20,634 multiple-choice questions and 2,104 open-ended QA pairs. This dataset is designed to evaluate the comprehensive capabilities of existing models across concept understanding, reasoning, and generation-related tasks.

创建时间：

2025-05-04

搜集汇总

数据集介绍

构建方式

在农业知识评估体系构建过程中，AgriEval通过系统整合高校教育资源与专业文献库，形成了多源数据采集机制。该数据集从中国顶尖高校的硕博入学考试题库、专业课程作业及权威农业文献库中提取原始素材，经过领域专家团队对题目内容进行语义标注与认知层级分类，最终构建出覆盖六大农业领域、41个子类别的结构化知识体系。数据清洗阶段采用多轮交叉验证策略，确保每道题目的准确性与领域相关性，为模型评估提供了坚实的理论基础。

特点

作为中文农业领域首个综合性评估基准，AgriEval展现出多维度的专业特性。其知识体系涵盖植物生产、林业科学、动物学等核心农业学科，通过记忆、理解、推理与生成四类认知场景构建完整的评估维度。数据集包含20,634道选择题与2,104道开放性问题，采用单选、多选、判断与问答四种题型设计，既保留了高校考试题目的专业深度，又兼顾了实际应用场景的复杂性。特别设计的领域分类体系与认知层级标签，为分析模型能力边界提供了细粒度观测视角。

使用方法

研究人员可通过标准化数据接口直接加载JSON格式的评估集，其中choice_main.json与question_main.json分别对应选择题与问答题的核心数据集。使用时应根据模型特性选择适当的评估模式：基础能力测试可直接使用原始题目序列，知识检索增强测试则需配合rag版本数据集构建外部知识库。评估流程需严格遵循数据协议规定的学术使用规范，通过计算模型在四类认知场景下的准确率与生成质量，系统分析其在农业领域的知识应用能力与发展潜力。

背景与挑战

背景概述

随着人工智能技术在农业领域的深入应用，大型语言模型面临专业数据匮乏的瓶颈。2023年诞生的AgriEval基准由国内顶尖学术机构联合构建，聚焦农业知识认知的完整链条，涵盖植物生产、林业科学等六大核心领域及其四十余个子类。该数据集通过整合高校考试题库与专业文献，构建了包含两万余道选择题与两千余道开放题的评估体系，为衡量模型在记忆、理解、推理与生成等维度的农业专业能力提供了标准化范本。其严谨的学术来源与系统化设计，显著推动了农业智能化领域的技术验证与范式创新。

当前挑战

农业知识体系固有的复杂性与地域特性构成了核心领域挑战，要求模型同时掌握作物生理、土壤化学等跨学科知识，并能处理气候差异带来的决策变异。在数据构建层面，原始材料存在专业术语歧义与答案标准不统一的问题，需通过多轮专家校验确保标注一致性。面对试题中隐含的时序性知识更新需求，还需建立动态维护机制以应对农业技术的快速迭代，这些因素共同塑造了该领域技术落地的关键壁垒。

常用场景

经典使用场景

在农业智能化转型的背景下，AgriEval数据集作为首个综合性中文农业基准测试工具，其经典应用场景聚焦于评估大语言模型在农业领域的认知能力。该数据集通过覆盖植物生产、林业、动物科学等六大农业门类，构建了涵盖记忆、理解、推理与生成的四维评估框架，研究者可借助其2万余道选择题与开放题系统检验模型对专业知识的掌握深度与逻辑推演能力。

实际应用

面向智慧农业发展的实际需求，该数据集可驱动农业问答系统、智能决策辅助平台的优化升级。例如在精准农技推广场景中，基于该基准训练的模型能够解析复合型农业问题，为农户提供病虫害诊断、种植方案规划等专业指导，同时支撑农业教育机构构建自适应学习系统，显著提升知识服务的准确性与覆盖广度。

衍生相关工作

自AgriEval发布以来，已催生多项农业大模型创新研究。部分团队基于其构建的检索增强生成框架显著提升了模型在细分领域的表现，另有研究通过多任务学习架构融合该数据集的认知分类体系，衍生出面向土壤分析、作物育种等垂直场景的专用模型，这些探索共同推动了农业人工智能技术路径的多元化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集