SeedBench

Name: SeedBench
Creator: 上海人工智能实验室, 亚洲湾国家实验室, 上海创新研究院
Published: 2025-05-19 23:02:59
License: 暂无描述

arXiv2025-05-19 更新2025-05-21 收录

下载链接：

https://github.com/open-sciencelab/SeedBench

下载链接

链接失效反馈

官方服务：

资源简介：

SeedBench是首个针对种子科学领域的大语言模型评估基准，由多学科背景的专家开发，旨在模拟种子育种的三个关键阶段：基因信息检索、基因功能与调控分析以及品种育种与农艺性状优化。数据集包含从公共来源收集的308,727篇育种相关文献，并经过专家筛选和自动问答生成，最终形成包含2,264个问题的数据集。SeedBench旨在解决种子科学领域专家短缺和技术支持不足的问题，通过提供结构化的评估框架，帮助研究人员评估大语言模型在种子育种中的应用潜力。

SeedBench is the first large language model (LLM) evaluation benchmark tailored for the field of seed science, developed by experts with multidisciplinary backgrounds. It aims to simulate three key stages of seed breeding: genetic information retrieval, gene function and regulation analysis, and cultivar breeding and agronomic trait optimization. The dataset consists of 308,727 breeding-related academic literatures collected from public sources, which underwent expert curation and automatic question-answer pair generation, ultimately forming a dataset containing 2,264 questions. SeedBench is designed to address the shortages of experts and insufficient technical support in the field of seed science, and help researchers evaluate the application potential of large language models in seed breeding by providing a structured evaluation framework.

提供机构：

上海人工智能实验室, 亚洲湾国家实验室, 上海创新研究院

创建时间：

2025-05-19

原始信息汇总

SeedBench 数据集概述

🌾 数据集简介

SeedBench 是首个针对种子科学领域（特别是种子育种）设计的多任务基准测试，用于评估大语言模型（LLMs）的性能。该数据集包含专家验证的问题、评估代码及相关文档。

🔎 核心数据详情

数据规模：
- 语料库：308,727 篇文献，清理后达 11 亿 tokens；包含 279 个文本段（来自 113 篇文档）。
- 问题集：2,264 个双语（英文/中文）问题，覆盖 11 种任务类型，均经过专家验证。
- 初始焦点：以水稻育种为代表性案例。

任务类型与指标：

类型ID	问题类型	评估指标	数量
QA-1	多项选择	准确率	200
QA-2	多答案	Macro-F1	187
QA-3	填空	ROUGE-L	224
QA-4	生成	ROUGE-L	242
SUM-1	简单摘要	ROUGE-L	225
SUM-2	关键信息提取	ROUGE-L	225
RC-1	阅读理解（多项选择）	准确率	113
RC-2	阅读理解（多答案）	Macro-F1	108
RC-3	阅读理解（填空）	ROUGE-L	221
RC-4	阅读理解（生成）	ROUGE-L	240
RC-5	子类别分类	准确率	279

☀️ 关键评估结果

模型表现：
- 综合表现最佳：DeepSeek-V3（68.37分）、GPT-4（67.88分）。
- 分任务表现：详见任务类型与子类别评分表。
子类别平均分：

模型平均分

DeepSeek-V3-671B 63.30

GPT-4 62.06

Qwen2-72B 57.62

🐝 仓库内容

base_model_eval/：测试无对话能力的预训练基础模型。
sft_model_eval/：测试监督微调模型，包含 2,264 个问题。
- one-shot/ 与 zero-shot/：按 11 种任务类型组织。
corpus/：高质量文本段及专家验证后剔除的低质量问题。

📬 引用

txt @misc{ying2025seedbenchmultitaskbenchmarkevaluating, title={SeedBench: A Multi-task Benchmark for Evaluating Large Language Models in Seed Science}, author={Jie Ying and Zihong Chen and Zhefan Wang and Wanli Jiang and Chenyang Wang and Zhonghang Yuan and Haoyang Su and Huanjun Kong and Fan Yang and Nanqing Dong}, year={2025}, eprint={2505.13220}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.13220}, }

搜集汇总

数据集介绍

构建方式

SeedBench的构建过程经过精心设计，以确保其在种子科学领域的科学性和可靠性。首先，研究团队从公开可获取的英文和中文育种相关文献中提取了308,727篇论文，通过MinerU工具将其转换为统一的Markdown格式。随后，经过启发式过滤、去重和基于CCI3-HQ-Classifier的质量评分，最终筛选出1.1亿token的高质量语料库。在此基础上，领域专家精选了279个文本片段，涵盖10个预定义的子类别，确保数据的深度和广度。每个片段都经过专家验证，包含多个关键知识点，为后续的问题生成和模型评估奠定了坚实基础。

特点

SeedBench作为首个专注于种子科学的多任务基准测试，具有鲜明的特点。它涵盖了种子育种全流程的三大关键环节：基因信息检索、基因功能与调控分析以及品种育种与农艺性状优化，共包含10个子类别和11种任务类型。数据集包含2,264个经过专家验证的高质量问题，确保了科学严谨性。此外，SeedBench支持零样本和单样本两种评估模式，能够全面测试大语言模型在不同场景下的表现。其问题设计紧密结合实际育种决策过程，模拟了专家工作流程，为评估模型在真实育种挑战中的能力提供了可靠框架。

使用方法

SeedBench的使用遵循系统化的评估流程。研究人员可通过OpenCompass框架对各类大语言模型进行测试，包括7个专有模型、16个开源模型和3个领域特定模型。评估支持两种模式：零样本模式下仅提供任务指令和查询；单样本模式则额外包含一个示例查询及其答案。对于专有模型通过API接口进行评估，开源模型则在8个NVIDIA A100 40GB GPU上进行。评估采用多种指标：单选题使用准确率，多选题采用宏观F1值，填空题和生成题则使用ROUGE-L F1分数。这种多维度的评估方法能够全面衡量模型在种子科学领域的各项能力。

背景与挑战

背景概述

SeedBench是由上海人工智能实验室与崖州湾国家实验室合作开发的首个专注于种子科学领域的大型语言模型（LLM）评估基准，于2025年5月正式发布。该数据集针对现代农业中种子育种这一核心环节，系统模拟了从基因信息检索到品种培育决策的全流程，包含2,264个经专家验证的多任务问题。作为连接人工智能与农业科学的桥梁，SeedBench填补了植物育种领域缺乏标准化评估工具的空白，其创新性体现在将分子生物学知识与农艺性状优化相结合，为LLM在作物设计、基因功能预测等实际应用场景中的能力评估提供了科学框架。

当前挑战

SeedBench面临三重核心挑战：在领域问题层面，需解决基因-性状关联的复杂推理（如多基因调控网络分析）和跨模态数据整合（如将基因组数据与环境因素关联）；在构建过程中，需克服种子科学文献的专业术语壁垒（如基因命名体系差异）和低资源语言的标注难题（中英双语数据占比达45%/55%）；在模型评估维度，存在专用模型泛化性不足（如PLLaMa-13B得分仅17.57）与通用模型领域深度欠缺（如GPT-4在基因功能预测任务准确率仅59.35%）的矛盾。此外，育种决策的长周期特性要求模型输出具备可解释性，这对黑箱化的LLM提出了新的验证要求。

常用场景

经典使用场景

SeedBench作为首个面向种子科学的多任务基准测试，其经典使用场景聚焦于评估大语言模型在种子育种全流程中的表现。该数据集通过模拟育种专家决策的三个关键阶段——基因信息检索、基因功能与调控分析、品种性状优化，构建了包含11种任务类型的评估框架。研究者可利用其2264个专家验证的问题-答案对，系统测试模型在跨学科知识整合、复杂性状推理等核心能力上的表现，特别适用于比较不同架构LLM在农业科学领域的适应性。

实际应用

在实际应用中，SeedBench可显著提升智能育种系统的开发效率。育种机构可依据其评估结果筛选合适的LLM，用于构建基因知识问答系统、自动化文献分析工具等应用。例如在性状预测环节，表现优异的DeepSeek-V3等模型可帮助育种专家快速获取基因表达模式与农艺性状的关联规律。该数据集还能指导农业科研院所开发面向杂交水稻、小麦等作物的决策支持系统，优化从基因筛选到品种推荐的完整工作流。

衍生相关工作

基于SeedBench已衍生出多个重要研究方向：在模型层面，催生了如PLLaMa等作物科学专用大模型的开发；在方法学层面，促进了针对长周期育种任务的序列决策算法研究；在应用层面，启发了AgXQA等农业问答系统的优化。该基准还推动了多模态育种评估体系的构建，相关成果被拓展至表型组学图像分析等领域，形成从文本理解到田间决策的完整研究链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

模型	平均分
DeepSeek-V3-671B	63.30
GPT-4	62.06
Qwen2-72B	57.62