Genome-Bench

github2025-06-04 更新2025-06-09 收录

下载链接：

https://github.com/mingyin0312/RL4GenomeBench

下载链接

链接失效反馈

官方服务：

资源简介：

Genome-Bench是一个新颖的基准测试，用于评估和改进大型语言模型中的科学推理能力。它包含超过3,000个多项选择和问答项目，这些项目源自CRISPR相关的科学讨论和论坛帖子，涵盖了基因组工程、实验设计和错误分析等关键主题。

Genome-Bench is a novel benchmark designed to evaluate and enhance the scientific reasoning capabilities of large language models. It encompasses over 3,000 multiple-choice and question-and-answer items derived from scientific discussions and forum posts related to CRISPR, covering key topics such as genome engineering, experimental design, and error analysis.

创建时间：

2025-05-29

原始信息汇总

Genome-Bench 数据集概述

数据集基本信息

名称: Genome-Bench
领域: 科学推理（基因组工程）
数据量: 超过3,000个多项选择题和问答项
数据来源: CRISPR相关科学讨论和论坛线程

数据集内容

覆盖主题:
- 基因组工程
- 实验设计
- 错误分析
题目类型:
- 多项选择题(MCQ)
- 问答题目(QA)

数据集特点

专注于评估和改进大型语言模型的科学推理能力
包含专家标注的评估集
支持多跳推理任务评估

数据集处理工具

提供完整的处理流程工具:

邮箱存档(.mbox)解析
标准化MCQ格式转换
数据集准备
自然问题转换

训练方法

强化学习微调(GRPO)
监督微调(SFT)
多智能体RL路由

评估方法

提供专门的评估脚本用于Genome-Bench测试数据评估

搜集汇总

数据集介绍

构建方式

Genome-Bench数据集的构建基于CRISPR相关科学讨论和论坛线程，通过精心设计的流程将原始数据转化为标准化的多项选择题和问答形式。研究团队首先利用邮件归档解析工具处理.mbox格式的原始数据，随后通过多步骤转换流程生成结构化评估项目。这一过程确保了数据来源的学术权威性，同时覆盖基因组工程、实验设计和误差分析等关键领域，最终形成包含3000余个评估项目的科学推理基准。

特点

该数据集最显著的特点在于其专注于科学推理能力的评估，特别是在基因组工程这一前沿领域。数据集包含多样化的评估形式，既有传统多项选择题，也涵盖开放式问答项目，能够全面检验模型的多跳推理和专业知识掌握程度。与其他通用基准相比，Genome-Bench特别强调从专家讨论中提炼的真实场景问题，这使其在评估模型科学素养方面具有独特优势。数据集还附带专家标注的评估标准，为模型性能提供可靠参照。

使用方法

使用Genome-Bench需要先通过提供的工具链完成数据准备，包括邮件解析和格式转换等步骤。研究人员可采用监督微调或强化学习两种主要方式利用该数据集，其中强化学习方案基于GRPO算法实现。评估阶段通过专用脚本对模型性能进行标准化测试，支持与GPT-4o等先进模型的直接对比。数据集兼容HuggingFace生态系统，便于集成到现有训练流程中，为提升语言模型科学推理能力提供系统化解决方案。

背景与挑战

背景概述

Genome-Bench是由Ming Yin等研究人员于2025年推出的新型基准测试数据集，旨在评估和提升大型语言模型在科学推理领域的能力。该数据集由CRISPR相关科学讨论和论坛线程中提取的3000多个多项选择题和问答项构成，涵盖了基因组工程、实验设计和错误分析等核心主题。研究团队来自多个知名机构，通过强化学习微调流程显著提升了模型在专家标注评估集上的表现，其微调的Qwen2.5-7B模型在多跳推理任务中的准确性和一致性甚至超越了GPT-4o。该数据集的建立为基因组学领域的AI辅助研究提供了重要基准。

当前挑战

Genome-Bench面临的挑战主要体现在两个方面：在领域问题层面，科学推理任务要求模型具备复杂的多跳推理能力和专业知识理解，这对当前语言模型的生物学知识整合和逻辑推理提出了极高要求；在构建过程中，从非结构化的科学讨论邮件（.mbox格式）提取标准化多选题和问答项需要设计复杂的文本解析和转换流程，同时确保数据质量与专业准确性之间的平衡也颇具挑战性。此外，针对基因组工程这类快速发展的前沿领域，保持数据集的时效性和全面性同样需要持续投入。

常用场景

经典使用场景

Genome-Bench作为基因组工程领域的专业评测基准，其最经典的使用场景在于评估大型语言模型在CRISPR相关科学推理任务中的表现。该数据集通过精心设计的多选题和问答题目，模拟了真实科研讨论中的复杂场景，为模型提供了测试其多跳推理能力和实验设计理解力的标准化平台。研究人员可以借助这一工具，系统性地分析模型在基因组编辑、突变分析等专业领域的知识掌握程度。

衍生相关工作

该数据集推动了多项重要研究的开展，包括基于GRPO的强化学习微调框架、多智能体路由训练系统等创新方法。相关成果不仅改进了语言模型在专业领域的推理能力，还为跨学科的AI辅助科研建立了范式。部分衍生工作进一步扩展了评估维度，开发出针对基因治疗、作物改良等细分场景的专业评测子集。

数据集最近研究