PhageBench

Name: PhageBench
Creator: 香港科技大学·广州
Published: 2026-04-07 20:14:23
License: 暂无描述

arXiv2026-04-07 更新2026-04-09 收录

下载链接：

https://anonymous.4open.science/r/PhageBench-D428

下载链接

链接失效反馈

官方服务：

资源简介：

PhageBench是由香港科技大学·广州团队构建的首个专注于噬菌体基因组理解的基准数据集，涵盖筛选、质量控制和表型注释三大阶段的5项核心任务。该数据集包含5600条高质量样本，序列长度分布在0.5-50千碱基对之间，数据源自权威基因组数据库并经过严格过滤。通过模拟生物信息学专家工作流程，数据集采用标准化多选题格式构建，重点解决噬菌体基因组原始序列的识别、污染检测、完整性评估及宿主预测等关键问题，为评估通用大语言模型在非自然语言领域的推理能力提供了创新平台。

提供机构：

香港科技大学·广州

创建时间：

2026-04-07

原始信息汇总

PhageBench 数据集概述

数据集基本信息

数据集名称：PhageBench
核心研究问题：探究通用大语言模型（LLMs）能否理解原始噬菌体基因组。
数据规模：包含 5,600 个高质量样本。
最后更新日期：2026年1月5日。

数据集设计理念

测试对象：通用大语言模型（LLMs），旨在评估其零样本解释原始基因组的能力。
选择噬菌体的原因：
- 规模适中：噬菌体基因组（通常为3–150kb）与现代LLMs的上下文窗口长度匹配良好。
- 结构类似语言：噬菌体基因组展现出密集、线性的句法结构，类似于自然语言，便于进行基于推理的功能预测。
- 科学重要性：噬菌体作为生物圈的“暗物质”，其准确注释对于科学发现、食品工程和治疗应用至关重要。

任务构成

数据集涵盖三个阶段的五个核心任务：

筛查阶段
- 任务1：噬菌体重叠群识别（区分噬菌体与细菌、质粒等环境噪音）。
质量控制阶段
- 任务2：污染检测（识别宿主信号）。
- 任务3：完整性评估（评估基因组完整性）。
表型注释阶段
- 任务4：生活方式分类（裂解性 vs. 温和性）。
- 任务5：宿主预测（识别宿主范围）。

数据特征

序列长度：范围从0.5kb到50kb，确保评估的真实性。
数据格式：所有数据均标准化为JSON格式，包含样本ID、任务类型、问题、原始DNA序列、选项、正确答案及元数据。
数据来源：数据源自权威数据库（如RefSeq, PhageScope），具有高置信度。

评估方法

评估设置：通过标准化的多项选择题挑战LLMs，确保可靠解析和评估。
关键步骤：
1. 安装环境并加载数据（数据位于data文件夹，包含task1.json至task5.json）。
2. 运行模型推理（使用pred.py脚本，可指定模型和任务，支持零样本和思维链设置）。
3. 导出结果（使用extract_eval_result.py汇总结果）。
模型要求：需确保模型的上下文长度足以处理数据集中最长的DNA序列（50kb）。

基准测试结果

结果呈现：展示了多个模型在零样本思维链设置下，在五个任务上的准确率（%）及平均表现。
表现突出模型：
- Gemini-3-flash 在任务1、2、4、5及平均准确率上取得最佳性能。
- GPT-5.2 在任务3上取得最佳性能，并在任务1、2及平均准确率上表现次优。
基线：随机猜测的准确率作为基线参考。

项目结构

项目主要目录与文件如下：

config/：模型路径与最大长度配置文件。
data/：五个任务的JSON数据文件。
misc/：相关图片文件。
prompts/：零样本及思维链提示词文件。
核心脚本：包括环境配置示例、预测脚本、结果提取脚本及运行脚本。

搜集汇总

数据集介绍

构建方式

在噬菌体基因组学领域，准确注释原始核苷酸序列是挖掘其生态与治疗潜力的关键。PhageBench的构建严格遵循生物信息学专家的工作流程，通过系统化的数据采集与任务设计实现。研究团队从PhageScope和NCBI RefSeq等权威数据库中筛选了长度在0.5至50kb之间的高质量基因组序列，并剔除了含无效碱基的样本。针对涵盖筛选、质量控制与表型注释三大阶段的五个核心任务，分别采用了特定的构建策略：例如，在噬菌体序列识别任务中，通过从六类非噬菌体生物中平衡采样以构建负样本；在污染检测任务中，则依据真实宿主元数据模拟不同比例和插入位置的宿主DNA污染，以生成嵌合序列。所有任务均被格式化为选项顺序随机化的标准化多项选择题，确保了评估的公平性与可重复性。

特点

PhageBench作为首个专注于评估大语言模型对原始噬菌体基因组理解能力的基准，其设计体现了多维度考量。数据集包含5,600个高质量样本，全面覆盖了从序列筛选、质量评估到功能推断的完整注释流程。其核心特点在于严格的类别平衡与统计控制，例如在宿主预测任务中，通过在相同分类层级内选取干扰项，迫使模型进行细致的序列推理而非依赖简单的分布外检测。所有序列均源自权威数据库，提供了高置信度的真实标签。此外，数据集中的序列长度与GC含量分布广泛，平均长度约为28.15kb，平均GC含量为48.06%，较好地反映了噬菌体群体的自然多样性，为评估模型在长上下文和非自然语言语法下的推理能力提供了理想平台。

使用方法

PhageBench旨在系统评估通用大语言模型直接理解原始噬菌体基因组序列并进行生物推理的潜力。使用时，模型接收以特定任务指令封装的原始核苷酸序列作为输入，例如“以下核苷酸序列是否来源于噬菌体基因组？”，并需从随机排序的多个选项中选出答案。评估通常在零样本思维链设置下进行，不提供上下文示例，以检验模型固有的生物序列推理能力。主要性能指标为分类准确率，由于数据集在各个任务上均保持了严格的类别平衡，该指标能够无偏地衡量模型表现。研究人员可通过该基准，深入分析不同模型架构在识别统计特征、评估全局结构以及执行细粒度推理等不同维度上的能力差异与局限，从而为开发下一代具有增强推理能力的生物序列理解模型指明方向。

背景与挑战

背景概述

PhageBench是由香港科技大学（广州）的研究团队于2026年提出的首个专注于评估大型语言模型（LLM）直接理解原始噬菌体基因组能力的基准数据集。该数据集旨在探索通用LLM是否能在未经领域特定预训练的情况下，对长达50千碱基对的原始核苷酸序列进行生物学推理。PhageBench模拟了生物信息学专家的工作流程，涵盖了从噬菌体序列筛选、质量控制到表型注释的三个关键阶段，共包含5,600个高质量样本。其核心研究问题聚焦于LLM在非自然语言的长上下文序列中执行零样本逻辑推理的潜力，为人工智能在生命科学领域的应用提供了新的评估范式，对推动噬菌体基因组注释和抗生素替代疗法的发展具有重要科学价值。

当前挑战

PhageBench所解决的领域挑战在于噬菌体基因组的高效注释，这要求模型能够从复杂的元基因组背景中准确识别噬菌体序列，评估其完整性与纯度，并推断其生活方式与宿主范围。构建过程中的挑战主要包括：一是数据收集与处理的复杂性，需从多个权威数据库中整合高质量序列，并严格过滤长度与无效碱基；二是任务设计的科学性，需模拟真实生物信息学流程，设计涵盖五个核心任务的标准化多选题格式，并确保样本在类别、长度与GC含量上的平衡分布；三是评估的严谨性，需控制序列长度分布与类别平衡，以排除模型依赖统计偏差的可能性，同时采用零样本思维链设置来检验模型的固有推理能力。

常用场景

经典使用场景

在噬菌体基因组学研究中，PhageBench数据集为评估通用大语言模型理解原始核苷酸序列的能力提供了标准化的测试平台。该数据集模拟了生物信息学专家的完整工作流程，涵盖从环境序列中筛选噬菌体片段、进行质量控制到最终表型注释的三个核心阶段。研究者利用其包含的5600个高质量样本，能够系统性地检验模型在噬菌体序列识别、污染检测、基因组完整性评估、生活方式分类及宿主预测这五项任务上的表现，从而揭示模型在非自然语言长上下文推理和复杂生物逻辑推断方面的潜力与局限。

解决学术问题

PhageBench的构建旨在解决生物信息学与人工智能交叉领域的关键学术问题。它首次将原始噬菌体基因组注释确立为评估通用大语言模型推理能力的挑战性测试床，突破了以往模型仅能处理生物文本的局限。该数据集通过设计覆盖完整分析流程的多任务基准，系统性地探究了模型能否在不依赖序列同源性的前提下，直接从原始DNA序列中提取统计特征、理解全局结构并进行细粒度功能推断。其评估结果揭示了当前模型在长程依赖建模和序列证据精确锚定方面的显著不足，为开发下一代具备增强推理能力的生物序列模型指明了方向。

衍生相关工作

PhageBench的提出，在基因组学基础模型和通用大语言模型评测的交叉领域催生了一系列相关研究。它直接与Evo、Caduceus等基因组基础模型的工作形成对比，探索了无需领域特定预训练的通用模型在基因组理解上的可行性。同时，该基准也与GenomicBenchmarks、DNA-LongBench等专注于哺乳动物基因组特征的评测集，以及GeneTuring等侧重于生物知识检索的基准形成了互补。其揭示的模型在序列锚定推理上的缺陷，推动了后续关于多模态对齐（如配对原始基因组与功能注释进行微调）和工具增强推理（如结合外部工具验证假设）等方法的探索，旨在弥合模型的抽象生物知识与具体序列证据之间的鸿沟。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集