five

GenomeQA

收藏
arXiv2026-04-07 更新2026-04-09 收录
下载链接:
https://anonymous.4open.science/r/GenomeQA-E350
下载链接
链接失效反馈
官方服务:
资源简介:
GenomeQA是由香港科技大学·广州等机构联合构建的基因组序列理解基准数据集,包含5,200条样本,覆盖增强子/启动子识别、剪接位点鉴定等6类任务。数据源自ENCODE、NCBI等权威数据库,序列长度6-1,000bp,通过标准化处理确保质量。该数据集用于评估通用大语言模型对原始DNA序列的推理能力,填补了基因组分析与自然语言处理交叉领域的评估空白。

GenomeQA is a benchmark dataset for genomic sequence understanding jointly developed by The Hong Kong University of Science and Technology (Guangzhou) and other institutions. It comprises 5,200 samples spanning six task categories, including enhancer/promoter identification, splice site identification, and other relevant tasks. The dataset’s data originates from authoritative databases such as ENCODE and NCBI, with sequence lengths ranging from 6 to 1,000 bp, and undergoes standardized processing to guarantee data quality. This dataset is intended to evaluate the reasoning abilities of general large language models (LLMs) on raw DNA sequences, filling the evaluation gap in the interdisciplinary field of genomic analysis and natural language processing.
提供机构:
香港科技大学·广州; 香港大学; 北京大学
创建时间:
2026-04-07
原始信息汇总

GenomeQA数据集概述

数据集基本信息

  • 数据集名称: GenomeQA
  • 最后更新日期: 2025年12月30日

数据集简介

GenomeQA是一个基准测试,旨在为通用大语言模型在基于序列的基因组推理任务上提供一个受控的评估环境。

数据集内容与结构

数据集完整包含在项目的benchmark/文件夹中,无需外部下载。

项目结构:

GenomeQA/ ├── benchmark/ # 基准测试数据文件 │ ├── binary/ # 二元选择题 │ └── mcq/ # 多项选择题 ├── scripts/ # 用于批量处理的Shell脚本 ├── run.py # 主推理脚本 ├── random_baseline.py # 随机基线生成器 ├── calc_metrics.py # 指标计算脚本 ├── collect_res.py # 结果收集脚本 ├── requirements.txt # Python依赖项 └── README.md # 说明文件

数据文件格式

基准测试数据文件位于benchmark/{question_type}/{task}.jsonl路径下,其中question_type为问题类型(binary或mcq)。

使用方式

运行推理

使用scripts/文件夹中的run_xx.sh脚本在基准测试数据上运行推理,例如: bash bash scripts/run_Llama4.sh

运行随机基线

生成随机基线预测: bash python random_baseline.py

该脚本将:

  • benchmark/{question_type}/{task}.jsonl读取所有基准测试文件
  • 为每个样本生成随机预测
  • 将结果保存到output/random/{question_type}/{task}/{task}_{id}.jsonl

收集结果

计算评估指标并汇总所有模型在所有任务上的结果: bash bash scripts/calc_and_collect.sh

该脚本将:

  1. 计算所有模型和任务的指标
  2. 收集每种问题类型(binary和mcq)的结果
  3. 生成CSV摘要文件

注意: 需要根据您的设置修改脚本中的model_listoutput_root变量。

搜集汇总
数据集介绍
main_image_url
构建方式
在基因组学领域,随着通用大语言模型在生物信息学中的应用日益广泛,评估其直接处理原始DNA序列的能力成为一项关键需求。GenomeQA数据集的构建遵循系统化流程,首先从ENCODE、EPDnew、NCBI、JASPAR等权威生物数据库中筛选高质量注释,涵盖增强子与启动子识别、剪接位点鉴定、物种分类、组蛋白标记预测、转录因子结合位点预测及转录因子基序预测等六大任务家族。通过区间选择与长度标准化、去重处理及质量控制过滤,确保序列窗口充分覆盖任务所需的调控信号。最终,每个验证后的DNA序列被实例化为标准化的自然语言模板,形成二元选择题或多项选择题的统一评估框架。
特点
GenomeQA数据集在基因组序列理解评估中展现出鲜明的特色。其序列长度覆盖从6到1000个碱基对的范围,跨越短基序、中等调控窗口及大型基因组上下文,要求模型同时处理局部模式与全局组织结构。数据集的5200个样本均源自真实生物数据库,并经过严格的生物学层次分组,确保任务在相同功能水平上对比基因组元素。此外,数据集中正确答案的选项位置分布均匀,有效避免了位置偏差,使评估结果能够真实反映模型的序列理解能力而非数据集伪影。
使用方法
在基因组序列分析的研究中,GenomeQA为通用大语言模型提供了一个标准化的诊断基准。使用时,模型接收包含原始核苷酸序列的自然语言问题,并在固定的指令遵循协议下生成答案。评估过程采用单一系统提示,该提示基于小规模试点研究设计,提供针对基序和碱基组成等序列信号的领域相关指导。通过分类准确率作为核心指标,研究者可以系统比较不同模型在序列推理任务上的表现,分析模型在利用局部序列信号与处理复杂间接推理方面的能力差异,从而推动基因组感知语言建模的进一步发展。
背景与挑战
背景概述
基因组学领域长期依赖专门的序列模型和任务特定流程进行序列分析。随着大语言模型在科学领域的广泛应用,其在基因组学中主要作为对话助手,用于推理生物知识、注释和分析结果。然而,现有基准测试要么专注于为序列预测训练的专业DNA模型,要么仅使用纯文本问题评估生物学知识,导致通用大语言模型在直接处理原始基因组序列时的行为未被充分探索。在此背景下,由香港科技大学(广州)、香港大学和北京大学的研究人员于2026年共同创建的GenomeQA基准应运而生。该数据集旨在为通用大语言模型在基于序列的基因组推理任务上提供一个受控的评估环境,核心研究问题是系统评估这些模型直接解析原始核苷酸序列并执行复杂生物推理的能力。GenomeQA的建立填补了该领域的关键空白,为研究如何提升大语言模型在基因组数据上的应用提供了重要的诊断工具。
当前挑战
GenomeQA旨在解决的领域挑战是评估通用大语言模型在原始基因组序列理解任务上的性能,具体任务包括增强子与启动子识别、剪接位点识别、物种分类、组蛋白标记预测、转录因子结合位点预测及转录因子基序预测。这些任务要求模型超越简单的文本模式匹配,深入理解缺乏人类可解释语义单元、具有长程依赖关系且信号高度简并的DNA序列。在数据集构建过程中,研究人员面临多重挑战:首先,需要从多个权威生物数据库(如ENCODE、EPDnew、NCBI、JASPAR)中收集高质量注释,并进行统一的区间选择、长度标准化和去重处理,以确保序列能充分覆盖任务所需的调控信号。其次,设计过程需保持生物层级结构,将任务按相同功能水平分组,避免跨不同生物尺度的信号混淆。最后,将验证后的DNA序列实例化为标准化的自然语言问答模板,并确保二进制选择题和多项选择题的答案分布均匀,以消除数据集偏差,构建一个结构平衡、能真实反映模型序列理解能力的评估框架。
常用场景
经典使用场景
在基因组学领域,随着大语言模型在生物信息学中的广泛应用,GenomeQA数据集为评估通用大语言模型在原始DNA序列上的推理能力提供了标准化基准。该数据集通过涵盖增强子与启动子识别、剪接位点鉴定、物种分类、组蛋白标记预测、转录因子结合位点预测及转录因子基序预测等六类任务,构建了5200个样本的问答对,模拟了模型直接处理核苷酸序列并回答自然语言问题的典型场景。这一设计使得研究者能够在统一框架下系统检验模型对基因组序列信号的捕捉与解释能力,尤其适用于探索模型在缺乏专门DNA编码器时的内在序列理解水平。
衍生相关工作
GenomeQA的推出促进了多个相关经典工作的衍生与发展。在数据集构建方法上,其统一的问答格式与任务家族设计启发了后续基因组基准(如DNA-LongBench、DART-Eval)在评估框架上的创新。在模型研究方面,该数据集揭示的序列基序过度依赖、碱基组成偏好等失败模式,直接推动了针对通用大语言模型的DNA适配技术(如L2G中重新利用语言模型进行基因组任务)的探索。同时,GenomeQA强调的原始序列直接输入评估,与多模态基因组-语言系统(如ChatNT、BioReason)形成互补,共同深化了对模型在基因组上下文中推理机制的理解,并为DNA-文本耦合系统的性能对比提供了重要基线。
数据集最近研究
最新研究方向
在基因组学与人工智能交叉领域,GenomeQA数据集的推出标志着对通用大语言模型在原始DNA序列理解能力评估的重要进展。该数据集聚焦于六类核心基因组推理任务,如增强子与启动子识别、剪接位点鉴定等,旨在系统评估模型直接处理核苷酸序列时的性能。前沿研究揭示,当前领先模型虽能利用局部序列信号如GC含量和短模体,但在需要间接或多步推理的复杂任务上表现显著下降。这一发现突显了通用大语言模型在基因组序列分析中的局限性,同时推动了领域内对模型架构优化与领域知识融合的深入探索,为开发更可靠的基因组智能助手奠定了诊断基础。
相关研究论文
  • 1
    GenomeQA: Benchmarking General Large Language Models for Genome Sequence Understanding香港科技大学·广州; 香港大学; 北京大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作