Genome Understanding Evaluation (GUE)

Name: Genome Understanding Evaluation (GUE)
Creator: 西北大学计算机科学系
Published: 2024-03-19 07:59:29
License: 暂无描述

arXiv2024-03-19 更新2024-06-21 收录

下载链接：

https://github.com/MAGICS-LAB/DNABERT_2

下载链接

链接失效反馈

官方服务：

资源简介：

Genome Understanding Evaluation (GUE)数据集是由西北大学计算机科学系的研究团队开发的，旨在为基因组理解提供一个标准化的评估平台。该数据集包含36个子数据集，覆盖了从人类、真菌、病毒到酵母等多种物种的基因组分析任务，输入序列长度从70到10000不等。GUE数据集通过精心设计的策略确保了数据集的难度适中，能够准确反映现有基因组基础模型的能力。该数据集的应用领域广泛，旨在解决基因组序列分析中的多种问题，如转录因子预测、增强子-启动子相互作用预测等，为基因组学研究提供了强大的工具和基准。

The Genome Understanding Evaluation (GUE) dataset was developed by a research team from the Department of Computer Science at Northwestern University, aiming to provide a standardized assessment platform for genome understanding. This dataset includes 36 sub-datasets, covering genome analysis tasks across diverse species such as humans, fungi, viruses, yeast and more. The lengths of the input sequences range from 70 to 10,000. The GUE dataset adopts carefully designed strategies to ensure a moderate level of difficulty, enabling it to accurately reflect the capabilities of current genomic foundation models. It has a wide range of application scenarios, targeting multiple problems in genomic sequence analysis including transcription factor prediction and enhancer-promoter interaction prediction, serving as a powerful tool and benchmark for genomics research.

提供机构：

西北大学计算机科学系

创建时间：

2023-06-27

搜集汇总

数据集介绍

构建方式

基因组理解评估（GUE）数据集的构建始于对多个生物学意义上重要的基因组分析数据集的系统聚合。研究团队从人类、真菌、病毒和酵母等多个物种中收集了36个不同的数据集，覆盖9项核心任务，输入序列长度从70到10000个碱基对不等。为确保基准的区分度和公正性，团队首先在现有模型（如DNABERT和Nucleotide Transformer）上对这些数据集进行初步评估，仅保留那些能使模型表现适中且可区分（例如F1分数在0.3至0.8之间）的数据集。对于不符合标准的数据集，则通过类别平衡、加入对抗样本或减少训练样本量等策略进行重构，经过多轮迭代优化，最终形成了一套难度适中、能够准确反映模型能力的标准化基准。

特点

GUE数据集的核心特点在于其综合性、标准化和精细校准的难度。它整合了来自4个物种的36个数据集，覆盖启动子检测、转录因子结合位点预测、剪接位点预测、表观遗传标记预测、新冠病毒变异分类等9项关键基因组分析任务，输入长度跨度极大，从70到10000碱基对，能够全面评估模型在不同长度序列上的处理能力。更重要的是，所有数据集均经过精心校准，避免了过于简单或过于困难的问题，使得模型之间的性能差异得以清晰体现。此外，每个数据集都明确划分了训练集、验证集和测试集，并定义了统一的评估指标，为公平比较不同基因组基础模型提供了坚实基础。

使用方法

使用GUE数据集时，研究者需首先根据任务类型选择相应的子数据集，每个子数据集均以标准格式提供训练、验证和测试样本。模型在微调阶段需根据输入序列长度调整最大序列长度参数，并遵循数据集中预设的评估指标（如F1分数或马修斯相关系数）进行性能评估。为促进公平比较，论文建议所有模型在相同超参数设置下进行微调，例如使用统一的批量大小、学习率和优化器。此外，研究者可利用GUE提供的标准化数据分割进行跨模型对比，或通过进一步在训练集上进行领域内预训练来探索模型性能提升的潜力。所有数据、代码和预训练模型均已开源，便于复现和扩展研究。

背景与挑战

背景概述

基因组作为生命信息的蓝图，其语言解码是计算生物学中一项核心课题。基于Transformer的预训练基础模型，如DNABERT与Nucleotide Transformer，通过将DNA序列转化为数值嵌入，已在转录调控、变异效应预测等下游任务中展现出卓越性能。然而，现有模型在tokenization策略上普遍采用k-mer方法，即对A、T、C、G进行固定长度的排列组合，其简洁性虽受欢迎，却引发了计算与样本效率的双重瓶颈。为应对这一困境，来自西北大学与石溪大学的研究团队于2024年在ICLR会议上提出了DNABERT-2模型，并同步发布了Genome Understanding Evaluation (GUE)基准数据集。该数据集整合了涵盖4个物种、9项任务、共计36个子数据集的多样本基因组分类评测体系，输入长度从70到10000不等，旨在为多物种基因组理解提供标准化、全面且难度适中的评估平台，填补了该领域缺乏统一基准的空白，对推动基因组基础模型的发展具有深远影响。

当前挑战

GUE数据集所面临的挑战主要源于两个层面。在领域问题层面，现有基因组基础模型普遍受限于k-mer tokenization带来的信息泄露与样本效率低下问题：重叠k-mer导致掩码语言建模中掩码token的信息被邻近token泄露，而非重叠k-mer则在输入序列发生微小偏移时引发token化结果的剧烈变化，阻碍模型学习鲁棒的基因组语义表征。此外，缺乏标准化基准使得不同模型间的公平比较难以实现，许多现有数据集要么过于简单（如剪接位点预测准确率高达98%），要么过于困难，导致模型性能趋同，无法有效区分模型能力。在构建过程层面，GUE需要从海量多物种基因组中精心筛选并校准36个数据集，确保其难度适中且能反映模型真实水平。这一过程涉及类平衡、对抗样本引入、训练样本量缩减等复杂策略，需经过多轮迭代调整，才能最终形成兼具区分度与代表性的评测体系。

常用场景

经典使用场景

在基因组学与计算生物学交叉领域，Genome Understanding Evaluation (GUE) 被广泛用作评估基础模型对多物种DNA序列理解能力的标准化测试平台。研究者通常利用该基准对预训练语言模型进行微调与性能评估，涵盖从短片段（70 bp）到长序列（10,000 bp）的多样化输入长度，以检验模型在核心启动子检测、转录因子结合位点预测、剪接位点识别等典型任务上的泛化能力与鲁棒性。

实际应用

在实际应用中，GUE 支撑了多种生物医学场景的智能分析，例如通过精准识别启动子与增强子区域辅助基因调控网络解析，利用剪接位点预测助力遗传性疾病的致病突变筛查，以及基于病毒基因组变异分类追踪病原体的演化动态。这些应用显著提升了从序列到功能注释的自动化效率，为精准医学与公共卫生监测提供了强有力的计算工具。

衍生相关工作

GUE 的提出催生了一系列衍生性研究工作，包括对更高效基因组基础模型（如DNABERT-2）的架构优化探索，以及针对长序列基因组建模的注意力机制改进与高效微调策略开发。此外，该基准还促进了跨物种基因组理解能力的比较研究，并启发了后续在DNA序列可解释性分析与多模态基因组数据融合等方向上的创新工作，形成了活跃的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集