five

GRIMM

收藏
arXiv2026-02-18 更新2026-02-20 收录
下载链接:
https://huggingface.co/datasets/GRIMM
下载链接
链接失效反馈
官方服务:
资源简介:
GRIMM是由佐治亚大学团队开发的酶功能预测基准数据集,基于UniProt/SwissProt数据库中的原核生物氨基酸序列构建,包含185,418条训练序列和52,003条测试序列(含开放集测试)。该数据集通过遗传分层技术(UniRef50聚类)确保训练与测试集间的序列相似性隔离,并划分封闭集(Test-1)和开放集(Test-2)以评估模型对新酶功能的发现能力。其创新性在于将生物建模中隐式的序列聚类策略标准化,为蛋白质功能预测等任务提供可复现的评估框架。
提供机构:
佐治亚大学·海洋科学系
创建时间:
2026-02-18
搜集汇总
数据集介绍
构建方式
在计算生物学领域,构建能够真实反映模型泛化能力的数据集至关重要。GRIMM数据集的构建采用了遗传分层策略,其核心在于依据序列相似性对蛋白质序列进行聚类,并确保每个聚类在训练、验证和测试分区中具有排他性。具体而言,研究团队从SwissProt数据库中筛选出经过实验验证功能的原核生物蛋白质氨基酸序列,并映射至UniRef50聚类。对于每个酶分类号,若其关联的聚类数量充足,则按大致80:10:10的比例将聚类分配至训练、验证和封闭测试集;对于聚类数量不足的类别,则进行特殊处理,最终将“孤儿”聚类单独构成开放测试集,以模拟新功能的发现场景。这一流程通过五折交叉验证重复执行,确保了数据划分的严谨性与可重复性。
使用方法
GRIMM数据集主要用于评估酶功能预测等生物序列分类模型的泛化性能。使用者可加载其提供的五折划分数据,分别利用训练集进行模型训练,并在验证集上进行超参数调优。模型性能的评估需分别在封闭测试集和开放测试集上进行:封闭测试集用于衡量模型在已知功能类别内的表现,而开放测试集则专门用于检验模型对训练中未出现的新功能类别的推断能力。通过对比模型在这两个测试集上的性能差异,研究者能够更准确地评估模型在应对序列进化新颖性和功能多样性时的真实泛化水平,从而推动开发更具鲁棒性的生物信息学模型。
背景与挑战
背景概述
在计算生物学领域,从蛋白质序列预测酶功能是一项核心挑战,然而现有数据集常因序列冗余和标签不平衡而限制模型的泛化能力。为应对这一局限,佐治亚大学的研究团队于2026年提出了GRIMM数据集,该数据集采用遗传分层策略,依据序列相似性聚类将数据严格划分为训练集、验证集和封闭测试集(Test-1)及开放测试集(Test-2)。这一创新框架不仅为酶功能预测提供了更可靠的基准,还通过模拟真实生物环境中序列的进化新颖性,显著提升了模型评估的严谨性,对推动蛋白质语言模型及生物信息学方法的发展具有深远影响。
当前挑战
GRIMM数据集致力于解决酶功能预测中模型泛化能力不足的挑战,其核心在于如何准确评估模型对进化距离较远或功能类别未知的序列的预测性能。构建过程中的主要挑战包括:在严格遵循序列聚类排他性的前提下,合理分配训练与测试分区,以避免同源序列泄漏导致评估偏差;同时,需在有限且不平衡的公共序列数据中,有效识别并整合低支持度的功能类别,以构建具有代表性的开放测试集,从而真实反映模型在探索未知生物序列空间时的实际表现。
常用场景
经典使用场景
在计算生物学领域,酶功能预测模型常因训练与测试数据间的序列冗余而高估性能。GRIMM数据集通过遗传分层策略,将序列相似性聚类严格分配至训练、验证或测试分区,构建了封闭集与开放集测试环境。这一设计使得该数据集成为评估模型在已知功能类别及未见功能类别上泛化能力的经典基准,广泛应用于酶功能预测任务的模型训练与验证中。
解决学术问题
GRIMM数据集针对生物序列建模中普遍存在的泛化性不足问题,通过消除同源序列在数据分区间的泄漏,降低了模型性能的虚高估计。它解决了传统随机划分方法难以反映真实生物新颖性挑战的局限,为评估模型在分布外序列上的表现提供了标准化框架。这一贡献推动了计算生物学领域对模型泛化能力的严谨量化,促进了更可靠的功能预测方法的发展。
实际应用
在实际生物技术应用中,GRIMM数据集的遗传分层方法可直接用于宏基因组注释、酶发现及代谢工程等领域。通过模拟真实环境中序列多样性与功能新颖性,该数据集帮助研究人员训练能够准确预测未知或远缘酶功能的模型。例如,在微生物组功能分析中,利用GRIMM的开放集测试可评估模型对稀有或未表征酶类的识别能力,从而加速生物催化剂的发掘与优化。
数据集最近研究
最新研究方向
在计算生物学领域,酶功能预测模型的泛化能力评估正面临序列冗余与同源泄漏的严峻挑战。GRIMM数据集通过引入遗传分层策略,将序列相似性聚类严格分配至训练、验证或测试分区,构建了封闭集与开放集双重评估框架。这一方法不仅有效减少了传统随机分割导致的性能虚高问题,还模拟了真实生物发现场景中遇到的分布外序列。前沿研究聚焦于利用此类分层基准测试蛋白质语言模型在进化新颖序列上的泛化性能,推动了无参考预测方法的发展,并为宏基因组注释和酶发现等应用提供了更可靠的评估标准。
相关研究论文
  • 1
    GRIMM: Genetic stRatification for Inference in Molecular Modeling佐治亚大学·海洋科学系 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作