five

TEDBench

收藏
arXiv2026-05-18 更新2026-05-20 收录
下载链接:
https://github.com/BorgwardtLab/TEDBench
下载链接
链接失效反馈
官方服务:
资源简介:
TEDBench是一个由马克斯·普朗克生物化学研究所等机构构建的大规模、非冗余蛋白质折叠分类基准数据集,旨在推动蛋白质结构表示学习的发展。该数据集包含462,175条预测蛋白质结构和27,638条实验结构作为外部测试集,数据来源于AlphaFold数据库,并基于结构域百科全书和Foldseek聚类技术进行去冗余处理。其创建过程涉及将预测结构分解为结构域单元,并映射到CATH层次分类标签,通过最小样本阈值合并稀疏类别以确保评估可靠性。该数据集主要应用于蛋白质拓扑结构分类任务,旨在解决大规模蛋白质结构监督学习中的基准缺失问题,为生物功能解析提供关键数据支持。

TEDBench is a large-scale, non-redundant protein folding classification benchmark dataset constructed by institutions including the Max Planck Institute of Biochemistry, aiming to advance the development of protein structure representation learning. This dataset comprises 462,175 predicted protein structures and 27,638 experimental structures as its external test set, with data sourced from the AlphaFold Database and subjected to de-redundancy processing via the Domain Encyclopedia and Foldseek clustering techniques. The construction process involves decomposing predicted protein structures into domain units, mapping these units to CATH hierarchical classification labels, and merging sparse categories through a minimum sample threshold to ensure evaluation reliability. This dataset is primarily applied to protein topology classification tasks, aiming to address the lack of benchmarks in large-scale protein structure supervised learning, and provide critical data support for biological function analysis.
提供机构:
马克斯·普朗克生物化学研究所; 斯图加特大学·计算机科学系; Bitdefender
创建时间:
2026-05-18
原始信息汇总

好的,这是根据您提供的数据集详情页内容提炼的中文概述。

TEDBench 数据集与 MiAE 模型概述

数据集简介

TEDBench 是一个大规模、非冗余的蛋白质折叠分类基准数据集。该数据集基于 Encyclopedia of Domains (TED) 注释构建,并映射到经 Foldseek 聚类的 AlphaFold 数据库上。所有结构被分为 965 个 CATH 拓扑(T级)类别

数据集划分与规模

数据集划分 结构数量
训练集 369,740
验证集 46,217
测试集 46,218
外部测试集 (CATH 4.4 实验结构) 27,638

数据来源

数据集可通过以下两个来源获取:

  • HuggingFace: 无需本地设置,可直接加载。
    • TEDBench/ted: TEDBench 数据集
    • TEDBench/afdb: AFDB 预训练语料库
    • TEDBench/cath: CATH 4.4 实验测试集
  • MPCDF 数据共享: 可直接下载的存档文件,首次使用时自动下载并缓存。

数据样本结构

每个样本包含以下数据:coords(主链坐标,形状为 [L, 3, 3])、plddt(预测局部距离差测试分数,长度为 L)、residue_index(残基索引,长度为 L)、seq_ids(序列标识,长度为 L)、sequence(氨基酸序列)、label(CATH 拓扑索引,整数)。

使用方法示例

使用 HuggingFace datasets 库直接加载:

python from datasets import load_dataset ted = load_dataset("TEDBench/ted") sample = ted["train"][0] coords = sample["coords"] label = sample["label"]

相关模型:MiAE

MiAE (Masked Invariant Autoencoders) 是一种与 TEDBench 数据集一同提出的自监督预训练框架,用于蛋白质结构表示学习。它是一个 SE(3) 不变掩码自编码器,最多可掩码 90% 的主链骨架,仅对可见残基使用几何编码器处理,并通过轻量级解码器重建完整骨架结构。

预训练模型

模型 参数量 HuggingFace 仓库
MiAE-S 29 M TEDBench/miae-s
MiAE-B 102 M TEDBench/miae-b
MiAE-B+seq 102 M TEDBench/miae-b-seq
MiAE-L 339 M TEDBench/miae-l

在 TEDBench 上微调后的模型

模型 TEDBench 测试集准确率 CATH 4.4 测试集准确率
MiAE-S (微调) 72.28% 76.08%
MiAE-B (微调) 73.71% 75.72%
MiAE-B+seq (微调) 74.56% 77.34%
MiAE-L (微调) 73.47% 76.46%

引用

如果您使用了 TEDBench 或 MiAE,请引用以下论文:

bibtex @inproceedings{chen2026tedbench, title={Protein Fold Classification at Scale: Benchmarking and Pretraining}, author={Chen, Dexiong and Manolache, Andrei and Niepert, Mathias and Borgwardt, Karsten}, booktitle={Proceedings of the 43rd International Conference on Machine Learning (ICML)}, year={2026} }

许可协议

本项目采用 BSD-3-Clause 许可协议。

搜集汇总
数据集介绍
main_image_url
构建方式
TEDBench基于TED资源构建,该资源利用可扩展的结构匹配方法将AlphaFold数据库中的蛋白质结构分解为结构域并映射至CATH层级。为精简冗余同时保留结构多样性,研究团队将TED注释投影至Foldseek聚类的AlphaFold结构子集,仅保留高置信度预测(平均pLDDT>80)的蛋白质。最终数据集包含462,175个预测结构与27,638个实验结构作为外部测试集,每份蛋白质以其最大结构域的CATH拓扑标签作为唯一分类目标。
特点
TEDBench拥有近50万样本量,远超此前仅数万规模的结构分类基准,为大规模蛋白质折叠分类提供了非冗余的标准化平台。其标签空间涵盖965个拓扑类别,通过合并稀有类别至父级架构层确保了类别平衡。外部测试集来源于CATH v4.4实验结构,可严格评估模型从预测结构至实验数据的泛化能力。数据呈现长尾分布,对模型在小样本类别的辨别力构成了严峻挑战。
使用方法
TEDBench将蛋白质折叠分类形式化为多类别分类任务:输入蛋白质结构与序列,预测其最大结构域的CATH拓扑标签。该基准支持多种评估协议,包括从零开始的监督学习、线性探测及微调。研究者可利用提供的预训练集合(749,679个无标注结构)进行自监督预训练,并采用留出法划分训练、验证与测试集(比例8:1:1)。外部测试集用于评估模型对实验结构的迁移能力。
背景与挑战
背景概述
蛋白质折叠分类是结构生物学与计算生物学交叉领域的核心课题,其目标是通过三维结构信息推断蛋白质的拓扑类别,进而揭示生物学功能的内在规律。2025年,由马克斯·普朗克生物化学研究所与斯图加特大学的研究团队共同推出的TEDBench基准数据集,标志着该领域迈入大规模标准化评估的新阶段。该数据集基于AlphaFold数据库与TED结构域注释,结合Foldseek聚类技术构建了包含462,175个预测结构与27,638个实验结构的非冗余基准,其规模远超此前仅有万余样本的同类数据集。TEDBench聚焦于CATH拓扑层级分类任务,旨在为蛋白质结构表示学习方法提供系统化的评估平台,其发布对推动结构生物学中的“ImageNet时刻”具有里程碑意义。
当前挑战
TEDBench所面临的挑战体现在多个层面:首先,蛋白质拓扑分类自身具有高度不平衡性与长尾分布特征,近千个类别中部分样本数量稀少,极易导致模型对头部类别过拟合而忽视罕见折叠类型;其次,现有等变神经网络与蛋白质预训练模型在该基准上的表现有限,最强监督模型在外部测试集上仅达到65.44%的宏F1分数,揭示了大尺度结构分类对模型容量与几何感知能力的严苛需求。在数据集构建过程中,如何从海量AlphaFold结构中去除冗余、保证结构多样性,同时通过共识算法合并低置信度域边界并处理多结构域蛋白质的标签指派,均构成技术挑战;此外,确保从预测结构到实验结构的跨域泛化能力,也是评估体系设计中的关键难题。
常用场景
经典使用场景
在蛋白质结构预测蓬勃发展的当下,数以亿计的AlphaFold预测结构为计算生物学带来了前所未有的机遇,却也伴随着冗余度高、标准化评估缺失的困境。TEDBench正是在此背景下应运而生,它从《结构域百科全书》(TED)中提取注释信息,并借助Foldseek聚类手段对AlphaFold数据库进行去冗余处理,最终构建出一个包含逾46万蛋白质结构的、非冗余的大规模基准数据集。其经典使用场景在于为蛋白质折叠分类(fold classification)提供一个标准化的监督学习评测平台——通过将蛋白质三维结构映射至CATH层次分类体系中的拓扑(Topology)层级,研究者可以系统性地评估不同几何深度学习模型与表示学习方法在大尺度结构分类任务上的性能表现。
衍生相关工作
围绕TEDBench的提出,衍生出一系列具有启发性的经典工作。其中最具代表性的是作者同步提出的掩码不变自编码器(Masked Invariant Autoencoders, MiAE),该框架将计算机视觉中的掩码自编码思想创新性地迁移至蛋白质三维几何领域,采用高达90%的极端掩码率与SE(3)不变编码器-轻量解码器非对称架构,仅需远少于传统模型的参数量便在TEDBench上取得了超越现有方法(如ESM2、SaProt等)的宏平均F1分数。这一工作不仅为蛋白质折叠分类提供了强有力的基准参考,更示范了自监督预训练在结构生物学中的巨大潜力,引发了后续关于结构掩码学习、多层级特征融合以及蛋白质域分割等方向的广泛探索与研究热潮。
数据集最近研究
最新研究方向
TEDBench的提出标志着蛋白质折叠分类研究迈入大规模、非冗余基准测试的新纪元。当前前沿方向聚焦于利用自监督学习范式,如所提出的掩码不变自编码器(MiAE),在超高掩码率(可达90%)下从稀疏骨架坐标中重建蛋白质三维结构,以学习具有SE(3)不变性的强表征。该方法在包含46万余个预测结构和2.7万余个实验结构的数据集上显著超越了现有等变模型与蛋白质表征学习方法,推动了结构生物学领域向类似计算机视觉中ImageNet时刻的范式转变。这一工作不仅为蛋白质拓扑预测建立了标准化评估平台,也为后续将掩码自编码原理拓展至蛋白质几何的通用自监督学习开辟了新路径。
相关研究论文
  • 1
    Protein Fold Classification at Scale: Benchmarking and Pretraining马克斯·普朗克生物化学研究所; 斯图加特大学·计算机科学系; Bitdefender · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作