TEDBench

Name: TEDBench
Creator: 马克斯·普朗克生物化学研究所; 斯图加特大学·计算机科学系; Bitdefender
Published: 2026-05-18 23:32:34
License: 暂无描述

arXiv2026-05-18 更新2026-05-20 收录

下载链接：

https://github.com/BorgwardtLab/TEDBench

下载链接

链接失效反馈

官方服务：

资源简介：

TEDBench是一个由马克斯·普朗克生物化学研究所等机构构建的大规模、非冗余蛋白质折叠分类基准数据集，旨在推动蛋白质结构表示学习的发展。该数据集包含462,175条预测蛋白质结构和27,638条实验结构作为外部测试集，数据来源于AlphaFold数据库，并基于结构域百科全书和Foldseek聚类技术进行去冗余处理。其创建过程涉及将预测结构分解为结构域单元，并映射到CATH层次分类标签，通过最小样本阈值合并稀疏类别以确保评估可靠性。该数据集主要应用于蛋白质拓扑结构分类任务，旨在解决大规模蛋白质结构监督学习中的基准缺失问题，为生物功能解析提供关键数据支持。

提供机构：

马克斯·普朗克生物化学研究所; 斯图加特大学·计算机科学系; Bitdefender

创建时间：

2026-05-18

原始信息汇总

好的，这是根据您提供的数据集详情页内容提炼的中文概述。

TEDBench 数据集与 MiAE 模型概述

数据集简介

TEDBench 是一个大规模、非冗余的蛋白质折叠分类基准数据集。该数据集基于 Encyclopedia of Domains (TED) 注释构建，并映射到经 Foldseek 聚类的 AlphaFold 数据库上。所有结构被分为 965 个 CATH 拓扑(T级)类别。

数据集划分与规模

数据集划分	结构数量
训练集	369,740
验证集	46,217
测试集	46,218
外部测试集 (CATH 4.4 实验结构)	27,638

数据来源

数据集可通过以下两个来源获取：

HuggingFace: 无需本地设置，可直接加载。
- TEDBench/ted: TEDBench 数据集
- TEDBench/afdb: AFDB 预训练语料库
- TEDBench/cath: CATH 4.4 实验测试集
MPCDF 数据共享: 可直接下载的存档文件，首次使用时自动下载并缓存。

数据样本结构

每个样本包含以下数据：coords(主链坐标，形状为 [L, 3, 3])、plddt(预测局部距离差测试分数，长度为 L)、residue_index(残基索引，长度为 L)、seq_ids(序列标识，长度为 L)、sequence(氨基酸序列)、label(CATH 拓扑索引，整数)。

使用方法示例

使用 HuggingFace datasets 库直接加载：

python from datasets import load_dataset ted = load_dataset("TEDBench/ted") sample = ted["train"][0] coords = sample["coords"] label = sample["label"]

引用

如果您使用了 TEDBench 或 MiAE，请引用以下论文：

bibtex @inproceedings{chen2026tedbench, title={Protein Fold Classification at Scale: Benchmarking and Pretraining}, author={Chen, Dexiong and Manolache, Andrei and Niepert, Mathias and Borgwardt, Karsten}, booktitle={Proceedings of the 43rd International Conference on Machine Learning (ICML)}, year={2026} }

许可协议

本项目采用 BSD-3-Clause 许可协议。

搜集汇总

数据集介绍

构建方式

TEDBench基于TED资源构建，该资源利用可扩展的结构匹配方法将AlphaFold数据库中的蛋白质结构分解为结构域并映射至CATH层级。为精简冗余同时保留结构多样性，研究团队将TED注释投影至Foldseek聚类的AlphaFold结构子集，仅保留高置信度预测（平均pLDDT>80）的蛋白质。最终数据集包含462,175个预测结构与27,638个实验结构作为外部测试集，每份蛋白质以其最大结构域的CATH拓扑标签作为唯一分类目标。

特点

TEDBench拥有近50万样本量，远超此前仅数万规模的结构分类基准，为大规模蛋白质折叠分类提供了非冗余的标准化平台。其标签空间涵盖965个拓扑类别，通过合并稀有类别至父级架构层确保了类别平衡。外部测试集来源于CATH v4.4实验结构，可严格评估模型从预测结构至实验数据的泛化能力。数据呈现长尾分布，对模型在小样本类别的辨别力构成了严峻挑战。

使用方法

TEDBench将蛋白质折叠分类形式化为多类别分类任务：输入蛋白质结构与序列，预测其最大结构域的CATH拓扑标签。该基准支持多种评估协议，包括从零开始的监督学习、线性探测及微调。研究者可利用提供的预训练集合（749,679个无标注结构）进行自监督预训练，并采用留出法划分训练、验证与测试集（比例8:1:1）。外部测试集用于评估模型对实验结构的迁移能力。

背景与挑战

背景概述

蛋白质折叠分类是结构生物学与计算生物学交叉领域的核心课题，其目标是通过三维结构信息推断蛋白质的拓扑类别，进而揭示生物学功能的内在规律。2025年，由马克斯·普朗克生物化学研究所与斯图加特大学的研究团队共同推出的TEDBench基准数据集，标志着该领域迈入大规模标准化评估的新阶段。该数据集基于AlphaFold数据库与TED结构域注释，结合Foldseek聚类技术构建了包含462,175个预测结构与27,638个实验结构的非冗余基准，其规模远超此前仅有万余样本的同类数据集。TEDBench聚焦于CATH拓扑层级分类任务，旨在为蛋白质结构表示学习方法提供系统化的评估平台，其发布对推动结构生物学中的“ImageNet时刻”具有里程碑意义。

当前挑战

TEDBench所面临的挑战体现在多个层面：首先，蛋白质拓扑分类自身具有高度不平衡性与长尾分布特征，近千个类别中部分样本数量稀少，极易导致模型对头部类别过拟合而忽视罕见折叠类型；其次，现有等变神经网络与蛋白质预训练模型在该基准上的表现有限，最强监督模型在外部测试集上仅达到65.44%的宏F1分数，揭示了大尺度结构分类对模型容量与几何感知能力的严苛需求。在数据集构建过程中，如何从海量AlphaFold结构中去除冗余、保证结构多样性，同时通过共识算法合并低置信度域边界并处理多结构域蛋白质的标签指派，均构成技术挑战；此外，确保从预测结构到实验结构的跨域泛化能力，也是评估体系设计中的关键难题。

常用场景

经典使用场景

在蛋白质结构预测蓬勃发展的当下，数以亿计的AlphaFold预测结构为计算生物学带来了前所未有的机遇，却也伴随着冗余度高、标准化评估缺失的困境。TEDBench正是在此背景下应运而生，它从《结构域百科全书》（TED）中提取注释信息，并借助Foldseek聚类手段对AlphaFold数据库进行去冗余处理，最终构建出一个包含逾46万蛋白质结构的、非冗余的大规模基准数据集。其经典使用场景在于为蛋白质折叠分类（fold classification）提供一个标准化的监督学习评测平台——通过将蛋白质三维结构映射至CATH层次分类体系中的拓扑（Topology）层级，研究者可以系统性地评估不同几何深度学习模型与表示学习方法在大尺度结构分类任务上的性能表现。

衍生相关工作

围绕TEDBench的提出，衍生出一系列具有启发性的经典工作。其中最具代表性的是作者同步提出的掩码不变自编码器（Masked Invariant Autoencoders, MiAE），该框架将计算机视觉中的掩码自编码思想创新性地迁移至蛋白质三维几何领域，采用高达90%的极端掩码率与SE(3)不变编码器-轻量解码器非对称架构，仅需远少于传统模型的参数量便在TEDBench上取得了超越现有方法（如ESM2、SaProt等）的宏平均F1分数。这一工作不仅为蛋白质折叠分类提供了强有力的基准参考，更示范了自监督预训练在结构生物学中的巨大潜力，引发了后续关于结构掩码学习、多层级特征融合以及蛋白质域分割等方向的广泛探索与研究热潮。

数据集最近研究

模型	参数量	HuggingFace 仓库
MiAE-S	29 M	`TEDBench/miae-s`
MiAE-B	102 M	`TEDBench/miae-b`
MiAE-B+seq	102 M	`TEDBench/miae-b-seq`
MiAE-L	339 M	`TEDBench/miae-l`

模型	TEDBench 测试集准确率	CATH 4.4 测试集准确率
MiAE-S (微调)	72.28%	76.08%
MiAE-B (微调)	73.71%	75.72%
MiAE-B+seq (微调)	74.56%	77.34%
MiAE-L (微调)	73.47%	76.46%