TEDBench
收藏好的,这是根据您提供的数据集详情页内容提炼的中文概述。
TEDBench 数据集与 MiAE 模型概述
数据集简介
TEDBench 是一个大规模、非冗余的蛋白质折叠分类基准数据集。该数据集基于 Encyclopedia of Domains (TED) 注释构建,并映射到经 Foldseek 聚类的 AlphaFold 数据库上。所有结构被分为 965 个 CATH 拓扑(T级)类别。
数据集划分与规模
| 数据集划分 | 结构数量 |
|---|---|
| 训练集 | 369,740 |
| 验证集 | 46,217 |
| 测试集 | 46,218 |
| 外部测试集 (CATH 4.4 实验结构) | 27,638 |
数据来源
数据集可通过以下两个来源获取:
- HuggingFace: 无需本地设置,可直接加载。
TEDBench/ted: TEDBench 数据集TEDBench/afdb: AFDB 预训练语料库TEDBench/cath: CATH 4.4 实验测试集
- MPCDF 数据共享: 可直接下载的存档文件,首次使用时自动下载并缓存。
数据样本结构
每个样本包含以下数据:coords(主链坐标,形状为 [L, 3, 3])、plddt(预测局部距离差测试分数,长度为 L)、residue_index(残基索引,长度为 L)、seq_ids(序列标识,长度为 L)、sequence(氨基酸序列)、label(CATH 拓扑索引,整数)。
使用方法示例
使用 HuggingFace datasets 库直接加载:
python from datasets import load_dataset ted = load_dataset("TEDBench/ted") sample = ted["train"][0] coords = sample["coords"] label = sample["label"]
相关模型:MiAE
MiAE (Masked Invariant Autoencoders) 是一种与 TEDBench 数据集一同提出的自监督预训练框架,用于蛋白质结构表示学习。它是一个 SE(3) 不变掩码自编码器,最多可掩码 90% 的主链骨架,仅对可见残基使用几何编码器处理,并通过轻量级解码器重建完整骨架结构。
预训练模型
| 模型 | 参数量 | HuggingFace 仓库 |
|---|---|---|
| MiAE-S | 29 M | TEDBench/miae-s |
| MiAE-B | 102 M | TEDBench/miae-b |
| MiAE-B+seq | 102 M | TEDBench/miae-b-seq |
| MiAE-L | 339 M | TEDBench/miae-l |
在 TEDBench 上微调后的模型
| 模型 | TEDBench 测试集准确率 | CATH 4.4 测试集准确率 |
|---|---|---|
| MiAE-S (微调) | 72.28% | 76.08% |
| MiAE-B (微调) | 73.71% | 75.72% |
| MiAE-B+seq (微调) | 74.56% | 77.34% |
| MiAE-L (微调) | 73.47% | 76.46% |
引用
如果您使用了 TEDBench 或 MiAE,请引用以下论文:
bibtex @inproceedings{chen2026tedbench, title={Protein Fold Classification at Scale: Benchmarking and Pretraining}, author={Chen, Dexiong and Manolache, Andrei and Niepert, Mathias and Borgwardt, Karsten}, booktitle={Proceedings of the 43rd International Conference on Machine Learning (ICML)}, year={2026} }
许可协议
本项目采用 BSD-3-Clause 许可协议。

- 1Protein Fold Classification at Scale: Benchmarking and Pretraining马克斯·普朗克生物化学研究所; 斯图加特大学·计算机科学系; Bitdefender · 2026年



