Oxer11/Protein-Function-Annotation
收藏Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Oxer11/Protein-Function-Annotation
下载链接
链接失效反馈官方服务:
资源简介:
这是一个关于蛋白质结构和蛋白质预测的数据集,主要用于GearNet、ESM-GearNet、ESM-S和ProtIR等论文的研究。数据集首先由DeepFRI处理,然后由CDConv收集,原始文件可以从CDConv的GitHub下载。数据集包括EnzymeCommission、GeneOntology和Fold三个部分,分别提供了训练、验证和测试集的数量。评估管道建议参考ESM-S的GitHub获取训练和评估代码。
这是一个关于蛋白质结构和蛋白质预测的数据集,主要用于GearNet、ESM-GearNet、ESM-S和ProtIR等论文的研究。数据集首先由DeepFRI处理,然后由CDConv收集,原始文件可以从CDConv的GitHub下载。数据集包括EnzymeCommission、GeneOntology和Fold三个部分,分别提供了训练、验证和测试集的数量。评估管道建议参考ESM-S的GitHub获取训练和评估代码。
提供机构:
Oxer11
原始信息汇总
数据集概述
该数据集用于以下论文:GearNet (https://arxiv.org/abs/2203.06125)、ESM-GearNet (https://arxiv.org/abs/2303.06275)、ESM-S (https://arxiv.org/abs/2402.05856) 和 ProtIR。数据集首先由 DeepFRI (https://www.nature.com/articles/s41467-021-23303-9) 处理,然后由 CDConv (https://openreview.net/forum?id=P5Z-Zl9XJ7) 收集。原始文件也可以从 CDConv 的 GitHub 仓库 (https://github.com/hehefan/Continuous-Discrete-Convolution) 下载。
数据集详情如下表所示:
| 数据集 | #训练集 | #验证集 | #测试集 95% | #测试集 50% | #测试集 30% |
|---|---|---|---|---|---|
| EnzymeCommission | 15,550 | 1,729 | 1,919 | 1,117 | 720 |
| GeneOntology | 29,898 | 3,322 | 3,416 | 2,199 | 1,717 |
| Fold | 12,312 | 736 | 1,272 (Family) | 1,254 (Superfamily) | 718 (Fold) |
评估流程
请参考 ESM-S (https://github.com/DeepGraphLearning/esm-s) 获取训练和评估代码。



