five

Oxer11/Protein-Function-Annotation

收藏
Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Oxer11/Protein-Function-Annotation
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个关于蛋白质结构和蛋白质预测的数据集,主要用于GearNet、ESM-GearNet、ESM-S和ProtIR等论文的研究。数据集首先由DeepFRI处理,然后由CDConv收集,原始文件可以从CDConv的GitHub下载。数据集包括EnzymeCommission、GeneOntology和Fold三个部分,分别提供了训练、验证和测试集的数量。评估管道建议参考ESM-S的GitHub获取训练和评估代码。

这是一个关于蛋白质结构和蛋白质预测的数据集,主要用于GearNet、ESM-GearNet、ESM-S和ProtIR等论文的研究。数据集首先由DeepFRI处理,然后由CDConv收集,原始文件可以从CDConv的GitHub下载。数据集包括EnzymeCommission、GeneOntology和Fold三个部分,分别提供了训练、验证和测试集的数量。评估管道建议参考ESM-S的GitHub获取训练和评估代码。
提供机构:
Oxer11
原始信息汇总

数据集概述

该数据集用于以下论文:GearNet (https://arxiv.org/abs/2203.06125)、ESM-GearNet (https://arxiv.org/abs/2303.06275)、ESM-S (https://arxiv.org/abs/2402.05856) 和 ProtIR。数据集首先由 DeepFRI (https://www.nature.com/articles/s41467-021-23303-9) 处理,然后由 CDConv (https://openreview.net/forum?id=P5Z-Zl9XJ7) 收集。原始文件也可以从 CDConv 的 GitHub 仓库 (https://github.com/hehefan/Continuous-Discrete-Convolution) 下载。

数据集详情如下表所示:

数据集 #训练集 #验证集 #测试集 95% #测试集 50% #测试集 30%
EnzymeCommission 15,550 1,729 1,919 1,117 720
GeneOntology 29,898 3,322 3,416 2,199 1,717
Fold 12,312 736 1,272 (Family) 1,254 (Superfamily) 718 (Fold)

评估流程

请参考 ESM-S (https://github.com/DeepGraphLearning/esm-s) 获取训练和评估代码。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作