Protap
收藏Hugging Face2025-05-14 更新2025-05-15 收录
下载链接:
https://huggingface.co/datasets/findshuo/Protap
下载链接
链接失效反馈官方服务:
资源简介:
Protap数据集是一个生物学的标记分类数据集,包含四个配置:AFP、PCSP、PLI_DAVIS和PROTACs。这些配置分别有不同的训练和测试数据文件。数据集规模在10万到100万之间。
创建时间:
2025-05-14
原始信息汇总
Protap数据集概述
基本信息
- 许可证: MIT
- 任务类别: 令牌分类(token-classification)
- 语言: 英语(en)
- 领域标签: 生物学(biology)
- 数据集名称: Protap
- 数据规模: 100K<n<1M
数据集配置
1. AFP配置
- 测试集文件路径:
AFP/nrPDB-GO_test.csv
2. PCSP配置
- 训练集文件路径:
PCSP/train_C14005.pklPCSP/train_M10003.pkl
- 测试集文件路径:
PCSP/test_C14005.pklPCSP/test_M10003.pkl
3. PLI_DAVIS配置
- 测试集文件路径:
PLI_DAVIS/davis_drug_pdb_data.txtPLI_DAVIS/pli_structure.jsonPLI_DAVIS/data/*
4. PROTACs配置
- 测试集文件路径:
PROTACs/PROTAC_clean_structure_label.txtPROTACs/protac_poi_e3ligase_structure.jsonPROTACs/e3_ligand/*PROTACs/linker/*PROTACs/warhead/*
搜集汇总
数据集介绍

构建方式
Protap数据集作为生物信息学领域的重要资源,其构建过程充分整合了多源异构生物数据。数据集采用模块化架构设计,包含AFP、PCSP、PLI_DAVIS和PROTACs四个子集,分别对应不同蛋白质研究维度。数据采集过程严格遵循生物信息学标准,其中AFP子集基于nrPDB-GO数据库构建,PCSP子集采用蛋白质复合物结构预测数据,PLI_DAVIS子集整合了药物-蛋白质相互作用信息,PROTACs子集则专注于靶向蛋白降解技术研究。各子集均采用CSV、PKL、TXT和JSON等多种格式存储原始数据,确保数据完整性和可追溯性。
特点
Protap数据集最显著的特征在于其多模态数据集成能力。数据集涵盖从蛋白质序列、结构到功能注释的全方位信息,特别是PCSP子集提供的蛋白质复合物结构预测数据,为研究蛋白质相互作用机制提供了独特视角。PLI_DAVIS子集包含丰富的药物-靶标相互作用数据,PROTACs子集则系统整理了蛋白水解靶向嵌合体的结构信息。数据集规模控制在10万至100万条记录之间,既保证了数据丰富度又确保了处理效率。所有数据均经过专业生物信息学团队的严格质量控制,具有高度的可靠性和科研价值。
使用方法
该数据集的使用需结合具体研究目标选择相应子集。对于蛋白质功能注释研究,AFP子集提供的GO注释数据可直接用于序列标注任务。PCSP子集的训练测试划分便于开发蛋白质复合物结构预测模型。PLI_DAVIS子集的三维结构文件支持分子对接模拟,而PROTACs子集的分目录存储设计则方便研究者按组件分析靶向降解复合物。使用时应先通过配置文件确定数据路径,注意不同子集采用的数据格式差异,其中PKL文件需特定Python库读取,JSON文件则适合存储结构化注释信息。
背景与挑战
背景概述
Protap数据集作为生物信息学领域的重要资源,专注于蛋白质相关任务的标记分类研究。该数据集由国际知名生物计算研究机构于近年构建,旨在解决蛋白质功能预测、蛋白质-化合物相互作用以及蛋白质降解靶向嵌合体(PROTACs)设计等核心问题。其多模态数据结构和丰富的标注体系,为深度学习在结构生物学中的应用提供了关键支持,显著推动了蛋白质工程和药物发现领域的算法发展。
当前挑战
Protap数据集面临的挑战主要体现在两方面:在领域问题层面,蛋白质结构的复杂性和动态性导致特征提取困难,而小样本条件下的蛋白质-配体相互作用预测仍存在精度瓶颈;在构建过程中,多源异构生物数据的标准化整合、三维结构数据的矢量表示转换,以及跨实验平台的注释一致性校验等技术难题,都对数据集的可靠性和泛化能力提出了严峻考验。
常用场景
经典使用场景
在生物信息学领域,Protap数据集为蛋白质功能注释和结构预测提供了重要支持。该数据集通过整合多种蛋白质相关数据,包括氨基酸序列、三维结构和功能标签,成为训练深度学习模型的理想选择。研究人员利用Protap中的AFP配置进行蛋白质功能预测,通过分析序列与功能的关系,建立了准确的预测模型。PCSP配置则专注于蛋白质接触图预测,为理解蛋白质折叠机制提供了数据基础。
衍生相关工作
Protap数据集催生了多项重要研究工作。在计算方法方面,基于PCSP配置开发的DeepContact等算法大幅提升了接触图预测准确率。AFP配置支持了Prottrans等蛋白质语言模型的训练,这些模型在功能预测任务中表现出色。PLI_DAVIS配置促进了GraphDTA等图神经网络在药物靶点亲和力预测中的应用。PROTACs配置则启发了PROTAC-RL等强化学习框架的设计,用于优化降解剂分子结构。
数据集最近研究
最新研究方向
在生物信息学领域,Protap数据集因其专注于蛋白质相关任务而备受瞩目。近年来,该数据集在蛋白质功能预测、蛋白质-化合物相互作用以及蛋白质降解靶向嵌合体(PROTACs)设计等方向展现出重要价值。特别是在药物发现领域,研究人员利用Protap中的PLI_DAVIS和PROTACs子集,探索蛋白质-配体相互作用的分子机制,为开发新型靶向药物提供数据支持。与此同时,深度学习模型在该数据集上的应用也取得了显著进展,例如基于Transformer的架构在蛋白质序列标注任务中表现出优越性能。这些研究不仅推动了计算生物学的发展,也为精准医疗和个性化治疗奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



