five

Protap

收藏
Hugging Face2025-05-14 更新2025-05-15 收录
下载链接:
https://huggingface.co/datasets/findshuo/Protap
下载链接
链接失效反馈
官方服务:
资源简介:
Protap数据集是一个生物学的标记分类数据集,包含四个配置:AFP、PCSP、PLI_DAVIS和PROTACs。这些配置分别有不同的训练和测试数据文件。数据集规模在10万到100万之间。
创建时间:
2025-05-14
原始信息汇总

Protap数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 令牌分类(token-classification)
  • 语言: 英语(en)
  • 领域标签: 生物学(biology)
  • 数据集名称: Protap
  • 数据规模: 100K<n<1M

数据集配置

1. AFP配置

  • 测试集文件路径:
    • AFP/nrPDB-GO_test.csv

2. PCSP配置

  • 训练集文件路径:
    • PCSP/train_C14005.pkl
    • PCSP/train_M10003.pkl
  • 测试集文件路径:
    • PCSP/test_C14005.pkl
    • PCSP/test_M10003.pkl

3. PLI_DAVIS配置

  • 测试集文件路径:
    • PLI_DAVIS/davis_drug_pdb_data.txt
    • PLI_DAVIS/pli_structure.json
    • PLI_DAVIS/data/*

4. PROTACs配置

  • 测试集文件路径:
    • PROTACs/PROTAC_clean_structure_label.txt
    • PROTACs/protac_poi_e3ligase_structure.json
    • PROTACs/e3_ligand/*
    • PROTACs/linker/*
    • PROTACs/warhead/*
搜集汇总
数据集介绍
main_image_url
构建方式
Protap数据集作为生物信息学领域的重要资源,其构建过程充分整合了多源异构生物数据。数据集采用模块化架构设计,包含AFP、PCSP、PLI_DAVIS和PROTACs四个子集,分别对应不同蛋白质研究维度。数据采集过程严格遵循生物信息学标准,其中AFP子集基于nrPDB-GO数据库构建,PCSP子集采用蛋白质复合物结构预测数据,PLI_DAVIS子集整合了药物-蛋白质相互作用信息,PROTACs子集则专注于靶向蛋白降解技术研究。各子集均采用CSV、PKL、TXT和JSON等多种格式存储原始数据,确保数据完整性和可追溯性。
特点
Protap数据集最显著的特征在于其多模态数据集成能力。数据集涵盖从蛋白质序列、结构到功能注释的全方位信息,特别是PCSP子集提供的蛋白质复合物结构预测数据,为研究蛋白质相互作用机制提供了独特视角。PLI_DAVIS子集包含丰富的药物-靶标相互作用数据,PROTACs子集则系统整理了蛋白水解靶向嵌合体的结构信息。数据集规模控制在10万至100万条记录之间,既保证了数据丰富度又确保了处理效率。所有数据均经过专业生物信息学团队的严格质量控制,具有高度的可靠性和科研价值。
使用方法
该数据集的使用需结合具体研究目标选择相应子集。对于蛋白质功能注释研究,AFP子集提供的GO注释数据可直接用于序列标注任务。PCSP子集的训练测试划分便于开发蛋白质复合物结构预测模型。PLI_DAVIS子集的三维结构文件支持分子对接模拟,而PROTACs子集的分目录存储设计则方便研究者按组件分析靶向降解复合物。使用时应先通过配置文件确定数据路径,注意不同子集采用的数据格式差异,其中PKL文件需特定Python库读取,JSON文件则适合存储结构化注释信息。
背景与挑战
背景概述
Protap数据集作为生物信息学领域的重要资源,专注于蛋白质相关任务的标记分类研究。该数据集由国际知名生物计算研究机构于近年构建,旨在解决蛋白质功能预测、蛋白质-化合物相互作用以及蛋白质降解靶向嵌合体(PROTACs)设计等核心问题。其多模态数据结构和丰富的标注体系,为深度学习在结构生物学中的应用提供了关键支持,显著推动了蛋白质工程和药物发现领域的算法发展。
当前挑战
Protap数据集面临的挑战主要体现在两方面:在领域问题层面,蛋白质结构的复杂性和动态性导致特征提取困难,而小样本条件下的蛋白质-配体相互作用预测仍存在精度瓶颈;在构建过程中,多源异构生物数据的标准化整合、三维结构数据的矢量表示转换,以及跨实验平台的注释一致性校验等技术难题,都对数据集的可靠性和泛化能力提出了严峻考验。
常用场景
经典使用场景
在生物信息学领域,Protap数据集为蛋白质功能注释和结构预测提供了重要支持。该数据集通过整合多种蛋白质相关数据,包括氨基酸序列、三维结构和功能标签,成为训练深度学习模型的理想选择。研究人员利用Protap中的AFP配置进行蛋白质功能预测,通过分析序列与功能的关系,建立了准确的预测模型。PCSP配置则专注于蛋白质接触图预测,为理解蛋白质折叠机制提供了数据基础。
衍生相关工作
Protap数据集催生了多项重要研究工作。在计算方法方面,基于PCSP配置开发的DeepContact等算法大幅提升了接触图预测准确率。AFP配置支持了Prottrans等蛋白质语言模型的训练,这些模型在功能预测任务中表现出色。PLI_DAVIS配置促进了GraphDTA等图神经网络在药物靶点亲和力预测中的应用。PROTACs配置则启发了PROTAC-RL等强化学习框架的设计,用于优化降解剂分子结构。
数据集最近研究
最新研究方向
在生物信息学领域,Protap数据集因其专注于蛋白质相关任务而备受瞩目。近年来,该数据集在蛋白质功能预测、蛋白质-化合物相互作用以及蛋白质降解靶向嵌合体(PROTACs)设计等方向展现出重要价值。特别是在药物发现领域,研究人员利用Protap中的PLI_DAVIS和PROTACs子集,探索蛋白质-配体相互作用的分子机制,为开发新型靶向药物提供数据支持。与此同时,深度学习模型在该数据集上的应用也取得了显著进展,例如基于Transformer的架构在蛋白质序列标注任务中表现出优越性能。这些研究不仅推动了计算生物学的发展,也为精准医疗和个性化治疗奠定了理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作