five

ProFSADB

收藏
Hugging Face2025-04-25 更新2025-04-26 收录
下载链接:
https://huggingface.co/datasets/THU-ATOM/ProFSADB
下载链接
链接失效反馈
官方服务:
资源简介:
ProFSADB是一个大规模的蛋白质-配体相互作用预训练数据集,通过模拟高分辨率蛋白质结构中的口袋-配体复合物生成。它通过碎片化和交互建模提取了超过500万个非冗余的口袋-伪配体对,以解决实验确定的蛋白质-配体复合物(如PDB)的稀缺问题。每个复合物模拟了配体-受体的交互作用,使得可以进行稳健的生物医学任务预训练,例如可药性预测和配体亲和力估计。
创建时间:
2025-04-24
搜集汇总
数据集介绍
main_image_url
构建方式
在蛋白质-配体相互作用研究领域,数据稀缺一直是制约深度学习模型性能的关键瓶颈。ProFSADB通过创新的计算模拟方法,从高分辨率蛋白质结构中系统性地构建了大规模虚拟复合物数据集。该数据集采用分阶段构建策略:首先对蛋白质结构进行片段化处理生成伪配体,随后通过空间距离阈值(6Å)定义结合口袋区域,并引入终端校正技术消除肽键断裂伪影。为确保数据质量,研究团队实施了严格的质量控制流程,最终保留了500余万个非冗余口袋-伪配体对,其分布与PDBBind v2020保持统计学对齐。
特点
作为当前规模最大的蛋白质-配体相互作用模拟数据集,ProFSADB展现出三大核心优势。其数据量达到实验测定数据集(如PDB)的50倍,为深度学习模型提供了充足的训练样本。通过对比学习策略,数据集实现了口袋特征与小分子表征的空间对齐,有效提升了模型对相互作用模式的捕捉能力。数据集覆盖了丰富的蛋白质结构多样性,采用分层抽样技术确保生物学相关性,显著降低了传统数据中的结构偏好性。每个样本均包含受体链和配体链的完整三维坐标信息,以PDB格式规范存储。
使用方法
该数据集主要服务于计算药物发现领域的预训练任务,用户可通过标准化的流程加载和使用。研究人员可直接下载PDB格式的复合物文件,其中受体链(R)标注结合口袋残基,配体链(L)对应蛋白质片段伪配体。建议配合原文提供的预训练权重(checkpoint_best.pt)进行迁移学习,适用于药物结合亲和力预测、口袋可药性评估等下游任务。数据集采用CC-BY-4.0许可协议,使用者需遵循学术规范引用原始论文,相关实现细节可参考项目主页提供的技术文档。
背景与挑战
背景概述
ProFSADB数据集由Bowen Gao等研究人员于2023年提出,旨在解决蛋白质-配体相互作用研究中实验数据稀缺的瓶颈问题。该数据集通过模拟高分辨率蛋白质结构中的口袋-配体复合物,构建了超过500万对非冗余的蛋白质口袋-伪配体对,为生物医学领域的药物性预测和配体亲和力估计等任务提供了丰富的预训练资源。研究团队采用创新的蛋白质片段-周围环境对齐方法,从结构多样的蛋白质数据库中提取具有生物相关性的相互作用对,显著提升了数据规模和多样性。该成果发表于国际学习表征会议(ICLR),为计算药物发现领域提供了重要的数据基础。
当前挑战
ProFSADB数据集面临的挑战主要体现在两个方面:在领域问题层面,蛋白质-配体相互作用的精确建模需要克服现有实验数据量有限、结构多样性不足的难题,同时需确保模拟复合物与真实生物系统的等效性;在构建过程层面,研究团队需解决蛋白质片段化产生的肽键断裂伪影、口袋定义的空间尺度优化,以及海量数据质量控制的算法效率问题。这些挑战要求开发创新的计算方法和严格的质量评估标准,以保障生成数据的可靠性和生物学意义。
常用场景
经典使用场景
在计算生物学和药物发现领域,ProFSADB数据集通过模拟蛋白质-配体相互作用,为深度学习模型提供了大规模的预训练数据。其经典使用场景包括蛋白质口袋匹配和虚拟筛选,研究人员利用该数据集训练模型以识别潜在的药物结合位点,从而加速先导化合物的发现过程。数据集中的500多万个非冗余口袋-伪配体对为模型提供了丰富的结构多样性,显著提升了预测的准确性。
实际应用
ProFSADB在药物研发的实际应用中表现出色,特别是在虚拟筛选和靶点识别环节。制药公司利用该数据集预训练的模型,能够高效筛选数百万化合物库,快速识别与特定蛋白质口袋结合的潜在药物分子。这种数据驱动的方法显著降低了实验成本和时间,为抗肿瘤、抗病毒等领域的药物设计提供了新的技术路径。
衍生相关工作
ProFSADB的发布催生了一系列创新性研究,例如基于对比学习的蛋白质口袋预训练方法ProFSA。相关经典工作还包括分子表示学习与蛋白质结构预测的交叉研究,这些工作利用数据集的大规模特性,开发了更精确的蛋白质-配体相互作用预测模型。部分研究进一步扩展了数据集的应用范围,将其用于蛋白质功能注释和变构位点识别等新兴领域。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作