five

Apo-Holo结构对数据集

收藏
arXiv2025-11-18 更新2025-11-20 收录
下载链接:
https://www.rcsb.org/
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集由佛罗里达大学研究团队基于蛋白质数据库精心构建,包含24,601对实验解析的apo-holo蛋白质结构对。数据集通过严格的筛选标准获得,涵盖高分辨率结构(≤2.5Å)和100%序列一致性的药理学相关配体,其数据规模显著超越先前类似资源。该数据集通过PLINDER资源系统收集,并采用专业对齐算法处理,专门用于研究配体结合诱导的蛋白质构象变化。该资源主要应用于基于结构的药物设计领域,旨在解决传统方法忽略蛋白质动态性的局限,推动柔性结合位点的分子生成研究。

This dataset was meticulously constructed by a research team at the University of Florida using the Protein Data Bank. It contains 24,601 experimentally resolved apo-holo protein structure pairs. Obtained through strict screening criteria, the dataset covers high-resolution structures (≤2.5 Å) and pharmacologically relevant ligands with 100% sequence identity, and its scale significantly exceeds previous similar resources. Collected via the PLINDER resource system and processed with professional alignment algorithms, this dataset is specifically developed to study ligand binding-induced protein conformational changes. Primarily applied in the field of structure-based drug design, this resource aims to address the limitations of traditional methods that overlook protein dynamics, and advance research on molecular generation for flexible binding sites.
提供机构:
佛罗里达大学
创建时间:
2025-11-18
搜集汇总
数据集介绍
main_image_url
构建方式
在结构生物学领域,精确表征蛋白质结合口袋的构象变化对药物设计至关重要。该数据集通过系统筛选蛋白质数据库中的实验解析结构,采用严格的过滤标准构建而成:仅保留分辨率≤2.5Å的高质量结构,要求apo-holo结构对具有100%序列一致性,并排除离子、辅因子等非药物类配体。最终从PLINDER资源中精选出24,601个结构对,通过Kabsch算法进行三维空间对齐,确保构象变化的精确量化。
特点
该数据集的核心价值在于其动态构象表征能力。每个样本包含未结合状态(apo)与配体结合状态(holo)的精确结构对应,完整记录了配体诱导的蛋白质构象重排过程。数据集规模较前人工作提升逾两倍,且通过严格的时序划分策略(训练集23,052/验证集1,071/测试集478)确保模型评估的可靠性。结合口袋均以10Å半径标准定义,为研究蛋白质-配体相互作用动力学提供了前所未有的实验数据基础。
使用方法
在基于结构的药物设计应用中,该数据集支撑着动态口袋感知的分子生成任务。使用者以apo结构为初始条件,通过扩散模型同步生成配体分子及其对应的holo口袋构象。具体流程包含三个关键阶段:首先对蛋白质口袋进行残基级坐标插值模拟构象轨迹,随后在分层图神经网络中建模蛋白质-配体复合物相互作用,最终通过SE(3)等变注意力机制联合输出优化后的配体结构与口袋构象。这种端到端的生成范式显著提升了在真实药物发现场景中的适用性。
背景与挑战
背景概述
Apo-Holo结构对数据集由佛罗里达大学药化学与计算机科学团队于2025年构建,旨在解决基于结构的药物设计中蛋白质构象动态性建模的瓶颈问题。该数据集从蛋白质数据库中精选了24,601对实验解析的apo(未结合)与holo(配体结合)蛋白质结构对,通过严格过滤确保序列一致性与配体药理学相关性。其核心研究聚焦于表征配体结合诱导的蛋白质口袋构象变化,为开发动态生成模型提供了关键实验基础,显著推动了精准药物设计领域的发展。
当前挑战
该数据集主要应对两大挑战:在领域问题层面,需克服传统刚性蛋白口袋假设对配体生成的限制,通过建模构象动态性提升配体与变构口袋的亲和力;在构建过程中,面临实验结构对齐的复杂性,包括需保证apo-holo序列完全一致、去除金属配体干扰,以及通过Kabsch算法实现残基级坐标转换以维持结构完整性。
常用场景
经典使用场景
在结构药物设计领域,Apo-Holo结构对数据集为研究蛋白质配体结合动态过程提供了关键实验数据。该数据集通过整合蛋白质数据库中的实验解析结构,系统捕捉了配体结合诱导的蛋白质构象变化轨迹,为开发动态感知的生成模型奠定了数据基础。其经典应用体现在训练扩散模型从非结合态构象生成配体分子及结合态口袋结构,突破了传统方法对静态结合位点的依赖。
解决学术问题
该数据集有效解决了蛋白质动态性建模的学术难题,通过提供大规模实验验证的构象对,克服了分子动力学模拟的计算偏差与力场参数敏感性限制。其意义在于首次实现了基于真实结构数据的配体诱导构象变化建模,推动药物设计从静态结构假设向动态交互范式转变,为开发具有物理真实性的生成算法提供了可靠基准。
衍生相关工作
该数据集催生了动态药物设计系列创新研究,例如DynamicFlow通过流匹配模型整合分子动力学轨迹,FlexSBDD实现柔性蛋白质建模。其衍生的Apo2Mol框架建立全原子分层图扩散模型,后续工作进一步拓展至蛋白质-配体复合物构象空间探索,推动形成动态结构生成与亲和力预测协同优化的技术体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作