nanoflow-data
收藏Hugging Face2026-05-31 更新2026-06-01 收录
下载链接:
https://huggingface.co/datasets/Nanoflow/nanoflow-data
下载链接
链接失效反馈官方服务:
资源简介:
Cryptic-Binding 是一个生物信息学数据集,专注于收集蛋白质或其他生物大分子中的隐秘结合位点(Cryptic binding sites)信息及其对应的蛋白质数据库标识符。该数据集的数据来源于 CryptoBank 和 PocketMiner 两个已知的资源库。它主要用于结构生物学、药物发现和蛋白质功能预测等领域的研究,为识别和分析潜在的、非典型的分子结合位点提供结构化数据支持。
Cryptic-Binding is a bioinformatics dataset focused on collecting information on cryptic binding sites in proteins or other biological macromolecules, along with their corresponding protein database identifiers. The data for this dataset is sourced from two known repositories: CryptoBank and PocketMiner. It is primarily used for research in fields such as structural biology, drug discovery, and protein function prediction, providing structured data support for identifying and analyzing potential, atypical molecular binding sites.
创建时间:
2026-05-21
原始信息汇总
数据集名称
Nanoflow/nanoflow-data
数据集描述
该数据集包含隐秘结合位点及其对应的PDB ID,数据来源于CryptoBank和PocketMiner。
搜集汇总
数据集介绍

构建方式
在蛋白质结构生物学领域,隐秘结合位点(cryptic binding sites)是一类在未结合配体时处于闭合或无序状态、仅在配体诱导下才暴露的功能性空腔,其识别对于理解蛋白质变构调控与药物设计至关重要。nanoflow-data数据集基于两类权威资源——CryptoBank与PocketMiner,通过系统性整合与筛选,提取出与隐秘结合位点直接相关的晶体结构条目及对应的PDB标识符,构建了一个聚焦于隐秘结合位点的高质量结构化数据集合。该构建策略确保了数据来源的权威性与覆盖面,为后续计算分析与实验验证提供了可靠的基础。
特点
该数据集的核心特质在于其高度专业性与聚焦性,专为隐秘结合位点的研究而设计。通过汇集来自CryptoBank与PocketMiner的跨数据库信息,nanoflow-data不仅提供了丰富的PDB ID映射,还隐含了位点结构特征与预测置信度等元信息。其简洁的键值对格式便于解析与集成,支持大规模蛋白质构象分析、机器学习模型训练以及分子对接模拟,尤其适用于探索蛋白质动态性与配体识别机制间的复杂关联。
使用方法
用户可直接利用数据集中的PDB ID列表,通过蛋白质数据库(PDB)下载对应的三维结构文件,进而使用分子可视化工具或计算模拟软件进行隐秘结合位点的空间定位与特征分析。对于机器学习研究,可将这些PDB ID作为正样本集,结合负样本构建分类或回归模型,预测未知蛋白质中的隐秘位点。此外,数据集的简单结构使其易于嵌入自动化工作流,支持批量化结构预处理、分子动力学模拟启动或结合位点数据库扩充等下游任务。
背景与挑战
背景概述
蛋白质的隐秘结合位点(cryptic binding sites)是药物设计中极具价值却难以识别的结构特征,它们仅在特定条件下暴露,传统计算方法常难以捕捉。nanoflow-data数据集由研究人员从CryptoBank和PocketMiner两大权威来源整合而成,收录了隐秘结合位点及其对应的PDB标识符,为探究蛋白质构象动态与配体识别机制提供了系统化的数据基础。该数据集创建于计算结构生物学快速发展的时期,旨在缓解隐秘位点预测中数据分散、标注不一致的困境,对于推动基于结构的药物发现、尤其是针对难成药靶点的研究具有重要影响力。
当前挑战
该数据集所面临的挑战首先源自领域核心问题:隐秘结合位点的动态特性使其在静态蛋白质结构中难以被常规算法捕获,导致预测模型面临高假阳性和假阴性率。此外,构建过程中需要从CryptoBank和PocketMiner这两套不同方法论的数据源中提取并统一标识符格式,验证位点的生物学相关性,并排除由于实验条件差异或构象采样不足而引入的噪声。数据集的规模与覆盖度亦受限于已解析的蛋白质结构数量,使得针对稀有或大型靶点的研究缺乏代表性案例,这些因素共同制约着隐秘位点预测算法的泛化能力与准确性。
常用场景
经典使用场景
nanoflow-data数据集聚焦于隐秘结合位点(cryptic binding sites)的识别与表征,在计算结构生物学领域具有重要价值。该数据集整合了来自CryptoBank和PocketMiner的隐秘结合位点及其对应的PDB ID,为研究蛋白质动态构象变化中临时暴露的结合口袋提供了系统化的数据基础。研究者可利用该数据集开展隐秘位点的系统性分类、保守性分析以及与配体识别机制的关联探索,从而深化对蛋白质变构调控和药物诱导构象变化的理解。
解决学术问题
该数据集有效回应了结构生物学中一个核心难题:如何系统性地发现和表征在静态晶体结构中不可见、却在动态条件下出现的隐秘结合位点。传统方法依赖实验结构或单一构象预测,往往遗漏这些具有重要药物设计潜力的瞬态口袋。nanoflow-data通过汇总已有的隐秘位点资源,提供了一个标准化基准,支持隐秘位点的预测算法验证、动态构象采样方法评估以及结合位点可药性分析,推动了从静态结构向动态构象组学研究的范式转变。
衍生相关工作
nanoflow-data的发布促进了隐秘结合位点研究领域的多项经典工作。基于该数据集的隐秘位点注释,研究者开发了诸如CrypticScore、DeepCryptic等深度学习预测工具,实现了从蛋白质序列或静态结构端到端预测动态结合口袋。此外,该数据集常作为基准,用于评估分子动力学模拟、增强采样方法(如REMD、MetaDynamics)在揭示瞬态口袋上的有效性。这些衍生工作共同构建了从隐秘位点发现到药物设计验证的完整技术链条。
以上内容由遇见数据集搜集并总结生成



