five

UniSite-DS

收藏
arXiv2025-06-04 更新2025-06-06 收录
下载链接:
https://github.com/quanlin-wu/unisite
下载链接
链接失效反馈
官方服务:
资源简介:
UniSite-DS是一个基于UniProt(唯一蛋白质)的数据集,用于蛋白质配体结合位点的检测。该数据集包含了比之前最广泛使用的数据集多4.81倍的多位点数据和2.08倍的总数据。UniSite-DS旨在解决现有数据集和方法在配体结合位点检测中存在的统计偏差问题,并支持端到端的配体结合位点检测框架。

UniSite-DS is a UniProt (unique protein)-based dataset dedicated to the detection of protein ligand binding sites. This dataset contains 4.81 times more multi-site data and 2.08 times more total data than the most widely used prior datasets. UniSite-DS aims to address the statistical bias issues present in current datasets and methods for ligand binding site detection, and supports end-to-end ligand binding site detection frameworks.
提供机构:
北京大学
创建时间:
2025-06-04
搜集汇总
数据集介绍
main_image_url
构建方式
UniSite-DS作为首个以UniProt为核心的配体结合位点数据集,其构建过程体现了系统化的数据整合理念。研究团队首先通过AHoJ工具全面检索PDB数据库中的蛋白质-配体相互作用,随后采用严格的质量控制标准:排除分辨率低于2.5Å的非晶体学结构,过滤少于五个原子的配体分子,最终获得143,197个相互作用条目。创新性地利用UniProt唯一标识符,通过SIFTS注释将不同PDB结构中同一蛋白质的配体结合位点映射到统一序列上,并采用非极大值抑制算法(IoM阈值0.7,IoU阈值0.5)消除冗余位点。该流程最终整合了13,464个独特UniProt条目,其中4,846个包含多位点特征,较传统PDB-centric数据集实现了4.81倍的多位点数据扩充。
使用方法
UniSite-DS支持两种主要应用范式:其一,作为训练集时需配合MMSeq2工具确保训练/测试集序列相似度低于0.9,避免数据泄漏;其二,作为评估基准时推荐采用论文提出的基于IoU的平均精度(AP)指标,该指标通过双射匹配解决传统DCC/DCA方法的双重计数问题,并引入0.3/0.5双阈值评估位点形状相似性。对于下游任务如分子对接,建议将预测位点残基定义为配体4.5Å半径内的区域,此设置经验证可优化对接成功率。数据集提供的标准化位点掩码格式({0,1}^L)可直接输入Transformer架构进行端到端训练。
背景与挑战
背景概述
UniSite-DS是由北京大学的研究团队于2025年提出的首个以UniProt为中心的配体结合位点数据集,旨在解决基于结构的药物设计中的关键问题。该数据集通过整合同一蛋白质在多个PDB结构中的不同结合位点,显著减少了传统PDB-centric数据集带来的统计偏差。UniSite-DS包含了比先前广泛使用的数据集多4.81倍的多位点数据和2.08倍的总体数据,为配体结合位点检测领域提供了更全面和准确的数据支持。该数据集的推出不仅推动了配体结合位点检测方法的发展,还为药物发现中的虚拟筛选和分子设计提供了重要基础。
当前挑战
UniSite-DS面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,传统方法主要关注单个蛋白质-配体复合物,忽略了同一蛋白质在不同复合物中可能存在的多样结合位点,导致统计偏差。此外,传统评估指标如DCC和DCA无法准确反映结合位点的结构特性(如形状、大小和残基组成),影响了预测方法的性能评估。在构建过程中,数据集需要整合来自多个PDB结构的结合位点信息,并进行去冗余处理,这对数据质量和一致性提出了较高要求。此外,如何确保数据集的覆盖范围和多样性,同时避免信息冗余,也是构建过程中的一大挑战。
常用场景
经典使用场景
UniSite-DS数据集在结构基础药物设计领域具有广泛的应用价值,特别是在配体结合位点检测方面。该数据集通过整合多个蛋白质-配体复合物结构中的结合位点信息,克服了传统PDB-centric数据集的统计偏差,为研究人员提供了更全面的数据支持。其经典使用场景包括蛋白质功能注释、药物靶点识别以及虚拟筛选等。
解决学术问题
UniSite-DS解决了配体结合位点检测领域的三个关键学术问题:首先,通过UniProt-centric的数据整合策略,消除了传统PDB-centric数据集带来的统计偏差;其次,提出了端到端的结合位点检测框架,避免了传统方法中不连续的流程设计;最后,引入了基于IoU的平均精度(AP)评估指标,更准确地反映了预测质量。这些创新显著提升了配体结合位点检测的准确性和可靠性。
实际应用
在实际应用中,UniSite-DS数据集为药物发现和设计提供了重要支持。例如,在虚拟筛选中,研究人员可以利用该数据集快速识别蛋白质的潜在结合位点,进而优化候选药物分子。此外,该数据集还可用于蛋白质功能预测和蛋白质工程,帮助科学家理解蛋白质的结构与功能关系。其高质量的数据和全面的覆盖范围使其成为药物研发和生物医学研究中的宝贵资源。
数据集最近研究
最新研究方向
UniSite-DS作为首个以UniProt为中心的配体结合位点数据集,在结构药物设计领域开辟了新的研究方向。该数据集通过整合同一蛋白质在不同PDB结构中的多样化结合位点,显著提升了多结合位点蛋白质的数据覆盖度,解决了传统PDB中心化数据集存在的统计偏差问题。前沿研究聚焦于端到端的配体结合位点检测框架UniSite的开发,该框架采用基于双射匹配的集合预测损失监督,实现了从蛋白质序列或结构直接预测潜在重叠结合位点的突破。同时,基于交并比(IoU)的平均精度(AP)评估指标的提出,为结合位点预测提供了更准确的性能衡量标准。这些创新不仅推动了蛋白质-配体相互作用预测的精度边界,更为基于结构的药物发现提供了可靠的计算工具,尤其在变构位点识别和多靶点药物设计等热点领域具有重要应用价值。
相关研究论文
  • 1
    UniSite: The First Cross-Structure Dataset and Learning Framework for End-to-End Ligand Binding Site Detection北京大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作