five

UniSite-DS

收藏
github2025-06-04 更新2025-06-06 收录
下载链接:
https://github.com/quanlin-wu/unisite
下载链接
链接失效反馈
官方服务:
资源简介:
UniSite-DS是第一个以UniProt(唯一蛋白质)为中心的配体结合位点数据集,与之前最广泛使用的数据集相比,它包含4.81倍多的多位点数据和2.08倍多的总体数据。

UniSite-DS is the first UniProt-centric dataset of ligand-binding sites. Compared with the most widely used existing datasets, it contains 4.81 times more multi-site data and 2.08 times more overall data.
创建时间:
2025-05-29
原始信息汇总

UniSite数据集概述

数据集简介

  • 名称:UniSite-DS
  • 类型:蛋白质配体结合位点检测数据集
  • 特点:首个以UniProt(唯一蛋白质)为中心的配体结合位点数据集
  • 数据量:比之前最广泛使用的数据集多4.81倍的多位点数据和2.08倍的总体数据

主要贡献

  1. 数据集:解决了现有数据集仅关注单个蛋白质-配体复合物的问题
  2. 框架:提出首个端到端配体结合位点检测框架UniSite
  3. 评估指标:引入基于IoU(Intersection over Union)的平均精度(Average Precision)作为更准确的评估指标

技术特点

  • 模型架构
    • UniSite-1D:仅基于蛋白质序列的预测模型
    • UniSite-3D:整合蛋白质3D结构的预测模型
  • 输入支持
    • 单个PDB文件
    • 包含多个PDB文件的目录
    • FASTA格式的蛋白质序列文件

使用限制

  • 输入要求:仅支持单链蛋白质预测
  • 结构预测要求:输入PDB文件必须仅包含同一链的蛋白质原子
  • 商业用途:未经许可不得用于商业目的

输出格式

  • PKL文件:包含残基级二进制掩码的原始预测
  • CSV文件:包含以下列的可读结果:
    • score:结合位点预测的置信度分数
    • center:预测结合位点在3D空间中的中心坐标
    • residue_id:预测结合位点残基的ID
    • position_id:预测结合位点残基的序列位置

评估方法

  1. IoU-based AP:基于IoU的平均精度评估
  2. DCC & DCA:距离中心标准(DCC)和距离中心准确度(DCA)评估

许可证

  • 类型:Apache License 2.0
  • 商业使用:需联系授权(JigangFan@stu.pku.edu.cn)
搜集汇总
数据集介绍
main_image_url
构建方式
在蛋白质配体结合位点检测领域,UniSite-DS数据集的构建采用了UniProt(唯一蛋白质)为核心的设计理念。该数据集整合了来自多个蛋白质-配体复合物的结构数据,显著提升了多结合位点的覆盖范围,其数据量达到先前广泛使用数据集的4.81倍(多结合位点数据)和2.08倍(总体数据)。通过系统性地收集和标注不同复合物中同一蛋白质的多样化结合位点,有效减少了传统方法中因单一复合物分析而导致的统计偏差。
特点
UniSite-DS数据集在蛋白质配体结合位点检测领域展现出独特优势。其核心特点在于突破了传统数据集局限于单一蛋白质-配体复合物的局限,首次实现了跨结构的数据整合。该数据集不仅包含丰富的多结合位点案例,还引入了基于交并比(IoU)的平均精度评估指标,为预测质量提供了更精确的量化标准。值得注意的是,数据集特别强调了端到端检测框架的支持,避免了传统方法中离散的二元分割和聚类流程,为深度学习模型提供了更连贯的训练环境。
使用方法
UniSite-DS数据集的使用遵循模块化设计原则,支持灵活的预测模式。用户可通过提供的predict.sh脚本快速启动预测流程,输入支持单PDB文件、PDB文件目录或FASTA序列文件三种格式。当输入为蛋白质序列时自动启用UniSite-1D模式,输入结构文件则激活整合3D信息的UniSite-3D模型。预测结果以PKL和CSV双格式输出,包含置信度评分、结合位点空间中心坐标以及残基级定位信息。为确保预测准确性,使用前需通过配套预处理脚本清除PDB文件中的非蛋白组分和水分子等干扰因素。
背景与挑战
背景概述
UniSite-DS数据集由北京大学研究团队于近年开发,旨在解决蛋白质配体结合位点检测领域的核心问题。作为首个以UniProt(唯一蛋白质)为中心的跨结构数据集,其创新性地整合了同一蛋白质在不同复合物中的多样化结合位点信息,较先前广泛使用的数据集增加了4.81倍多位点数据和2.08倍总体数据量。该数据集支撑了基于集合预测损失的双射匹配端到端检测框架UniSite的开发,并通过交并比(IoU)平均精度这一新型评估指标,显著提升了预测质量的量化标准。这一工作为结构导向的药物设计提供了更全面的数据基础和更精确的计算范式。
当前挑战
在领域问题层面,传统方法存在三大局限:单蛋白质-配体复合物分析范式导致跨结构多位点信息缺失;离散化的二值分割与聚类流程降低检测连续性;基于距离阈值的评估指标无法准确反映预测质量。数据集构建过程中,研究团队需攻克多源异构蛋白质结构数据的标准化整合难题,解决同一UniProt条目下不同晶体结构间结合位点的生物学等效性判定问题,并设计能够兼容序列与三维结构信息的统一表征方法。此外,开发基于集合预测的端到端框架时,还需处理蛋白质表面点云数据的非结构化特征与动态结合位点数量的建模挑战。
常用场景
经典使用场景
在蛋白质-配体相互作用研究中,UniSite-DS数据集被广泛用于训练和评估端到端配体结合位点检测模型。该数据集以UniProt为核心,整合了跨结构的蛋白质-配体复合物数据,为研究人员提供了更全面的多结合位点信息。经典应用场景包括基于序列和结构的结合位点预测,以及药物设计中的靶标识别。
解决学术问题
UniSite-DS解决了传统配体结合位点检测中的三个关键问题:跨结构数据缺失、工作流程不连续以及评价指标不准确。通过整合多结合位点数据,该数据集显著减少了统计偏差;端到端的学习框架取代了传统的分段处理;基于IoU的平均精度指标提供了更可靠的性能评估。这些创新为蛋白质功能注释和药物设计研究提供了更可靠的数据基础。
衍生相关工作
基于UniSite-DS数据集,研究者开发了首个端到端配体结合位点检测框架UniSite。该工作启发了后续多项研究,包括基于图神经网络的结合位点预测方法、多模态蛋白质表征学习等。数据集提出的IoU-AP评价指标已成为该领域的新标准,被多个后续工作采纳和改进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作