five

PPIRef

收藏
github2024-05-14 更新2024-05-31 收录
下载链接:
https://github.com/anton-bushuiev/PPIRef
下载链接
链接失效反馈
官方服务:
资源简介:
PPIRef是一个完整且非冗余的蛋白质-蛋白质相互作用(PPIs)数据集。它通过从PDB中彻底提取所有基于重原子接触的潜在蛋白质二聚体(我们使用6A和10A两种距离截止值的变体),根据埋藏表面积和质量标准过滤掉不适当的PPIs,以及使用iDist算法移除近似重复的PPIs来构建。

PPIRef is a comprehensive and non-redundant dataset of protein-protein interactions (PPIs). It is constructed by thoroughly extracting all potential protein dimers based on heavy atom contacts from the PDB (we use variants with distance cutoffs of 6Å and 10Å), filtering out inappropriate PPIs based on buried surface area and quality criteria, and removing near-duplicate PPIs using the iDist algorithm.
创建时间:
2023-10-16
原始信息汇总

数据集概述:PPIRef

数据集名称: PPIRef

数据集描述: PPIRef是一个基于Python的软件包,用于处理蛋白质-蛋白质相互作用(PPIs)的3D结构。该数据集包含了来自蛋白质数据库(PDB)的所有PPIs。PPIRef旨在为涉及蛋白质-蛋白质相互作用结构的机器学习和数据科学应用提供标准数据和工具。

主要功能:

  • 提取:从.pdb文件中提取蛋白质-蛋白质界面。
  • 可视化与分析:可视化和分析PPIs的属性。
  • 比较、去重和聚类:比较、去重和聚类PPI界面。
  • 检索:通过相似的界面结构或序列从PDB检索相似的PPIs。
  • 下载、分割和采样:为机器学习应用准备PPIs的下载、分割和采样。

数据集使用示例:

  1. 安装PPIRef包。
  2. 使用download_from_zenodo函数下载数据集。
  3. 使用read_fold函数读取所需的数据集部分。
  4. 使用PPI类处理数据集样本,并进行可视化。

数据集大小: 示例中显示的数据集大小为51,755个样本。

数据集未来发展:

  • 计划在2024年6月前将PPIRef扩展到10A接口。
  • 计划开发基于PDB-REDO数据库的PPIRef版本,以提高结构中侧链的质量。

引用信息:

搜集汇总
数据集介绍
main_image_url
构建方式
PPIRef数据集的构建基于Protein Data Bank(PDB)中的所有蛋白质-蛋白质相互作用(PPIs)。该数据集通过提取PDB文件中的蛋白质-蛋白质界面,并对其进行可视化、分析、比较、去重和聚类等操作,形成了一个全面的PPIs结构数据库。此外,PPIRef还提供了从PDB中检索相似PPIs的功能,并支持为机器学习应用准备数据的分片和子采样。
特点
PPIRef数据集的主要特点在于其全面性和多样性。它涵盖了PDB中所有PPIs的3D结构,提供了丰富的蛋白质-蛋白质界面信息。此外,数据集支持多种操作,包括界面提取、属性分析、去重和聚类,以及相似PPIs的检索,使其在机器学习和数据科学应用中具有广泛的应用潜力。
使用方法
使用PPIRef数据集时,用户可以通过Python包进行安装和数据下载。首先,通过conda创建并激活环境,然后克隆并安装PPIRef包。接着,使用提供的Python函数从Zenodo下载数据集,并读取所需的数据子集。用户可以进一步对数据进行可视化、统计分析以及比较和聚类操作,以满足不同的研究需求。
背景与挑战
背景概述
PPIRef数据集是由Anton Bushuiev等人开发,专注于蛋白质-蛋白质相互作用(PPIs)的三维结构分析。该数据集基于Protein Data Bank(PDB)中的所有PPIs构建,旨在为机器学习和数据科学应用提供标准化的数据和工具。PPIRef的创建不仅填补了该领域的数据空白,还为研究人员提供了一个强大的平台,用于探索和分析蛋白质相互作用的复杂性。该数据集的核心研究问题集中在如何高效地提取、可视化、比较和聚类蛋白质-蛋白质界面,以及如何为机器学习模型提供高质量的训练数据。PPIRef的发布对生物信息学和计算生物学领域具有重要影响,尤其是在蛋白质相互作用的研究和药物设计方面。
当前挑战
PPIRef数据集在构建过程中面临多项挑战。首先,从PDB中提取和处理大量的蛋白质-蛋白质相互作用数据需要高效的算法和计算资源。其次,如何准确地比较和聚类不同的蛋白质界面,以避免数据冗余和提高数据质量,是一个复杂的技术难题。此外,数据集的扩展性和可维护性也是一个重要挑战,特别是在引入新的PDB-REDO数据库时,需要确保数据的一致性和质量。最后,如何为机器学习模型提供有代表性的训练数据,同时避免数据泄露,是该数据集在实际应用中需要解决的关键问题。
常用场景
经典使用场景
PPIRef数据集在蛋白质-蛋白质相互作用(PPIs)领域的经典应用场景主要体现在其对3D结构数据的处理与分析上。该数据集允许研究者从PDB文件中提取蛋白质-蛋白质界面,进行可视化和属性分析,并支持对PPI界面的比较、去重和聚类操作。此外,PPIRef还提供了通过相似界面结构或序列从PDB中检索相似PPIs的功能,为机器学习应用提供了丰富的数据准备工具。
解决学术问题
PPIRef数据集解决了蛋白质-蛋白质相互作用研究中的多个关键学术问题。首先,它通过提供高质量的3D结构数据,帮助研究者更准确地理解蛋白质间的相互作用机制。其次,数据集的去重和聚类功能有效减少了数据冗余,提升了数据分析的效率和准确性。此外,PPIRef还为机器学习模型在蛋白质设计与预测中的应用提供了标准化数据,推动了该领域的研究进展。
衍生相关工作
PPIRef数据集的发布催生了一系列相关研究工作。例如,基于该数据集的机器学习模型在蛋白质-蛋白质相互作用预测中取得了显著进展,推动了蛋白质设计领域的创新。此外,PPIRef的去重和聚类功能也为其他生物数据集的处理提供了参考方法。研究者还利用PPIRef数据集进行了蛋白质相互作用网络的深入分析,揭示了新的生物学机制,进一步拓展了该领域的研究边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作