AIDS, PDBSv1, PDBSv2, PDBSv3

github2021-08-26 更新2024-05-31 收录

下载链接：

https://github.com/InfOmics/RI-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

AIDS数据集包含40000个化学化合物的拓扑结构，这些化合物已被测试用于抗HIV活性。PDBSv1数据集包含30个图，数据来自DNA、RNA和蛋白质，具有多达33067个顶点。PDBSv2数据集包含40个蛋白质，由蛋白质骨架表示，来自晶体学数据。PDBSv3数据集包含50个蛋白质的氨基酸接触图，代表氨基酸之间的关系。

AIDS dataset contains 40,000 topological structures of chemical compounds, all of which have been tested for anti-HIV activity. The PDBSv1 dataset includes 30 graphs with data sourced from DNA, RNA and proteins, with up to 33,067 vertices. The PDBSv2 dataset contains 40 proteins represented by their backbone structures, derived from crystallographic data. The PDBSv3 dataset includes 50 amino acid contact maps of proteins, which represent the relationships between amino acids.

创建时间：

2018-05-22

原始信息汇总

数据集概述

AIDS

类型: 小分子
描述: 包含40000个化学化合物的拓扑结构，这些化合物已通过抗HIV活性测试。化合物为无向图，顶点数从4到245不等，属于小而稀疏的图。
模式: 模式图分为四组，每组100个图，每个图可能包含4、8、16或32个顶点。模式图的拓扑结构设计以尊重目标图的平均度和标签分布。
来源: 美国国家癌症研究所

PDBSv1

类型: 蛋白质，大型稀疏图
描述: 包含30个图，数据来自DNA、RNA和蛋白质，顶点数最多达33067个。分子以PDB格式下载并使用BALL库转换为图。
模式: 从对应的目标图中提取模式图，固定所需边的数量。模式图为目标图的子图（单态）。创建了六组10个随机模式，边数分别为4、8、16、32、64和128。
来源: JenaLib和RCSB蛋白质数据库

PDBSv2

类型: 蛋白质骨架，中型稀疏图
描述: 包含40个蛋白质，由JenaLib和RCSB下载的晶体学数据转换为图。图的顶点数从1683到7979不等。
模式: 从对应的目标图中提取模式图，创建了七组10个随机模式，边数分别为4、8、16、32、64、128和256。
来源: JenaLib和RCSB蛋白质数据库

PDBSv3

类型: 蛋白质接触图，小型密集图
描述: 包含50个蛋白质域的氨基酸接触图，由CMView检索。图的平均顶点数为380。
模式: 从目标图中提取不同类型的模式图（从密集到稀疏），以改变性能比较。创建了七组10个随机模式，边数分别为4、8、16、32、64、128和256。
来源: JenaLib和RCSB蛋白质数据库，CMView

Graemlin

类型: 合成PPI
描述: 包含10个微生物网络，标签数量从32到2048不等，使用均匀分布分配标签。
模式: 为每个模式维度（4、8、16、32、64、128到256）创建了20个密集、半密集和稀疏模式。
来源: 基因组研究

PPI

类型: 蛋白质-蛋白质相互作用网络
描述: 包含10个网络，描述已知和预测的蛋白质相互作用，从STRING下载。图属于大型密集图。
模式: 从目标图中提取20个密集、半密集和稀疏模式，边数从4到256不等。
来源: STRING数据库

Sansone et al.

类型: 合成数据集
描述: 包含20到1000个顶点的无标签图对。数据集包括以下类型的图：有界价（每顶点边数为3、6、9）、网格（2D、3D和4D）和随机（边按固定概率添加）。
来源: 模式识别会议

搜集汇总

数据集介绍

构建方式

AIDS数据集包含了40000种化学化合物的拓扑结构，这些化合物均经过抗HIV活性测试。化合物以无向图形式表示，顶点数从4到245不等，属于小型稀疏图。模式图被分为四组，每组100个图，顶点数分别为4、8、16或32，模式图的拓扑结构设计旨在反映目标图的平均度数和标签分布。PDBSv1、PDBSv2和PDBSv3数据集则分别包含蛋白质、蛋白质骨架和蛋白质接触图的数据，通过BALL库将PDB格式的分子转换为图结构，并根据目标图提取模式图，模式图的边数从4到256不等。

使用方法

AIDS数据集可用于抗HIV活性化合物的拓扑结构分析，模式图的分组设计便于进行模式匹配算法的评估。PDBSv1、PDBSv2和PDBSv3数据集适用于蛋白质结构研究，模式图的提取方法为子图同构算法提供了丰富的测试场景。用户可通过GitHub页面获取数据集，并遵循MIT许可证进行学术或商业使用，同时需引用相关文献以尊重第三方组件的版权要求。

背景与挑战

背景概述

AIDS、PDBSv1、PDBSv2、PDBSv3等数据集是由多个研究机构共同构建的，旨在支持生物信息学和化学信息学领域的研究。AIDS数据集由美国国家癌症研究所（NCI）提供，包含40000种化学化合物的拓扑结构，用于抗HIV活性的研究。PDBSv1、PDBSv2和PDBSv3数据集则分别聚焦于蛋白质、蛋白质骨架和氨基酸接触图的研究，数据来源于JenaLib和RCSB，并通过BALL库转换为图结构。这些数据集的创建时间可追溯至2000年代初，其核心研究问题包括化学化合物的活性预测、蛋白质结构分析以及蛋白质相互作用网络的建模。这些数据集在药物发现、蛋白质功能预测和生物网络分析等领域具有重要影响力。

当前挑战

这些数据集在构建和应用过程中面临多重挑战。首先，AIDS数据集中的化学化合物图结构较为稀疏且规模较小，如何在保持图拓扑复杂性的同时提取有效模式是一个关键问题。其次，PDBSv1、PDBSv2和PDBSv3数据集涉及大规模蛋白质结构的图表示，其稀疏性和规模多样性对算法的计算效率和可扩展性提出了更高要求。此外，蛋白质接触图的密集性使得模式提取和匹配的复杂度显著增加。在构建过程中，如何从原始数据中提取有意义的子图模式，并确保其与目标图的拓扑和标签分布一致，也是一个技术难点。这些挑战不仅考验了数据处理和算法设计的能力，也推动了图匹配和图挖掘技术的进一步发展。

常用场景

经典使用场景

AIDS数据集在化学信息学和药物发现领域具有重要应用，主要用于抗HIV活性化合物的筛选和分子结构分析。通过将化合物表示为无向图，研究人员能够利用图论方法进行分子相似性分析和模式识别，从而加速新药的发现过程。PDBSv1、PDBSv2和PDBSv3数据集则广泛应用于蛋白质结构分析领域，特别是蛋白质-蛋白质相互作用网络的研究。这些数据集通过将蛋白质结构转化为图模型，为蛋白质功能预测和结构比对提供了重要支持。

解决学术问题

AIDS数据集解决了化学信息学中分子图匹配和图相似性计算的难题，为抗HIV药物的筛选提供了高效的计算工具。PDBSv1、PDBSv2和PDBSv3数据集则解决了蛋白质结构分析中的图匹配问题，特别是大规模稀疏图和中等规模稀疏图的子图同构问题。这些数据集通过提供标准化的图结构数据，为图算法在生物信息学中的应用奠定了坚实基础，推动了蛋白质功能预测和结构比对领域的研究进展。

实际应用

AIDS数据集在药物研发中具有重要应用，特别是在抗HIV药物的虚拟筛选中，能够显著降低实验成本和时间。PDBSv1、PDBSv2和PDBSv3数据集在蛋白质工程和药物设计中发挥了关键作用，例如通过分析蛋白质接触图，研究人员可以设计出更有效的蛋白质抑制剂。此外，这些数据集还被用于开发蛋白质结构预测工具，为生物医学研究和精准医疗提供了重要支持。

数据集最近研究