five

GRAPES

收藏
github2018-07-25 更新2024-05-31 收录
下载链接:
https://github.com/GiugnoLab/Dataset-GRAPES
下载链接
链接失效反馈
官方服务:
资源简介:
GRAPES项目的数据集,包含多种生物信息学相关的数据集,如AIDS、PDBS、PCM、PPI等,每个数据集都有详细的描述和来源。

The dataset of the GRAPES project encompasses a variety of bioinformatics-related datasets, such as AIDS, PDBS, PCM, PPI, etc. Each dataset is accompanied by detailed descriptions and sources.
创建时间:
2018-05-15
原始信息汇总

数据集概述

1. AIDS 数据集

  • 内容: 包含40000个化学化合物的拓扑结构,用于检测抗HIV活性。
  • 特点: 化合物为无向图,节点数从4到245不等,属于小型稀疏图。
  • 应用: 用于研究化学化合物的抗HIV活性。

2. PDBS 数据集

  • 内容: 包含600个蛋白质的骨架结构,由JenaLib和RCSB下载的晶体学数据转换而来。
  • 特点: 为中型稀疏图,每个图的节点数从1683到7979不等。
  • 应用: 用于蛋白质结构研究。

3. PCM 数据集

  • 内容: 包含200个蛋白质域的氨基酸接触图。
  • 特点: 为小型密集图,平均每个图有380个节点。
  • 应用: 用于分析氨基酸间的关系。

4. PPI 数据集

  • 内容: 包含20个蛋白质相互作用网络,涉及5个物种。
  • 特点: 网络根据边的准确性分为不同等级(0.4, 0.5, 0.6, 0.7)。
  • 应用: 用于研究不同物种的蛋白质相互作用。

许可证

  • 类型: MIT许可证。
  • 使用: 免费供学术和商业用途,但需在科学出版物中引用相关作品。

引用信息

  • 文献: Giugno, R., et al. (2013). Grapes: A software for parallel searching on biological graphs targeting multi-core architectures. PloS one, 8(10), e76911.
  • BibTeX格式:

@article{giugno2013grapes, title={Grapes: A software for parallel searching on biological graphs targeting multi-core architectures}, author={Giugno, Rosalba and Bonnici, Vincenzo and Bombieri, Nicola and Pulvirenti, Alfredo and Ferro, Alfredo and Shasha, Dennis}, journal={PloS one}, volume={8}, number={10}, pages={e76911}, year={2013}, publisher={Public Library of Science} }

搜集汇总
数据集介绍
main_image_url
构建方式
GRAPES数据集的构建采取了对不同生物信息学领域的图结构数据进行整合与划分的方式。具体而言,该数据集包括 AIDS、PDBS、PCM、PPI 等子数据集,分别涵盖了小分子化合物、蛋白质骨架、氨基酸接触图以及蛋白质相互作用网络等领域的图形数据。各子数据集通过相应的生物信息库和算法库进行数据提取和转换,形成具有不同顶点和边特征的图结构。
特点
该数据集的特点在于其领域覆盖的广泛性,不仅包含了化学化合物的小规模稀疏图,也包含了蛋白质相关的大型图结构。此外,数据集在构建过程中注重保持原图的度分布和标签分布,从而确保了数据的真实性和科学性。所有图均为无向图,并带有节点标签,便于进行深入的图分析研究。
使用方法
使用GRAPES数据集时,用户可以根据研究需求选择不同的子数据集。每个数据集均提供了包含所有图的文件,以及将数据集划分为六个不交集的文件。此外,还提供了查询图集,供用户进行图匹配和相似性搜索等操作。用户在使用时需遵守MIT许可证的规定,并在学术出版物中引用相关作品。
背景与挑战
背景概述
GRAPES数据集是一个涵盖多种生物图形的综合性数据集,其创建旨在为生物信息学研究领域提供丰富的图形数据资源。该数据集由Giugno等研究人员于2013年开发,主要依托于多核心架构的生物图并行搜索软件。GRAPES包含了AIDS、PDBS、PCM、PPI等多个子数据集,这些子数据集分别来源于抗HIV化学化合物、蛋白质骨架、蛋白质接触图以及蛋白质相互作用网络等生物学领域,为研究人员提供了宝贵的实验材料,对推动生物信息学的进展起到了积极的作用。
当前挑战
尽管GRAPES数据集为相关领域的研究提供了有力的支撑,但在使用过程中也面临着诸多挑战。首先,生物图形数据的复杂性和异质性使得数据预处理和标准化工作尤为重要,这对研究人员的专业能力提出了较高的要求。其次,在构建数据集时,如何保证数据的准确性和代表性,同时处理大量数据带来的计算负担,也是需要克服的技术难题。此外,不同子数据集在应用中的泛化能力以及如何有效整合多源数据,以获得更深入的生物学洞察,都是当前研究中的热点问题和挑战。
常用场景
经典使用场景
在生物信息学领域,GRAPES数据集的典型应用场景在于为研究人员提供了一个包含多种生物图结构的综合资源库。该数据集包含的图结构涵盖小分子化合物、蛋白质骨架、蛋白质接触图以及蛋白质-蛋白质相互作用网络等,这些图结构被广泛用于机器学习模型的训练和评估,特别是在图神经网络的研究中。通过该数据集,研究者能够对模型在生物图任务上的性能进行基准测试。
实际应用
在实际应用中,GRAPES数据集的应用范围广泛,从药物发现和疾病相关蛋白质的识别,到生物分子相互作用网络的构建和分析。例如,在药物开发过程中,可以利用该数据集中的化合物结构进行虚拟筛选,以预测潜在的药物候选分子。同时,蛋白质接触图数据可用于蛋白质结构预测,进而促进对蛋白质功能的理解。
衍生相关工作
基于GRAPES数据集,已经衍生出多项相关研究工作。例如,研究人员利用该数据集开发新的图处理算法,优化图神经网络模型,或者进行生物信息学领域的预测任务。这些相关工作不仅扩展了数据集的原始应用,而且推动了生物信息学与其他领域的交叉融合,如计算化学和系统生物学。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作