visual_graph_datasets

github2024-04-23 更新2024-05-31 收录

下载链接：

https://github.com/aimat-lab/visual_graph_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该包提供用于训练图神经网络的图数据集的管理和实用工具，特别是针对可解释AI（XAI）方法。数据集以文件夹形式存储，每个元素由一个包含元数据和完整图表示的json文件和一个表示图的png图像文件组成。这种格式有助于减少预处理计算负荷，提供标准的图表示和可视化，使模型训练和解释结果更易于比较和理解。

This package provides management and utility tools for graph datasets used in training graph neural networks, particularly for explainable AI (XAI) methods. The datasets are stored in folder format, with each element consisting of a JSON file containing metadata and a complete graph representation, along with a PNG image file representing the graph. This format helps reduce preprocessing computational load, offers standardized graph representation and visualization, and facilitates easier comparison and understanding of model training and interpretation results.

创建时间：

2023-06-01

原始信息汇总

数据集概述

数据集名称

Visual Graph Datasets

数据集目的

用于训练图神经网络，特别是针对**可解释AI（XAI）**方法。

数据集结构

每个数据集被表示为一个文件夹，其中每个元素由两个文件组成：
- JSON文件：包含元数据信息，包括完整的图表示。
- PNG文件：包含图的规范可视化。

数据集特点

专门为XAI应用设计的图结构数据集格式。
目前支持彩色图和分子图。
提供多种标准功能，用于在规范图可视化上可视化图掩码/归因解释。

数据集安装

通过源代码安装：
- 克隆仓库：git clone https://github/aimat-lab/visual_graph_datasets.git
- 进入克隆目录并安装：pip3 install -e .
通过PyPi安装：pip3 install visual_graph_datasets

数据集使用

提供基本实用程序，用于在Python程序中加载和探索数据集。
示例代码展示了如何加载数据集并可视化解释结果。

数据集转换

支持将特定领域的数据集格式转换为VGD格式。
提供了从SMILES CSV文件生成分子图数据集的示例。

数据集元数据

每个元素的元数据JSON文件包含：
- 目标值
- 索引
- 训练/测试分割信息
- 图表示，包括节点和边属性
数据集元数据YML文件包含：
- 数据集版本
- 描述
- 可视化描述
- 参考文献
- 文件大小
- 元素数量
- 目标数量
- 节点属性数量
- 边属性数量

可用数据集列表

rb_dual_motifs：合成图回归数据集，包含随机生成的彩色图。
aqsoldb：约10k分子图数据集，注释有实验确定的水溶性值。

搜集汇总

数据集介绍

构建方式

visual_graph_datasets数据集的构建方式独具匠心，采用了不同于传统CSV文件的存储格式。每个数据集被表示为一个文件夹，其中每个元素由两个文件组成：一个包含元数据信息的JSON文件，另一个是图形的标准可视化PNG文件。这种结构不仅将大规模数据集预处理的计算负担转化为数据存储负担，还确保了图形的标准表示，使得模型训练结果更具可比性，并为后续的解释性分析提供了便利。

特点

该数据集的特点主要体现在其专为可解释性人工智能（XAI）应用设计，特别适用于基于图结构的数据。它支持颜色图和分子图，并提供了多种可视化图掩码和归因解释的功能，能够在标准图形可视化的基础上，以不同风格展示解释结果。此外，数据集的标准可视化使得每次加载图像而非重新计算可视化，从而提高了计算效率。

使用方法

使用visual_graph_datasets数据集时，首先需要通过命令行工具或Python脚本确保数据集已下载并存储在本地。随后，可以通过Python程序加载数据集，并利用提供的工具进行数据探索和可视化。数据集的每个元素以字典形式存储，包含图结构和元数据信息，用户可以利用这些信息进行进一步的分析和模型训练。此外，数据集还支持通过命令行界面进行下载和管理，提供了灵活的使用方式。

背景与挑战

背景概述

视觉图数据集（Visual Graph Datasets，VGD）是由AIMAT实验室开发的一个专门用于图神经网络训练和可解释人工智能（XAI）方法的数据集管理工具。该数据集的创建旨在解决图结构数据在模型训练和解释性分析中的标准化问题。VGD通过将每个数据集元素表示为一个包含元数据和图可视化的文件夹，提供了统一的图表示和可视化方式，从而简化了数据预处理和结果比较的复杂性。该数据集的开发时间未明确提及，但其核心研究问题集中在如何通过标准化的数据格式提升图神经网络的可解释性和模型训练效率。VGD的推出对图神经网络和XAI领域具有重要影响，尤其是在化学和材料科学等领域的分子图数据处理中。

当前挑战

视觉图数据集在构建和应用过程中面临多项挑战。首先，将不同领域的图数据转换为VGD格式需要复杂的预处理步骤，尤其是对于分子图等特定领域的数据，如何高效地从SMILES等表示形式转换为标准图结构是一个技术难题。其次，VGD的存储和管理要求较高的计算资源，尤其是在处理大规模数据集时，存储和加载速度成为瓶颈。此外，VGD在可解释性方面的应用也面临挑战，如何确保不同模型在相同数据集上的解释结果具有可比性，并能够高效地生成和展示解释性可视化，是VGD在XAI领域推广的关键问题。

常用场景

经典使用场景

Visual Graph Datasets（VGD）在图神经网络（GNN）和可解释人工智能（XAI）领域中具有广泛的应用。其经典使用场景包括利用VGD进行图结构数据的预处理和可视化，特别是在训练GNN模型时，VGD提供了标准化的图表示和可视化，使得不同实现之间的结果更具可比性。此外，VGD还支持在图上进行节点和边的归因解释，这对于理解和验证模型的预测结果至关重要。

实际应用

在实际应用中，VGD被广泛用于化学和材料科学领域的分子图数据处理。例如，VGD可以将分子图从SMILES格式转换为标准化的图表示，并生成相应的可视化图像，这对于药物发现和材料设计等应用具有重要意义。此外，VGD的标准化格式也便于在不同研究团队之间共享和比较数据，促进了跨学科的合作与研究。

衍生相关工作

VGD的推出催生了一系列相关的经典工作，特别是在图神经网络和可解释人工智能领域。例如，基于VGD的研究工作探索了如何更有效地进行图数据的预处理和可视化，以及如何利用归因解释来提高模型的透明度和可解释性。此外，VGD的标准化格式也激发了更多关于图数据管理和处理的工具和方法的研究，推动了整个领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集