OPENGRAPHXAI
收藏arXiv2025-05-18 更新2025-05-21 收录
下载链接:
http://arxiv.org/abs/2505.12437v1
下载链接
链接失效反馈官方服务:
资源简介:
OPENGRAPHXAI是一个基于现实世界分子图的XAI基准数据集,旨在解决图神经网络(GNNs)决策过程不透明的问题。该数据集由15个图分类数据集组成,每个数据集都包含已知的真实解释(GT)模型,用于评估解释的质量。数据集的大小、数据量和Tokens数等信息未在论文中明确提及,但提到数据集是基于11个现有的分子图数据集构建的,且可以通过代码生成超过2000个额外的XAI基准数据集。数据集的创建过程使用了Weisfeiler-Leman着色算法来识别与每个类别相关的子图模式。该数据集的应用领域是图XAI,旨在帮助科学家评估和改进图解释方法。
提供机构:
意大利比萨大学计算机科学系
创建时间:
2025-05-18
搜集汇总
数据集介绍

构建方式
在图形解释性人工智能(XAI)领域,OPENGRAPHXAI数据集的构建采用了Weisfeiler-Leman(WL)着色算法,从现有的分子图分类数据集中自动化生成基准测试。该方法通过WL算法识别每个类别中共享相同子结构的图子集,并从中提取出能够区分目标标签的子结构作为真实解释(GT)。这一过程不仅确保了GT解释源自实际图形结构,还显著提升了数据集的多样性和复杂性。
特点
OPENGRAPHXAI数据集以其独特的真实性和多样性脱颖而出。该数据集包含15个基于真实分子图的XAI基准测试任务,覆盖了多种GT可用性场景,并提供了类别平衡的任务。其GT解释不仅包括大小相等的子图模式(如alfa和delta),还涵盖了大小不等的子图模式(如bravo、charlie和echo)。此外,数据集还提供了针对单个类别的GT解释(如foxtrot至oscar),进一步丰富了评估场景。
使用方法
OPENGRAPHXAI数据集的使用方法主要围绕评估图形解释方法的有效性展开。研究人员可以首先在数据集上训练图神经网络(GNN)以达到高测试准确率,随后将训练好的GNN和测试集图形输入到图形解释器中,获取每个图形的重要性分数。最后,通过比较解释器生成的子图与GT解释的重叠程度,使用适当的度量标准(如合理性)来量化解释器的性能。这一流程为图形XAI方法的系统评估提供了可靠的基础。
背景与挑战
背景概述
OPENGRAPHXAI数据集由意大利比萨大学计算机科学系的Michele Fontanesi、Alessio Micheli、Marco Podda和Domenico Tortorella于2025年提出,旨在解决图神经网络(GNNs)可解释性领域基准数据稀缺的问题。该数据集通过自动化方法从真实世界的分子图数据中生成,包含15个现成的基准测试任务,并可扩展至2000多个任务,为评估图解释方法的有效性提供了丰富资源。其核心研究问题是提升图解释技术的透明度和可信度,特别是在安全关键领域的应用,如药物发现和医疗诊断。OPENGRAPHXAI的推出填补了现有合成数据与真实数据之间的空白,推动了图可解释性研究的系统化发展。
当前挑战
OPENGRAPHXAI面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,图解释技术需要准确识别驱动GNN预测的子图模式,但现有方法在复杂真实图结构上的性能评估缺乏可靠基准,导致解释结果的可信度难以验证。构建过程中的挑战包括:1) 真实图数据的结构复杂性和多样性使得自动化生成解释性基准极具挑战性;2) 依赖Weisfeiler-Leman算法可能限制对连续特征图数据的适用性;3) 现有方法仅支持二元分类和单一解释模式,难以满足多类和多模式解释的需求。这些挑战制约了图解释技术的进一步发展和实际应用。
常用场景
经典使用场景
在图形神经网络(GNN)的可解释性研究中,OPENGRAPHXAI数据集被广泛用于评估不同解释方法的有效性。该数据集通过提供真实世界的分子图数据及其对应的真实解释子图,为研究者提供了一个标准化的测试平台。研究者可以利用该数据集来比较不同解释方法在识别关键子图结构方面的性能,从而推动图形解释技术的进步。
解决学术问题
OPENGRAPHXAI数据集解决了图形可解释性研究中缺乏高质量基准数据集的问题。传统方法多依赖于合成数据或少量专家标注的真实数据,难以全面评估解释方法的实际性能。该数据集通过自动化方法从真实分子图中提取真实解释子图,填补了这一空白,为研究者提供了可靠的评估标准,促进了图形可解释性研究的系统化发展。
衍生相关工作
OPENGRAPHXAI数据集的推出催生了一系列相关研究,特别是在图形解释方法的改进和新算法的开发方面。例如,基于该数据集的研究提出了更高效的子图识别算法,以及针对复杂图形结构的解释技术。此外,该数据集还被用于评估图形解释方法在不同领域(如社交网络分析、生物信息学)的泛化能力,进一步拓展了图形可解释性研究的应用范围。
以上内容由遇见数据集搜集并总结生成



