UB-GOLD
收藏arXiv2024-06-21 更新2024-06-26 收录
下载链接:
https://github.com/UB-GOLD/UB-GOLD
下载链接
链接失效反馈官方服务:
资源简介:
UB-GOLD数据集由吉林大学创建,包含35个数据集,覆盖四种实际的异常和分布外检测场景。数据集内容丰富,涉及生物信息学、社交网络等多个领域,旨在通过不同类型的异常和分布外样本,评估和比较16种代表性的GLAD/GLOD方法。创建过程中,数据集被精心设计以模拟不同的数据分布和异常类型。该数据集主要应用于图机器学习系统的安全性和可靠性评估,解决图级异常检测和分布外检测的问题。
The UB-GOLD dataset was created by Jilin University, consisting of 35 datasets covering four practical anomaly and out-of-distribution (OOD) detection scenarios. With rich content spanning multiple fields including bioinformatics and social networks, this dataset aims to evaluate and compare 16 representative GLAD/GLOD methods using diverse anomalous and out-of-distribution samples. During its development, the dataset was meticulously designed to simulate different data distributions and anomaly types. Primarily applied to the safety and reliability assessment of graph machine learning systems, this dataset addresses the problems of graph-level anomaly detection and out-of-distribution detection.
提供机构:
吉林大学
创建时间:
2024-06-21
原始信息汇总
UB-GOLD 数据集概述
数据集来源
UB-GOLD 数据集包含以下几种类型的数据:
- 内在异常:TOX21
- Tox21_p53, Tox21_HSE, Tox21_MMP, Tox21_PPAR-gamma
- 跨数据集偏移与基于类别的异常:TUDataset
- COLLAB, IMDB-BINARY, REDDIT-BINARY, ENZYMES, PROTEINS
- DD, BZR, AIDS, COX2, NCI1, DHFR
- 跨数据集偏移:OGB
- BBBP, BACE, CLINTOX, LIPO, FREESOLV
- TOXCAST, SOL, MUV, TOX21, SIDER
- 数据集内偏移:DrugOOD
- IC50 (SIZE, SCAFFOLD, ASSAY)
- EC50 (SIZE, SCAFFOLD, ASSAY)
- 数据集内偏移:GOOD
支持的方法
UB-GOLD 支持以下16种流行的异常检测和OOD检测方法:
表1:2-Step方法
表2:端到端方法
搜集汇总
数据集介绍

构建方式
UB-GOLD数据集的构建旨在统一无监督图级异常检测(GLAD)和无监督图级分布外检测(GLOD),通过广义图级分布外检测的概念,将两者纳入一个综合评估框架。该数据集涵盖了35个数据集,这些数据集跨越了四种实际的异常和分布外检测场景,包括内禀异常、基于类别的异常、跨数据集偏移和跨数据集偏移。这些数据集为16种代表性的GLAD/GLOD方法的比较提供了基础。
特点
UB-GOLD数据集的主要特点在于其全面性和统一性。它不仅包括了不同类型的异常和分布外检测场景,而且还提供了16种代表性方法的性能比较。此外,UB-GOLD还进行了多维分析,探讨了现有方法的有效性、泛化能力、鲁棒性和效率,揭示了它们的优势和局限性。
使用方法
使用UB-GOLD数据集的方法包括:1. 下载并安装UB-GOLD开源代码库;2. 准备数据集,确保数据集与UB-GOLD的要求相匹配;3. 选择要测试的GLAD/GLOD方法;4. 运行代码进行实验,并记录结果;5. 分析结果,比较不同方法的性能。UB-GOLD提供了详细的文档和示例代码,方便用户进行实验和复现。
背景与挑战
背景概述
随着图数据的广泛应用,图机器学习在生物信息学、社交网络等多个领域得到了广泛应用。作为图学习任务之一,图级异常检测(GLAD)旨在识别出与大多数图显著不同的异常图。GLAD任务在现实世界的应用中至关重要,例如毒性分子识别和病原性脑机制发现。由于数据标注的高成本,现有的GLAD研究通常遵循无监督范式,消除了模型训练对标注异常样本的需求。与此同时,图级异常检测(GLOD)的研究也越来越受到关注。GLOD旨在识别测试集中的每个图样本是来自与训练数据相同的分布的ID,还是来自不同分布的OOD。UB-GOLD数据集由吉林大学、莫纳什大学、西北大学和格里菲斯大学的研究人员共同创建,旨在统一GLAD和GLOD,为无监督图级异常和异常检测提供一个全面的评估框架。UB-GOLD包含35个数据集,涵盖了四种实际的异常和OOD检测场景,为16种代表性的GLAD/GLOD方法提供了比较的平台。该数据集为研究无监督GLAD和GLOD的有效性、泛化能力、鲁棒性和效率提供了重要的参考,对相关领域产生了深远的影响。
当前挑战
UB-GOLD数据集面临的主要挑战包括:1) 所解决的领域问题:UB-GOLD旨在解决无监督图级异常和OOD检测的问题,这在现实世界的应用中具有重要意义,如药物发现和网络攻击检测。然而,由于异常和OOD样本在训练数据中的稀缺性,如何有效地识别这些样本仍然是一个挑战。2) 构建过程中所遇到的挑战:UB-GOLD数据集包含了多种类型的图数据,这些数据具有不同的结构和属性特征,为GLAD/GLOD方法的训练和评估带来了挑战。此外,由于数据分布的动态变化,如何确保模型在不同场景下的鲁棒性和泛化能力也是一个重要的挑战。
常用场景
经典使用场景
UB-GOLD数据集作为图级异常检测(GLAD)和图级分布外检测(GLOD)的统一基准,广泛应用于构建安全可靠的图机器学习系统。该数据集涵盖了35个数据集,跨越四个实用的异常和分布外检测场景,为16个代表性的GLAD/GLOD方法提供了比较的平台。UB-GOLD的典型使用场景包括:1)评估和比较不同GLAD/GLOD方法的性能;2)探索现有方法在不同数据集上的有效性、泛化能力、鲁棒性和效率;3)研究分布外检测问题的通用性,以及GLAD和GLOD任务之间的内在联系。
解决学术问题
UB-GOLD数据集解决了GLAD和GLOD研究领域长期存在的独立发展问题。过去,这两个领域由于评价设置的不同而独立研究,导致研究成果难以互相借鉴和应用。UB-GOLD通过统一GLAD和GLOD的概念,将它们纳入广义图级分布外检测的框架下,从而填补了这一研究空白。该数据集的意义和影响在于:1)为GLAD和GLOD研究提供了一个统一的评价标准,促进了两个领域的交流和发展;2)通过多维度分析,揭示了现有方法的优缺点,为未来研究提供了方向;3)提供了开源代码库,促进了可重复研究和快速实现。
衍生相关工作
UB-GOLD数据集的提出和发布,引发了图机器学习领域对GLAD和GLOD问题的进一步关注。基于UB-GOLD数据集的研究工作不断涌现,例如:1)开发新的GLAD/GLOD方法,以提高检测性能和鲁棒性;2)探索GLAD和GLOD任务之间的联系,以及如何将一个领域的研究成果应用到另一个领域;3)研究图级分布外检测的通用性,以及如何应对不同类型的分布外样本。这些相关工作进一步推动了图机器学习领域的发展,并为解决实际问题提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



