BEACON

Name: BEACON
Creator: 香港大学
Published: 2025-04-15 15:53:47
License: 暂无描述

arXiv2025-04-15 更新2025-04-19 收录

下载链接：

https://github.com/zxj0302/MLSC

下载链接

链接失效反馈

官方服务：

资源简介：

BEACON是一个综合性的基准，旨在严格评估算法和基于机器学习的子图计数方法。它提供了一个标准化的数据集，其中包含了经过验证的地面真实数据，一个集成的评估环境和一个公开的排行榜，使得不同方法之间的比较可重现且透明。数据集的具体内容、创建过程以及应用领域在文章中并未详细说明。

BEACON is a comprehensive benchmark designed for rigorous evaluation of algorithmic and machine learning-based subgraph counting methods. It provides a standardized dataset with validated ground truth data, an integrated evaluation environment, and a public leaderboard, enabling reproducible and transparent comparisons between different methods. The specific content, creation process, and application scenarios of this dataset are not elaborated in the article.

提供机构：

香港大学

创建时间：

2025-04-15

搜集汇总

数据集介绍

构建方式

BEACON数据集的构建基于对现有图数据集的系统性整合与扩展，涵盖了来自TUDataset和OGB数据集的26,435个图，覆盖生物信息学、社交网络和计算机视觉等多个领域。每个图均计算了多达五个节点的子图数量的真实值，包括局部和全局频率以及诱导和非诱导配置。此外，数据集通过BEACON-Sampler工具支持用户根据节点数量、平均度数等约束条件灵活提取子集，确保了数据的多样性和可定制性。

使用方法

BEACON数据集的使用分为三个主要模块：数据模块支持通过BEACON-Sampler按需提取子集；环境模块通过Docker容器确保实验的可重复性；测试模块提供标准化评估协议和性能指标（如Q-error和MAE）。用户可根据需求选择零样本评估、少样本微调或完整训练等场景，利用公开的预训练模型或自行开发算法，并通过排行榜对比性能。数据集特别适用于研究子图计数算法在效率、准确性和可扩展性上的权衡。

背景与挑战

背景概述

BEACON（Benchmark for Efficient and Accurate Counting of Subgraphs）是由香港大学和英属哥伦比亚大学的研究团队于2020年提出的一个基准数据集，旨在解决子图计数领域的核心问题。子图计数是图分析中的基础任务，广泛应用于金融网络分析、交通系统建模和生物网络理解等领域。BEACON通过提供标准化的数据集、验证过的真实标签和集成的评估环境，填补了该领域缺乏统一评估框架的空白。该数据集不仅支持传统的算法方法（AL），还涵盖了基于机器学习（ML）的方法，为子图计数研究提供了一个全面且可复现的比较平台。

当前挑战

BEACON数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，子图计数本身是一个NP难问题，随着查询模式复杂度的增加（如超过六个节点），传统算法方法的效率显著下降，而机器学习方法虽然能处理更大的模式，但对大规模图数据的需求较高，且在小型密集图上的准确性不足。在构建过程中，挑战包括如何确保数据集的多样性和代表性，以及如何提供准确的真实标签以支持算法的训练和评估。此外，构建一个能够同时支持算法和机器学习方法评估的统一框架，也需要解决技术实现和性能优化上的诸多难题。

常用场景

经典使用场景

BEACON数据集作为子图计数领域的首个统一评估框架，其经典使用场景聚焦于系统化评测算法（AL）与机器学习（ML）方法的性能差异。在社交网络分析中，研究者通过BEACON标准化的26,435张跨领域图数据，精确量化不同方法对三角形、四节点团等高频子图模式的计数效率；生物网络研究中则利用其验证局部子图计数在蛋白质相互作用网络中的可扩展性，尤其针对超过六节点的复杂模式。数据集集成的BEACON-Sampler工具支持动态生成特定密度（如0.9-1.4）或规模（100-5000节点）的测试子集，为算法在异构网络环境下的鲁棒性分析提供灵活场景。

解决学术问题

BEACON解决了子图计数领域长期存在的三大核心问题：其一，通过提供含验证真值的标准化数据集（如TUDataset和OGB的衍生数据），消除了传统方法因基准不统一导致的不可比性；其二，设计容器化评估环境与公共排行榜，首次实现AL与ML方法在预处理时间（如PPGN需636分钟）、推理精度（Q-error低至1.02）等维度的透明对比；其三，揭示关键理论边界——AL方法在超大规模图（如5万边）计数中占优，而ML方法虽能处理六节点以上模式却依赖海量训练数据。这些发现为后续混合范式的算法设计提供了理论锚点。

实际应用

在金融风控领域，BEACON支持的交易网络子图计数可识别洗钱行为特有的多环转账模式（如目标11的4-star结构），其集成的DeSCo算法在Set_1数据集上实现1.21倍Q-error的精准检测；交通规划中则利用全局子图计数功能分析路网聚类系数（0-0.2）与拥堵模式的关联，GNNAK模型通过BEACON-Sampler提取的高密度子图（degree_avg>5）优化信号灯策略。生物医药方面，研究者借助该数据集预训练模型，在零样本场景下预测蛋白质功能模块的出现频次，较传统EVOKE算法提升107%的召回率。

数据集最近研究