BEACON

Name: BEACON
Creator: 上海人工智能实验室
Published: 2024-06-15 03:39:19
License: 暂无描述

arXiv2024-06-15 更新2024-06-19 收录

下载链接：

https://github.com/terry-r123/RNABenchmark

下载链接

链接失效反馈

官方服务：

资源简介：

BEACON是由上海人工智能实验室创建的综合性RNA任务和语言模型基准数据集，包含967,000条序列，长度从23到1182不等。该数据集涵盖了结构分析、功能研究和工程应用三大领域，旨在全面评估RNA相关任务的性能。创建过程中，数据集整合了广泛的先前研究成果，确保了数据的多样性和代表性。应用领域包括但不限于RNA结构的解析、基因调控的研究以及RNA在生物技术和医学中的应用，旨在解决RNA研究中的复杂问题，推动相关领域的发展。

BEACON is a comprehensive benchmark dataset for RNA-related tasks and language models developed by the Shanghai AI Laboratory, containing 967,000 sequences with lengths ranging from 23 to 1182. This dataset covers three core domains: structural analysis, functional research and engineering applications, aiming to comprehensively evaluate the performance of RNA-related tasks. During its development, the dataset integrates a wide range of prior research findings to ensure data diversity and representativeness. Its application scenarios include, but are not limited to, RNA structure elucidation, gene regulation research, and the application of RNAs in biotechnology and medicine, with the goal of solving complex problems in RNA research and promoting the development of related fields.

提供机构：

上海人工智能实验室

创建时间：

2024-06-15

搜集汇总

数据集介绍

构建方式

在子图计数领域，传统算法与机器学习方法长期缺乏统一的评估框架，阻碍了系统性比较与技术进步。BEACON 基准的构建旨在弥合这一鸿沟，其核心是精心构建的 Oracle 数据集。该数据集整合了来自 TUDataset 和 OGB 等多个权威来源的 26,435 个真实世界图，覆盖生物信息学、社交网络、计算机视觉和分子网络等多个领域。对于其中每个图，研究团队均预先计算了多达五节点子图的精确真值计数，涵盖了诱导与非诱导、局部与全局等多种计数模式。为确保数据提取的灵活性与可重复性，团队开发了 BEACON-Sampler 工具，允许研究者根据节点数量、平均度等自定义约束，从庞大的 Oracle 数据集中高效采样，生成满足特定实验需求的定制化基准数据集。

特点

BEACON 数据集的核心特征在于其全面性与标准化设计。它不仅提供了大规模、多领域的图数据，更关键的是为每个图配备了经过验证的子图计数真值，这为评估算法的绝对精度奠定了可靠基础。数据集的结构经过精心规划，包含多个具有不同图规模与密度的子集，例如针对小规模图（节点数0-500）的 Set_1 至 Set_6，以及用于评估算法可扩展性的大规模图（节点数100-5000）Set_7 至 Set_10。这种分层设计使得研究者能够系统性地测试算法在不同图结构特性（如稀疏度、稠密度）下的性能表现。此外，数据集严格区分了局部计数与全局计数、诱导子图与非诱导子图，为多维度的性能分析提供了可能。

使用方法

BEACON 数据集为子图计数研究提供了模块化、可重复的使用框架。研究者可通过多种场景与数据集交互：若仅需使用数据，可直接利用 BEACON-Sampler 根据实验需求提取特定图集；若进行方法开发，可利用该工具生成训练与测试数据，并在集成的 Docker 容器化环境中进行模型训练与调优，确保环境一致性。对于方法评估，数据集支持零样本、少样本微调、少样本重新训练以及全训练等多种评估模式，能够全面检验模型的泛化能力、适应性与最终性能。最终，研究者可将训练好的模型在标准化的测试集上进行评估，并通过公开排行榜与现有方法进行公平、透明的性能比较，从而推动该领域研究的可重复性与持续进步。

背景与挑战

背景概述

子图计数作为图分析领域的核心问题，旨在统计大规模图中特定查询模式的出现次数，广泛应用于金融网络分析、交通系统建模及生物交互理解等关键场景。尽管历经数十年的研究，算法方法与机器学习方法各自发展，却因缺乏统一的评估框架、标准化数据集及可访问的真实标注，导致系统化分析与公平基准测试难以实现。为此，香港大学与英属哥伦比亚大学的研究团队于2020年推出了BEACON基准，旨在通过提供验证过的真实标注数据集、集成化评估环境及公开排行榜，促进子图计数方法的可复现与透明比较，从而推动该领域研究的统一与加速。

当前挑战

子图计数领域面临双重挑战：在问题层面，由于子图同构的NP完全性，处理大规模图或复杂模式时计算复杂度极高，传统算法方法在节点数超过六的复杂模式上效率受限，而机器学习方法虽能处理更大模式，却需海量图数据输入且在小型稠密图上精度不足；在构建层面，BEACON基准的创建需克服缺乏统一评估框架、标准化数据集及真实标注的障碍，同时确保数据集的多样性、标注的可信度及评估环境的可复现性，以支持算法与机器学习方法的全面对比。

常用场景

经典使用场景

在复杂网络分析领域，子图计数作为一项基础性任务，其核心在于精确统计大规模图中特定查询模式的出现次数。BEACON数据集通过提供标准化、带有已验证真实标签的图数据集合，为算法与机器学习方法的性能评估构建了统一基准。该数据集最经典的使用场景是系统性地对比传统算法（如ESCAPE、EVOKE）与基于图神经网络（GNN）的机器学习模型在子图计数任务上的表现，涵盖从稀疏到稠密、从小规模到超大规模的各种图结构，从而揭示不同方法在效率、精度与可扩展性方面的内在权衡。

衍生相关工作

BEACON数据集的推出催生并连接了一系列子图计数领域的经典工作。在算法侧，它促进了如ESCAPE、EVOKE等精确计数方法以及MOTIVO等近似方法的深入评估与改进。在机器学习侧，数据集成为评估多种图神经网络架构性能的关键平台，包括强调表达能力的PPGN、专注于局部结构感知的IDGNN与GNNAK、针对循环计数优化的I2GNN、追求效率与表达平衡的ESC-GNN，以及面向可扩展性设计的DeSCo等。这些工作依托BEACON提供的统一基准，不仅验证了自身方法的优势，也共同描绘出子图计数技术从纯算法驱动到与机器学习融合演进的发展脉络。

数据集最近研究