RDB2G-Bench
收藏arXiv2025-06-02 更新2025-06-06 收录
下载链接:
https://github.com/chlehdwon/RDB2G-Bench
下载链接
链接失效反馈官方服务:
资源简介:
RDB2G-Bench是一个用于评估关系数据库(RDB)到图模型转换方法的基准框架。该数据集由5个真实世界的关系数据库和12个预测任务组成,共计约50,000个图模型,每个模型都附有预计算的机器学习模型性能指标。这些数据集涵盖了分类、回归和推荐等多种任务,旨在促进智能RDB到图模型转换方法的研究。
提供机构:
韩国科学技术院(KAIST)
创建时间:
2025-06-02
搜集汇总
数据集介绍

构建方式
RDB2G-Bench数据集的构建基于5个真实世界的关系数据库(RDBs)和12个预测任务,涵盖了分类、回归和推荐等多种任务类型。构建过程分为两个关键步骤:首先选择包含在图形模型中的表和外部键(FK)关系,其次决定如何将每张表的行表示为节点或边。通过这种方法,生成了约50k个图形模型,每个模型都经过严格的约束条件筛选,确保其有效性和实用性。
使用方法
使用RDB2G-Bench数据集时,研究者可以通过预计算的性能指标快速评估其图形建模方法的有效性,而无需重复训练图形神经网络(GNNs)。数据集支持多种评估方式,包括分类、回归和推荐任务的性能比较。此外,数据集还提供了详细的性能统计和运行时数据,帮助研究者全面分析不同图形建模策略的优劣。通过这种方式,研究者可以高效地进行方法优化和比较,推动RDB-to-graph建模领域的研究进展。
背景与挑战
背景概述
RDB2G-Bench是由KAIST和Kumo.AI的研究团队于2025年提出的首个关系数据库(RDB)图建模基准框架。该数据集基于5个真实世界的关系数据库和12个预测任务,构建了约5万种图模型与性能指标的映射关系,旨在解决关系数据库图表示学习领域的关键问题:如何从众多可能的图建模方案中选择最优解。传统启发式方法常导致高达10%的性能差距,而该数据集通过预计算性能指标实现了600倍的评估加速,显著推动了智能RDB图建模方法的发展。
当前挑战
该数据集面临双重挑战:在领域层面,需解决关系数据库异构表间复杂依赖关系的建模问题,不同图建模方案对下游任务性能影响显著差异(如行节点/边表示的建模选择可带来5%性能波动);在构建层面,需处理组合爆炸问题(单个数据库可产生数千种图模型),并克服计算成本瓶颈(原始评估需重复训练图神经网络,消耗超10,400 GPU小时)。此外,任务特异性要求使得同一数据库不同任务需定制化建模方案,增加了通用建模方法的开发难度。
常用场景
经典使用场景
RDB2G-Bench作为首个关系数据库至图建模的基准框架,其经典使用场景聚焦于评估不同图建模策略在多元预测任务中的性能表现。该数据集通过预计算的50k图模型性能指标,支持研究者在不重复训练图神经网络(GNN)的条件下,系统性对比启发式规则、基于动作的搜索算法与LLM驱动方法在12项跨领域任务(如用户点击预测、临床试验结果分类)中的有效性。例如,在rel-avito广告点击率预测任务中,通过对比行转节点(Row2Node)与行转边(Row2Edge)建模的差异,揭示了最优图模型可带来5%的AUC-ROC提升。
解决学术问题
RDB2G-Bench解决了关系数据库图建模领域两大核心学术问题:一是传统启发式规则(如全行转节点AR2N)导致的模型性能次优问题,其性能较最优图模型可下降10%;二是图建模策略评估的高计算成本问题,该数据集通过预计算指标将评估效率提升600倍。此外,其构建的50k图-性能对揭示了跨表依赖捕获的关键模式(如选择性包含外键关系、特定表的边建模),为自动化图建模算法设计提供了理论依据。
实际应用
在实际应用中,RDB2G-Bench的预计算指标显著加速了金融风控、医疗预后等领域的图模型部署。例如,在电商场景下,基于该数据集优化的图模型可精准预测用户-广告交互行为,提升推荐系统转化率;在临床试验数据分析中,通过识别共享子结构(如事件-用户外键必选性),模型能更高效预测研究结果。其支持的九类建模方法(如进化算法、贝叶斯优化)已被应用于降低计算资源消耗,其中贪心逆向搜索(GB)在有限预算下表现突出,适合资源敏感型场景。
数据集最近研究
最新研究方向
在关系数据库(RDB)的图建模领域,RDB2G-Bench数据集的最新研究方向聚焦于智能化的RDB-to-graph建模策略优化。随着图神经网络(GNN)在跨表依赖建模中的优势显现,如何自动选择最优的图结构(如节点/边映射规则、外键关系筛选)成为研究热点。该数据集通过预计算的5万组图-性能配对数据,首次实现了对9种建模方法(包括启发式规则、进化算法和LLM驱动方法)的系统性基准测试,揭示了图模型性能差异可达10%的关键现象。当前前沿探索包括:基于任务感知的动态图建模、面向计算效率的子结构共享机制,以及利用大语言模型进行图结构推理。这些进展对金融风控、医疗知识图谱等需要高效处理复杂关系数据的领域具有显著意义,其600倍的评估加速能力更为实时决策场景提供了技术支撑。
相关研究论文
- 1RDB2G-Bench: A Comprehensive Benchmark for Automatic Graph Modeling of Relational Databases韩国科学技术院(KAIST) · 2025年
以上内容由遇见数据集搜集并总结生成



