five

RDB2G-Bench

收藏
github2025-05-16 更新2025-05-21 收录
下载链接:
https://github.com/chlehdwon/RDB2G-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
RDB2G-Bench是一个用于通过将关系数据库数据转换为图来评估基于图的分析和预测任务的工具包。它涵盖了5个真实世界的关系数据库和12个预测任务。

RDB2G-Bench is a toolkit for evaluating graph-based analysis and prediction tasks by converting relational database data into graphs. It covers 5 real-world relational databases and 12 prediction tasks.
创建时间:
2025-05-16
原始信息汇总

RDB2G-Bench 数据集概述

数据集简介

  • 名称: RDB2G-Bench
  • 类型: 图数据分析与预测任务基准测试工具包
  • 功能: 将关系型数据库数据转换为图结构,用于评估各种分析方法的性能
  • 许可证: MIT License
  • 托管平台: Hugging Face

数据集特点

  • 数据来源: 5个真实世界的关系型数据库
  • 任务数量: 12个预测任务
  • 评估方法: 包括贪婪算法、进化算法、LLM等多种搜索方法

数据集内容

  • 基础数据集: 基于RelBench框架构建
  • 任务类型:
    • 分类与回归任务
    • 推荐任务

使用方法

数据集获取

  • 下载方式: 通过Hugging Face平台获取或使用代码复现

任务执行

分类与回归任务

bash python gnn_node_worker.py --dataset [dataset_name] --task [task_name]

推荐任务

bash python idgnn_link_worker.py --dataset [dataset_name] --task [task_name]

基准测试

bash python run_benchmark.py --dataset rel-f1 --task driver-top3 --method all --result_dir [result_dir]

关键参数

  • --dataset: 使用的RelBench数据集名称(默认:"rel-f1")
  • --task: 执行的任务名称(默认:"driver-top3")
  • --method: 分析方法(all, gnn, ea, greedy, rl, bo)
  • --seed: 随机种子(默认:0)

参考文献

搜集汇总
数据集介绍
main_image_url
构建方式
在关系型数据库与图结构数据融合的研究领域,RDB2G-Bench采用RelBench框架作为技术基底,通过系统化转换机制将5个真实世界的关系型数据库重构为图结构数据。该构建过程严格遵循多实体关系映射原则,采用模式感知的ETL流程实现主外键约束到图节点与边的语义转换,并针对12类预测任务进行特定子图抽取,最终形成兼具关系型数据完备性和图结构表达力的基准数据集。
特点
作为跨模态数据转换的典范,该数据集囊括金融、社交、电商等多元领域的真实业务场景,其核心价值在于提供标准化程度极高的异构数据转换范式。每个子图均保留原始关系数据库的完整属性约束,同时通过动态边权重机制实现时序特征的图嵌入表达。特别设计的12种预测任务覆盖节点分类、链接预测和图回归三大图学习范式,为算法评估提供多维度的验证基准。
使用方法
研究者可通过Hugging Face平台直接加载预处理完成的图数据,或使用项目提供的Python脚本进行自定义转换。基准测试框架支持六类主流分析方法对比,包括图神经网络、进化算法和强化学习等。通过命令行参数灵活配置数据集名称、任务类型和评估方法,run_benchmark.py脚本可自动完成从数据加载到性能评估的全流程,结果文件采用标准化JSON格式存储于指定目录。
背景与挑战
背景概述
RDB2G-Bench是由KAIST数据团队开发的一款专注于关系型数据库至图结构转换的基准测试工具包,其构建基于斯坦福大学RelBench框架。该数据集诞生于图数据分析技术蓬勃发展的时代背景下,旨在解决传统关系型数据在复杂关联分析与预测任务中的局限性。通过整合5个真实世界的关系型数据库和12种预测任务,RDB2G-Bench为研究者提供了评估各类图分析方法的标准化平台,显著推动了跨模态数据转换与图神经网络应用领域的研究进展。
当前挑战
该数据集面临的核心挑战主要体现在两个维度:在领域问题层面,如何精准捕捉关系型数据中隐含的复杂拓扑结构,并有效转化为适合图神经网络处理的表征形式,这直接影响了后续分析任务的准确性;在构建过程中,多源异构数据的模式对齐、动态实体关系的时效性维护,以及评估指标体系的科学设计,均对数据集的可靠性和普适性提出了严峻考验。此外,不同预测任务间的评估标准统一化,也是当前亟待解决的技术难点。
常用场景
经典使用场景
RDB2G-Bench数据集在数据科学和机器学习领域中被广泛用于评估图分析方法在关系数据库转换任务中的性能。通过将五个真实世界的关系数据库转换为图结构数据,该数据集为研究人员提供了一个标准化的测试平台,用于比较不同图分析算法在分类、回归和推荐任务中的表现。
解决学术问题
该数据集解决了关系数据库数据转换为图结构数据后分析方法的性能评估问题。通过提供12种预测任务和多种分析方法(如贪婪算法、进化算法和强化学习),RDB2G-Bench填补了图分析方法在关系数据转换任务中缺乏标准化评估的空白,推动了图分析领域的研究进展。
衍生相关工作
基于RDB2G-Bench数据集,研究者们开发了多种图分析方法,包括基于图神经网络的分类模型和基于强化学习的推荐系统。这些衍生工作进一步扩展了数据集的应用范围,例如在动态图分析和多关系图学习领域取得了显著进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作