RELBENCH
收藏arXiv2024-07-29 更新2024-07-31 收录
下载链接:
https://relbench.stanford.edu
下载链接
链接失效反馈官方服务:
资源简介:
RELBENCH是由斯坦福大学创建的一个公共基准数据集,用于评估图神经网络在关系数据库上的预测任务。该数据集涵盖了电子商务、社交平台、医疗和体育等多个领域,包含从74K到41M不等的实体数量,以及3到15个表和15到140个列的多样结构。数据集的创建过程包括将关系数据转换为图表示,并使用深度表格模型提取节点特征。RELBENCH旨在解决关系数据库中预测任务的自动化问题,通过提供标准化的数据库和任务,支持研究者开发和比较新的关系深度学习方法。
RELBENCH is a public benchmark dataset created by Stanford University, designed to evaluate graph neural networks on prediction tasks over relational databases. This dataset covers multiple domains including e-commerce, social platforms, healthcare, sports and other fields. It boasts diverse structural configurations, with entity counts ranging from 74K to 41M, alongside 3 to 15 tables and 15 to 140 columns. The development pipeline of RELBENCH involves converting relational data into graph-based representations and extracting node features using deep tabular models. RELBENCH aims to address the automation of prediction tasks in relational databases, providing standardized databases and benchmark tasks to support researchers in developing and comparing novel relational deep learning approaches.
提供机构:
斯坦福大学
创建时间:
2024-07-29
搜集汇总
数据集介绍

构建方式
RELBENCH 数据集通过将关系数据库转换为图表示,并使用图神经网络(GNN)进行预测任务。每个数据库包含多个表格,通过主键和外键关系连接。数据集包含来自电子商务、问答平台、医疗和体育等多个领域的数据库,涵盖从 74K 到 41M 个实体的不同规模,时间跨度从 2 周到 55 年。每个数据库都附带多个预测任务,包括实体分类/回归和推荐任务。
特点
RELBENCH 数据集的特点包括:1) 多样化的领域和规模:数据集覆盖电子商务、社交、医疗和体育等多个领域,规模从 74K 到 41M 个实体不等。2) 丰富的任务类型:包含实体分类、实体回归和推荐任务,每个任务都针对现实世界的实际问题。3) 时空结构:数据库包含时间戳信息,允许模型在预测时考虑时间因素。4) 开放式软件:提供 RELBENCH Python 包、RDL 开源实现和公共排行榜。
使用方法
使用 RELBENCH 数据集进行深度学习模型训练和评估。1) 数据加载:使用 RELBENCH Python 包轻松加载数据库和任务。2) 模型训练:使用 RDL 开源实现训练模型,包括将数据转换为图形式和 GNN 训练。3) 模型评估:使用标准化分割和评估指标评估模型性能,并通过公共排行榜跟踪进度。4) 结果分析:与手动特征工程方法进行比较,以验证 RDL 的有效性。
背景与挑战
背景概述
在数据库管理系统中,关系型数据库因其表格存储结构和易于维护的特点,被广泛应用于电子商务、社交媒体、银行系统、医疗保健、制造业和开源科学仓库等领域。然而,这些数据库中丰富的关系信息往往被忽视,因为现有的模型架构无法处理多样化的数据库结构。数据通常被“扁平化”为单一表格,并经过手动特征工程处理,以便使用标准的表格模型进行分析。这种处理方式导致预测信号的大量损失,并需要频繁的数据提取流程,增加了软件的复杂性。为了充分利用实体之间关系的预测信号,一种新的提议是将关系数据重新表示为精确的图表示,每个实体作为一个节点,主外键链接作为边,并使用深度表格模型提取节点特征,这种方法称为关系深度学习(RDL)。图表示允许图神经网络(GNN)作为预测模型。RDL是第一个具有端到端可学习能力的神经网络模型,可以访问关系数据库中所有可能的预测信号,并有可能解锁新的预测能力级别。为了支持关系深度学习的研究,RELBENCH数据集被创建,它是一个公共基准,用于解决使用图神经网络的关系数据库中的预测任务。RELBENCH提供了跨越不同领域和规模的数据和任务,旨在成为未来研究的基石。RELBENCH为关系深度学习提供了基础设施,包括标准化的基准数据库和任务,RDL的初始实现,以及一个公开的排行榜来跟踪进度。
当前挑战
尽管RELBENCH数据集提供了丰富的关系数据,但在实际应用中仍存在一些挑战。首先,将关系数据转换为图表示需要精确的节点和边定义,以及有效的特征提取方法。其次,GNN模型的训练需要大量的计算资源和时间,特别是在处理大规模数据集时。此外,RDL模型在回归任务上的性能不如分类任务,需要进一步研究和改进输出头的设计。最后,为了使RDL更加实用,需要开发可扩展的批处理采样器,以便在训练时只加载数据库的一部分,并支持完全归纳的链接预测,即预测训练期间未见过的实体对。这些挑战需要进一步的研究和创新来解决,以便充分利用RDL的潜力。
常用场景
经典使用场景
在关系数据库中进行预测任务时,RELBENCH是一个公共基准,它利用图神经网络来解决这些问题。该数据集提供了涵盖不同领域和规模的数据和任务,旨在为未来的研究提供基础性基础设施。通过将关系数据转换为精确的图表示,RELBENCH使得图神经网络可以用于预测模型,从而充分利用实体间的关系信息。RELBENCH在解决预测任务方面表现出色,同时减少了人工工作量,为关系数据库的预测任务提供了新的研究机会。
实际应用
RELBENCH在实际应用中具有广泛的应用场景。例如,在电子商务领域,RELBENCH可以用于预测客户流失、推荐商品等任务。在医疗领域,RELBENCH可以用于预测临床试验的成果、推荐治疗方案等。此外,RELBENCH还可以应用于社交网络、体育赛事分析等领域。通过利用图神经网络进行预测,RELBENCH能够提供更准确、更有效的预测结果,为相关领域的发展提供支持。
衍生相关工作
RELBENCH的提出和应用促进了关系深度学习领域的研究。它为关系深度学习提供了标准化的基准数据集和任务,使得研究人员可以更方便地比较和评估不同的方法。此外,RELBENCH还提供了一个开源的实现,使得研究人员可以在此基础上进行进一步的改进和创新。这些相关工作进一步推动了关系深度学习领域的发展,并为解决关系数据库中的预测任务提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



