five

4DBInfer

收藏
arXiv2024-04-28 更新2024-06-24 收录
下载链接:
https://github.com/awslabs/multi-table-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
4DBInfer是一个用于关系数据库图中心预测建模的四维基准工具箱,它包含了一系列大规模的关系数据库(RDB)数据集和相应的预测任务,旨在为训练和评估提供合适的公共基准。
创建时间:
2024-04-28
原始信息汇总

DBInfer Benchmark (DBB)

DBInfer Benchmark (DBB) 是一组用于测量存储为多表数据的机器学习解决方案的基准测试集。

数据集列表

数据集名称 任务名称
avs repeater
mag cite, venue
diginetica ctr, purchase
retailrocket cvr
seznam charge, prepay
amazon rating, purchase, churn
stackexchange churn, upvote
outbrain-small ctr

数据集格式

load_rdb_data 获取的数据集对象属于 DBBRDBDataset 类,包含以下属性:

  • metadata:RDB 数据集的元数据,包括表结构、关系(主键、外键)、时间列信息等。
  • tables:RDB 表数据。每个表是一个以 NumPy 数组存储的列值集合的字典。
  • tasks:与数据集关联的任务列表。

每个任务是一个 DBBRDBTask 对象,包含以下成员:

  • metadata:任务元数据,包括预测类型、评估指标等。
  • train_set, validation_set, test_set:与任务关联的训练、验证和测试样本。每个样本可以有异构的输入特征(例如,产品可以有名称和价格),因此样本也存储为 NumPy 数组的字典。

基准测试运行

该仓库提供了多种基准测试的实现,包括流行的表格模型和图神经网络,以及是否使用自动特征工程方法。每个步骤都被模块化为命令行工具。

单表方法

推荐使用预处理数据(使用数据名称 <DATASET>-single)以节省准备工作的努力。

基于深度特征合成的方法

推荐使用预处理数据(使用数据名称 <DATASET>-dfs-<DEPTH>)以节省准备工作的努力。

图神经网络

使用两种图构建算法 r2nr2ne 来展示这种选择的显著性。同样,推荐使用预处理数据(使用数据名称 <DATASET>-<GRAPH_ALGO>)以节省准备工作的努力。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作