4DBInfer
收藏arXiv2024-04-28 更新2024-06-24 收录
下载链接:
https://github.com/awslabs/multi-table-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
4DBInfer是一个用于关系数据库图中心预测建模的四维基准工具箱,它包含了一系列大规模的关系数据库(RDB)数据集和相应的预测任务,旨在为训练和评估提供合适的公共基准。
创建时间:
2024-04-28
原始信息汇总
DBInfer Benchmark (DBB)
DBInfer Benchmark (DBB) 是一组用于测量存储为多表数据的机器学习解决方案的基准测试集。
数据集列表
| 数据集名称 | 任务名称 |
|---|---|
avs |
repeater |
mag |
cite, venue |
diginetica |
ctr, purchase |
retailrocket |
cvr |
seznam |
charge, prepay |
amazon |
rating, purchase, churn |
stackexchange |
churn, upvote |
outbrain-small |
ctr |
数据集格式
从 load_rdb_data 获取的数据集对象属于 DBBRDBDataset 类,包含以下属性:
metadata:RDB 数据集的元数据,包括表结构、关系(主键、外键)、时间列信息等。tables:RDB 表数据。每个表是一个以 NumPy 数组存储的列值集合的字典。tasks:与数据集关联的任务列表。
每个任务是一个 DBBRDBTask 对象,包含以下成员:
metadata:任务元数据,包括预测类型、评估指标等。train_set,validation_set,test_set:与任务关联的训练、验证和测试样本。每个样本可以有异构的输入特征(例如,产品可以有名称和价格),因此样本也存储为 NumPy 数组的字典。
基准测试运行
该仓库提供了多种基准测试的实现,包括流行的表格模型和图神经网络,以及是否使用自动特征工程方法。每个步骤都被模块化为命令行工具。
单表方法
推荐使用预处理数据(使用数据名称 <DATASET>-single)以节省准备工作的努力。
基于深度特征合成的方法
推荐使用预处理数据(使用数据名称 <DATASET>-dfs-<DEPTH>)以节省准备工作的努力。
图神经网络
使用两种图构建算法 r2n 和 r2ne 来展示这种选择的显著性。同样,推荐使用预处理数据(使用数据名称 <DATASET>-<GRAPH_ALGO>)以节省准备工作的努力。



