GRACEFUL synthetic dataset

Name: GRACEFUL synthetic dataset
Creator: 达姆施塔特工业大学，微软Gray系统实验室，德国人工智能研究中心
Published: 2025-03-31 17:09:12
License: 暂无描述

arXiv2025-03-31 更新2025-04-02 收录

下载链接：

https://github.com/DataManagementLab/Graceful.git

下载链接

链接失效反馈

官方服务：

资源简介：

GRACEFUL合成数据集是由达姆施塔特工业大学、微软Gray系统实验室和德国人工智能研究中心创建的，包含超过90,000个UDF查询。该数据集是为了促进UDF查询的成本估计研究而发布的，数据来源于合成的UDF查询，覆盖了20个不同的数据库。

提供机构：

达姆施塔特工业大学，微软Gray系统实验室，德国人工智能研究中心

创建时间：

2025-03-31

搜集汇总

数据集介绍

构建方式

GRACEFUL synthetic dataset的构建基于对现代数据库管理系统（DBMS）中用户定义函数（UDFs）的广泛研究。研究团队通过分析真实生产环境中的UDF使用模式，设计了一个包含90,000多个UDF查询的合成数据集。数据集的生成过程包括随机选择数据库表及其列作为UDF输入，定义包含顺序计算、分支和循环的高层次UDF结构，并最终生成与数据库上下文语义兼容的UDF源代码。为确保语义正确性，研究团队还对数据进行了针对性调整，以匹配生成的UDF逻辑。

特点

GRACEFUL数据集的特点在于其多样性和真实性。数据集涵盖了20个不同的真实世界数据库，包括来自SSB、TPC-H和IMDB等知名基准的数据集。UDF查询的复杂度各异，涉及1到5个连接操作以及0到21个过滤条件。UDF本身的设计也反映了生产环境中常见的模式，包括0到3个分支和循环，10到150个算术或字符串操作，并支持math和numpy等库的调用。此外，数据集还包含了查询的真实执行时间，为研究UDF成本估算提供了宝贵资源。

使用方法

GRACEFUL数据集的主要用途是促进UDF成本估算和查询优化的研究。研究人员可以使用该数据集来训练和评估机器学习模型，特别是那些旨在预测包含UDF的查询执行成本的模型。数据集中的查询可以用于测试模型在未见过的UDF和数据库上的泛化能力。此外，数据集还支持研究UDF在查询计划中的最佳位置决策，如过滤器的上拉或下推优化。使用该数据集时，研究人员应注意其合成性质，并结合真实场景进行验证。

背景与挑战

背景概述

GRACEFUL synthetic dataset是由德国达姆施塔特工业大学、微软Gray Systems Lab和德国人工智能研究中心的研究团队于2025年提出的一个创新性数据集，专注于解决数据库管理系统(DBMS)中用户定义函数(UDF)的成本估算问题。该数据集包含超过90,000个UDF查询，覆盖20个不同的数据库，旨在推动UDF查询优化领域的研究。GRACEFUL的核心研究问题是如何准确预测包含UDF的查询执行成本，从而改进查询优化器的决策能力。这一工作对提升现代DBMS处理复杂UDF查询的效率具有重要影响，特别是在大数据和云计算环境中，UDF的使用日益频繁。

当前挑战

GRACEFUL数据集面临的主要挑战包括：1) UDF成本估算的复杂性：由于UDF可以包含循环、分支和外部库调用等复杂逻辑，传统成本模型难以准确预测其执行开销；2) 零样本泛化能力：模型需要能够处理未见过的UDF代码结构、SQL工作负载和数据集；3) 数据表示难题：如何有效地将UDF的控制流图与查询计划图结合进行联合表示；4) 选择性估计：UDF分支路径的执行频率预测需要结合数据库统计信息。在构建过程中，研究团队还面临生成语义正确的UDF代码、确保数据与UDF逻辑的兼容性，以及创建具有现实代表性的查询工作负载等挑战。

常用场景

经典使用场景

GRACEFUL synthetic dataset在数据库管理系统（DBMS）中主要用于优化包含用户定义函数（UDF）的查询执行计划。通过该数据集，研究人员可以训练和评估机器学习模型，以准确预测UDF的执行成本，从而帮助查询优化器做出更优的决策。例如，在实验中，该数据集被用于验证UDF过滤器的上拉（pull-up）或下推（push-down）策略对查询性能的影响，展示了高达50倍的性能提升。

衍生相关工作

GRACEFUL synthetic dataset衍生了一系列经典研究工作，主要集中在UDF成本估计和查询优化领域。例如，基于该数据集的研究提出了基于图神经网络（GNN）的UDF成本模型，能够泛化到未见过的UDF和数据库。此外，该数据集还启发了关于UDF过滤器上拉/下推策略的研究，以及如何利用数据库统计信息优化UDF执行的其他创新方法。这些工作共同推动了数据库查询优化技术的发展。

数据集最近研究