GRACEFUL synthetic dataset

Name: GRACEFUL synthetic dataset
Creator: 达姆施塔特工业大学，微软Gray系统实验室，德国人工智能研究中心
Published: 2025-03-31 17:09:12
License: 暂无描述

arXiv2025-03-31 更新2025-04-02 收录

下载链接：

https://github.com/DataManagementLab/Graceful.git

下载链接

链接失效反馈

官方服务：

资源简介：

GRACEFUL合成数据集是由达姆施塔特工业大学、微软Gray系统实验室和德国人工智能研究中心创建的，包含超过90,000个UDF查询。该数据集是为了促进UDF查询的成本估计研究而发布的，数据来源于合成的UDF查询，覆盖了20个不同的数据库。

The GRACEFUL synthetic dataset was developed by Technische Universität Darmstadt, Microsoft Gray Systems Lab, and the German Research Center for Artificial Intelligence, and contains over 90,000 UDF queries. This dataset was released to facilitate research on cost estimation for UDF queries, with its data sourced from synthetic UDF queries and covering 20 distinct databases.

提供机构：

达姆施塔特工业大学，微软Gray系统实验室，德国人工智能研究中心

创建时间：

2025-03-31

搜集汇总

数据集介绍

构建方式

GRACEFUL synthetic dataset的构建基于对现代数据库管理系统（DBMS）中用户定义函数（UDFs）的广泛研究。研究团队通过分析真实生产环境中的UDF使用模式，设计了一个包含90,000多个UDF查询的合成数据集。数据集的生成过程包括随机选择数据库表及其列作为UDF输入，定义包含顺序计算、分支和循环的高层次UDF结构，并最终生成与数据库上下文语义兼容的UDF源代码。为确保语义正确性，研究团队还对数据进行了针对性调整，以匹配生成的UDF逻辑。

特点

GRACEFUL数据集的特点在于其多样性和真实性。数据集涵盖了20个不同的真实世界数据库，包括来自SSB、TPC-H和IMDB等知名基准的数据集。UDF查询的复杂度各异，涉及1到5个连接操作以及0到21个过滤条件。UDF本身的设计也反映了生产环境中常见的模式，包括0到3个分支和循环，10到150个算术或字符串操作，并支持math和numpy等库的调用。此外，数据集还包含了查询的真实执行时间，为研究UDF成本估算提供了宝贵资源。

使用方法

GRACEFUL数据集的主要用途是促进UDF成本估算和查询优化的研究。研究人员可以使用该数据集来训练和评估机器学习模型，特别是那些旨在预测包含UDF的查询执行成本的模型。数据集中的查询可以用于测试模型在未见过的UDF和数据库上的泛化能力。此外，数据集还支持研究UDF在查询计划中的最佳位置决策，如过滤器的上拉或下推优化。使用该数据集时，研究人员应注意其合成性质，并结合真实场景进行验证。

背景与挑战

背景概述

GRACEFUL synthetic dataset是由德国达姆施塔特工业大学、微软Gray Systems Lab和德国人工智能研究中心的研究团队于2025年提出的一个创新性数据集，专注于解决数据库管理系统(DBMS)中用户定义函数(UDF)的成本估算问题。该数据集包含超过90,000个UDF查询，覆盖20个不同的数据库，旨在推动UDF查询优化领域的研究。GRACEFUL的核心研究问题是如何准确预测包含UDF的查询执行成本，从而改进查询优化器的决策能力。这一工作对提升现代DBMS处理复杂UDF查询的效率具有重要影响，特别是在大数据和云计算环境中，UDF的使用日益频繁。

当前挑战

GRACEFUL数据集面临的主要挑战包括：1) UDF成本估算的复杂性：由于UDF可以包含循环、分支和外部库调用等复杂逻辑，传统成本模型难以准确预测其执行开销；2) 零样本泛化能力：模型需要能够处理未见过的UDF代码结构、SQL工作负载和数据集；3) 数据表示难题：如何有效地将UDF的控制流图与查询计划图结合进行联合表示；4) 选择性估计：UDF分支路径的执行频率预测需要结合数据库统计信息。在构建过程中，研究团队还面临生成语义正确的UDF代码、确保数据与UDF逻辑的兼容性，以及创建具有现实代表性的查询工作负载等挑战。

常用场景

经典使用场景

GRACEFUL synthetic dataset在数据库管理系统（DBMS）中主要用于优化包含用户定义函数（UDF）的查询执行计划。通过该数据集，研究人员可以训练和评估机器学习模型，以准确预测UDF的执行成本，从而帮助查询优化器做出更优的决策。例如，在实验中，该数据集被用于验证UDF过滤器的上拉（pull-up）或下推（push-down）策略对查询性能的影响，展示了高达50倍的性能提升。

衍生相关工作

GRACEFUL synthetic dataset衍生了一系列经典研究工作，主要集中在UDF成本估计和查询优化领域。例如，基于该数据集的研究提出了基于图神经网络（GNN）的UDF成本模型，能够泛化到未见过的UDF和数据库。此外，该数据集还启发了关于UDF过滤器上拉/下推策略的研究，以及如何利用数据库统计信息优化UDF执行的其他创新方法。这些工作共同推动了数据库查询优化技术的发展。

数据集最近研究