GRACEFUL synthetic dataset
收藏arXiv2025-03-31 更新2025-04-02 收录
下载链接:
https://github.com/DataManagementLab/Graceful.git
下载链接
链接失效反馈官方服务:
资源简介:
GRACEFUL合成数据集是由达姆施塔特工业大学、微软Gray系统实验室和德国人工智能研究中心创建的,包含超过90,000个UDF查询。该数据集是为了促进UDF查询的成本估计研究而发布的,数据来源于合成的UDF查询,覆盖了20个不同的数据库。
提供机构:
达姆施塔特工业大学,微软Gray系统实验室,德国人工智能研究中心
创建时间:
2025-03-31
搜集汇总
数据集介绍

构建方式
GRACEFUL synthetic dataset的构建基于对现代数据库管理系统(DBMS)中用户定义函数(UDFs)的广泛研究。研究团队通过分析真实生产环境中的UDF使用模式,设计了一个包含90,000多个UDF查询的合成数据集。数据集的生成过程包括随机选择数据库表及其列作为UDF输入,定义包含顺序计算、分支和循环的高层次UDF结构,并最终生成与数据库上下文语义兼容的UDF源代码。为确保语义正确性,研究团队还对数据进行了针对性调整,以匹配生成的UDF逻辑。
特点
GRACEFUL数据集的特点在于其多样性和真实性。数据集涵盖了20个不同的真实世界数据库,包括来自SSB、TPC-H和IMDB等知名基准的数据集。UDF查询的复杂度各异,涉及1到5个连接操作以及0到21个过滤条件。UDF本身的设计也反映了生产环境中常见的模式,包括0到3个分支和循环,10到150个算术或字符串操作,并支持math和numpy等库的调用。此外,数据集还包含了查询的真实执行时间,为研究UDF成本估算提供了宝贵资源。
使用方法
GRACEFUL数据集的主要用途是促进UDF成本估算和查询优化的研究。研究人员可以使用该数据集来训练和评估机器学习模型,特别是那些旨在预测包含UDF的查询执行成本的模型。数据集中的查询可以用于测试模型在未见过的UDF和数据库上的泛化能力。此外,数据集还支持研究UDF在查询计划中的最佳位置决策,如过滤器的上拉或下推优化。使用该数据集时,研究人员应注意其合成性质,并结合真实场景进行验证。
背景与挑战
背景概述
GRACEFUL synthetic dataset是由德国达姆施塔特工业大学、微软Gray Systems Lab和德国人工智能研究中心的研究团队于2025年提出的一个创新性数据集,专注于解决数据库管理系统(DBMS)中用户定义函数(UDF)的成本估算问题。该数据集包含超过90,000个UDF查询,覆盖20个不同的数据库,旨在推动UDF查询优化领域的研究。GRACEFUL的核心研究问题是如何准确预测包含UDF的查询执行成本,从而改进查询优化器的决策能力。这一工作对提升现代DBMS处理复杂UDF查询的效率具有重要影响,特别是在大数据和云计算环境中,UDF的使用日益频繁。
当前挑战
GRACEFUL数据集面临的主要挑战包括:1) UDF成本估算的复杂性:由于UDF可以包含循环、分支和外部库调用等复杂逻辑,传统成本模型难以准确预测其执行开销;2) 零样本泛化能力:模型需要能够处理未见过的UDF代码结构、SQL工作负载和数据集;3) 数据表示难题:如何有效地将UDF的控制流图与查询计划图结合进行联合表示;4) 选择性估计:UDF分支路径的执行频率预测需要结合数据库统计信息。在构建过程中,研究团队还面临生成语义正确的UDF代码、确保数据与UDF逻辑的兼容性,以及创建具有现实代表性的查询工作负载等挑战。
常用场景
经典使用场景
GRACEFUL synthetic dataset在数据库管理系统(DBMS)中主要用于优化包含用户定义函数(UDF)的查询执行计划。通过该数据集,研究人员可以训练和评估机器学习模型,以准确预测UDF的执行成本,从而帮助查询优化器做出更优的决策。例如,在实验中,该数据集被用于验证UDF过滤器的上拉(pull-up)或下推(push-down)策略对查询性能的影响,展示了高达50倍的性能提升。
衍生相关工作
GRACEFUL synthetic dataset衍生了一系列经典研究工作,主要集中在UDF成本估计和查询优化领域。例如,基于该数据集的研究提出了基于图神经网络(GNN)的UDF成本模型,能够泛化到未见过的UDF和数据库。此外,该数据集还启发了关于UDF过滤器上拉/下推策略的研究,以及如何利用数据库统计信息优化UDF执行的其他创新方法。这些工作共同推动了数据库查询优化技术的发展。
数据集最近研究
最新研究方向
近年来,GRACEFUL合成数据集在数据库管理系统(DBMS)领域的研究方向主要集中在用户定义函数(UDF)的成本估计与查询优化。随着数据量的激增和计算需求的多样化,UDF作为扩展DBMS原生功能的关键工具,其执行成本估计成为优化查询性能的核心挑战。前沿研究通过引入基于图神经网络(GNN)的学习成本模型,实现了对UDF执行成本的精准预测,显著提升了包含UDF的查询计划优化效率。例如,通过智能的过滤器上拉/下推决策,查询运行时间可加速高达50倍。热点事件包括与零样本学习技术的结合,使得模型能够泛化至未见过的UDF结构和数据集,推动了跨数据库场景的通用性研究。该数据集的发布为UDF优化领域提供了超过90,000条查询的基准测试资源,对提升现代数据中心的查询处理效率具有深远意义。
相关研究论文
- 1GRACEFUL: A Learned Cost Estimator For UDFs达姆施塔特工业大学,微软Gray系统实验室,德国人工智能研究中心 · 2025年
以上内容由遇见数据集搜集并总结生成



