five

NeurBench

收藏
arXiv2025-03-18 更新2025-03-20 收录
下载链接:
https://github.com/neurdb/neurbench
下载链接
链接失效反馈
官方服务:
资源简介:
NeurBench是由新加坡国立大学等机构提出的一种新型基准测试套件,旨在通过引入可测量和控制的数据和工作负载漂移,对学习型数据库组件进行系统的性能评估。该套件可以模拟现实世界中的数据和工作负载漂移,生成具有特定漂移程度的 数据和工作负载,以评估不同学习型数据库组件在各种漂移场景下的性能。NeurBench包含一个漂移感知的数据和工作负载生成框架,能够有效合成漂移的数据和工作负载,同时保持其内在相关性。

NeurBench is a novel benchmark suite proposed by institutions including the National University of Singapore and other research institutions. It aims to conduct systematic performance evaluations of learned database components by introducing measurable and controllable data and workload drift. The suite can simulate real-world data and workload drift, and generate data and workloads with specific drift degrees to evaluate the performance of different learned database components across various drift scenarios. NeurBench includes a drift-aware data and workload generation framework that can effectively synthesize drifted data and workloads while preserving their inherent correlations.
提供机构:
新加坡国立大学,浙江大学,北京理工大学
创建时间:
2025-03-18
搜集汇总
数据集介绍
main_image_url
构建方式
NeurBench数据集的构建基于一种创新的漂移因子模型,该模型通过引入漂移因子来量化数据和负载的漂移。具体而言,数据集通过一个基于去噪扩散概率模型(DDPM)的生成框架来生成漂移数据和负载。该框架首先使用基础生成模型学习原始数据和负载的分布,然后通过独立的漂移模块引导生成具有特定漂移程度的数据和负载,同时保持其内在的相关性。这种生成方式确保了漂移数据的可控性和真实性,能够模拟现实世界中的漂移场景。
特点
NeurBench数据集的主要特点在于其能够系统性地评估学习型数据库组件在不同漂移场景下的性能。数据集通过漂移因子模型实现了对数据和负载漂移的精确控制,能够生成从轻微到严重的多种漂移程度的数据和负载。此外,数据集保留了数据和负载的内在相关性,确保了生成的漂移数据具有现实世界的代表性。这使得NeurBench能够为学习型数据库组件的适应性评估提供全面的实验环境。
使用方法
NeurBench数据集的使用方法主要包括三个步骤:首先,用户指定所需的漂移因子,生成相应的漂移数据和负载;其次,使用生成的漂移数据和负载对学习型数据库组件进行训练和初始化;最后,在固定的测试集上评估组件的性能。通过重复这一过程,用户可以构建多个漂移场景,并比较不同漂移程度下组件的性能表现。NeurBench还支持灵活的实验设置,用户可以选择使用漂移或原始数据进行训练和测试,从而深入分析学习型数据库组件在不同漂移条件下的表现。
背景与挑战
背景概述
NeurBench是由新加坡国立大学、浙江大学和北京理工大学的Zhanhao Zhao、Gang Chen、Haotian Gao等研究人员于2025年提出的一个基准测试套件,旨在评估在数据和工作负载漂移场景下学习的数据库组件的性能。随着数据库系统中机器学习技术的广泛应用,学习型数据库组件(如学习型查询优化器、学习型索引和学习型并发控制)逐渐成为研究热点。然而,现有的基准测试工具在处理数据和工作负载漂移时往往过于简化,无法全面评估这些组件在不同漂移场景下的表现。NeurBench通过引入可量化和可控的漂移因子,提出了一种系统化的漂移建模方法,能够生成具有真实漂移特征的数据和工作负载,从而为学习型数据库组件的性能评估提供了更为全面的框架。该数据集在数据库系统领域具有重要的影响力,推动了学习型数据库组件在动态环境中的适应性研究。
当前挑战
NeurBench面临的挑战主要体现在两个方面。首先,数据和工作负载漂移的复杂性使得如何有效量化漂移成为一个关键问题。数据库中的数据漂移通常由插入、更新和删除操作引起,而工作负载漂移则涉及查询模式和事务到达率的变化。现有的基准测试工具往往通过简单的随机采样或直接删除数据来模拟漂移,无法准确反映真实场景中的漂移特征。其次,生成具有真实漂移特征的数据和工作负载时,如何保持数据的内在相关性也是一个重要挑战。例如,在电商数据库中,用户属性(如年龄、地理位置)与购买行为(如产品类别、消费模式)之间存在复杂的关联关系。NeurBench通过引入基于扩散模型的漂移生成框架,解决了这些挑战,但如何在更广泛的漂移场景中保持数据的一致性和相关性仍需进一步研究。
常用场景
经典使用场景
NeurBench数据集主要用于评估在数据和工作负载漂移情况下的学习型数据库组件的性能。通过引入可量化和可控的漂移因子,NeurBench能够生成具有不同漂移程度的数据和工作负载,从而为学习型查询优化器、学习型索引和学习型并发控制等组件提供系统化的性能评估。其经典使用场景包括在模拟真实世界漂移的情况下,测试这些组件在不同漂移场景下的适应性和鲁棒性。
解决学术问题
NeurBench解决了现有基准测试工具在处理数据和工作负载漂移时的局限性。传统基准测试工具往往忽视或简化了漂移的处理,无法全面评估学习型数据库组件在多种漂移场景下的表现。NeurBench通过引入漂移因子,量化了数据和工作负载的漂移程度,并提出了一个漂移感知的数据和工作负载生成框架,能够有效模拟真实世界的漂移,同时保留数据和工作负载的内在相关性。这一创新使得研究人员能够更全面地评估学习型数据库组件在动态环境中的性能,推动了数据库系统与机器学习技术的深度融合。
衍生相关工作
NeurBench的提出衍生了一系列相关研究工作,特别是在学习型数据库组件的性能评估和优化领域。基于NeurBench的漂移因子模型,研究人员开发了多种改进的学习型查询优化器、学习型索引和学习型并发控制算法。例如,一些研究通过引入更复杂的漂移检测和自适应机制,进一步提升了学习型数据库组件在动态环境中的性能。此外,NeurBench的漂移感知生成框架也为其他领域的数据生成任务提供了新的思路,推动了基于扩散模型的数据生成技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作