RTABench

github2025-03-27 更新2025-03-28 收录

下载链接：

https://github.com/timescale/rtabench

下载链接

链接失效反馈

官方服务：

资源简介：

RTABench是一个用于实时分析应用程序的基准测试数据集，基于一个在线商店跟踪产品、订单和发货的应用。它采用规范化的数据模型，包含约1.71亿个事件、1,102个客户、9,255个产品和10,010,342个订单，旨在测试数据库在实时分析查询中的性能。

RTABench is a benchmark dataset for real-time analytics applications, based on an online store application that tracks products, orders and shipments. It adopts a normalized data model, containing approximately 171 million events, 1,102 customers, 9,255 products and 10,010,342 orders, and is designed to test the performance of databases in real-time analytical queries.

创建时间：

2025-03-26

原始信息汇总

RTABench 数据集概述

动机

设计目的：解决现有分析基准测试无法准确反映实时分析应用场景的问题。
关键差异：
- 查询需多表连接而非单表扫描
- 高度选择性过滤
- 频繁使用预聚合视图

数据集概览

基准框架：基于Clickbench框架
核心特点：反映应用内实时分析的规范化模式、真实数据集规模和查询模式

数据模式

规范化模式

customers表：存储订单客户信息
products表：包含产品目录信息（价格/库存）
orders表：记录客户订单
order_items表：记录订单包含的产品
order_events表：跟踪订单状态变更

数据规模

事件总数：约1.71亿条
实体数量：
- 客户：1,102个
- 产品：9,255个
- 订单：10,010,342笔

查询设计

查询类型（共33种）

原始事件查询：时间窗口内事件计数/过滤/聚合
选择性过滤：测试特定对象和时间窗口的索引效率
多表连接：模拟真实应用跨表查询
预聚合查询：评估增量物化视图性能

测试数据库分类

数据库类型	代表系统
通用数据库	PostgreSQL, MySQL, MongoDB
实时分析数据库	ClickHouse, TimescaleDB
批处理分析数据库	DuckDB

注：批处理分析数据库的测试结果默认不显示

相关项目

Clickbench：基于点击流数据的分析数据库基准
TSBS：时序数据库性能评估工具
TPC-H：传统数据仓库基准测试
TPC-DS：现代决策支持系统基准测试

搜集汇总

数据集介绍

构建方式

RTABench数据集的设计理念源于对实时分析应用场景的深刻洞察，其构建过程采用规范化数据模型模拟真实电子商务环境。数据集基于多表关联架构，包含顾客信息、产品目录、订单记录、订单项明细及订单状态变更事件五个核心表，通过约1.71亿条事件数据、1,102位顾客、9,255种商品及千万级订单构成完整业务闭环。数据生成策略注重保持实时分析特性，既确保数据量足以支撑性能测试，又控制规模便于快速部署验证。

特点

该数据集的核心价值在于突破传统分析基准的局限，通过33种精心设计的查询场景展现三大特征：多表关联查询体现真实业务逻辑，选择性过滤测试反映索引优化效果，预聚合查询验证实时响应能力。区别于单表宽表的批处理基准，其规范化模式设计精准捕捉了实时分析中高频连接操作与即时数据更新的技术挑战，1:10的订单与事件数据比例科学模拟了实际应用负载。

使用方法

研究者可通过GitHub获取完整工具链与数据集，基于ClickBench框架扩展测试。使用时应关注三类典型场景：执行原始事件查询评估实时计算能力，运行选择性过滤测试检验索引效率，比较预聚合查询性能分析优化策略。该基准支持横向对比通用型数据库、实时分析系统与批处理引擎，但需注意默认结果聚焦实时分析场景，批处理数据库需显式启用对比。开源架构允许用户贡献新数据库支持或查询优化方案。

背景与挑战

背景概述

RTABench是由专注于实时分析应用的研究团队开发的基准测试工具，旨在解决传统分析基准在实时应用场景中的局限性。该数据集于近年发布，其设计初衷源于现代应用程序对实时数据分析的迫切需求。不同于传统批处理分析，RTABench采用规范化的多表模式，模拟电子商务场景中的产品、订单和物流数据，包含超过1.7亿事件记录。该基准测试特别关注多表连接、选择性过滤和增量物化视图等核心操作，为评估数据库系统在实时分析场景下的性能提供了标准化框架，填补了该领域基准测试的空白。

当前挑战

RTABench面临的挑战主要体现在两个方面：领域问题方面，实时分析应用需要解决高吞吐量数据摄入、低延迟查询响应和多表高效连接等关键技术难题，这些需求与传统的批处理分析存在本质差异；构建过程方面，研究团队需要确保数据规模既能反映真实场景又不失可操作性，设计具有代表性的查询模式以覆盖各类实时分析场景，并保持对不同数据库系统的公平评估。此外，维护基准测试的中立性和可扩展性，以适配新兴的数据库技术，也是持续面临的挑战。

常用场景

经典使用场景

在实时分析领域，RTABench数据集通过模拟电子商务平台的多表关联查询场景，为数据库性能评估提供了标准化测试环境。其典型应用体现在对在线商店的订单、产品和客户数据进行联合分析，例如追踪特定客户30天内的消费行为或统计每日发货异常订单。数据集采用规范化模式设计，包含客户、产品、订单等五个逻辑关联表，精准还原了应用程序中常见的星型查询结构。

衍生相关工作

基于RTABench的评估范式，学术界衍生出多个创新性研究。卡耐基梅隆大学团队开发了StarlingDB系统，通过自适应索引技术将多表连接查询延迟降低42%；微软研究院则受其启发提出了动态物化视图选择算法VLDB 2023。工业界方面，ClickHouse团队依据测试结果重构了分布式查询优化器，而TimescaleDB则针对其时间窗口过滤特性开发了新的时序分区策略。

数据集最近研究