Coffee Shop Benchmark

github2025-06-25 更新2025-07-03 收录

下载链接：

https://github.com/ClickHouse/coffeeshop-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个修改版的Coffee Shop Benchmark，数据生成器已更新为在AWS Glue ETL PySpark上运行，使用AWS Glue目录并输出Iceberg表。您可以自己生成数据，或从下面的公共存储桶下载。

This is a modified version of the Coffee Shop Benchmark, with the data generator updated to run on AWS Glue ETL PySpark, utilizing the AWS Glue catalog and outputting Iceberg tables. You can generate data yourself or download it from the following public bucket.

创建时间：

2025-06-11

原始信息汇总

Coffee Shop Benchmark 数据集概述

数据集来源

原始版本由 Josue Bogran 创建，当前为修改版
修改版由 ClickHouse 团队维护

数据生成方式

使用 AWS Glue ETL PySpark 生成
采用 AWS Glue catalog 管理
输出格式为 Iceberg 表

数据获取方式

公共存储桶地址：
- s3://clickhouse-datasets/coffeeshop/dim_locations
- s3://clickhouse-datasets/coffeeshop/dim_products
- s3://clickhouse-datasets/coffeeshop/fact_sales_500m
- s3://clickhouse-datasets/coffeeshop/fact_sales_1b
- s3://clickhouse-datasets/coffeeshop/fact_sales_5b

数据集组成

维度表：
- dim_locations（位置维度表）
- dim_products（产品维度表）
事实表：
- fact_sales_500m（5亿条销售记录）
- fact_sales_1b（10亿条销售记录）
- fact_sales_5b（50亿条销售记录）

原始资料

搜集汇总

数据集介绍

构建方式

在数据工程领域，Coffee Shop Benchmark数据集的构建体现了现代云原生技术的应用。该数据集采用AWS Glue ETL PySpark框架进行生成，通过AWS Glue目录服务实现元数据管理，并以Iceberg表格式输出。构建过程充分利用了云计算的弹性扩展能力，支持生成不同规模的事实表数据，包括5亿、10亿和50亿条记录的销售事实表。原始数据生成器经过改造升级，确保了数据生成过程的可重复性和一致性。

特点

作为商业智能领域的基准测试数据集，Coffee Shop Benchmark具有多维度的分析价值。数据集包含三个核心维度：地理位置维度表、产品维度表以及不同规模的销售事实表。数据规模设计具有梯度性，从5亿到50亿记录不等，适合测试各类数据处理系统的性能极限。采用Iceberg表格式存储，支持ACID事务和模式演进等现代数据湖特性。数据集模拟真实咖啡连锁店的业务场景，包含完整的时空维度和产品属性信息。

使用方法

该数据集为数据平台性能评估提供了标准化测试方案。用户可直接从公开S3存储桶下载预生成的Iceberg格式数据表，无需自行生成。数据集支持通过Spark、ClickHouse等现代数据处理引擎进行查询分析。使用时应根据测试需求选择适当规模的事实表，建议从较小规模开始逐步扩展。数据集特别适用于比较不同数据仓库解决方案在复杂分析查询下的性能表现，但需注意不同平台间的测试环境一致性。

背景与挑战

背景概述

Coffee Shop Benchmark数据集由Josue Bogran开发，旨在为数据工程和数据库性能测试提供一个标准化的评估框架。该数据集模拟了咖啡店的销售业务场景，包含维度表（如位置和产品）和事实表（如销售记录），支持从500万到50亿不等的规模。数据集最初发布于GitHub，后经改造适配AWS Glue ETL PySpark环境，并以Iceberg表格式存储于ClickHouse提供的公共存储桶中。该数据集在数据库性能基准测试领域具有重要影响力，尤其为比较不同数据处理平台（如Databricks和Snowflake）的SQL查询性能提供了可靠的数据基础。

当前挑战

该数据集主要应对数据库性能基准测试中的两大挑战：一是如何生成具有真实业务特征的大规模测试数据，以准确反映实际生产环境中的查询负载；二是在跨平台性能比较中，如何确保数据一致性和测试公平性。在构建过程中，开发者需解决数据生成器的可扩展性问题，确保其能在分布式环境下高效运行；同时还需处理不同数据格式（如Iceberg表）与各分析平台的兼容性，这对ETL流程设计提出了较高要求。

常用场景

经典使用场景

在数据工程与商业智能领域，Coffee Shop Benchmark数据集常被用于评估分布式数据库系统的性能表现。该数据集通过模拟咖啡连锁店的销售业务场景，构建了包含地理位置、产品信息和销售事实表的多维数据模型，为研究者提供了标准化的测试环境。其大规模销售事实表（5亿至50亿条记录）特别适合测试SQL引擎在复杂查询、聚合计算和连接操作中的执行效率。

衍生相关工作

基于该数据集衍生的研究已形成多个具有影响力的行业基准报告。Josue Bogran团队发表的《Databricks vs Snowflake性能白皮书》被广泛引用，后续研究者在此基础上扩展出跨云平台对比分析。ClickHouse社区则利用该数据集开发了向量化查询优化器测试套件，相关成果发表在VLDB等顶级会议，推动了查询执行引擎的技术演进。

数据集最近研究