Coffee Shop Benchmark

github2025-06-25 更新2025-06-26 收录

下载链接：

https://github.com/sdairs/coffeeshop-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个修改版的Coffee Shop Benchmark，数据生成器已更新为在AWS Glue ETL PySpark上运行，使用AWS Glue目录并输出Iceberg表。您可以从公共存储桶下载数据。

This is a modified version of the Coffee Shop Benchmark. The data generator has been updated to run on AWS Glue ETL PySpark, utilizing the AWS Glue Data Catalog and outputting Iceberg tables. You can download the dataset from the public storage bucket.

创建时间：

2025-06-11

原始信息汇总

Coffee Shop Benchmark 数据集概述

数据集来源

本数据集是Josue Bogran的Coffee Shop Benchmark的修改版本
由sdairs/coffeeshop-benchmark维护

数据生成方式

更新后的数据生成器可在AWS Glue ETL PySpark上运行
使用AWS Glue catalog
输出Iceberg表格式

数据获取方式

数据以Iceberg表形式存储在公共S3存储桶中：

s3://clickhouse-datasets/coffeeshop/dim_locations s3://clickhouse-datasets/coffeeshop/dim_products s3://clickhouse-datasets/coffeeshop/fact_sales_500m s3://clickhouse-datasets/coffeeshop/fact_sales_1b s3://clickhouse-datasets/coffeeshop/fact_sales_5b

存储桶由ClickHouse提供

数据集内容

包含以下表：

dim_locations（位置维度表）
dim_products（产品维度表）
fact_sales_500m（5亿条销售事实表）
fact_sales_1b（10亿条销售事实表）
fact_sales_5b（50亿条销售事实表）

原始基准测试结果说明

包含从原始LinkedIn帖子中提取的Snowflake和Databricks结果
结果已从图像中提取并存入文件以便重新绘制
原始结果与当前存储库中结果的差异可能来自人工提取时的误差

致谢

原始创意和代码由Josue Bogran提供：

搜集汇总

数据集介绍

构建方式

在商业智能分析领域，Coffee Shop Benchmark数据集通过现代化数据工程架构实现了技术升级。该数据集采用AWS Glue ETL PySpark框架进行重构，利用Glue数据目录实现元数据管理，最终输出为Iceberg表格式。数据生成器支持自定义规模的数据生产，同时提供预生成的基准数据集供直接使用，包含维度表与不同规模的事实表，完整呈现咖啡零售业务场景的数据关系。

使用方法

研究人员可通过访问指定的公共S3存储桶获取预生成的Iceberg格式数据集，包含dim_locations、dim_products等维度表及不同规模的事实表。数据集支持直接加载至兼容Iceberg的数据分析平台进行查询性能测试，也可通过AWS Glue重新生成定制化数据。使用时应关注原始基准测试的方法论说明，确保结果对比的准确性，必要时可参考作者LinkedIn文章中的技术细节。

背景与挑战

背景概述

Coffee Shop Benchmark数据集由Josue Bogran开发，旨在为数据工程和数据库性能测试提供一个标准化的评估框架。该数据集模拟了咖啡店的销售业务场景，包含维度表和事实表，可用于测试不同数据处理系统（如ClickHouse、Snowflake和Databricks）的查询性能和扩展能力。数据集通过AWS Glue ETL PySpark生成，并以Iceberg表格式存储，体现了现代数据湖架构的技术趋势。其核心研究问题聚焦于大规模数据环境下SQL引擎的执行效率比较，为数据仓库选型和技术决策提供了实证依据。

当前挑战

该数据集主要解决数据库性能基准测试领域的两个关键挑战：一是缺乏贴近真实业务场景且可扩展的标准测试数据集，二是跨平台性能比较的客观性难以保证。在构建过程中，开发者面临数据生成逻辑的复杂性挑战，需要平衡数据规模增长与业务规则合理性；同时，确保Iceberg表格式在不同计算引擎间的兼容性也增加了技术实现难度。原始基准测试结果的可复现性亦受限于不同云平台资源配置差异，这对跨系统性能对比的公正性提出了更高要求。

常用场景

经典使用场景

在数据工程与商业智能领域，Coffee Shop Benchmark数据集以其模拟真实咖啡店销售场景的特性，成为评估分布式数据库性能的黄金标准。该数据集通过维度表（如地理位置、产品信息）与事实表（如不同规模的销售记录）的关联，精准复现了零售业多表联查、聚合计算等典型操作场景，为比较Snowflake、Databricks等云数据平台的查询效率提供了标准化测试环境。其500M至5B的梯度数据规模设计，尤其适合检验系统在数据量激增时的线性扩展能力。

解决学术问题

该数据集有效解决了分布式系统研究中基准测试缺乏行业针对性的痛点。学术界长期依赖TPC等通用基准，难以反映零售行业特有的星型模型查询负载。通过提供包含时间序列销售数据、产品维度层级和空间分布信息的结构化数据集，研究者能够深入探究分区策略、索引优化、向量化执行等技术在真实业务场景下的表现差异。其明确的模式定义与可复现的数据生成逻辑，为数据仓库性能评估建立了新的方法论范式。

实际应用

企业级用户将该数据集作为云服务选型的关键评估工具。零售连锁企业通过模拟门店销售分析、季节性促销预测等实际业务查询，对比不同云数据平台在混合负载下的响应速度与成本效益。咨询公司则利用其标准化特性，为客户提供跨平台性能基准报告。数据集与AWS Glue、Iceberg等现代数据栈的深度集成，进一步推动了其在数据湖仓一体化架构评估中的应用。

数据集最近研究