TPC-DS

github2024-11-19 更新2024-11-29 收录

下载链接：

https://github.com/NLQBenchmarks/TPCDS_Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

TPC-DS数据集是一个广泛用于数据仓库性能基准测试的开源数据集，模拟了真实世界零售公司的专有数据。该数据集包含约二十多个表，支持根据客户需求调整数据量。

The TPC-DS dataset is an open-source benchmarking dataset widely used for data warehouse performance testing, which simulates the proprietary data of real-world retail companies. It contains approximately twenty tables and supports adjusting the data volume according to customer requirements.

创建时间：

2024-10-31

原始信息汇总

LLM Text-to-SQL Benchmark

数据集概述

数据集名称: LLM Text-to-SQL Benchmark
数据集类型: 文本到SQL解决方案的基准测试数据集
数据来源: 基于TPC-DS数据集，模拟真实世界零售公司的数据
数据规模: 包含约二十多个表，支持多种数据量
数据用途: 用于评估和比较文本到SQL解决方案的性能

数据获取

获取方式:
- Snowflake、Databricks和Google用户可通过此页面获取数据。
- 大多数数据仓库提供该数据作为公共样本数据集，或提供官方文档/加载器以填充相关表。

问题集

问题数量: 40个问题
问题复杂度:
- 问题复杂度:
  - 低复杂度: 简单选择正确的表，如“Select x”
  - 高复杂度: 涉及查询聚合和数学函数
- 模式复杂度:
  - 低复杂度: 0-4个表
  - 高复杂度: 4个或更多表，多对多连接
问题文件: 问题及其复杂度可在resources/question_dict.json中找到。

KPI和连接定义

KPI定义: 使用SML语义模型中的元数据定义所有必要的KPI。
表关系: 模型描述了所有表之间的关系。

结果评估

评估方法: 使用查询结果的完整表相等性进行评估，以避免因查询结果相同但查询不同而导致的误判。
示例结果: 示例有效结果查询包含在question dictionary中。

提交模型

提交方式: 联系ailink@atscale.com提交模型。

搜集汇总

数据集介绍

构建方式

TPC-DS数据集的构建基于Transaction Processing Performance Council提供的开源决策支持数据集，该数据集广泛用于数据仓库性能基准测试，旨在模拟真实零售公司的专有数据。数据集包含约二十多个表，支持多种数据量级，以满足不同客户需求。在评估Text-to-SQL解决方案时，通常使用较小的数据量级。数据集的获取途径多样，包括Snowflake、Databricks和Google等平台提供的免费方法，以及大多数数据仓库提供的公开样本数据或官方文档/加载器。

使用方法

使用TPC-DS数据集进行Text-to-SQL评估时，首先需获取数据集并加载至目标数据库。随后，根据提供的40个问题集，涵盖不同复杂度的查询需求，进行模型测试。评估方法基于查询结果的完全表等价性，确保评估的准确性和鲁棒性。最终，通过与预期结果的比较，确定模型的性能表现，并可提交至公开的排行榜进行比较和展示。

背景与挑战

背景概述

TPC-DS数据集，由Transaction Processing Performance Council提供，是一个广泛用于数据仓库性能基准测试的开源数据集。该数据集模拟了真实世界零售公司的专有数据，包含约二十多个表，支持多种数据量需求。TPC-DS的创建旨在为数据处理和分析提供一个标准化的测试环境，特别是在文本到SQL解决方案的评估中，其结构和内容为研究者提供了一个“公平竞争”的平台。通过利用TPC-DS数据集，研究者能够在一个统一的输入条件下，对不同的文本到SQL解决方案进行客观、量化的评估和比较。

当前挑战

TPC-DS数据集在构建和应用过程中面临多项挑战。首先，数据集的复杂性体现在其包含的多个表和多样的数据量，这要求文本到SQL解决方案必须具备处理复杂查询和多表连接的能力。其次，数据集中的KPI定义和表间关系需要精确描述，以确保生成的SQL查询准确无误。此外，由于数据集的多样性和动态性，确保所有版本的查询结果一致性也是一个重要挑战。最后，如何在不同的数据库环境中保持查询结果的准确性和一致性，是评估和应用TPC-DS数据集时必须解决的问题。

常用场景

经典使用场景

TPC-DS数据集在自然语言查询转换为SQL（Text-to-SQL）解决方案的评估中扮演了核心角色。该数据集被广泛用于模拟零售公司的真实数据环境，通过其丰富的表结构和数据量，为Text-to-SQL系统提供了复杂且多样化的查询场景。具体而言，TPC-DS数据集支持低到高的问题复杂度和模式复杂度，涵盖了从简单的表选择到涉及多表连接和复杂聚合的高级查询，从而全面评估Text-to-SQL系统的性能和准确性。

解决学术问题

TPC-DS数据集解决了在自然语言处理领域中，如何有效评估和比较Text-to-SQL解决方案的核心问题。通过提供一个标准化的数据环境和一系列复杂度各异的查询问题，该数据集使得研究者能够在同一基准上进行公平的性能比较。这不仅有助于识别现有解决方案的优缺点，还推动了新方法的开发和优化，从而在学术界和工业界都产生了深远的影响。

实际应用

在实际应用中，TPC-DS数据集被广泛用于数据仓库和商业智能系统的性能测试。通过模拟真实世界的零售数据环境，该数据集帮助企业评估和优化其数据处理和查询系统，确保在面对大规模数据和高复杂度查询时仍能保持高效和准确。此外，TPC-DS数据集还被用于培训和验证自然语言处理模型，特别是在Text-to-SQL领域，为开发更智能和用户友好的数据查询工具提供了坚实的基础。

数据集最近研究