TPC-DS
收藏github2024-11-19 更新2024-11-29 收录
下载链接:
https://github.com/NLQBenchmarks/TPCDS_Benchmark
下载链接
链接失效反馈官方服务:
资源简介:
TPC-DS数据集是一个广泛用于数据仓库性能基准测试的开源数据集,模拟了真实世界零售公司的专有数据。该数据集包含约二十多个表,支持根据客户需求调整数据量。
The TPC-DS dataset is an open-source benchmarking dataset widely used for data warehouse performance testing, which simulates the proprietary data of real-world retail companies. It contains approximately twenty tables and supports adjusting the data volume according to customer requirements.
创建时间:
2024-10-31
原始信息汇总
LLM Text-to-SQL Benchmark
数据集概述
- 数据集名称: LLM Text-to-SQL Benchmark
- 数据集类型: 文本到SQL解决方案的基准测试数据集
- 数据来源: 基于TPC-DS数据集,模拟真实世界零售公司的数据
- 数据规模: 包含约二十多个表,支持多种数据量
- 数据用途: 用于评估和比较文本到SQL解决方案的性能
数据获取
- 获取方式:
- Snowflake、Databricks和Google用户可通过此页面获取数据。
- 大多数数据仓库提供该数据作为公共样本数据集,或提供官方文档/加载器以填充相关表。
问题集
- 问题数量: 40个问题
- 问题复杂度:
- 问题复杂度:
- 低复杂度: 简单选择正确的表,如“Select x”
- 高复杂度: 涉及查询聚合和数学函数
- 模式复杂度:
- 低复杂度: 0-4个表
- 高复杂度: 4个或更多表,多对多连接
- 问题复杂度:
- 问题文件: 问题及其复杂度可在resources/question_dict.json中找到。
KPI和连接定义
- KPI定义: 使用SML语义模型中的元数据定义所有必要的KPI。
- 表关系: 模型描述了所有表之间的关系。
结果评估
- 评估方法: 使用查询结果的完整表相等性进行评估,以避免因查询结果相同但查询不同而导致的误判。
- 示例结果: 示例有效结果查询包含在question dictionary中。
提交模型
- 提交方式: 联系ailink@atscale.com提交模型。
搜集汇总
数据集介绍

构建方式
TPC-DS数据集的构建基于Transaction Processing Performance Council提供的开源决策支持数据集,该数据集广泛用于数据仓库性能基准测试,旨在模拟真实零售公司的专有数据。数据集包含约二十多个表,支持多种数据量级,以满足不同客户需求。在评估Text-to-SQL解决方案时,通常使用较小的数据量级。数据集的获取途径多样,包括Snowflake、Databricks和Google等平台提供的免费方法,以及大多数数据仓库提供的公开样本数据或官方文档/加载器。
使用方法
使用TPC-DS数据集进行Text-to-SQL评估时,首先需获取数据集并加载至目标数据库。随后,根据提供的40个问题集,涵盖不同复杂度的查询需求,进行模型测试。评估方法基于查询结果的完全表等价性,确保评估的准确性和鲁棒性。最终,通过与预期结果的比较,确定模型的性能表现,并可提交至公开的排行榜进行比较和展示。
背景与挑战
背景概述
TPC-DS数据集,由Transaction Processing Performance Council提供,是一个广泛用于数据仓库性能基准测试的开源数据集。该数据集模拟了真实世界零售公司的专有数据,包含约二十多个表,支持多种数据量需求。TPC-DS的创建旨在为数据处理和分析提供一个标准化的测试环境,特别是在文本到SQL解决方案的评估中,其结构和内容为研究者提供了一个“公平竞争”的平台。通过利用TPC-DS数据集,研究者能够在一个统一的输入条件下,对不同的文本到SQL解决方案进行客观、量化的评估和比较。
当前挑战
TPC-DS数据集在构建和应用过程中面临多项挑战。首先,数据集的复杂性体现在其包含的多个表和多样的数据量,这要求文本到SQL解决方案必须具备处理复杂查询和多表连接的能力。其次,数据集中的KPI定义和表间关系需要精确描述,以确保生成的SQL查询准确无误。此外,由于数据集的多样性和动态性,确保所有版本的查询结果一致性也是一个重要挑战。最后,如何在不同的数据库环境中保持查询结果的准确性和一致性,是评估和应用TPC-DS数据集时必须解决的问题。
常用场景
经典使用场景
TPC-DS数据集在自然语言查询转换为SQL(Text-to-SQL)解决方案的评估中扮演了核心角色。该数据集被广泛用于模拟零售公司的真实数据环境,通过其丰富的表结构和数据量,为Text-to-SQL系统提供了复杂且多样化的查询场景。具体而言,TPC-DS数据集支持低到高的问题复杂度和模式复杂度,涵盖了从简单的表选择到涉及多表连接和复杂聚合的高级查询,从而全面评估Text-to-SQL系统的性能和准确性。
解决学术问题
TPC-DS数据集解决了在自然语言处理领域中,如何有效评估和比较Text-to-SQL解决方案的核心问题。通过提供一个标准化的数据环境和一系列复杂度各异的查询问题,该数据集使得研究者能够在同一基准上进行公平的性能比较。这不仅有助于识别现有解决方案的优缺点,还推动了新方法的开发和优化,从而在学术界和工业界都产生了深远的影响。
实际应用
在实际应用中,TPC-DS数据集被广泛用于数据仓库和商业智能系统的性能测试。通过模拟真实世界的零售数据环境,该数据集帮助企业评估和优化其数据处理和查询系统,确保在面对大规模数据和高复杂度查询时仍能保持高效和准确。此外,TPC-DS数据集还被用于培训和验证自然语言处理模型,特别是在Text-to-SQL领域,为开发更智能和用户友好的数据查询工具提供了坚实的基础。
数据集最近研究
最新研究方向
在数据库性能评估领域,TPC-DS数据集的最新研究方向主要集中在自然语言到SQL(Text-to-SQL)转换的解决方案评估上。这一研究方向的兴起源于对大型语言模型(LLMs)在数据库查询中的应用潜力。通过扩展TPC-DS基准,研究人员旨在提供一种客观、量化的方法,以在相同的输入条件下评估和比较不同的Text-to-SQL解决方案。这种研究不仅有助于提升数据库查询的自动化水平,还为数据仓库性能的优化提供了新的视角。
以上内容由遇见数据集搜集并总结生成



