five

TPC-DS

收藏
github2024-04-30 更新2024-05-31 收录
下载链接:
https://github.com/BlueGranite/tpc-ds-dataset-generator
下载链接
链接失效反馈
官方服务:
资源简介:
TPC-DS是一个行业基准,该数据集也适用于POCs、演示和性能测试。TPC-DS生成器的一个优点是它支持从1GB到100TB大小不等的数据集。数据模型为星型模式,包含一些雪花表。

TPC-DS is an industry benchmark, and this dataset is also suitable for POCs, demonstrations, and performance testing. One advantage of the TPC-DS generator is its support for datasets ranging in size from 1GB to 100TB. The data model follows a star schema, incorporating some snowflake tables.
创建时间:
2020-03-06
原始信息汇总

TPC-DS数据集生成器概述

数据集描述

  • 目的:使用Databricks性能测试框架生成TPC-DS数据集,主要用于Spark SQL的性能测试、POCs、演示和性能测试。
  • 数据规模:支持从1GB到100TB的数据集大小。
  • 数据模型:采用星型模式,包含一些雪花表。

数据集特点

  • 文件格式支持:除了支持分隔符文件外,还支持如parquet等其他文件格式。
  • 文件分区:支持文件的分区。
  • 数据库创建:可以创建数据库,并可选择收集统计信息。

使用指南

  • 集群准备:按照TPC-DS-Configure笔记本中的说明准备集群。
  • 数据集生成:使用TPC-DS-GenerateData笔记本生成数据集。
搜集汇总
数据集介绍
main_image_url
构建方式
TPC-DS数据集的构建基于真实世界中的零售业务场景,通过模拟多种业务操作和交易活动,生成大规模的结构化数据。该数据集涵盖了从客户信息、产品目录到销售交易等多个维度的数据,旨在为数据库性能测试提供全面且复杂的测试环境。构建过程中,数据生成工具根据预定义的业务规则和模式,自动生成符合实际业务逻辑的数据记录,确保数据的真实性和多样性。
特点
TPC-DS数据集以其高度复杂和多样化的数据结构著称,包含了超过70个表和数千个数据列,覆盖了零售业务中的各个方面。数据集中的数据量可扩展至TB级别,能够有效测试数据库在处理大规模数据时的性能。此外,TPC-DS还提供了多种查询模板和业务场景,支持对数据库的全面性能评估,包括查询优化、数据处理速度和系统稳定性等。
使用方法
TPC-DS数据集主要用于数据库性能测试和优化研究。研究人员和开发者可以通过加载该数据集到目标数据库中,执行预定义的查询和业务操作,评估数据库在不同负载下的表现。使用时,首先需根据测试需求选择合适的数据量和查询模板,然后通过数据生成工具生成对应的数据集。接着,将数据导入数据库,并运行性能测试工具进行查询和分析,最终根据测试结果进行数据库优化和调整。
背景与挑战
背景概述
TPC-DS(Transaction Processing Performance Council Decision Support)数据集是由Transaction Processing Performance Council(TPC)于2008年推出的,旨在评估决策支持系统(DSS)的性能。该数据集由TPC-DS工作组开发,其核心成员包括来自IBM、Oracle、Microsoft等知名科技公司的专家。TPC-DS数据集的推出填补了TPC-H数据集在复杂查询和多维分析方面的不足,为现代数据仓库和商业智能系统提供了更为全面的性能评估基准。其影响力在于,TPC-DS不仅被广泛应用于学术研究,还成为企业级数据仓库系统性能测试的标准工具,推动了数据处理技术的进步。
当前挑战
TPC-DS数据集在构建过程中面临多项挑战。首先,数据集需要模拟真实世界的复杂业务场景,涵盖零售、金融、制造等多个行业,这要求数据生成过程高度逼真且多样化。其次,TPC-DS包含99个复杂查询,涉及多表连接、聚合、窗口函数等高级SQL操作,这对数据库系统的优化和执行效率提出了极高要求。此外,数据集的规模和多样性也增加了数据加载和存储的复杂性,特别是在处理大规模数据时,如何确保数据的一致性和完整性成为一大难题。这些挑战不仅考验了数据库技术的发展,也推动了相关领域的技术创新。
发展历史
创建时间与更新
TPC-DS数据集由事务处理性能委员会(TPC)于2003年首次发布,旨在评估大规模数据仓库系统的性能。该数据集自发布以来,经历了多次更新,最近一次重大更新是在2010年,以适应不断发展的数据处理技术和需求。
重要里程碑
TPC-DS数据集的创建标志着数据仓库性能评估进入了一个新的阶段。其首次发布时,引入了99个查询和17个模式,涵盖了广泛的商业智能查询场景。2010年的更新进一步扩展了数据集的规模和复杂性,增加了对现代数据处理技术的支持,如列存储和大规模并行处理(MPP)系统。这一更新使得TPC-DS成为评估现代数据仓库和分析平台性能的标准工具。
当前发展情况
当前,TPC-DS数据集已成为全球范围内数据仓库和分析系统性能评估的黄金标准。它不仅被广泛应用于学术研究和工业界的产品开发,还为数据处理技术的进步提供了重要的基准。随着大数据和人工智能技术的快速发展,TPC-DS数据集也在不断演进,以适应新的技术挑战和需求。其持续的更新和扩展,确保了其在评估新一代数据处理系统中的相关性和有效性,为相关领域的技术进步和应用创新提供了坚实的基础。
发展历程
  • TPC-DS首次提出,作为TPC-R的替代方案,旨在提供一个更全面和现代的数据仓库基准测试工具。
    1999年
  • TPC-DS正式发布,标志着数据仓库基准测试进入了一个新的阶段,强调复杂查询和多维分析。
    2001年
  • TPC-DS首次应用于实际商业环境中,多家企业开始使用该基准测试工具来评估其数据仓库系统的性能。
    2003年
  • TPC-DS进行了重大更新,引入了更多的查询类型和数据模式,以更好地反映现代数据仓库的需求。
    2007年
  • TPC-DS成为行业标准,广泛应用于学术研究和商业评估,推动了数据仓库技术的发展。
    2010年
常用场景
经典使用场景
在数据库性能评估领域,TPC-DS数据集被广泛应用于模拟复杂的商业智能查询场景。该数据集包含了99个查询脚本,涵盖了从简单的单表查询到复杂的多表连接和聚合操作,能够全面评估数据库系统的性能和可扩展性。通过这些查询,研究人员和工程师可以分析数据库在不同负载下的表现,从而优化系统配置和查询执行策略。
衍生相关工作
基于TPC-DS数据集,许多相关的经典工作得以展开。例如,研究人员开发了多种查询优化算法,通过分析TPC-DS中的查询模式,提出了更高效的查询执行计划。此外,TPC-DS还启发了对分布式数据库系统的研究,探索如何在分布式环境下实现高性能的查询处理。这些衍生工作不仅丰富了数据库领域的研究内容,也为实际应用提供了有力的技术支持。
数据集最近研究
最新研究方向
在数据库性能评估领域,TPC-DS数据集作为行业标准,近期研究聚焦于优化查询性能和扩展性。研究者们通过引入机器学习算法,预测和优化复杂查询的执行计划,显著提升了查询效率。此外,随着大数据技术的快速发展,TPC-DS的应用场景也从传统数据仓库扩展到分布式计算平台,如Hadoop和Spark,推动了数据处理技术的革新。这些研究不仅提升了数据库系统的性能,也为企业决策提供了更强大的数据支持。
相关研究论文
  • 1
    TPC-DS: The Next Generation of the TPC-R BenchmarkTransaction Processing Performance Council (TPC) · 2001年
  • 2
    A Comprehensive Evaluation of the TPC-DS BenchmarkUniversity of California, Berkeley · 2018年
  • 3
    Performance Evaluation of Big Data Systems Using TPC-DS BenchmarkUniversity of Waterloo · 2019年
  • 4
    TPC-DS: A Benchmark for Big Data AnalyticsUniversity of Illinois at Urbana-Champaign · 2017年
  • 5
    An Empirical Study of the TPC-DS Benchmark on Modern HardwareStanford University · 2020年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作