Redset

github2024-07-16 更新2024-07-17 收录

下载链接：

https://github.com/amazon-science/redset

下载链接

链接失效反馈

官方服务：

资源简介：

Redset是一个数据集，包含在Amazon Redshift舰队中选定实例上运行了三个月的用户查询元数据。我们为每个200个预置和无服务器实例提供查询元数据。

Redset is a dataset containing user query metadata collected over three months from selected instances across an Amazon Redshift fleet. We provide query metadata for each of the 200 provisioned and serverless instances.

创建时间：

2024-07-11

原始信息汇总

Redset 数据集

Redset 数据集包含在 Amazon Redshift 舰队中选定实例上运行三个月的用户查询元数据。我们为每个 200 个预置和无服务器实例提供查询元数据。

许可证

下载

文件夹结构：

s3://redshift-downloads/redset
- README
- LICENSE
- provisioned/
  - full.parquet
  - sample_0.01.parquet (1% 均匀随机数据样本)
  - sample_0.001.parquet (0.1% 均匀随机数据样本)
  - parts/
    - 每个集群一个单独的 <id>.parquet 文件
- serverless/
  - full.parquet
  - sample_0.01.parquet (1% 均匀随机样本)
  - sample_0.001.parquet (0.1% 均匀随机数据样本)
  - parts/
    - 每个集群一个单独的 <id>.parquet 文件

您可以使用 http 链接下载文件，例如： https://s3.amazonaws.com/redshift-downloads/redset/LICENSE 或者使用 AWS CLI 与 s3 存储桶进行交互。例如，要下载完整的服务器less数据集，可以运行：

aws s3 cp --no-sign-request s3://redshift-downloads/redset/serverless/full.parquet .

数据集结构

列	名称描述
instance_id	唯一标识一个 redshift 集群
cluster_size	集群的大小（仅适用于预置实例）
user_id	标识发出查询的用户
database_id	标识被查询的数据库
query_id	每个实例唯一
arrival_timestamp	查询到达系统的时间戳
compile_duration_ms	查询编译所花费的时间（毫秒）
queue_duration_ms	查询排队所花费的时间（毫秒）
execution_duration_ms	查询执行所花费的时间（毫秒）
feature_fingerprint	查询指纹的哈希值。作为查询相似性的代理，尽管不是基于文本。会高估重复性。
was_aborted	查询在其生命周期内是否被中止
was_cached	查询是否从结果缓存中回答
cache_source_query_id	如果查询是从结果缓存中回答的，这是填充缓存的查询的查询ID
query_type	查询类型，例如 `select`, `copy`, ...
num_permanent_tables_accessed	查询访问的永久表数量（常规数据库表）
num_external_tables_accessed	查询访问的外部表数量
num_system_tables_accessed	查询访问的系统表数量
read_table_ids	查询读取的唯一永久表ID的逗号分隔列表
write_table_ids	查询写入的唯一表ID的逗号分隔列表
mbytes_scanned	查询扫描的总兆字节数
mbytes_spilled	查询溢出的总兆字节数
num_joins	查询计划中的连接数
num_scans	查询计划中的扫描数
num_aggregations	查询计划中的聚合数

搜集汇总

数据集介绍

构建方式

Redset数据集的构建基于Amazon Redshift集群中三个月的用户查询元数据，涵盖了200个预配置实例和200个无服务器实例。该数据集并非旨在代表整个Redshift集群，而是通过一个基于‘繁忙度’评分的偏差样本，旨在支持特定工作负载的新基准开发。具体构建方法包括从选定的实例中收集查询元数据，并根据‘繁忙度’评分进行筛选，确保样本的多样性，尽管这可能导致整体代表性不足。

特点

Redset数据集的主要特点在于其非代表性和偏差性，这使得它特别适用于新基准的开发和机器学习技术的探索，如工作负载预测。数据集提供了详细的查询元数据，包括查询的编译时间、排队时间、执行时间等，以及查询类型和访问的表类型等高级信息。此外，数据集的结构设计允许用户下载完整数据或不同比例的随机样本，便于不同规模的研究和应用。

使用方法

Redset数据集的使用方法多样，用户可以通过HTTP链接直接下载所需文件，或使用AWS CLI与S3存储桶进行交互。数据集分为预配置和无服务器两个子集，每个子集包含完整数据和不同比例的随机样本。用户可以根据研究需求选择合适的下载方式和数据比例。数据集的详细架构包括实例ID、集群大小、用户ID、数据库ID等关键字段，为深入分析提供了丰富的信息基础。

背景与挑战

背景概述

Redset数据集由Amazon Redshift团队于2024年创建，旨在为特定工作负载的新基准开发提供支持。该数据集包含了在Amazon Redshift集群中运行的用户查询元数据，涵盖了三个月的时间跨度。Redset并非旨在代表整个Redshift集群，而是提供了一个偏倚的样本数据，以促进新基准的开发和机器学习技术在负载预测中的应用。主要研究人员包括Alexander van Renen、Dominik Horn等，他们的研究成果发表在《Why TPC is not enough: An analysis of the Amazon Redshift fleet》一文中，该研究对Redshift集群进行了深入分析，揭示了现有基准测试的不足。

当前挑战

Redset数据集面临的挑战主要集中在其非代表性样本的特性上。由于数据集基于“繁忙度”评分进行偏倚采样，因此无法通过聚合数据集中的工作负载来获得整个Amazon Redshift集群的代表性视图。此外，数据集中不包含客户身份信息，这使得无法推断客户数量或进行客户行为分析。另一个挑战是，由于Amazon Redshift的列存储和块跳过等技术，从扫描的字节数中无法推断或近似表的大小。这些限制使得Redset在实际应用中需要谨慎处理，特别是在需要代表性数据和精确表大小估计的场景中。

常用场景

经典使用场景

Redset数据集在数据库性能优化和查询负载分析领域展现了其经典应用场景。通过提供Amazon Redshift实例的三个月用户查询元数据，Redset支持研究人员和工程师开发新的基准测试，以更准确地模拟和评估特定工作负载下的数据库性能。其丰富的元数据包括查询编译时间、执行时间、扫描字节数等，为深入分析查询行为和优化策略提供了坚实基础。

衍生相关工作

基于Redset数据集，研究者们开发了多种新的基准测试工具和负载预测模型。例如，一些研究团队利用Redset的元数据构建了更精确的查询负载模拟器，用于评估不同数据库配置下的性能表现。此外，Redset还激发了关于数据库查询优化和资源管理的新研究，推动了机器学习在数据库领域的应用，形成了多个具有影响力的学术成果和工业解决方案。

数据集最近研究