Cluster-Trace-Microservices-v2022, TrainTicket Benchmark Spans collection

github2025-02-25 更新2025-02-19 收录

下载链接：

https://github.com/OpsPAI/TraceZip

下载链接

链接失效反馈

官方服务：

资源简介：

我们的研究利用了来自阿里巴巴集群跟踪计划的`Cluster-Trace-Microservices-v2022`数据集，该数据集提供了阿里巴巴共置数据中心的细粒度、大规模微架构指标。此外，我们还提供了由TrainTicket和自制服务生成的Span数据，用于测试我们的压缩中间件。

For this research, we utilize the `Cluster-Trace-Microservices-v2022` dataset from the Alibaba Cluster Trace Program, which provides fine-grained, large-scale micro-architecture metrics from Alibaba's colocation data centers. Additionally, we provide Span data generated by TrainTicket and custom-developed services, which is employed to test our compression middleware.

创建时间：

2025-02-09

原始信息汇总

TraceZip 数据集概述

数据集简介

TraceZip 是一个由四个部分组成的原型系统作品集合，用于构建 TraceZip。

otel-auto-instrumentation-survey：一个Java项目，展示了如何从一些著名中间件生成工作负载。
otel-compressor：TraceZip 的在线版实现。
static-compressor：TraceZip 的离线版实现，可用于压缩CSV文件。
train-ticket-workload：展示了如何生成 Train-Ticket 基准测试追踪数据。

数据来源

使用了 Cluster-Trace-Microservices-v2022 数据集，来自阿里巴巴集群追踪计划，提供了来自阿里巴巴同位数据中心的大规模微架构级度量数据。

数据集详情

数据集类型：微服务追踪数据
数据来源：阿里巴巴集群追踪计划
数据规模：约11 GB（提取后）
数据内容：包含通过 TrainTicket 生成的 Span 数据，已去除可能包含作者信息的部分以保持匿名。

数据使用说明

使用前需按主机名对 Span 数据进行分类。
数据可用于测试 TraceZip 压缩中间件的压缩率。

相关链接

搜集汇总

数据集介绍

构建方式

Cluster-Trace-Microservices-v2022数据集的构建是基于阿里巴巴集群追踪项目提供的细粒度、大规模微架构度量的数据。该数据集通过从阿里巴巴的共置数据中心提取并压缩相同接口的追踪数据，以优化分析流程。数据集包括一个Java项目，用于展示如何从知名中间件生成工作负载，以及TraceZip的在线和离线版本实现，后者可用于压缩CSV文件。同时，TrainTicket Benchmark Spans则是通过TrainTicket生成的Span数据，用于测试压缩中间件的压缩率。

特点

本数据集的特点在于其提供了高度细粒度的微服务追踪数据，这些数据来源于真实的阿里巴巴数据中心，具有极高的实用价值和参考意义。数据集涵盖了TraceZip压缩中间件在微服务系统中的应用，尤其是与OpenTelemetry追踪收集相关的系统。此外，为了保护作者隐私，数据集中的敏感信息已被移除，确保了数据的安全性。

使用方法

使用该数据集时，用户需先对Span数据进行分类，根据资源跨度中的主机名进行相应发送。用户可以进入相应的目录阅读README文件，以获取更详细的使用信息。针对数据集的具体使用，用户可以参照TraceZip压缩中间件的文档，进行压缩率的测试和数据分析。同时，如有关于追踪数据的问题，用户可在阿里巴巴集群数据的GitHub仓库提交问题，以促进社区讨论和问题解决。

背景与挑战

背景概述

Cluster-Trace-Microservices-v2022数据集源自阿里巴巴集群追踪计划，该数据集由阿里巴巴集团提供，包含了来自其同置数据中心的细粒度、大规模微架构度量数据。此数据集的创建旨在促进微服务架构下追踪数据的高效分析，尤其是针对相同接口的追踪数据的提取与压缩。该数据集的构建工作开始于2022年，由多个子项目组成，包括生成工作负载的Java项目、在线版本的TraceZip实现、离线版本的CSV文件压缩工具，以及TrainTicket基准测试工作负载的生成方法等。其对微服务追踪领域的研究具有显著的推动作用，为学术界和产业界提供了宝贵的研究资源。

当前挑战

在数据集构建过程中，研究者面临了诸多挑战。首先，如何从大规模微服务架构中提取并压缩追踪数据，以利于高效分析，是一大难题。其次，确保数据集在提供研究价值的同时，保护数据隐私，去除可能包含作者信息的数据，以维护匿名性，也是构建过程中必须克服的挑战。此外，数据集在解决微服务系统追踪数据压缩问题的同时，还需考虑如何适应不同的微服务架构，以及如何与OpenTelemetry等追踪收集工具兼容等问题。

常用场景

经典使用场景

在微服务架构日益普及的当下，**Cluster-Trace-Microservices-v2022**数据集成为了研究微服务性能监控的关键资源。该数据集通过提供阿里巴巴集群数据中心的细粒度微架构度量的压缩跟踪数据，为研究者构建了一个分析微服务性能的基准。其经典的使用场景在于，通过该数据集，研究人员可以有效地对微服务接口的跟踪数据进行压缩，进而降低存储成本，加速数据处理过程。

解决学术问题

该数据集解决了微服务架构中数据量大、处理复杂度高的问题。在学术研究中，**Cluster-Trace-Microservices-v2022**通过提供大规模的微服务跟踪数据，使得研究者能够更深入地理解微服务系统的运行特性，发现性能瓶颈，进而提出优化策略，对微服务监控与优化领域的发展具有重大意义。

衍生相关工作

基于**Cluster-Trace-Microservices-v2022**数据集，学术界已经衍生出了一系列相关工作。这些工作不仅涉及数据压缩算法的研究，还涵盖了微服务性能监控、故障诊断等多个方面。其中，TrainTicket Benchmark Spans作为该数据集的一个应用实例，已经成为了评估微服务压缩工具性能的标准，推动了相关技术的进步和微服务领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集