Otel Dataset

github2026-01-20 更新2026-01-22 收录

下载链接：

https://github.com/QuesmaOrg/otel-bench

下载链接

链接失效反馈

官方服务：

资源简介：

OpenTelemetry数据集（`datasets/otel/`）包含用于测试AI模型在11种以上编程语言中使用OpenTelemetry进行应用检测能力的任务。

The OpenTelemetry Dataset (`datasets/otel/`) comprises tasks designed to evaluate the capability of AI models to perform application instrumentation using OpenTelemetry across more than 11 programming languages.

创建时间：

2026-01-14

原始信息汇总

OpenTelemetry Benchmark (OTelBench) 数据集概述

数据集基本信息

数据集名称：OpenTelemetry Benchmark (OTelBench)
维护者/组织：Quesma
基准测试结果页面：https://quesma.com/benchmarks/otel/
相关博客文章：https://quesma.com/blog/introducing-otel-bench/
构建基础框架：Harbor框架 (https://harborframework.com)

数据集内容与目的

核心内容：包含一个用于评估AI模型在OpenTelemetry插装任务上性能的基准测试套件。
主要目的：测试AI模型在多种编程语言中为应用程序添加OpenTelemetry（可观测性）插装的能力。

数据集结构

数据集位于 datasets/otel/ 目录下，包含针对超过11种编程语言的测试任务。

编程语言与任务对应表

编程语言	包含的任务类型
C++	simple, advanced, distributed-context-propagation
Go	simple, http-tracing, distributed-context-propagation, workflow-tracing, microservices, grpc-fix
Java	simple, advanced, distributed-context-propagation, microservices
JavaScript	microservices
.NET	microservices
PHP	distributed-context-propagation, microservices
Python	distributed-context-propagation, microservices
Ruby	microservices
Rust	distributed-context-propagation, microservices
Erlang	microservices
Swift	microservices

重要说明

运行依赖：任务执行依赖于网络，需要互联网访问权限。
当前状态：任务解决方案说明尚未包含在数据集中（开发进行中）。

许可证

详细信息请参阅项目中的 LICENSE 文件。

搜集汇总

数据集介绍

构建方式

在可观测性技术蓬勃发展的背景下，Otel数据集依托Harbor框架精心构建，旨在评估人工智能模型在跨语言OpenTelemetry插桩任务上的能力。其构建过程系统性地涵盖了超过11种主流编程语言，包括C++、Go、Java、Python等，并为每种语言设计了从简单追踪到分布式上下文传播、微服务架构等不同复杂度的具体任务场景。这种多维度、分层级的任务设计，确保了数据集能够全面检验模型在不同技术栈和观测需求下的实际插桩性能。

特点

该数据集的核心特点在于其广泛的覆盖范围与高度的实用性。它不仅横跨了从系统级到应用层的多种编程语言，更聚焦于OpenTelemetry标准在实际微服务、分布式链路追踪等复杂场景中的应用。数据集中的任务模拟了真实的开发挑战，例如修复有缺陷的gRPC调用或实现跨服务边界的上下文传播，这使得评估结果能够直接反映模型在解决实际可观测性工程问题上的潜力与局限。

使用方法

使用本数据集时，研究者或开发者需将其集成至支持Harbor框架的评估环境中。由于任务执行依赖于网络访问以模拟真实的服务调用，运行前需确保相应的网络配置。用户可以通过指定目标编程语言和任务类型来调用数据集，进而对AI模型生成的OpenTelemetry插桩代码进行自动化测试与性能度量。当前版本的任务解决方案指南尚在完善中，使用者需依据任务描述自行构建或验证模型的输出结果。

背景与挑战

背景概述

在可观测性技术快速演进的背景下，分布式系统的监控与追踪需求日益凸显。Otel Dataset由Quesma公司于近年构建，作为OpenTelemetry Benchmark（OTelBench）的核心组成部分，旨在评估人工智能模型在跨多种编程语言环境中实现OpenTelemetry自动插桩的能力。该数据集覆盖C++、Go、Java等超过11种编程语言，针对简单追踪、分布式上下文传播及微服务等场景设计任务，为提升软件系统的可观测性提供了标准化测试基准，推动了AI在软件工程自动化领域的应用探索。

当前挑战

该数据集致力于解决OpenTelemetry自动化插桩这一复杂领域问题，其核心挑战在于如何让AI模型准确理解不同编程语言的语法语义差异，并生成符合分布式追踪规范的代码。在构建过程中，研究人员面临多语言任务一致性设计的难题，需确保各语言任务在逻辑与复杂度上保持可比性；同时，由于任务依赖网络环境且解决方案指导尚不完善，数据集的可靠性与易用性受到一定限制，这为后续的基准测试与模型评估带来了实际操作上的障碍。

常用场景

经典使用场景

在分布式系统与可观测性领域，Otel Dataset作为OpenTelemetry基准测试套件，其经典使用场景聚焦于评估人工智能模型在跨多种编程语言环境中进行应用性能监控与追踪的能力。该数据集通过涵盖C++、Go、Java等11种以上语言的多样化任务，如简单追踪、分布式上下文传播及微服务场景，为研究人员提供了标准化的测试平台，以系统性地衡量模型在自动代码插桩、错误诊断及链路追踪生成方面的表现，从而推动智能运维与自动化监控技术的发展。

解决学术问题

Otel Dataset主要解决了可观测性研究中人工智能模型泛化能力不足的学术问题。传统方法往往局限于单一语言或特定框架，难以适应现代云原生应用的多语言混合部署环境。该数据集通过构建跨语言、多任务的基准测试，使研究者能够量化模型在复杂分布式系统中的适应性、准确性与效率，为自动化代码插桩、智能故障根因分析及性能优化算法的设计与验证提供了关键数据支撑，显著提升了相关领域研究的严谨性与可重复性。

衍生相关工作

基于Otel Dataset，衍生了一系列经典研究工作，主要集中在智能代码生成与可观测性增强领域。例如，结合Harbor框架的基准测试推动了多语言AI插桩模型的比较与优化；相关研究探索了基于大语言模型的自动化追踪代码生成、跨服务上下文传播的语义理解以及微服务链路重构技术。这些工作不仅丰富了分布式追踪的理论体系，还为AI驱动的DevOps工具链开发提供了实践基础，促进了学术界与工业界在可观测性智能化方向的深度融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集