otel-test-snippet-parquet

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/lenadan/otel-test-snippet-parquet

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集采用cdla-permissive-2.0许可协议，主要用于AI模型的基准测试。数据特征包括测试工具（harness）、代理（agent）、基准测试名称（benchmark）、模型列表（models）、最大token数（max_tokens）、总token数（total_tokens）和会话ID（session_id）等。特别地，数据集包含详细的span信息，记录了AI操作名称、请求模型、响应模型、输入输出token数量、响应ID、完成原因、输入输出消息等属性。此外，还包含资源属性（如SDK信息、服务名称和版本）和状态信息（状态码和消息）。数据集仅包含训练集，共229个样本，总大小约为676MB。

This dataset is licensed under the cdla-permissive-2.0 license and is primarily designed for benchmarking AI models. Its core data features include test harness, agent, benchmark name, model list, max_tokens, total_tokens, session_id, and other related attributes. Specifically, the dataset contains detailed span information that records attributes such as AI operation name, requested model, responding model, input and output token counts, response ID, completion reason, and input/output messages. Furthermore, it encompasses resource attributes (e.g., SDK information, service name and version) and status information (status code and status message). The dataset only contains a training set, with a total of 229 samples and an approximate total size of 676 MB.

创建时间：

2026-05-04

原始信息汇总

数据集概述

数据集名称：otel-test-snippet-parquet
数据集地址：https://huggingface.co/datasets/lenadan/otel-test-snippet-parquet
许可证：CDLA-permissive-2.0
数据集大小：约 676.5 MB（下载大小约 676.6 MB）

数据集配置

配置名称：default
数据文件：data/train-*（仅包含训练集）
数据划分：
- 训练集（train）：229 个样本，共 676,506,742 字节

特征字段

字段名	类型	说明
harness	string	测试框架名称
agent	string	代理名称
benchmark	string	基准测试名称
models	list of string	使用的模型列表
max_tokens	int64	最大令牌数
total_tokens	int64	总令牌数
session_id	string	会话标识符
spans	list of struct	跨度记录（详见下方子字段）
collected_at	string	数据收集时间

spans 子字段结构

子字段名	类型	说明
span_id	string	跨度标识符
name	string	跨度名称
kind	string	跨度类型
start_time	string	起始时间
end_time	string	结束时间
attributes	struct	属性（包含 gen_ai 相关字段）
resource_attributes	struct	资源属性（包含 telemetry 和 service 信息）
status	struct	状态（包含 code 和 message）
type	string	跨度类型
harness	string	测试框架名称
agent	string	代理名称
benchmark	string	基准测试名称
models	list of string	模型列表
session_id	string	会话标识符
trace_id	string	跟踪标识符

attributes 子字段结构

字段名	类型	说明
gen_ai.operation.name	string	操作名称
gen_ai.request.model	string	请求模型
gen_ai.response.model	string	响应模型
gen_ai.usage.input_tokens	int64	输入令牌数
gen_ai.usage.output_tokens	int64	输出令牌数
gen_ai.response.id	string	响应 ID
gen_ai.response.finish_reasons	list of string	完成原因列表
gen_ai.input.messages	string	输入消息（JSON 字符串）
gen_ai.output.messages	string	输出消息（JSON 字符串）
gen_ai.tool.definitions	string	工具定义（JSON 字符串）

resource_attributes 子字段结构

字段名	类型	说明
telemetry.sdk.language	string	遥测 SDK 语言
telemetry.sdk.name	string	遥测 SDK 名称
telemetry.sdk.version	string	遥测 SDK 版本
service.name	string	服务名称
service.version	string	服务版本

status 子字段结构

字段名	类型	说明
code	int64	状态码
message	string	状态消息

搜集汇总

数据集介绍

构建方式

otel-test-snippet-parquet数据集专为评估与测试OpenTelemetry对大型语言模型（LLM）调用追踪能力而构建。数据集的每一项记录代表一个完整的LLM推理会话，其中涵盖了从调用发起至响应返回的全生命周期追踪信息。构建时，系统性地收集了包括测试框架、执行代理、基准测试名称及所使用模型在内的会话元数据，并详细记录了每次调用中的令牌消耗情况。尤为关键的是，这些信息被封装于符合OpenTelemetry标准的span结构内，每个span均包含唯一的标识符、名称、类型、起止时间，以及丰富的gen_ai属性，如操作名称、请求与响应模型、输入输出令牌数、响应标识符与结束原因、消息内容及工具定义。资源属性则刻画了SDK与服务的元信息。这些经过精心组织的追踪记录最终以高效的Parquet列式存储格式保存，压缩为分片文件，便于大规模加载与分析。

特点

该数据集的核心特点在于其高度结构化的嵌套设计，深刻反映了真实世界LLM调用追踪的复杂性与层次感。每条数据记录都如同一份详尽的事务日志，将会话层面的全局信息（如代理、模型、令牌总量）与内部的跨度细节（span）有机融合。跨度内部进一步嵌套了attributes、resource_attributes与status等子结构，清晰地分离了与应用层追踪语义相关的gen_ai属性、与基础设施相关的遥测SDK属性以及跨度执行状态。这种精细的划分使得研究者和开发者能够对LLM调用行为进行多维度剖析，例如，既可以按模型粒度分析令牌使用效率，也可以深入单次调用的消息序列以验证追踪的准确性。此外，数据集包含了多达229个样本，每个样本的跨度列表长度不一，真实模拟了不同复杂度的对话场景，为评估追踪系统的健壮性提供了丰富的测试案例。

使用方法

数据集以Hugging Face Datasets库的标准格式发布，仅包含一个名为'train'的分片数据集，用户可通过加载'default'配置轻松获取。使用前需确保已安装datasets库，并拥有足够的系统内存以处理约676.5MB的Parquet文件。加载后，数据集返回一个包含上述所有特征的字典列表。开发者可对其进行迭代处理：提取每条记录的'spans'字段以分析追踪结构，利用'gen_ai.input.messages'与'gen_ai.output.messages'字段校验消息的完整性，或通过'gen_ai.usage.input_tokens'和'gen_ai.usage.output_tokens'字段统计令牌消耗。由于数据已高度结构化，用户可无缝衔接至pandas DataFrame进行数据探索，或将其直接作为OpenTelemetry测试套件的输入，通过模拟LLM调用来验证自家追踪系统的数据采集与导出逻辑是否准确无误。数据集采用CDLA-Permissive-2.0许可证，鼓励广泛的学术界与工业界使用。

背景与挑战

背景概述

在大语言模型（LLM）与智能体（Agent）系统飞速演进的时代背景下，如何系统化、标准化地评估这些复杂系统的行为与性能，尤其是其在遵循指令、调用工具以及生成输出过程中的可观测性，成为学术界与工业界共同关注的核心议题。为此，otel-test-snippet-parquet数据集应运而生，由开放遥测（OpenTelemetry）生态的相关研究者与机构创建，旨在提供一个结构化、大规模、蕴含丰富语义的遥测数据集合。该数据集收录了来自多种测试框架（harness）和智能体（agent）在各类基准测试（benchmark）中的执行痕迹（spans），详尽记录了包括请求模型、输入输出消息、令牌消耗以及完成原因在内的关键属性。通过将复杂的模型调用行为映射为统一的遥测数据格式，该数据集为理解LLM应用的行为模式、评估响应质量以及优化资源消耗提供了宝贵的标准化参考，对推动可观测性技术在人工智能领域的深度应用具有里程碑式的影响。

当前挑战

该数据集所面对的领域挑战主要体现在两方面。首先，大语言模型及智能体系统的评估长期以来缺乏统一、细粒度的可观测性标准，现有基准测试多聚焦于最终答案的准确性，忽视了中间推理、工具调用及交互流程的透明化记录，导致性能瓶颈难以定位，系统行为难以复现与审计。其次，在数据集构建过程中，面临的首要挑战是如何将来自不同测试框架、不同智能体架构和不同模型的异构执行数据，无损且一致地映射到OpenTelemetry的Span模型中，保证属性如gen_ai.input.messages和gen_ai.output.messages的结构化存储与语义完整性。此外，海量遥测数据的采集、去重与高效序列化（采用Parquet格式），以及确保训练/测试分割的合理性与样本多样性的平衡，均构成了工程实践上的重大考验。

常用场景

经典使用场景

在可观测性工程与生成式人工智能（GenAI）深度融合的背景下，otel-test-snippet-parquet数据集作为一个专门存储OpenTelemetry追踪（trace）与跨度（span）信息的高质量Parquet格式数据集，其经典使用场景聚焦于AI应用性能监控（APM）与调用链分析。研究人员可通过解析其中记录的gen_ai.operation.name、gen_ai.request.model等属性，精准还原大模型推理过程中从输入到输出的完整请求链路，并结合token消耗与延迟信息进行细粒度性能剖析。该数据集尤为适用于验证分布式追踪系统的数据采集与存储方案，以及探索基于追踪数据的智能告警与异常检测模型。

实际应用

在实际生产环境中，otel-test-snippet-parquet数据集扮演着AI应用性能工程师与DevOps团队不可或缺的参考基准。它被广泛应用于构建大模型服务的实时监控仪表盘，通过可视化gen_ai.usage.input_tokens与gen_ai.usage.output_tokens等关键指标，辅助运维人员快速定位响应异常或资源瓶颈。此外，该数据集还支持对模型调用进行成本归因与容量规划分析，帮助企业优化推理资源分配。在模型迭代测试阶段，团队可利用该数据集对不同版本模型的响应质量与延迟进行对比，确保部署的AI服务在用户体验与运营成本之间取得平衡。

衍生相关工作

基于otel-test-snippet-parquet数据集，学术界与工业界已衍生出多项标志性工作。例如，有研究团队利用该数据集训练了基于图神经网络的调用链异常检测模型，成功识别出因模型退化或请求洪水引发的性能故障；另有工作将其作为输入特征，研发了面向GenAI应用的自动化根因定位系统，显著缩短了问题排查时间。在标准制定层面，该数据集推动了OpenTelemetry社区对gen_ai相关语义约定的扩展与完善，促进了AI、可观测性两个生态的互操作性。此外，部分工作还探索了将Span属性转化为低维嵌入向量的方法，用于大模型调用行为的聚类分析与模式挖掘。

以上内容由遇见数据集搜集并总结生成