otel-test-snippet-jsonl

Hugging Face2026-04-29 更新2026-04-30 收录

下载链接：

https://huggingface.co/datasets/lenadan/otel-test-snippet-jsonl

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于内部验证的小型测试片段，包含来自不同LLM推理基准的OpenTelemetry跟踪数据，不可用于研究、基准测试或生产环境。数据集按照基准测试（appworld、tau2_telecom）、代理框架（openai_solo、tool_calling）和模型提供商（Azure DeepSeek-V3.2、Azure Kimi-K2.5）进行组织。数据采用JSON Lines格式存储，每条记录代表一个跟踪跨度，包含trace_id、span_id、时间戳、属性（如操作名称、模型信息、token使用量）和资源属性等信息。数据集共包含约30个跟踪文件，分布在2个基准测试和2种代理框架中，每个组合下各有3-5个跟踪文件。

创建时间：

2026-04-20

原始信息汇总

LLM推理追踪数据集（测试片段）概述

⚠️ 重要声明

本数据集仅用于内部验证测试，不可用于生产环境、研究或基准测试。

基本信息

数据集名称：LLM Inference Traces (Test Snippet)
许可协议：CDLA-Permissive-2.0
语言：英语
数据集大小：少于1000条数据（n<1K）
任务类型：文本生成
数据格式：agent-traces
标签：llm, traces, opentelemetry, benchmarks, agents

数据集结构

目录组织方式

数据集按以下层次结构组织：

<基准测试>/<智能体框架>/<模型提供商>/<追踪文件>.jsonl

基准测试：appworld、tau2_telecom
智能体框架：openai_solo、tool_calling
模型提供商：Azure DeepSeek-V3.2、Azure Kimi-K2.5

数据格式

每个JSONL文件包含OpenTelemetry跨度（span），每行一个JSON对象表示一个跨度。JSONL格式支持高效流式处理，每个跨度可独立读取。

跨度（Span）字段

字段	说明
`trace_id`	追踪ID（字符串）
`span_id`	跨度ID（字符串）
`parent_span_id`	父跨度ID（字符串或null）
`name`	跨度名称（字符串）
`kind`	跨度类型（字符串）
`start_time`	开始时间（ISO 8601时间戳）
`end_time`	结束时间（ISO 8601时间戳）
`attributes`	属性（包含模型、token使用量、消息等）
`resource_attributes`	资源属性（SDK信息、服务信息等）
`status`	状态（代码和消息）

`attributes` 关键字段

gen_ai.operation.name：操作名称
gen_ai.request.model：请求模型
gen_ai.response.model：响应模型
gen_ai.usage.input_tokens：输入token数（整数）
gen_ai.usage.output_tokens：输出token数（整数）
gen_ai.response.id：响应ID
gen_ai.response.finish_reasons：结束原因列表
gen_ai.input.messages：输入消息（JSON字符串）
gen_ai.output.messages：输出消息（JSON字符串）

`resource_attributes` 字段

telemetry.sdk.language：SDK语言
telemetry.sdk.name：SDK名称
telemetry.sdk.version：SDK版本
service.name：服务名称
service.version：服务版本

数据集统计

总量

追踪文件总数：约30个（JSONL格式）
基准测试数量：2个（appworld, tau2_telecom）
智能体框架数量：2个（openai_solo, tool_calling）
模型提供商数量：2个（Azure DeepSeek-V3.2, Azure Kimi-K2.5）

按基准测试和智能体框架细分

Appworld：

智能体框架	追踪数量
openai_solo	10个（每个模型5个）
tool_calling	10个（每个模型5个）

Tau2 Telecom：

智能体框架	追踪数量
openai_solo	6个（每个模型3个）
tool_calling	6个（每个模型3个）

使用建议

禁止用于实际研究、基准测试或生产环境
如需测试数据集加载，可使用 from datasets import load_dataset 或直接读取JSONL文件

搜集汇总

数据集介绍

构建方式

该数据集是面向大语言模型推理性能追踪的测试片段，专为验证数据集基础设施而设计。它聚合了来自多个LLM推理基准测试的OpenTelemetry追踪信息，依据基准测试（appworld、tau2_telecom）、智能体框架（openai_solo、tool_calling）及模型提供商（Azure DeepSeek-V3.2、Azure Kimi-K2.5）进行三级目录组织。每个追踪文件均采用JSONL格式存储，每行对应一个独立的OpenTelemetry跨度，涵盖trace_id、span_id、时间戳、属性字段及资源标签等结构化信息，支持高效的流式读取与逐行解析。

特点

数据集以轻量测试片段为定位，总量约为30个追踪文件，横跨两大基准、两类框架与两种模型，分布均匀且层次分明。每个跨度均包含gen_ai操作名称、请求与响应模型、输入输出令牌数、消息内容等细粒度属性，以及完整的资源属性和状态码，为追踪链路分析提供了丰富维度。JSONL格式赋予数据极佳的流式处理能力，各跨度可独立加载，无需整体读入内存，兼具灵活性与高效性。

使用方法

该数据集明确标注为测试用途，不适用于生产环境或正式研究。用户可通过HuggingFace Datasets库的load_dataset接口直接加载，亦可借助Python的json库逐行读取.JSONL文件进行解析。示例代码展示了如何从指定路径读取追踪文件并提取跨度列表，便于在验证数据管道、调试处理逻辑或测试性能监控工具时快速使用。建议仅用于内部校验与基础设施测试，勿将其结果用于基准评估或模型对比。

背景与挑战

背景概述

随着大型语言模型（LLM）在智能代理系统中的广泛应用，对其推理过程进行可观测性分析与性能基准测试已成为研究热点。OpenTelemetry作为一种开源的观测性框架，能够标准化地收集、处理和导出遥测数据，为LLM推理轨迹的追踪提供了技术基础。otel-test-snippet-jsonl数据集由某研究团队于2026年创建，旨在提供一个小规模的LLM推理轨迹测试片段，涵盖AppWorld和Tau2 Telecom两个基准测试，涉及OpenAI Solo与工具调用两种代理框架，以及Azure DeepSeek-V3.2与Azure Kimi-K2.5等多个模型提供商。该数据集采用JSONL格式存储OpenTelemetry跨度（spans），包含丰富的语义属性如模型名称、token使用量及输入输出消息，为研究LLM推理的可观测性、性能分析与基准测试提供了标准化、可扩展的数据样本，对推动LLM代理系统的可观测性研究具有重要的基础性价值。

当前挑战

该数据集所解决的领域问题在于LLM推理轨迹缺乏统一、可复现的标准化基准，现有数据集多局限于单模型或单代理场景，难以支撑跨模型、跨框架的性能对比与可观测性研究。构建过程中面临的核心挑战包括：第一，需兼容多种异构代理框架（如OpenAI Solo与工具调用）和模型提供商，确保轨迹格式的一致性；第二，JSONL格式要求每条跨度独立存储，便于流式处理，但需在数据采集时精细管理跨度间的父子关系与时间戳对齐；第三，轨迹数据中属性字段如gen_ai.input.messages以JSON字符串存储，解析时需处理嵌套结构，增加了数据清洗与验证的复杂度；第四，作为测试片段，数据规模极小（约30个文件），难以代表真实场景的多样性，限制了其在鲁棒性测试中的适用性。

常用场景

经典使用场景

随着大型语言模型（LLM）在各类智能代理系统中的广泛应用，如何有效追踪推理过程中的行为轨迹与性能特征，已成为评估模型交互质量的关键挑战。otel-test-snippet-jsonl数据集作为OpenTelemetry追踪数据的测试样本，专门用于在开发环境中验证数据管道对LLM推理轨迹的加载、解析与流式处理能力。其经典使用场景包括构建易用且健壮的追踪数据加载器、测试JSONL格式下大规模跨度数据的连贯读取流程，以及探讨多基准、多代理框架条件下追踪数据的统一存储与查询模式，为后续生产级数据基础设施的搭建提供基础支撑。

实际应用

在实际应用层面，该测试数据集服务于LLM运维与监控系统的开发周期，主要用于对追踪解析工具的单元测试与集成验证。例如，开发者可利用本数据集中的JSONL文件，测试流式读取引擎在高吞吐场景下对跨度数据的正确拼接与属性还原能力，确保最终生产系统中能够精准记录每次推理请求的输入输出消息、令牌消耗与耗时详情。此外，它还可作为演示数据，帮助团队快速理解OpenTelemetry追踪模型在AI Agent场景中的具体映射方式，从而加速运维面板与告警系统的设计迭代。

衍生相关工作

基于此类追踪数据格式与测试理念，业界已涌现出多项相关经典工作。例如，OpenLLMetry项目利用类似的结构化跨度数据，构建了统一的LLM推理性能基准评估框架，推动了跨模型提供商之间的公平比较方法发展。同时，关于代理任务分解与工具调用链的可视化研究，也依赖于此类追踪样本定义高层次的行为分片与因果关联逻辑。此外，该测试数据集所采用的JSONL逐行独立存储方式，启发了针对大规模LLM追踪仓库的压缩与索引优化工作，为后续高效检索与按需重演分析奠定了数据结构基础。

以上内容由遇见数据集搜集并总结生成