opentraces-devtime

Hugging Face2026-04-01 更新2026-04-02 收录

下载链接：

https://huggingface.co/datasets/OpenTraces/opentraces-devtime

下载链接

链接失效反馈

官方服务：

资源简介：

opentraces-devtime 是一个社区贡献的智能体轨迹数据集，采用 opentraces JSONL 格式存储，主要用于文本生成任务。数据集包含 96 条轨迹记录，总计 7,070,289 个 token，时间跨度为 2026 年 3 月 27 日至 4 月 1 日。每条记录包含 trace_id、session_id、agent 信息、任务元数据、LLM API 调用步骤（思考-行动-观察循环）、会话结果信号、聚合的 token 使用和成本估算、运行时环境元数据以及代码归属数据（实验性）等字段。数据集采用 CC-BY-4.0 许可协议，贡献者保留其个人轨迹的版权。质量评估显示，该数据集在一致性（99.3%）、强化学习（99.6%）、分析（100%）和领域适应性（95.3%）方面表现优异，整体效用得分为 90.2%。主要使用的模型为 Claude-Opus-4-6（76 条）和 Claude-Sonnet-4-6（20 条），所有轨迹均由 claude-code 代理生成。

创建时间：

2026-03-31

原始信息汇总

opentraces-devtime 数据集概述

基本信息

数据集名称: opentraces-devtime
托管地址: https://huggingface.co/datasets/OpenTraces/opentraces-devtime
许可证: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/)
语言: 英语 (en)
任务类别: 文本生成 (text-generation)
标签: opentraces, agent-traces
数据规模: n<1K (小于1千条样本)

数据内容与结构

数据格式: OpenTraces JSONL 格式
配置: 默认配置 (default)，训练集 (train) 数据文件路径为 data/traces_*.jsonl
每条记录 (TraceRecord) 包含字段:
- trace_id: 轨迹的唯一标识符
- session_id: 源会话标识符
- agent: 代理身份信息（名称、版本、模型）
- task: 结构化的任务元数据
- steps: LLM API 调用列表（思考-行动-观察循环）
- outcome: 会话结果信号
- metrics: 聚合的令牌使用量和成本估算
- environment: 运行时环境元数据
- attribution: 代码归属数据（实验性）
模式版本: 0.2.0
完整模式文档: https://opentraces.ai/schema

数据集统计

总轨迹数: 96
总步数: 28,959
总令牌数: 7,070,289
日期范围: 2026-03-27 至 2026-04-01
成功率: 100.0%
平均每会话步数: 302
平均成本 (USD): 42.59
总成本估算 (USD): 4088.62

模型分布

模型	数量
claude-opus-4-6	76
claude-sonnet-4-6	20

代理分布

代理	数量
claude-code	96

质量评估分数卡

评估时间: 2026-04-01T12:24:44.789201+00:00 评估模式: 确定性 (deterministic) 评分器版本: v0.2.0

评估维度	得分	最小值	最大值	状态
一致性 (conformance)	99.3%	94.4%	100.0%	通过 (PASS)
训练 (training)	56.7%	47.0%	65.4%	未通过 (FAIL)
强化学习 (rl)	99.6%	58.6%	100.0%	通过 (PASS)
分析 (analytics)	100.0%	98.9%	100.0%	通过 (PASS)
领域 (domain)	95.3%	61.7%	100.0%	通过 (PASS)

整体效用 (Overall utility): 90.2% 质量门禁 (Gate): 通过 (PASSING)

使用方式

python from datasets import load_dataset ds = load_dataset("OpenTraces/opentraces-devtime")

许可与贡献

本数据集采用 CC-BY-4.0 许可，用于研究和训练目的。
贡献者保留其个人轨迹的版权，上传即表示同意根据 CC-BY-4.0 许可共享。

搜集汇总

数据集介绍

构建方式

在智能体轨迹数据研究领域，opentraces-devtime数据集通过社区贡献的方式精心构建。该数据集遵循opentraces JSONL格式标准，收录了96条完整的智能体交互轨迹，每条轨迹均包含从任务发布到最终结果的全过程记录。数据采集时间集中于2026年3月27日至4月1日，所有轨迹均来自claude-code智能体在不同模型配置下的实际运行过程，确保了数据来源的真实性与时效性。

特点

该数据集展现出多维度质量特征，其整体效用评分达到90.2%，在规范性、强化学习和分析维度分别获得99.3%、99.6%和100%的高分评价。每条轨迹记录采用标准化的TraceRecord结构，涵盖任务元数据、思维-行动-观察循环序列、会话结果信号等十二个核心字段。数据集特别注重环境元数据和代码归属信息的完整性，为研究智能体行为模式提供了结构化观测框架。

使用方法

研究人员可通过HuggingFace数据集库直接加载该资源，使用标准接口即可访问全部96条轨迹数据。每条JSONL记录均符合0.2.0版本模式规范，支持对智能体决策过程、API调用模式和成本效益的量化分析。该数据集适用于大语言模型训练、强化学习算法验证及智能体行为分析等多重研究场景，其CC-BY-4.0许可协议保障了学术使用的开放性。

背景与挑战

背景概述

在人工智能领域，特别是大型语言模型（LLM）与智能体（Agent）研究蓬勃发展的背景下，对高质量、结构化交互轨迹数据的需求日益迫切。opentraces-devtime数据集应运而生，作为OpenTraces社区倡议的一部分，旨在收集和标准化智能体执行任务时产生的完整交互轨迹。该数据集由社区贡献者于2026年3月至4月间构建，遵循0.2.0版模式，记录了智能体在‘思考-行动-观察’循环中的详细步骤、API调用、资源消耗及任务结果。其核心研究问题聚焦于如何通过真实、可追溯的交互数据，为智能体的行为分析、性能评估、模型训练与强化学习提供可靠基准，从而推动可解释、可复现的智能体系统研究。

当前挑战

该数据集致力于解决智能体系统评估与优化领域的核心挑战，即缺乏标准化、高质量的交互轨迹基准。具体挑战体现在两方面：其一，在领域问题层面，智能体行为的复杂性、任务环境的多样性以及评估维度的多重性（如成功率、效率、成本）使得构建全面、公正的评估框架异常困难；其二，在构建过程中，确保数据模式的一致性、轨迹记录的完整性、元数据的准确性以及社区贡献数据的质量可控性，均构成了显著的技术与协作障碍，这从数据集质量评估中‘训练’维度得分相对较低可见一斑。

常用场景

经典使用场景

在智能体与大型语言模型研究领域，opentraces-devtime数据集以其详尽的轨迹记录为模型行为分析提供了关键支撑。该数据集最经典的使用场景在于对智能体任务执行过程的深度剖析，研究者通过解析其结构化的思维-行动-观察循环步骤，能够系统评估智能体在复杂任务中的决策逻辑与交互模式，为优化智能体架构奠定实证基础。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，主要集中在智能体评估基准构建与训练算法创新领域。部分研究利用其轨迹数据开发了智能体能力多维度量体系，另一些工作则基于其结构化步骤探索了轨迹合成与数据增强技术。这些成果共同推动了开源智能体生态的发展，为后续研究提供了可复现的实验基础与性能对比参照。

数据集最近研究