opentraces-devtime
收藏Hugging Face2026-04-01 更新2026-04-02 收录
下载链接:
https://huggingface.co/datasets/OpenTraces/opentraces-devtime
下载链接
链接失效反馈官方服务:
资源简介:
opentraces-devtime 是一个社区贡献的智能体轨迹数据集,采用 opentraces JSONL 格式存储,主要用于文本生成任务。数据集包含 96 条轨迹记录,总计 7,070,289 个 token,时间跨度为 2026 年 3 月 27 日至 4 月 1 日。每条记录包含 trace_id、session_id、agent 信息、任务元数据、LLM API 调用步骤(思考-行动-观察循环)、会话结果信号、聚合的 token 使用和成本估算、运行时环境元数据以及代码归属数据(实验性)等字段。数据集采用 CC-BY-4.0 许可协议,贡献者保留其个人轨迹的版权。质量评估显示,该数据集在一致性(99.3%)、强化学习(99.6%)、分析(100%)和领域适应性(95.3%)方面表现优异,整体效用得分为 90.2%。主要使用的模型为 Claude-Opus-4-6(76 条)和 Claude-Sonnet-4-6(20 条),所有轨迹均由 claude-code 代理生成。
创建时间:
2026-03-31
原始信息汇总
opentraces-devtime 数据集概述
基本信息
- 数据集名称: opentraces-devtime
- 托管地址: https://huggingface.co/datasets/OpenTraces/opentraces-devtime
- 许可证: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/)
- 语言: 英语 (en)
- 任务类别: 文本生成 (text-generation)
- 标签: opentraces, agent-traces
- 数据规模: n<1K (小于1千条样本)
数据内容与结构
- 数据格式: OpenTraces JSONL 格式
- 配置: 默认配置 (
default),训练集 (train) 数据文件路径为data/traces_*.jsonl - 每条记录 (TraceRecord) 包含字段:
trace_id: 轨迹的唯一标识符session_id: 源会话标识符agent: 代理身份信息(名称、版本、模型)task: 结构化的任务元数据steps: LLM API 调用列表(思考-行动-观察循环)outcome: 会话结果信号metrics: 聚合的令牌使用量和成本估算environment: 运行时环境元数据attribution: 代码归属数据(实验性)
- 模式版本: 0.2.0
- 完整模式文档: https://opentraces.ai/schema
数据集统计
- 总轨迹数: 96
- 总步数: 28,959
- 总令牌数: 7,070,289
- 日期范围: 2026-03-27 至 2026-04-01
- 成功率: 100.0%
- 平均每会话步数: 302
- 平均成本 (USD): 42.59
- 总成本估算 (USD): 4088.62
模型分布
| 模型 | 数量 |
|---|---|
| claude-opus-4-6 | 76 |
| claude-sonnet-4-6 | 20 |
代理分布
| 代理 | 数量 |
|---|---|
| claude-code | 96 |
质量评估分数卡
评估时间: 2026-04-01T12:24:44.789201+00:00 评估模式: 确定性 (deterministic) 评分器版本: v0.2.0
| 评估维度 | 得分 | 最小值 | 最大值 | 状态 |
|---|---|---|---|---|
| 一致性 (conformance) | 99.3% | 94.4% | 100.0% | 通过 (PASS) |
| 训练 (training) | 56.7% | 47.0% | 65.4% | 未通过 (FAIL) |
| 强化学习 (rl) | 99.6% | 58.6% | 100.0% | 通过 (PASS) |
| 分析 (analytics) | 100.0% | 98.9% | 100.0% | 通过 (PASS) |
| 领域 (domain) | 95.3% | 61.7% | 100.0% | 通过 (PASS) |
整体效用 (Overall utility): 90.2% 质量门禁 (Gate): 通过 (PASSING)
使用方式
python from datasets import load_dataset ds = load_dataset("OpenTraces/opentraces-devtime")
许可与贡献
- 本数据集采用 CC-BY-4.0 许可,用于研究和训练目的。
- 贡献者保留其个人轨迹的版权,上传即表示同意根据 CC-BY-4.0 许可共享。
搜集汇总
数据集介绍

构建方式
在智能体轨迹数据研究领域,opentraces-devtime数据集通过社区贡献的方式精心构建。该数据集遵循opentraces JSONL格式标准,收录了96条完整的智能体交互轨迹,每条轨迹均包含从任务发布到最终结果的全过程记录。数据采集时间集中于2026年3月27日至4月1日,所有轨迹均来自claude-code智能体在不同模型配置下的实际运行过程,确保了数据来源的真实性与时效性。
特点
该数据集展现出多维度质量特征,其整体效用评分达到90.2%,在规范性、强化学习和分析维度分别获得99.3%、99.6%和100%的高分评价。每条轨迹记录采用标准化的TraceRecord结构,涵盖任务元数据、思维-行动-观察循环序列、会话结果信号等十二个核心字段。数据集特别注重环境元数据和代码归属信息的完整性,为研究智能体行为模式提供了结构化观测框架。
使用方法
研究人员可通过HuggingFace数据集库直接加载该资源,使用标准接口即可访问全部96条轨迹数据。每条JSONL记录均符合0.2.0版本模式规范,支持对智能体决策过程、API调用模式和成本效益的量化分析。该数据集适用于大语言模型训练、强化学习算法验证及智能体行为分析等多重研究场景,其CC-BY-4.0许可协议保障了学术使用的开放性。
背景与挑战
背景概述
在人工智能领域,特别是大型语言模型(LLM)与智能体(Agent)研究蓬勃发展的背景下,对高质量、结构化交互轨迹数据的需求日益迫切。opentraces-devtime数据集应运而生,作为OpenTraces社区倡议的一部分,旨在收集和标准化智能体执行任务时产生的完整交互轨迹。该数据集由社区贡献者于2026年3月至4月间构建,遵循0.2.0版模式,记录了智能体在‘思考-行动-观察’循环中的详细步骤、API调用、资源消耗及任务结果。其核心研究问题聚焦于如何通过真实、可追溯的交互数据,为智能体的行为分析、性能评估、模型训练与强化学习提供可靠基准,从而推动可解释、可复现的智能体系统研究。
当前挑战
该数据集致力于解决智能体系统评估与优化领域的核心挑战,即缺乏标准化、高质量的交互轨迹基准。具体挑战体现在两方面:其一,在领域问题层面,智能体行为的复杂性、任务环境的多样性以及评估维度的多重性(如成功率、效率、成本)使得构建全面、公正的评估框架异常困难;其二,在构建过程中,确保数据模式的一致性、轨迹记录的完整性、元数据的准确性以及社区贡献数据的质量可控性,均构成了显著的技术与协作障碍,这从数据集质量评估中‘训练’维度得分相对较低可见一斑。
常用场景
经典使用场景
在智能体与大型语言模型研究领域,opentraces-devtime数据集以其详尽的轨迹记录为模型行为分析提供了关键支撑。该数据集最经典的使用场景在于对智能体任务执行过程的深度剖析,研究者通过解析其结构化的思维-行动-观察循环步骤,能够系统评估智能体在复杂任务中的决策逻辑与交互模式,为优化智能体架构奠定实证基础。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作,主要集中在智能体评估基准构建与训练算法创新领域。部分研究利用其轨迹数据开发了智能体能力多维度量体系,另一些工作则基于其结构化步骤探索了轨迹合成与数据增强技术。这些成果共同推动了开源智能体生态的发展,为后续研究提供了可复现的实验基础与性能对比参照。
数据集最近研究
最新研究方向
在智能体与大型语言模型交互轨迹分析领域,opentraces-devtime数据集凭借其高保真的结构化轨迹记录,正成为研究智能体行为可解释性与决策过程透明性的关键资源。当前前沿探索聚焦于利用该数据集中的多步思维-行动-观察循环数据,开发新型评估框架以量化智能体在复杂任务中的推理可靠性,并推动基于强化学习的智能体微调技术革新。随着人工智能安全与对齐议题日益受到重视,此类高质量轨迹数据为分析智能体失败模式、优化提示工程策略提供了实证基础,进而助力构建更稳健、可信赖的自主智能系统。
以上内容由遇见数据集搜集并总结生成



