five

opentraces-devtime

收藏
Hugging Face2026-04-01 更新2026-04-02 收录
下载链接:
https://huggingface.co/datasets/OpenTraces/opentraces-devtime
下载链接
链接失效反馈
官方服务:
资源简介:
opentraces-devtime 是一个社区贡献的智能体轨迹数据集,采用 opentraces JSONL 格式存储,主要用于文本生成任务。数据集包含 96 条轨迹记录,总计 7,070,289 个 token,时间跨度为 2026 年 3 月 27 日至 4 月 1 日。每条记录包含 trace_id、session_id、agent 信息、任务元数据、LLM API 调用步骤(思考-行动-观察循环)、会话结果信号、聚合的 token 使用和成本估算、运行时环境元数据以及代码归属数据(实验性)等字段。数据集采用 CC-BY-4.0 许可协议,贡献者保留其个人轨迹的版权。质量评估显示,该数据集在一致性(99.3%)、强化学习(99.6%)、分析(100%)和领域适应性(95.3%)方面表现优异,整体效用得分为 90.2%。主要使用的模型为 Claude-Opus-4-6(76 条)和 Claude-Sonnet-4-6(20 条),所有轨迹均由 claude-code 代理生成。
创建时间:
2026-03-31
原始信息汇总

opentraces-devtime 数据集概述

基本信息

  • 数据集名称: opentraces-devtime
  • 托管地址: https://huggingface.co/datasets/OpenTraces/opentraces-devtime
  • 许可证: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/)
  • 语言: 英语 (en)
  • 任务类别: 文本生成 (text-generation)
  • 标签: opentraces, agent-traces
  • 数据规模: n<1K (小于1千条样本)

数据内容与结构

  • 数据格式: OpenTraces JSONL 格式
  • 配置: 默认配置 (default),训练集 (train) 数据文件路径为 data/traces_*.jsonl
  • 每条记录 (TraceRecord) 包含字段:
    • trace_id: 轨迹的唯一标识符
    • session_id: 源会话标识符
    • agent: 代理身份信息(名称、版本、模型)
    • task: 结构化的任务元数据
    • steps: LLM API 调用列表(思考-行动-观察循环)
    • outcome: 会话结果信号
    • metrics: 聚合的令牌使用量和成本估算
    • environment: 运行时环境元数据
    • attribution: 代码归属数据(实验性)
  • 模式版本: 0.2.0
  • 完整模式文档: https://opentraces.ai/schema

数据集统计

  • 总轨迹数: 96
  • 总步数: 28,959
  • 总令牌数: 7,070,289
  • 日期范围: 2026-03-27 至 2026-04-01
  • 成功率: 100.0%
  • 平均每会话步数: 302
  • 平均成本 (USD): 42.59
  • 总成本估算 (USD): 4088.62

模型分布

模型 数量
claude-opus-4-6 76
claude-sonnet-4-6 20

代理分布

代理 数量
claude-code 96

质量评估分数卡

评估时间: 2026-04-01T12:24:44.789201+00:00 评估模式: 确定性 (deterministic) 评分器版本: v0.2.0

评估维度 得分 最小值 最大值 状态
一致性 (conformance) 99.3% 94.4% 100.0% 通过 (PASS)
训练 (training) 56.7% 47.0% 65.4% 未通过 (FAIL)
强化学习 (rl) 99.6% 58.6% 100.0% 通过 (PASS)
分析 (analytics) 100.0% 98.9% 100.0% 通过 (PASS)
领域 (domain) 95.3% 61.7% 100.0% 通过 (PASS)

整体效用 (Overall utility): 90.2% 质量门禁 (Gate): 通过 (PASSING)

使用方式

python from datasets import load_dataset ds = load_dataset("OpenTraces/opentraces-devtime")

许可与贡献

  • 本数据集采用 CC-BY-4.0 许可,用于研究和训练目的。
  • 贡献者保留其个人轨迹的版权,上传即表示同意根据 CC-BY-4.0 许可共享。
搜集汇总
数据集介绍
main_image_url
构建方式
在智能体轨迹数据研究领域,opentraces-devtime数据集通过社区贡献的方式精心构建。该数据集遵循opentraces JSONL格式标准,收录了96条完整的智能体交互轨迹,每条轨迹均包含从任务发布到最终结果的全过程记录。数据采集时间集中于2026年3月27日至4月1日,所有轨迹均来自claude-code智能体在不同模型配置下的实际运行过程,确保了数据来源的真实性与时效性。
特点
该数据集展现出多维度质量特征,其整体效用评分达到90.2%,在规范性、强化学习和分析维度分别获得99.3%、99.6%和100%的高分评价。每条轨迹记录采用标准化的TraceRecord结构,涵盖任务元数据、思维-行动-观察循环序列、会话结果信号等十二个核心字段。数据集特别注重环境元数据和代码归属信息的完整性,为研究智能体行为模式提供了结构化观测框架。
使用方法
研究人员可通过HuggingFace数据集库直接加载该资源,使用标准接口即可访问全部96条轨迹数据。每条JSONL记录均符合0.2.0版本模式规范,支持对智能体决策过程、API调用模式和成本效益的量化分析。该数据集适用于大语言模型训练、强化学习算法验证及智能体行为分析等多重研究场景,其CC-BY-4.0许可协议保障了学术使用的开放性。
背景与挑战
背景概述
在人工智能领域,特别是大型语言模型(LLM)与智能体(Agent)研究蓬勃发展的背景下,对高质量、结构化交互轨迹数据的需求日益迫切。opentraces-devtime数据集应运而生,作为OpenTraces社区倡议的一部分,旨在收集和标准化智能体执行任务时产生的完整交互轨迹。该数据集由社区贡献者于2026年3月至4月间构建,遵循0.2.0版模式,记录了智能体在‘思考-行动-观察’循环中的详细步骤、API调用、资源消耗及任务结果。其核心研究问题聚焦于如何通过真实、可追溯的交互数据,为智能体的行为分析、性能评估、模型训练与强化学习提供可靠基准,从而推动可解释、可复现的智能体系统研究。
当前挑战
该数据集致力于解决智能体系统评估与优化领域的核心挑战,即缺乏标准化、高质量的交互轨迹基准。具体挑战体现在两方面:其一,在领域问题层面,智能体行为的复杂性、任务环境的多样性以及评估维度的多重性(如成功率、效率、成本)使得构建全面、公正的评估框架异常困难;其二,在构建过程中,确保数据模式的一致性、轨迹记录的完整性、元数据的准确性以及社区贡献数据的质量可控性,均构成了显著的技术与协作障碍,这从数据集质量评估中‘训练’维度得分相对较低可见一斑。
常用场景
经典使用场景
在智能体与大型语言模型研究领域,opentraces-devtime数据集以其详尽的轨迹记录为模型行为分析提供了关键支撑。该数据集最经典的使用场景在于对智能体任务执行过程的深度剖析,研究者通过解析其结构化的思维-行动-观察循环步骤,能够系统评估智能体在复杂任务中的决策逻辑与交互模式,为优化智能体架构奠定实证基础。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作,主要集中在智能体评估基准构建与训练算法创新领域。部分研究利用其轨迹数据开发了智能体能力多维度量体系,另一些工作则基于其结构化步骤探索了轨迹合成与数据增强技术。这些成果共同推动了开源智能体生态的发展,为后续研究提供了可复现的实验基础与性能对比参照。
数据集最近研究
最新研究方向
在智能体与大型语言模型交互轨迹分析领域,opentraces-devtime数据集凭借其高保真的结构化轨迹记录,正成为研究智能体行为可解释性与决策过程透明性的关键资源。当前前沿探索聚焦于利用该数据集中的多步思维-行动-观察循环数据,开发新型评估框架以量化智能体在复杂任务中的推理可靠性,并推动基于强化学习的智能体微调技术革新。随着人工智能安全与对齐议题日益受到重视,此类高质量轨迹数据为分析智能体失败模式、优化提示工程策略提供了实证基础,进而助力构建更稳健、可信赖的自主智能系统。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作