davidkling/hf-coding-tools-traces

Name: davidkling/hf-coding-tools-traces
Creator: davidkling
Published: 2026-04-30 13:31:27
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/davidkling/hf-coding-tools-traces

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是HuggingFace AI Coding Tools的Agent Traces数据集，主要用于存储和展示AI编码工具的基准测试结果。数据集包含了32个会话，每个会话对应一个（工具、模型、努力程度、思考）配置，总计9,130个查询→响应轮次（约18,260个事件）。数据集涵盖了多种工具和模型，如claude_code、codex、copilot、cursor等工具，以及claude-opus-4-6、gpt-4.1等模型。数据格式采用Claude Code JSONL模式，每个会话包含用户和助手的交互记录，并附带基准测试的元数据。数据集来源于davidkling/hf-coding-tools-dashboard，并经过重新格式化以适应Hugging Face Agent Trace Viewer的使用需求。

This dataset rehydrates the benchmark results from davidkling/hf-coding-tools-dashboard into the JSONL session format consumed by the Hugging Face Agent Trace Viewer. It contains 32 sessions, one per (tool, model, effort, thinking) configuration, with a total of 9,130 query → response turns (≈18,260 events). The dataset covers tools like claude_code, codex, copilot, cursor, and models such as claude-opus-4-6, gpt-4.1, etc. Each session uses the Claude Code JSONL schema, including user and assistant interactions with benchmark metadata. The dataset is sourced from davidkling/hf-coding-tools-dashboard and reformatted for use with the Hugging Face Agent Trace Viewer.

提供机构：

davidkling

搜集汇总

数据集介绍

构建方式

该数据集源自于 `davidkling/hf-coding-tools-dashboard` 基准测试平台的结果数据，通过一种精细化的再水合（rehydration）过程，将原始结构化表格转化为符合Hugging Face Agent Trace Viewer规范的JSONL会话格式。具体而言，原始 `results` 表中的每一行记录均被拆解为同一会话内的两条连续事件：一条以 `user` 类型呈现，携带基准查询文本；另一条以 `assistant` 类型呈现，包含模型生成的响应内容及丰富的基准元数据。所有会话均遵循 Claude Code 的 JSONL 模式，其 UUID 由 session、role 与 row_id 通过 SHA-1 算法确定性生成，从而确保父子事件链在每次再生过程中的稳定性。文件命名遵循 `{tool}__{model}__{effort}__{thinking}.jsonl` 的规范，便于按配置快速检索。

特点

本数据集收录了32个完整的代理追踪会话，覆盖了 `claude_code`、`codex`、`copilot` 和 `cursor` 四种主流编码工具，并搭配了包括 `claude-opus-4-6`、`claude-sonnet-4-6`、`gpt-4.1` 及 `gpt-5.4` 在内的七种先进模型，以及不同努力程度（effort）和思考方式（thinking）的配置组合。数据集总计包含约9,130个查询-响应对话轮次，折合约18,260个独立事件，规模介于千级至万级之间。其独特之处在于，每个助手响应事件中都嵌入了 `benchmark_metadata` 块，完整记录了成本、延迟、令牌使用量、检测到的Hugging Face产品、提及的竞争对手以及查询的难度等级与类别，为深入分析编码代理的性能行为提供了多维度的结构化支撑。

使用方法

该数据集可直接用于Hugging Face Agent Trace Viewer的可视化调试与分析，用户只需将JSONL文件加载至该工具中，即可按会话逐轮回放用户与编码代理的交互过程。同时，数据集的标准格式化特性使其易于被脚本化处理，研究者可通过解析JSONL文件中的 `benchmark_metadata` 字段，提取成本、延迟、令牌消耗等关键指标，对不同工具-模型配置下的代理表现进行横向对比与统计评估。此外，由于文件命名携带了明确的配置标识，用户可依据 `manifest.json` 中的索引信息，按需加载特定组合的会话数据，进而开展细粒度的性能诊断或生成训练语料。

背景与挑战

背景概述

随着大语言模型在代码生成与自动编程领域的迅猛发展，如何系统性地评估各类AI编码工具的效能已成为研究热点。HuggingFace推出的hf-coding-tools-traces数据集正是在这一背景下应运而生，由Clem Delangue等研究人员于近期创建，旨在将来自davidkling/hf-coding-tools-dashboard的基准测试结果重构为结构化、可复现的交互会话数据。该数据集涵盖了claude_code、codex、copilot和cursor四种主流编码工具，集成了从claude-opus-4-6到gpt-5.4等七种顶尖模型，共计32个会话与超过9130轮查询-响应对。通过提供统一的JSONL格式和稳定的UUID索引，它为编码代理的可比性评估与性能追踪奠定了坚实基础，深刻影响了AI辅助编程领域的基准测试研究与工具开发实践。

当前挑战

该数据集所应对的核心挑战在于，当前AI编码工具领域缺乏统一、可复现且细粒度的评估框架。一方面，不同工具与模型间的性能比较常因评估协议差异而失准，该数据集通过标准化会话格式与元数据记录（包括成本、延迟、令牌消耗等关键指标），为多维度对比评测提供了可靠基准。另一方面，构建过程中面临显著挑战：如何将源自异构Dashboard的分散结果高效重组为结构化会话流，并确保各工具-模型-配置组合下的会话数量均衡；同时需保证UUID的确定性生成以维护父-子链的稳定性，以及对不同工具特有的响应格式进行兼容性适配，这些均对数据清洗与格式转换技术提出了严苛要求。

常用场景

经典使用场景

在人工智能辅助编程与代码生成领域，针对不同编码工具与语言模型组合的系统化评估一直是学界和工业界关注的焦点。该数据集以32个会话、超过9,130轮查询-响应对的规模，系统收录了Claude Code、Codex、Copilot、Cursor等主流AI编码工具在多种模型配置下的交互轨迹。每一个会话不仅保留了完整的对话链路，还附带基准元数据，涵盖成本、延迟、令牌消耗、检测到的HuggingFace产品及竞争对手提及等关键指标。研究者可通过回放这些细粒度的代理交互记录，深入剖析不同工具与模型在不同努力级别和推理模式下的行为差异，从而为编码智能体的性能比较、行为建模和鲁棒性分析提供标准化、可复现的实验基础。

解决学术问题

在计算语言学和人工智能安全研究中，如何客观、可重复地评估AI编码代理的行为一致性与决策透明度是一个长期存在的难题。传统基准测试仅输出最终分数，难以揭示代理在复杂交互中的中间推理过程和失败模式。该数据集通过将标准化基准结果反演为结构化会话日志，首次将代理的内部决策链路、上下文利用策略以及工具调用偏好以事件级粒度暴露出来。这使得研究者能够系统性地探究模型在面对多轮编程任务时的思维链一致性、错误恢复能力以及工具选择倾向，填补了当前编码智能体评估中仅关注结果指标而忽视过程可解释性的学术空白，推动了更安全、更可控的AI编程生态构建。

衍生相关工作

该数据集的诞生催生了多个方向的延伸研究。基于其标准化的代理交互格式，研究者已开发出专门的轨迹可视化工具Agent Trace Viewer，使得非专家用户也能直观理解复杂会话中的决策链路。此外，该数据集与HuggingFace开源的评估仪表盘协同，构成了从数据采集、格式反演到交互回放的完整闭环，成为后续编码智能体行为分析、提示工程优化以及多代理协作模拟等工作的基准参照。围绕这套会话框架，社区涌现出包括成本感知的模型蒸馏、跨工具行为迁移学习以及异常轨迹检测在内的衍生工作，持续扩展着该数据集在AI编码工具评估生态中的基础支撑作用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集