thoughtworks/agentic-coding-trajectories
收藏Hugging Face2026-05-04 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/thoughtworks/agentic-coding-trajectories
下载链接
链接失效反馈官方服务:
资源简介:
agentic-coding-trajectories 是一个统一的、经过标记化的多轮编程代理会话语料库,包含15,000个多轮会话(平均每个会话41轮,总计618K轮),源自三个公开的上游数据集。该数据集专为在现实的多轮编程代理工作负载上基准测试LLM服务系统而构建。它捕捉了真实编程代理的工作模式——上下文在轮次间单调增长,输出在推理密集的规划和简短的工具调用之间切换——以便用户可以测量与生产环境匹配的工作负载模式下的服务器行为(如TTFT、TPOT、KV缓存、前缀缓存命中率等)。数据集保留了上游记录的来源和ID,便于追溯,并通过轻量级转换(如规范化消息模式、使用cl100k_base进行标记化、按最大ISL排序写入parquet)构建,未生成或修改任何内容。
agentic-coding-trajectories is a unified, tokenized corpus of 15,000 multi-turn agentic-coding sessions (618K turns, 41 turns/session avg) drawn from three publicly-released upstream datasets. Built for benchmarking LLM serving systems on realistic multi-turn coding-agent workloads, it captures the shape of real coding agents where context grows monotonically across turns and output flips between reasoning-heavy planning and short tool-calls. This allows measuring server behavior (TTFT, TPOT, KV cache, prefix-cache hit rate) under workload patterns that match production. The dataset preserves source_dataset and source_id for traceability and is built through a thin transformation process (normalize message schema, tokenize with cl100k_base, write parquet sorted by max ISL) without generating or modifying content.
提供机构:
thoughtworks
搜集汇总
数据集介绍

构建方式
该数据集通过整合三个公开的上游资源构建而成,包括Nebius的SWE-rebench轨迹、SWE-bench的SWE-smith轨迹以及Kwaipilot的Klear-SWE-Smith-Mini轨迹。每个来源贡献5000个会话,共计15000个多轮智能体编码会话。构建过程仅对消息模式进行轻量级标准化处理,使用cl100k_base分词器计算令牌数,并按照最大输入序列长度排序后写入Parquet格式文件。每行数据保留了source_dataset和source_id字段,以便追溯至原始记录,未对内容进行任何生成或修改。
特点
该数据集的核心特点在于其真实模拟了生产环境中编码智能体的多轮交互模式。与大多数单次提示基准不同,该语料库包含618K轮次,平均每会话41轮,其中上下文长度随轮次单调增长,输出在推理密集型规划和简短工具调用之间交替变化。这种模式使得研究者能够精确测量TTFT、TPOT、KV缓存压力以及前缀缓存命中率等关键性能指标。此外,数据集中最大输入序列长度的中位数为23,840个令牌,p95达到69,274个令牌,覆盖了从短上下文到长上下文的广泛分布。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,并利用其丰富的元数据进行灵活筛选。例如,可以按最大输入序列长度窗口(如8K-16K)筛选会话,以适配固定上下文长度的模型。此外,通过随机采样特定长度的会话,可以模拟多个并发用户的多轮回放场景,用于基准测试LLM服务系统的吞吐量和延迟。该数据集的列包括会话ID、来源数据集、智能体框架、消息内容、轮次数及令牌统计信息,便于进行深入的性能分析和行为研究。
背景与挑战
背景概述
随着大语言模型(LLM)服务系统从单轮问答向多轮智能体交互演进,现有基准测试大多仍基于静态、单轮提示,难以捕捉编码智能体在真实生产环境中的复杂行为模式。为此,ThoughtWorks于2026年推出了agentic-coding-trajectories数据集,这是一项整合了来自Nebius、SWE-bench和Kwaipilot等三个公开上游来源、共计15,000个多轮编码智能体会话的统一语料库,涵盖618K轮次交互,平均每轮41次。该数据集的核心研究问题聚焦于刻画编码智能体长期交互中上下文单调增长、输出在推理规划与简短工具调用之间交替的真实工作负载模式,旨在为LLM服务系统的性能评测(如首Token生成时间、Token间延迟、KV缓存压力等)提供贴近生产的基准,对推动智能体系统评价方法学的发展具有重要影响。
当前挑战
该数据集所面临的挑战首先体现在领域问题层面:现有LLM服务基准依赖单轮提示,无法反映多轮编码智能体在真实环境下的工作负载特性,如上下文长度逐步增大、输出模式频繁切换,这导致系统性能评估与实际情况偏离。数据集构建过程中的挑战则包括:来自不同上游源的数据格式不统一,需进行消息模式标准化和token化处理;所有轨迹均由LLM生成而非人类编写,存在合成数据与真实交互行为的偏差;此外,上游数据主要源于SWE-bench生态系统,其泛化至数据分析、产品问答等其他智能体应用领域的能力尚待验证。token计数依赖单一分词器(cl100k_base),迁移至不同模型时需重新计算,这也增加了使用门槛。
常用场景
经典使用场景
在人工智能与软件工程的交叉领域,多轮交互式编程代理正逐步成为自动化代码生成与缺陷修复的核心范式。agentic-coding-trajectories数据集作为该领域的里程碑式资源,提供了15,000条由真实开源仓库问题衍生的多轮编码会话轨迹,平均每轮会话包含41次交互。该数据集最经典的用途在于对大型语言模型服务系统进行性能压力测试,研究人员通过重放这些轨迹,可以精确测量首个令牌生成时间、每个输出令牌生成时间、键值缓存行为以及前缀缓存命中率等关键指标。由于会话中上下文长度单调增长,输出在深度推理与简短工具调用之间交替,这一特性使得该数据集成为评估服务器在复杂生产负载下表现的黄金标准。通过按最大输入序列长度进行过滤,研究者能够针对不同上下文窗口的模型开展精细化评估,从而全面感知服务系统在处理真实多轮编程代理工作负载时的瓶颈与潜力。
衍生相关工作
agentic-coding-trajectories数据集的诞生不仅直接推动了服务评测领域的进步,更催生了多个富有影响力的衍生研究方向。基于该数据集的会话结构,研究者开发了面向多轮交互的负载生成器,能够参数化地生成不同长度和复杂性模式的合成轨迹,为更广泛的服务系统压力测试提供了可扩展的工具。在模型优化方面,一些团队利用会话中各轮推理与工具调用输出的分布规律,设计出了动态批处理与分离预填充和解码阶段的系统架构,显著提升了长上下文场景下的推理效率。此外,有学术工作以此数据集为基准训练了性能预测模型,通过分析前几轮交互的特征来预估本轮输出的计算成本,从而为调度器提供前瞻性决策支持。这些衍生工作形成了一个以实际编码代理工作负载为核心的生态系统,每个贡献都对原始数据集的洞察进行了深化与拓展,共同构建了从数据采集到系统优化再到负载预测的完整研究链。
数据集最近研究
最新研究方向
该数据集聚焦于多轮交互式编码代理(agentic coding)场景下的大语言模型服务系统评测,填补了现有基准测试多采用单轮提示的空白。通过整合15,000个来自SWE-bench等生态的多轮编码对话轨迹(平均每场41轮交互,最大输入序列长度(ISL)中位数达23,840 tokens),本研究方向揭示了编码代理工作负载中提示内容随轮次单调增长、输出在推理型规划与简短工具调用间切换的动态特征。这一前沿趋势紧密关联代理型代码生成与大模型部署优化热点,例如KV缓存管理、前缀缓存命中率及多用户并发吞吐量评估,其核心意义在于推动LLM服务系统从实验室单轮测试向生产级复杂交互场景的性能评估范式迁移,为构建更精准、可复现的代理系统基准测试生态奠定基础。
以上内容由遇见数据集搜集并总结生成



