five

TraceLab

收藏
arXiv2026-06-30 更新2026-07-01 收录
下载链接:
https://github.com/uw-syfi/TraceLab.git
下载链接
链接失效反馈
官方服务:
资源简介:
TraceLab是由华盛顿大学、武汉理工大学和上海交通大学的研究团队创建的大规模编码智能体工作负载追踪数据集,旨在填补真实世界编码智能体使用模式数据的空白。该数据集包含约4,300个会话,涵盖约350,000个LLM步骤和430,000个工具调用,数据来源于43名开发者在约八个月内对Claude Code和Codex的日常使用,涉及20多个模型版本。数据集通过自动化流水线从原始日志中提取、格式标准化和匿名化处理而成,捕获了会话级交互、多步工具调用和上下文增长等真实特征。该数据集主要应用于大型语言模型服务系统优化研究,帮助理解编码智能体的工作负载特性,以解决高效服务部署、缓存管理和工具调用优化等关键问题。

TraceLab is a large-scale coding AI agent workload tracing dataset developed by research teams from the University of Washington, Wuhan University of Technology, and Shanghai Jiao Tong University, aiming to fill the gap in real-world usage pattern data of coding AI agents. This dataset contains approximately 4,300 sessions, covering around 350,000 LLM steps and 430,000 tool calls. The data is sourced from the daily usage of Claude Code and Codex by 43 developers over roughly eight months, involving more than 20 model versions. The dataset is constructed via an automated pipeline for extraction, format standardization, and anonymization from raw logs, capturing real-world characteristics including session-level interactions, multi-step tool calls, and context growth. This dataset is primarily utilized in research on large language model service system optimization, aiding in understanding the workload characteristics of coding AI agents to address key challenges such as efficient service deployment, cache management, and tool call optimization.
提供机构:
华盛顿大学; 武汉理工大学; 上海交通大学
创建时间:
2026-06-30
搜集汇总
数据集介绍
main_image_url
构建方式
TraceLab数据集源自43位开发者为期约八个月的真实日常编码助手使用记录,覆盖Claude Code与Codex两大平台、超过20个模型版本。通过自动化流水线,从原始代理日志中提取会话元数据、用户消息、推理过程、输出文本、工具调用及其结果,以及时间戳与令牌用量等关键信息。经过格式归一化与隐私匿名化处理,最终形成统一的步级(step-level)架构,将每次LLM调用与其产生的工具调用序列组织为单行数据,从而完整保留编码代理在会话、请求与步骤三个层次上的交互逻辑。
特点
该数据集的一个显著特点在于其真实性与跨平台覆盖能力。它包含约4300个编码代理会话、35.7万次LLM调用与43.2万次工具调用,真实反映了从简单任务到复杂编程场景的多样性负载。核心特征表现为长程自主循环(平均每会话8.8次LLM调用与10.8次工具调用)、长上下文短输出(中位前缀令牌12.6万、输出仅252个)、工具调用的高度偏态分布(前三类工具覆盖逾80%调用量)以及前缀缓存命中率高(95.7%)但用户介入间隙导致昂贵失效的特点。
使用方法
TraceLab以标准化的步级架构提供下载,适用于多种研究和系统优化场景。研究人员可直接加载会话、请求与步骤的三级结构,分析令牌与成本的时域演化,评估前置缓存策略在不同间隙长度下的表现,或根据工具类型与延迟分布设计更高效的预填充路由与缓存淘汰算法。配套的开源分析代码和重放管道允许用户将真实负载注入到自研或开源推理引擎中,进行LLM服务系统的流量模拟与性能评测。
背景与挑战
背景概述
TraceLab数据集由华盛顿大学的研究团队联合武汉理工大学和上海交通大学的研究人员于2025年至2026年间创建,旨在填补编码代理工作负载在真实服务系统中的数据空白。随着Claude Code、Codex等编码代理的迅速普及,它们已成为大语言模型代理应用的重要分支,但现有公开追踪数据(如Mooncake、LMSYS-Chat-1M)仅覆盖传统聊天或单轮交互,缺乏多步骤工具调用和长会话结构。基于此,研究团队从43名开发者的日常使用中收集了约4,300个编码代理会话,涵盖约350,000次LLM调用和430,000次工具调用,跨越20多个模型版本。这一大规模跨提供商真实追踪数据集,为理解编码代理工作负载特征提供了前所未有的视角,对优化LLM服务系统具有重要影响力。
当前挑战
编码代理工作负载的独特性带来了多重挑战。首先,在领域问题层面,现有基准如SWE-bench和Terminal-Bench仅聚焦于单一任务的准确性评估,无法捕捉多步骤自主循环、长上下文累积以及人类思考间隙等真实服务特征,导致服务系统优化缺乏针对性。其次,构建过程中挑战显著:跨不同提供商(Claude Code和Codex)的日志格式、令牌统计方式和工具计时元数据存在差异,需设计统一规范化流程;同时,为保护用户隐私,必须对所有会话、工具调用、项目和用户标识符进行匿名化处理,并删除原始用户消息和工具输入输出文本,仅保留字符计数和令牌用量等元数据,这增加了数据处理的复杂性。
常用场景
经典使用场景
在大型语言模型服务系统领域,TraceLab被广泛用于刻画编码代理工作负载的独特模式。研究者利用该数据集分析编码代理会话中的自主循环、上下文管理与文本压缩行为,揭示其与普通对话或代码补全工作负载的本质差异,为服务系统的性能评估提供真实负载基准。
解决学术问题
TraceLab填补了编码代理服务系统研究缺乏真实工作负载数据的空白。现有公开数据集多聚焦于对话或单次生成场景,无法反映编码代理的长会话、多步骤工具调用与累积上下文特性。该数据集揭示了前缀缓存命中率与人类思考间隙之间的关键关联,并量化了工具调用长尾分布对服务成本的影响,为设计高效缓存策略与调度算法提供了实证基础。
衍生相关工作
TraceLab的发布催生了多项创新性研究工作。CacheWise利用其早期版本设计前缀感知调度与预测性缓存驱逐机制;Continuum专注于多轮代理交互中KV缓存生存期的自适应管理;DualPath则借鉴其对上下文加载瓶颈的分析,提出存储-计算分离架构。此外,SGLang中RadixAttention的优化也部分受益于该数据集揭示的上下文增长模式。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务