TraceML

Hugging Face2026-05-12 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/TraceML-HF/TraceML

下载链接

链接失效反馈

官方服务：

资源简介：

TraceML是一个包含134个Kaggle竞赛中人类与LLM智能体配对轨迹的数据集，专注于机器学习编码行为的版本化分析。数据集核心包含两种类型的数据文件：state.parquet记录每个ML编码会话的单个版本状态，包括多标签状态标注和隐藏的Kaggle排行榜分数；action.parquet记录相邻版本之间的转换，包含多标签状态/行动/意图标注。数据分为三个部分：paired分割包含7个竞赛中人类与智能体（Codex和MLEvolve）的头对头运行轨迹，共15,206个状态行和14,726个动作行；humans_only分割包含另外127个竞赛中仅人类参与者的轨迹，用于扩展和行为研究，共135,791个状态行和133,125个动作行；experiment_run分割包含7个使用规划技能提示的Codex运行轨迹，用于论文中的实验验证，共91个状态行和84个动作行。数据集还包含丰富的元数据和辅助文件，如内核元数据、轨迹索引、竞赛清单、过滤规则、模式定义以及完整的处理管道代码和训练好的标注模型权重。数据收集遵循严格标准：竞赛年份≥2021、参赛团队≥500、每个竞赛至少有30个满足版本数≥10且时间跨度≥14天的内核。数据集主要用于机器学习轨迹分析、行为基准测试、智能体评估和代码生成研究。原始代码、模式和注释采用CC BY 4.0许可，原始人类内核笔记本保留其Kaggle许可（主要为Apache-2.0），并实施了个人电子邮件编辑等隐私保护措施。

创建时间：

2026-05-06

搜集汇总

数据集介绍

构建方式

TraceML数据集的构建历经从原始Kaggle内核到结构化轨迹数据的四阶段流水线。首先，通过提取原始内核文件完成数据导入。其次，基于分叉边与代码相似度边构建版本森林，并同步提取竞赛得分与图结构表。随后，应用物理过滤规则剔除时间窗口外、得分异常及质量欠佳的轨迹链。最后，利用微调后的Qwen3-1.7B模型对未标注状态与动作进行多标签标注，并与已有标注及智能体轨迹合并，形成最终的数据集。整个流程高度自动化，确保了数据处理的规模与一致性。

使用方法

用户可通过HuggingFace Datasets库高效加载TraceML。调用`load_dataset`函数并指定配置名`state`或`action`，即可获取相应的状态或动作表。数据集提供`paired`、`humans_only`与`experiment_run`三个拆分，分别服务于人机对比研究、大规模行为分析以及特定实验复现。加载后的数据可直接转换为Pandas DataFrame，便于后续利用Python生态进行统计分析、模型训练或行为建模。每行数据均包含版本元信息、标签注释及排行榜得分，支持多层级的研究探索。

背景与挑战

背景概述

TraceML数据集由研究团队于2024年创建，聚焦于机器学习编程轨迹的行为分析，核心研究问题在于对比人类与基于大语言模型的智能体在解决数据科学竞赛时的多版本迭代模式。该数据集涵盖134场Kaggle竞赛，包含超过15万条状态记录与14万条动作记录，通过细粒度的版本级状态、动作与意图标注，为理解人机编程策略差异提供了前所未有的量化基准。其发布对机器学习行为分析、人机协作研究以及智能体评估领域产生了深远影响，成为连接传统计算社会学与前沿大语言模型能力评估的关键桥梁。

当前挑战

TraceML所解决的领域挑战主要在于：传统编程行为研究多依赖静态代码快照，无法捕捉动态的逐步决策过程，而该数据集通过版本渐进式轨迹填补了这一空白。构建过程中面临多重困难，包括从134个竞赛中识别并过滤低质量轨迹（如窗口外数据、分数钓鱼行为），在4,847个内核中验证开源许可协议并处理隐私信息（如邮件脱敏），以及确保人类与智能体轨迹在7个竞赛子集上的精准对齐。此外，需设计鲁棒的标签系统并通过微调Qwen3-1.7B模型实现大规模自动化标注，同时维持跨版本上下文的一致性，最终在6.6GB的标注器权重与完整流水线代码中体现工程复杂性。

常用场景

经典使用场景

在人工智能与数据科学交叉领域，TraceML数据集为研究人类与智能体在机器学习编程任务中的行为差异提供了独特的对齐轨迹数据。该数据集覆盖134个Kaggle竞赛，包含超过15万条人类内核版本状态记录及对应的代理模型运行轨迹，特别设计了paired（人机对齐）、humans_only（人类单独）和experiment_run（实验运行）三种数据划分，使得研究者能够从版本演化、操作序列和多标签行为标注等多个维度进行对比分析。经典使用场景包括利用state.parquet分析人类与LLM代理在迭代编程过程中状态变化的异同，借助action.parquet捕捉每一次版本变迁时执行的动作、意图与策略选择，从而构建可解释的智能体行为模型。

解决学术问题

TraceML数据集系统性地回应了机器学习编程领域中多个基础性学术难题。它首次提供了大规模、跨竞赛的人类与LLM代理在ML任务上的逐版本轨迹数据，使得研究者能够量化评估智能体在代码迭代效率、策略多样性以及与人类专家行为相似度方面的表现。该数据集解决了长期困扰学术界的“人机行为对齐度量”问题，为对比学习、逆向强化学习和行为克隆等研究方向提供了可靠的基准测试平台。通过对超过14万条操作序列的多标签标注，研究者还可以深入探究编程过程中的意图识别、错误恢复机制以及决策模式差异，这些发现对理解人类编程认知过程具有重要意义。此外，TraceML中的技能提示实验数据直接支撑了关于规划能力对智能体性能影响的因果推断研究，推动了智能体行为分析的范式演进。

实际应用

在实际部署层面，TraceML数据集为自动化机器学习编程助手和智能教育系统提供了关键的数据支撑。基于该数据集中的对齐轨迹数据，可以训练出更贴近人类编程习惯的代码补全与推荐模型，从而提升工业级ML开发环境的生产效率。Kaggle竞赛场景中的人类成功策略与失败模式，经过数据挖掘后可用于构建自适应学习平台，帮助数据科学初学者避开常见的迭代陷阱。此外，数据集中的动作序列标注信息对于开发智能IDE插件具有直接价值——通过预测人类下一步可能执行的代码修改或搜索操作，实现更自然的交互式编程辅助。在AI安全评估领域，TraceML提供的多版本轨迹可以用来检验和修正大模型在复杂任务中的行为偏差，确保智能辅助系统在不同竞赛场景下的鲁棒性。

数据集最近研究