ml-intern-sessions

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/clem/ml-intern-sessions

下载链接

链接失效反馈

官方服务：

资源简介：

ML Intern会话轨迹数据集包含从本地ML Intern运行中上传的编码代理会话轨迹。数据以JSON Lines格式存储，每个会话对应一个文件，存放于sessions/YYYY-MM-DD/<session_id>.jsonl路径下。每个JSONL文件包含转换为Claude-Code风格事件流的单个ML Intern会话，记录可能包括用户消息、助手消息、工具调用、工具结果、模型元数据和时间戳。该数据集专为Hugging Face代理轨迹查看器设计，适用于文本生成和编码代理相关研究。重要提示：数据集未经过全面脱敏处理，可能包含敏感信息如提示词、代码、终端输出、文件路径、仓库名称等，使用前需谨慎检查内容安全性。

The ML Intern session trajectory dataset contains encoded agent session trajectories uploaded from local ML Intern runs. The data is stored in JSON Lines format, with each session corresponding to a file located at sessions/YYYY-MM-DD/<session_id>.jsonl. Each JSONL file contains a single ML Intern session converted into a Claude-Code style event stream, which may include user messages, assistant messages, tool calls, tool results, model metadata, and timestamps. This dataset is specifically designed for the Hugging Face agent trajectory viewer and is suitable for text generation and coding agent-related research. Important note: The dataset has not undergone comprehensive desensitization and may contain sensitive information such as prompts, code, terminal output, file paths, repository names, etc. Content security should be carefully checked before use.

创建时间：

2026-05-01

原始信息汇总

数据集概述：ML Intern Session Traces

数据集名称：ML Intern Session Traces
语言：英语
许可证：其他（自定义许可证）
任务类别：文本生成
标签：代理轨迹、编码代理、ML实习生、会话轨迹、Claude Code、HF代理轨迹查看器

数据集结构

配置文件：default
数据文件：训练集分片，路径为 sessions/**/*.jsonl，每个会话对应一个文件
存储格式：JSON Lines 格式，按日期组织，路径示例：sessions/YYYY-MM-DD/<session_id>.jsonl

数据内容

每个 .jsonl 文件记录单个 ML Intern 会话，转换为 Claude-Code 风格的事件流，用于 Hugging Face 代理轨迹查看器。条目类型包括：

用户消息
助手消息
工具调用
工具结果
模型元数据
时间戳

数据来源

从本地 ML Intern 运行中上传的会话轨迹
ML Intern 演示：https://smolagents-ml-intern.hf.space
ML Intern CLI：https://github.com/huggingface/ml-intern

重要警告

未进行全面脱敏或人工审核：数据集仅通过自动化工具尽力清除常见密钥（如 Hugging Face、Anthropic、OpenAI、GitHub、AWS 令牌），不保证隐私安全
可能包含敏感信息：包括提示词、代码、终端输出、文件路径、仓库名称、私有任务上下文、工具输出等本地开发环境数据
使用建议：在公开数据集前，需手动检查所有上传会话并确认内容可共享；对每个会话需保持谨慎处理

限制说明

编码代理记录可能包含：

私人或无关内容
失败的实验
用户意外粘贴的凭据
从本地文件或服务复制的输出

建议在变更仓库可见性前，谨慎使用并仔细审查。

搜集汇总

数据集介绍

构建方式

该数据集汇聚了ML Intern编程智能体在本地运行过程中产生的会话轨迹数据。每条记录均以JSON Lines格式独立存储于`sessions/`目录下，按会话维度组织为独立的`.jsonl`文件。文件路径遵循`sessions/YYYY-MM-DD/<session_id>.jsonl`的结构，便于按时间与标识符进行索引。每一条会话流被转换为兼容Claude-Code风格的事件序列，适配Hugging Face Agent Trace Viewer的解析规范。条目类型涵盖用户消息、助手消息、工具调用及结果、模型元信息与时间戳，构建了一套结构完整、层次分明的智能体交互日志体系。

特点

本数据集的一大特质在于其保留了编程智能体在多轮交互中的原始动态过程，而非仅呈现最终结果。每条会话内部记录了完整的工具链调用时序与模型响应轨迹，为分析智能体推理与决策路径提供了微观层面的支撑。同时，数据集未经过全面的人工审核或自动化脱敏，其间可能潜藏敏感信息，包括用户输入、代码片段、终端输出、文件路径乃至私密任务上下文。因此，数据样本兼具高真实性与潜在的隐私风险，决定了其使用过程中的审慎态度与权限控制要求。

使用方法

该数据集适用于文本生成任务场景下的智能体行为建模与评估分析。用户可通过加载`sessions/`路径下所有`.jsonl`文件，利用标准JSON Lines解析工具读取每个会话的完整事件流。推荐结合Hugging Face Agent Trace Viewer对会话进行可视化回放，以直观理解工具调用顺序与模型输出演化。在开展训练或评测前，务必对数据进行人工审查，剔除或标注可能存在的敏感内容。尤其当涉及公开部署或共享时，需逐条评估会话中是否含有不应外泄的私密信息，以保障数据伦理与用户隐私安全。

背景与挑战

背景概述

该数据集由Hugging Face团队于近期创建，旨在收集和分享ML Intern编码智能体的会话轨迹数据。ML Intern是一个专注于代码生成的智能体系统，其会话轨迹记录了用户与智能体之间的交互过程，包括用户消息、助手回复、工具调用及其结果、模型元数据和时间戳等。该数据集的核心研究问题是分析和改进编码智能体的行为模式与性能，为智能体训练与评估提供真实世界的交互数据。作为首个公开发布的编码智能体会话轨迹数据集，它对推动智能体系统在真实开发环境中的应用、提升代码生成与工具使用的协同效率具有重要影响力，为相关研究提供了宝贵的基准资源。

当前挑战

该数据集面临的核心挑战在于其敏感性与隐私保护。由于会话轨迹可能包含用户输入的代码、终端输出、文件路径、仓库名称、私有任务上下文等开发环境中的敏感信息，自动化脱敏处理（如针对Hugging Face、Anthropic等平台令牌的扫描）不能完全保证隐私安全，存在信息泄露的风险。此外，数据集未经过全面的人工审查，其中可能包含失败的实验、用户误粘贴的凭据以及本地文件服务输出的内容，这些内容的质量与可靠性参差不齐。如何在不影响数据实用性的前提下实现有效的隐私保护，以及如何设计更可靠的脱敏与审核机制，是该数据集构建与应用过程中的主要挑战。

常用场景

经典使用场景

ML Intern Session Traces数据集汇集了ML Intern编码智能体在本地运行过程中产生的完整会话轨迹，以JSON Lines格式按会话组织存储。每条记录细腻地刻画了用户消息、助理响应、工具调用及其结果、模型元数据与时间戳等核心要素，为研究人员提供了一个还原智能体与人类协作全貌的珍贵窗口。该数据集最经典的用途在于训练和评估基于文本生成的代码智能体模型，通过大规模真实的会话数据，推动模型在上下文理解、意图推断与工具调用策略上的能力跃迁，成为智能体行为建模与对话系统优化的重要基石。

解决学术问题

该数据集有效回应了代码智能体研究中长期存在的真实交互数据匮乏之困。以往研究多依赖人工合成的任务示例或受限的模拟环境，难以捕捉开发过程中自然涌现的试探性行为、错误恢复路径与上下文切换等复杂动态。ML Intern Session Traces通过记录未经过滤的开发者与智能体协作历程，为探究智能体在非理想条件下的鲁棒性、意图对齐机制以及多轮对话中的决策演化提供了第一手资料。这一资源推动了学术界从静态基准测试向动态交互评估的范式转型，深化了对智能体在实际编程场景中行为模式与认知局限的理解。

衍生相关工作

围绕ML Intern Session Traces数据集，一系列经典研究工作已陆续涌现。其中，基于轨迹数据微调的代码智能体模型显著提升了工具调用的准确性与对话延续的自然度；会话压缩与关键事件提取算法得以借助该数据集从冗长交互中提炼高效摘要，支撑长程任务追踪。在评估层面，学者利用该数据集设计了面向真实开发场景的智能体能力评测框架，将传统单元测试扩展为包含上下文感知与多步推理的复合指标。数据本身驱动的异常检测与隐私脱敏技术也被广泛探讨，这些研究相互交织，共同构建起从数据采集、模型训练到安全部署的代码智能体研究闭环，持续推动着该领域迈向更成熟的发展阶段。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集