ml-intern-sessions

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/merve/ml-intern-sessions

下载链接

链接失效反馈

官方服务：

资源简介：

ML Intern会话轨迹数据集包含从本地ML Intern运行中收集并上传的编码代理会话记录。数据以JSON Lines格式存储，每个`.jsonl`文件对应一个独立的会话，组织在`sessions/YYYY-MM-DD/`目录结构下。每个文件包含完整的会话数据流，转换为类似于Claude-Code风格的事件序列，专用于Hugging Face代理跟踪查看器进行可视化与分析。数据条目类型丰富，包括用户输入消息、AI助手回复消息、工具调用请求、工具执行结果、模型元数据和时间戳。该数据集主要面向文本生成任务，用于研究、分析或复现基于代理的编码辅助系统的交互行为。但请注意，数据集未经过全面人工审查或系统敏感信息脱敏处理，虽然已通过自动化工具尽力擦洗常见密钥模式，仍可能残留敏感信息如操作提示词、代码片段、终端输出、本地文件路径、仓库名称、私有任务上下文等，使用者需保持警惕并评估共享风险。

The ML Intern session trajectories dataset contains encoded agent session logs collected from local ML Intern runs and uploaded. The data is stored in JSON Lines format, with each `.jsonl` file corresponding to an independent session. These files are organized under the `sessions/YYYY-MM-DD/` directory structure. Each JSONL file contains a complete ML Intern session, with its data stream converted into a Claude-Code-like event sequence, specifically designed for visualization and analysis with the Hugging Face agent trace viewer. The data entry types are diverse, including user input messages, AI assistant response messages, tool call requests, tool execution return results, related model metadata, and timestamps of events. This dataset is primarily intended for text generation tasks, especially for researching, analyzing, or reproducing interaction behaviors of agent-based coding assistance systems. Importantly, the dataset publisher explicitly warns that these session trajectories have not undergone comprehensive human review or systematic sensitive information sanitization. Although automated scrubbing for common key patterns (such as tokens for Hugging Face, Anthropic, OpenAI, GitHub, and AWS) was attempted before upload, this does not guarantee complete privacy safety. Traces may retain various sensitive information, such as specific operation prompts, generated code snippets, terminal outputs, local file paths, repository names, private task contexts, tool outputs, and other data from the local development environment. Therefore, each session should be treated as potentially containing sensitive content, and users must remain vigilant, especially before considering public sharing of the dataset or related outcomes, by manually inspecting the content and assessing sharing risks. Additionally, the coding agent interaction logs themselves may include private conversations, off-topic attempts, failed experiments, inadvertently pasted credentials, and content copied from local files or external services, which are limitations to consider during use.

创建时间：

2026-05-04

原始信息汇总

数据集概述：ML Intern Session Traces

数据集名称：ML Intern Session Traces
语言：英语
许可协议：其他（未指定标准开源许可）
任务类别：文本生成
标签：agent-traces, coding-agent, ml-intern, session-traces, claude-code, hf-agent-trace-viewer

数据内容与格式

数据描述：包含从本地 ML Intern 运行中上传的编码代理会话记录。每个会话以单独的 JSON Lines 文件存储，位于 sessions/ 目录下。
文件路径格式：sessions/YYYY-MM-DD/<session_id>.jsonl
每条记录结构：事件流格式（Claude-Code 风格，兼容 Hugging Face Agent Trace Viewer），可能包含用户消息、助手消息、工具调用、工具结果、模型元数据和时间戳。

配置与数据划分

配置名称：default
数据文件：sessions/**/*.jsonl
数据划分：仅包含训练集（train split）

重要注意事项

脱敏与审查：数据集未进行全面脱敏或人工审查。ML Intern 仅自动尝试清除常见密钥模式（如 Hugging Face、Anthropic、OpenAI、GitHub、AWS 令牌），不保证隐私。
潜在敏感信息：会话可能包含提示、代码、终端输出、文件路径、仓库名称、私有任务上下文、工具输出等本地开发环境数据，应视为潜在敏感内容。
使用建议：在未手动检查并确认内容可公开共享前，不应将该数据集公开。

局限性

编码代理记录可能包含私人或无关内容、失败的实验、用户意外粘贴的凭证、从本地文件或服务复制的内容等，变更仓库可见性前需谨慎。

搜集汇总

数据集介绍

构建方式

该数据集名为ML Intern Session Traces，旨在收录ML Intern编程智能体在本地运行过程中产生的会话轨迹。数据存储于sessions/目录下，采用JSON Lines格式，每个*.jsonl文件对应一次完整会话。文件路径按日期组织，形如sessions/YYYY-MM-DD/<session_id>.jsonl，便于按时间维度检索。每条会话记录被转换为兼容Claude-Code风格的事件流，适配Hugging Face Agent Trace Viewer进行可视化展示。构建过程中，ML Intern会自动进行最佳努力的敏感信息擦除，针对常见的密钥模式如Hugging Face、Anthropic、OpenAI、GitHub及AWS令牌进行脱敏处理，但这一机制并非隐私保证。

特点

该数据集的核心特点在于其原始性与高信息密度。每条轨迹包含用户消息、助手回复、工具调用及结果、模型元数据与时间戳等多元信息，完整呈现了编程智能体与用户交互的全过程。数据集未经全面脱敏或人工审查，因而保留了环境的原始面貌，可能包含敏感内容，如提示词、代码片段、终端输出、文件路径、仓库名称、私有任务上下文及工具输出等。这种原始性使其成为研究编程智能体行为、交互模式及潜在风险的宝贵资源，但也要求使用者务必谨慎对待每一份会话的隐私边界。

使用方法

数据集的使用聚焦于文本生成任务，尤其适合用于编程智能体行为分析与模型微调。使用者可通过Hugging Face的Agent Trace Viewer加载*.jsonl文件，以事件流形式浏览单个会话的完整脉络。数据集默认配置为default，对应训练集，数据文件路径为sessions/**/*.jsonl。鉴于数据包含未脱敏的敏感信息，建议在公开或变更仓库可见性前，逐条审查会话内容。研究人员应结合ML Intern CLI或SmolAgents演示环境，构建下游应用或进行会话重现分析，同时严守数据使用伦理，避免隐私泄露风险。

背景与挑战

背景概述

随着大语言模型在代码生成与自动化编程领域的飞速发展，智能编码代理（coding agent）已成为提升开发效率的重要工具。2024年，Hugging Face团队推出了ML Intern项目，旨在收集真实场景下编码代理的交互会话轨迹，以推动基于代理的工作流程分析与模型优化研究。该数据集汇集了用户在本地运行ML Intern时生成的会话日志，包含用户消息、模型响应、工具调用及其结果等丰富信息，为研究编码代理的行为模式、任务执行效率及人机协作机制提供了宝贵的实证基础。其发布填补了开源社区在代理交互轨迹数据集方面的空白，对开发更智能、更安全的编码代理系统具有重要推动作用。

当前挑战

该数据集面临多重挑战。首先，在领域问题层面，编码代理会话数据稀疏且噪声高，如何从包含失败实验、无关内容或敏感信息的轨迹中提取有效行为模式，是强化学习与行为建模的核心难题。其次，构建过程中最大的挑战在于隐私保护与数据质量的平衡——数据集虽进行了自动化脱敏处理，但无法彻底消除泄露API密钥、文件路径或私有代码的风险，人工审核大规模会话日志又成本高昂。此外，会话格式多样、工具调用复杂，统一的结构化存储与高效的解析方法仍需进一步完善，以支持后续研究中的可复现性分析。

常用场景

经典使用场景

在人工智能与软件工程交叉领域，ml-intern-sessions数据集作为编码智能体交互轨迹的宝贵资源，其经典使用场景聚焦于分析和复现机器学习实习生与AI助手协作完成编程任务的全过程。研究者可基于该数据集中结构化的用户消息、工具调用及其结果记录，深入剖析智能体在真实编码环境中的决策模式与行为习惯。数据集采用JSON Lines格式按时间轴组织事件流，每个会话文件完整记录了从指令下发到工具执行的闭环交互，为理解大语言模型驱动的编码助手在实践中的工作逻辑提供了不可多得的第一手资料。

实际应用

在实际应用层面，ml-intern-sessions数据集为智能体开发者优化产品体验提供了直接的反馈循环。工程师可以利用会话轨迹训练或微调编码助手的策略模型，重点改进工具选择的准确性、响应时序的合理性以及错误恢复的机制。此外，数据集中包含的时间戳与元数据有助于分析高频交互模式，指导界面设计与提示工程的最佳实践。安全团队亦可借助这些轨迹构建异常检测系统，识别和防范敏感信息泄露等风险。企业内训场景中，该数据集还能作为教学案例，帮助新手开发者理解AI编码助手的正确使用方式，提升人机协作效率。

衍生相关工作

围绕ml-intern-sessions数据集，一系列衍生工作已逐步展开。在行为分析领域，研究者开发了基于会话轨迹的智能体工作流可视化工具，支持交互模式的聚类与异常检测。在模型改进方面，相关工作利用了该数据集中的工具调用记录进行指令微调，显著提升了编码助手在复杂多步骤任务中的规划能力。安全合规方向亦有创新实践，包括基于轨迹特征的隐私风险评估框架和自动化脱敏算法优化。此外，该数据集促成了跨智能体系统的对比基准构建，使不同编码助手的性能差异得以在统一评估框架下被定量刻画，推动了开放科学背景下智能体研究的可重复性发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

ml-intern-sessions

数据集概述：ML Intern Session Traces

数据内容与格式

配置与数据划分

相关链接

重要注意事项

局限性