lewtun/ml-intern-sessions
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/lewtun/ml-intern-sessions
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从本地ML Intern运行中上传的编码代理会话跟踪数据。跟踪数据以JSON Lines格式存储在`sessions/`目录下,每个会话一个文件。每个`*.jsonl`文件包含一个ML Intern会话,转换为Claude-Code风格的事件流,用于Hugging Face代理跟踪查看器。条目可能包括用户消息、助手消息、工具调用、工具结果、模型元数据和时间戳。需要注意的是,这些跟踪数据可能包含敏感信息,且未经过全面的编辑或人工审查。
This dataset contains ML Intern coding agent session traces uploaded from local ML Intern runs. The traces are stored as JSON Lines files under `sessions/`, with one file per session. Each `*.jsonl` file contains a single ML Intern session converted to a Claude-Code-style event stream for the Hugging Face Agent Trace Viewer. Entries can include user messages, assistant messages, tool calls, tool results, model metadata, and timestamps. Note that these traces may contain sensitive information and no comprehensive redaction or human review has been performed for this dataset.
提供机构:
lewtun
搜集汇总
数据集介绍

构建方式
本数据集名为ml-intern-sessions,源自本地运行的ML Intern编码代理会话记录。其构建方式为将每次完整会话转换为符合Claude-Code风格的事件流格式,并存储为JSON Lines文件。每个会话文件独立存放于`sessions/`目录下,按日期分目录组织,路径格式为`sessions/YYYY-MM-DD/<session_id>.jsonl`。文件内容涵盖用户消息、助手消息、工具调用及其结果、模型元数据与时间戳等字段,旨在兼容Hugging Face Agent Trace Viewer的解析与可视化需求。
特点
该数据集的核心特点在于其原始性与未经过滤的真实性。所有会话轨迹来自实际开发环境中的编码代理交互,反映了真实的人机协作过程。然而,值得注意的是,数据集并未经过全面的人工审核或去隐私化处理。尽管ML Intern在上传前会尽力自动识别并清除常见的令牌模式(如Hugging Face、Anthropic、OpenAI等服务的密钥),但这并非隐私保障。因此,每个会话都可能包含敏感信息,如提示词、代码片段、终端输出、文件路径及工具执行结果等。
使用方法
使用该数据集时需格外谨慎。由于未经过人工审查,每一条会话记录都可能泄露隐私或敏感内容,包括无意中粘贴的凭证、私人任务上下文或失败实验的细节。建议在改变仓库可见性或公开发布前,逐条检查并确认可接受其全部内容。数据集的典型用途为文本生成任务,特别是编码代理行为分析,可借助Hugging Face Agent Trace Viewer进行可视化查看。部署时应始终假定其中包含敏感信息,并采取相应的访问控制与脱敏措施。
背景与挑战
背景概述
在人工智能领域,代码智能体(coding agent)的研究日益成为推动自动化编程与软件工程发展的关键方向。ml-intern-sessions数据集由Hugging Face团队于近期创建,旨在收集和分享ML Intern代码智能体在真实开发环境中的会话轨迹,为智能体行为分析、会话理解及代理系统优化提供基础资源。该数据集涵盖了用户消息、助手响应、工具调用及结果、模型元数据与时间戳等丰富的交互记录,为探索代码智能体的决策过程与人机协作模式提供了珍贵素材。其影响力体现在为后续智能体训练、评估与可解释性研究奠定了数据基础,并借助Hugging Face Agent Trace Viewer工具促进社区对智能体行为的深入理解。
当前挑战
该数据集面临的核心挑战包括:首先,领域问题层面,当前代码智能体会话数据的稀缺限制了模型对复杂编程任务的理解与泛化能力,ml-intern-sessions通过记录真实会话弥补了这一空白,但数据中可能包含大量失败实验、无关内容及敏感信息,如何从中提取高质量、去噪的训练样本仍是难题。其次,构建过程中的挑战尤为突出:数据采集阶段虽采用了自动化密钥脱敏(如针对Hugging Face、GitHub等常见令牌),但无法保证全面隐私保护,会话中仍可能泄露代码路径、仓库名、私有任务上下文等敏感信息;此外,未经过人工审核的数据缺乏质量保证,研究者在使用前需手动检查,这增加了数据应用的复杂性与潜在风险。
常用场景
经典使用场景
在人工智能与软件工程交叉的研究领域,ml-intern-sessions数据集为探究大语言模型驱动的自主编程代理行为提供了独特的会话级追踪资源。该数据集包含了ML Intern编程代理在真实开发环境中的完整会话轨迹,每条记录以结构化的JSON Lines格式存储,涵盖用户消息、助手回复、工具调用序列、调用结果及时间戳等关键信息。研究者可借助该数据集深入分析编程代理在复杂任务中的决策路径、工具选择策略以及与用户的交互模式,从而构建更鲁棒高效的自主编程系统。
衍生相关工作
围绕ml-intern-sessions数据集的特性,已衍生出一系列具有影响力的研究工作。在行为建模方向,研究者基于会话轨迹构建了代理工具调用频率与成功率之间的统计关联模型,揭示了工具选择偏好的演化规律。在安全性评估领域,该数据集为识别编程代理在敏感信息处理上的潜在风险提供了实证素材,催生了针对代理隐私泄露漏洞的系统性检测方法。此外,该数据集的会话结构也启发了基于记忆增强的代理架构设计,通过复现历史会话中的关键决策节点来提升新任务的执行连贯性。
数据集最近研究
最新研究方向
基于ml-intern-sessions数据集,当前前沿研究方向聚焦于编码智能体的行为轨迹分析与安全治理。随着Claude Code、Hugging Face Agent等自主编程工具在ML工程中的普及,会话级日志的细粒度建模成为理解智能体决策机制的关键切入点。该数据集通过捕获用户、助手及工具调用的完整异步事件流,为构建会话级LLM协作模式与错误恢复策略提供了独特的实证基础。特别是其记录的未经过滤的、包含敏感信息的原生环境交互过程,正推动诸如隐私脱敏算法、多智能体安全协议及凭证泄露自动检测等热点问题的研究。这一资源对于揭示真实开发环境中编码智能体的可靠性边界、引导下一代自主调试系统的鲁棒性设计具有深远战略意义。
以上内容由遇见数据集搜集并总结生成



