jupyter-agent-dataset

Hugging Face2025-09-10 更新2025-09-11 收录

下载链接：

https://huggingface.co/datasets/jupyter-agent/jupyter-agent-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Jupyter Agent Dataset 是一个由真实 Kaggle 笔记本经过多阶段处理生成的数据集，用于训练代码代理。数据集包括自然语言问题、验证答案和执行跟踪，适合训练代码代理进行数据集理解和代码执行。数据集分为 'thinking' 和 'non-thinking' 两个子集，分别包含带有和不带有思考注释的代码生成内容。数据集包含 51389 个合成笔记本，总计约 2 亿个训练标记。数据集可以帮助模型在 DABstep 基准测试中取得显著提升，并提高模型的数据探索和编码技能。

创建时间：

2025-09-02

原始信息汇总

Jupyter Agent Dataset

数据集概述

Jupyter Agent Dataset 是一个基于真实 Kaggle 笔记本的合成数据集，专门用于训练代码代理。数据集通过多阶段流水线处理，包括去重、获取参考数据集、评分教育质量、过滤数据分析相关内容、生成基于数据集的问答对，以及通过运行笔记本产生可执行推理轨迹。

关键信息

创建者: Hugging Face Jupyter-Agent 团队
许可证: Apache-2.0
语言: 代码
标注方式: 机器生成
多语言性: 单语
数据规模: 10K<n<100K
任务类别: 问答、文本生成
标签: jupyter、kaggle、agents、code、synthetic

数据集结构

数据集包含 51,389 个合成笔记本，总计约 2 亿训练标记。提供两个子集：

thinking: 包含思考标签的代码生成思考评论
non_thinking: 不包含思考标签的代码生成

数据特征

每个示例包含以下字段：

id: 笔记本和问答对的唯一标识符
messages: ChatML 格式的合成笔记本
question: 基于笔记本/数据集的自然语言问题
answer: 经过验证的简短最终答案
edu_score: 教育质量评分（LLM 分配）
files_used: 原始参考 Kaggle 笔记本中使用的文件
packages_used: 原始参考 Kaggle 笔记本中使用的包
kaggle_dataset_name: 完整的 Kaggle 源数据集名称
executor_type: 代码执行器类型（E2B 或 LLM/Qwen-Coder）
original_notebook: 原始 Kaggle 源笔记本
tools: 用于笔记本生成的工具调用

数据集用途

用于训练能够执行以下任务的代码代理：

阅读笔记本和数据集上下文
执行 Python 代码（如 pandas、numpy、matplotlib）回答基于数据集的问题
生成带有中间计算的逐步解决方案

数据集创建过程

数据来源与准备

大规模去重 Kaggle 笔记本
下载链接的数据集
教育质量评分
过滤不相关的笔记本

合成笔记本生成

问答对生成：使用 Qwen-32B 生成基于数据集的问答对
轨迹生成：使用 Qwen-Coder-480B 生成代码/思考，通过 E2B 执行

技术依赖

Datatrove：大规模处理真实 Kaggle 笔记本
Qwen-32B：评分和问答生成
Qwen-Coder-480B：笔记本和代码执行轨迹生成
E2B：安全沙盒执行

使用注意事项

许可和条款：上游 Kaggle 笔记本和数据集有其自己的许可证/服务条款
数据质量：笔记本可能包含错误、非确定性输出或环境特定行为
LLM 生成内容：问答对和验证是机器生成的，可能包含错误
偏见：源笔记本和数据集可能反映作者/领域偏见
安全性：可执行轨迹可能包含环境特定代码

数据集统计

总字节数：102,156,900,168
下载大小：71,781,735,066
示例数量：51,389

引用信息

@misc{jupyteragentdataset, title={Jupyter Agent Dataset}, author={Baptiste Colle and Hanna Yukhymenko and Leandro von Werra}, year={2025} }

搜集汇总

数据集介绍

构建方式

在数据科学教育领域，Jupyter Agent Dataset通过多阶段流水线构建而成。该数据集源自真实的Kaggle笔记本，经过去重处理并获取相关数据集，利用Qwen-32B模型对教育质量进行评分，筛选出与数据分析相关的高质量内容。通过生成基于数据集的问答对，并运行笔记本产生可执行的推理轨迹，最终形成包含自然问题、验证答案及逐步执行轨迹的样本集合。

使用方法

用户可通过Hugging Face的datasets库直接加载数据集，利用TRL框架进行模型微调。数据集支持代码执行环境如E2B沙箱，确保安全运行生成的代码轨迹。适用于训练能够读取笔记本上下文、执行Python代码并生成逐步解决方案的智能代理，显著提升模型在数据集问答任务中的表现。

背景与挑战

背景概述

Jupyter Agent Dataset由Hugging Face团队于2025年发布，专注于代码智能代理的训练与评估。该数据集基于真实Kaggle笔记本构建，通过多阶段处理流程生成包含自然语言问题、验证答案及可执行推理轨迹的高质量样本。其核心研究问题在于提升代码代理在数据分析和探索性任务中的能力，如理解笔记本上下文、执行Python代码并生成逐步解决方案。该数据集对自动化编程助手和智能教育工具的发展具有重要推动作用，为代码生成与执行融合的研究提供了宝贵资源。

当前挑战

该数据集致力于解决代码代理在数据分析和探索性任务中的挑战，包括复杂上下文理解、代码执行与自然语言问答的融合。构建过程中面临多重挑战：需对海量Kaggle笔记本进行去重与质量筛选，确保教育价值；依赖Qwen系列模型生成合成问答对时需控制幻觉现象；代码执行轨迹的生成需协调E2B沙箱与模拟环境，保证可复现性；同时需严格遵守Kaggle平台许可协议，处理上游数据的法律合规性问题。

常用场景

经典使用场景

在代码智能体研究领域，Jupyter Agent Dataset通过合成化的Jupyter笔记本执行轨迹，为训练具备代码推理能力的智能体提供了标准化的训练范式。该数据集典型应用于教导模型理解数据科学工作流程，包括读取数据集上下文、执行Python代码进行分析、生成可视化结果以及回答基于数据的自然语言问题。其包含的思维链式代码执行轨迹，使得模型能够学习到从问题提出到最终答案的完整推理过程。

解决学术问题

该数据集有效解决了代码智能体训练中缺乏高质量、大规模执行轨迹数据的核心难题。通过提供真实Kaggle笔记本衍生的代码执行轨迹和验证答案，它使得研究者能够训练出具备实际代码执行能力的智能体模型，显著提升了模型在数据分析和代码生成任务上的表现。实验表明，基于该数据集训练的模型在DABstep基准测试中实现了高达20%的性能提升，为代码智能体的学术研究提供了重要支撑。

实际应用

在实际应用层面，Jupyter Agent Dataset为构建智能数据助手系统提供了关键训练数据。这些系统能够帮助数据分析师快速进行探索性数据分析，自动生成数据洞察报告，并回答关于特定数据集的自然语言查询。基于该数据集训练的智能体可部署在Jupyter Notebook环境中，为用户提供实时的代码建议和执行支持，大幅提升数据科学工作的效率和可访问性。

数据集最近研究