five

jupyter-agent-dataset

收藏
Hugging Face2025-09-10 更新2025-09-11 收录
下载链接:
https://huggingface.co/datasets/jupyter-agent/jupyter-agent-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Jupyter Agent Dataset 是一个由真实 Kaggle 笔记本经过多阶段处理生成的数据集,用于训练代码代理。数据集包括自然语言问题、验证答案和执行跟踪,适合训练代码代理进行数据集理解和代码执行。数据集分为 'thinking' 和 'non-thinking' 两个子集,分别包含带有和不带有思考注释的代码生成内容。数据集包含 51389 个合成笔记本,总计约 2 亿个训练标记。数据集可以帮助模型在 DABstep 基准测试中取得显著提升,并提高模型的数据探索和编码技能。
创建时间:
2025-09-02
原始信息汇总

Jupyter Agent Dataset

数据集概述

Jupyter Agent Dataset 是一个基于真实 Kaggle 笔记本的合成数据集,专门用于训练代码代理。数据集通过多阶段流水线处理,包括去重、获取参考数据集、评分教育质量、过滤数据分析相关内容、生成基于数据集的问答对,以及通过运行笔记本产生可执行推理轨迹。

关键信息

  • 创建者: Hugging Face Jupyter-Agent 团队
  • 许可证: Apache-2.0
  • 语言: 代码
  • 标注方式: 机器生成
  • 多语言性: 单语
  • 数据规模: 10K<n<100K
  • 任务类别: 问答、文本生成
  • 标签: jupyter、kaggle、agents、code、synthetic

数据集结构

数据集包含 51,389 个合成笔记本,总计约 2 亿训练标记。提供两个子集:

  • thinking: 包含思考标签的代码生成思考评论
  • non_thinking: 不包含思考标签的代码生成

数据特征

每个示例包含以下字段:

  • id: 笔记本和问答对的唯一标识符
  • messages: ChatML 格式的合成笔记本
  • question: 基于笔记本/数据集的自然语言问题
  • answer: 经过验证的简短最终答案
  • edu_score: 教育质量评分(LLM 分配)
  • files_used: 原始参考 Kaggle 笔记本中使用的文件
  • packages_used: 原始参考 Kaggle 笔记本中使用的包
  • kaggle_dataset_name: 完整的 Kaggle 源数据集名称
  • executor_type: 代码执行器类型(E2B 或 LLM/Qwen-Coder)
  • original_notebook: 原始 Kaggle 源笔记本
  • tools: 用于笔记本生成的工具调用

数据集用途

用于训练能够执行以下任务的代码代理:

  • 阅读笔记本和数据集上下文
  • 执行 Python 代码(如 pandas、numpy、matplotlib)回答基于数据集的问题
  • 生成带有中间计算的逐步解决方案

数据集创建过程

数据来源与准备

  1. 大规模去重 Kaggle 笔记本
  2. 下载链接的数据集
  3. 教育质量评分
  4. 过滤不相关的笔记本

合成笔记本生成

  1. 问答对生成:使用 Qwen-32B 生成基于数据集的问答对
  2. 轨迹生成:使用 Qwen-Coder-480B 生成代码/思考,通过 E2B 执行

技术依赖

  • Datatrove:大规模处理真实 Kaggle 笔记本
  • Qwen-32B:评分和问答生成
  • Qwen-Coder-480B:笔记本和代码执行轨迹生成
  • E2B:安全沙盒执行

使用注意事项

  • 许可和条款:上游 Kaggle 笔记本和数据集有其自己的许可证/服务条款
  • 数据质量:笔记本可能包含错误、非确定性输出或环境特定行为
  • LLM 生成内容:问答对和验证是机器生成的,可能包含错误
  • 偏见:源笔记本和数据集可能反映作者/领域偏见
  • 安全性:可执行轨迹可能包含环境特定代码

数据集统计

  • 总字节数:102,156,900,168
  • 下载大小:71,781,735,066
  • 示例数量:51,389

引用信息

@misc{jupyteragentdataset, title={Jupyter Agent Dataset}, author={Baptiste Colle and Hanna Yukhymenko and Leandro von Werra}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在数据科学教育领域,Jupyter Agent Dataset通过多阶段流水线构建而成。该数据集源自真实的Kaggle笔记本,经过去重处理并获取相关数据集,利用Qwen-32B模型对教育质量进行评分,筛选出与数据分析相关的高质量内容。通过生成基于数据集的问答对,并运行笔记本产生可执行的推理轨迹,最终形成包含自然问题、验证答案及逐步执行轨迹的样本集合。
使用方法
用户可通过Hugging Face的datasets库直接加载数据集,利用TRL框架进行模型微调。数据集支持代码执行环境如E2B沙箱,确保安全运行生成的代码轨迹。适用于训练能够读取笔记本上下文、执行Python代码并生成逐步解决方案的智能代理,显著提升模型在数据集问答任务中的表现。
背景与挑战
背景概述
Jupyter Agent Dataset由Hugging Face团队于2025年发布,专注于代码智能代理的训练与评估。该数据集基于真实Kaggle笔记本构建,通过多阶段处理流程生成包含自然语言问题、验证答案及可执行推理轨迹的高质量样本。其核心研究问题在于提升代码代理在数据分析和探索性任务中的能力,如理解笔记本上下文、执行Python代码并生成逐步解决方案。该数据集对自动化编程助手和智能教育工具的发展具有重要推动作用,为代码生成与执行融合的研究提供了宝贵资源。
当前挑战
该数据集致力于解决代码代理在数据分析和探索性任务中的挑战,包括复杂上下文理解、代码执行与自然语言问答的融合。构建过程中面临多重挑战:需对海量Kaggle笔记本进行去重与质量筛选,确保教育价值;依赖Qwen系列模型生成合成问答对时需控制幻觉现象;代码执行轨迹的生成需协调E2B沙箱与模拟环境,保证可复现性;同时需严格遵守Kaggle平台许可协议,处理上游数据的法律合规性问题。
常用场景
经典使用场景
在代码智能体研究领域,Jupyter Agent Dataset通过合成化的Jupyter笔记本执行轨迹,为训练具备代码推理能力的智能体提供了标准化的训练范式。该数据集典型应用于教导模型理解数据科学工作流程,包括读取数据集上下文、执行Python代码进行分析、生成可视化结果以及回答基于数据的自然语言问题。其包含的思维链式代码执行轨迹,使得模型能够学习到从问题提出到最终答案的完整推理过程。
解决学术问题
该数据集有效解决了代码智能体训练中缺乏高质量、大规模执行轨迹数据的核心难题。通过提供真实Kaggle笔记本衍生的代码执行轨迹和验证答案,它使得研究者能够训练出具备实际代码执行能力的智能体模型,显著提升了模型在数据分析和代码生成任务上的表现。实验表明,基于该数据集训练的模型在DABstep基准测试中实现了高达20%的性能提升,为代码智能体的学术研究提供了重要支撑。
实际应用
在实际应用层面,Jupyter Agent Dataset为构建智能数据助手系统提供了关键训练数据。这些系统能够帮助数据分析师快速进行探索性数据分析,自动生成数据洞察报告,并回答关于特定数据集的自然语言查询。基于该数据集训练的智能体可部署在Jupyter Notebook环境中,为用户提供实时的代码建议和执行支持,大幅提升数据科学工作的效率和可访问性。
数据集最近研究
最新研究方向
在代码智能代理领域,Jupyter Agent Dataset正推动基于真实Kaggle环境的多模态推理研究。该数据集通过合成执行轨迹与教育质量评分机制,为代理模型提供端到端的数据分析训练范式。前沿研究聚焦于工具调用与代码执行的协同优化,结合Qwen系列大模型与E2B沙箱技术,显著提升代理在数据探索性分析(EDA)和复杂问题求解中的表现。DABstep基准测试显示,基于该数据集训练的模型在代码生成准确率上实现高达20%的提升,为自动化数据科学工作流奠定坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作