Jupyter Agent Dataset
收藏github2025-09-10 更新2025-09-12 收录
下载链接:
https://github.com/huggingface/jupyter-agent
下载链接
链接失效反馈官方服务:
资源简介:
Jupyter Agent数据集包含51,000个合成笔记本和约2亿个标记,用于训练小型模型成为强大的数据代理,在数据科学任务中实现最先进的性能
The Jupyter Agent Dataset contains 51,000 synthetic notebooks and approximately 200 million tokens. It is designed to train small models into robust data agents that achieve state-of-the-art performance on data science tasks.
创建时间:
2025-09-09
原始信息汇总
Jupyter Agent 数据集概述
数据集基本信息
- 数据集名称:Jupyter Agent Dataset
- 数据规模:51,000个合成notebook,约2亿个token
- 数据来源:基于Meta Kaggle Notebooks数据集(2TB)处理生成
- 访问地址:https://huggingface.co/datasets/data-agents/jupyter-agent-dataset
数据集内容
- 包含经过处理的Jupyter notebook数据
- 提供数据集相关的问答对
- 包含推理和执行轨迹
- 支持数据科学工作流的训练数据
数据处理流程
- 去重notebook(约90%重复率)
- 获取关联数据集以确保可执行性
- 根据教育质量对notebook进行评分
- 过滤不相关内容
- 生成基于数据集的问答对
- 生成推理和执行轨迹
- 最终数据筛选和整理(约20亿token)
相关模型
- Jupyter-Agent-Qwen3-4B-Instruct:https://huggingface.co/data-agents/jupyter-agent-qwen3-4b-instruct
- Jupyter-Agent-Qwen3-4B-Thinking:https://huggingface.co/data-agents/jupyter-agent-qwen3-4b-thinking
性能表现
在DABStep基准测试中:
- 基础Qwen3-4B-Instruct模型(简单分割):38.7%
- 使用支架式学习后:52.8%
- 使用本数据集微调后:75%
使用方式
python from datasets import load_dataset ds = load_dataset("data-agents/jupyter-agent-dataset", split="non-thinking")
相关资源
- 博客文章:https://huggingface.co/blog/jupyter-agent-2
- 模型集合:https://huggingface.co/collections/data-agents/jupyter-agent-66f43f63b3d87c9ac69039eb
- DABStep基准:https://huggingface.co/spaces/adyen/DABstep
搜集汇总
数据集介绍

构建方式
在数据科学领域,Jupyter Agent数据集的构建依托于Meta Kaggle Notebooks这一庞大原始资源,通过多阶段精密处理流程实现。该流程涵盖去重处理以消除近90%的冗余内容,动态获取关联数据集确保代码可执行性,并基于教育质量评分机制筛选优质样本。进一步通过生成与数据集背景紧密关联的问答对,并合成具有中间计算步骤的推理轨迹,最终提炼出约20亿标记的高质量训练数据。
特点
作为专为数据智能体训练设计的合成数据集,其核心特点体现在规模性与实用性并重:包含5.1万个合成笔记本及约2亿标记量,覆盖pandas、numpy等主流数据科学库的操作场景。数据集深度融合代码执行与逻辑推理轨迹,支持多步计算过程的显式建模。其构造充分考虑了教育价值与任务真实性,在DABStep基准测试中推动4B参数模型达到同类规模最优性能,显著提升了小模型在复杂数据分析任务中的表现。
使用方法
研究者可通过Hugging Face数据集库直接加载该资源,使用标准接口调用非推理版本或完整版本数据。模型微调流程提供完整脚本支持,用户可基于预训练的Qwen3-4B架构进行领域适配。实际部署时,需通过Transformers库加载特定模型检查点,并配置自动设备映射以优化计算资源分配。该数据集旨在赋能开源社区构建新一代数据科学助手,支持端到端的代码生成、执行与解释性推理任务。
背景与挑战
背景概述
Jupyter Agent Dataset由HuggingFace团队于2025年发布,专注于提升数据科学代理的智能化水平。该数据集基于Meta Kaggle Notebooks的2TB原始数据,经过多阶段处理生成5.1万个合成笔记本,包含约2亿个令牌。其核心研究问题在于解决数据科学工作流中的自动化代码生成与执行难题,通过构建高质量的训练数据,推动小型语言模型在Jupyter环境中实现人类级别的数据分析能力。该数据集对自动化数据科学领域产生显著影响,使4B参数模型在DABStep基准测试中达到75%的准确率,成为当前最先进的小型代理模型。
当前挑战
该数据集主要应对数据科学自动化中的两大挑战:领域问题方面需解决代码生成与执行的复杂性,包括动态环境适应、多库协同(pandas/numpy/matplotlib)及错误处理等核心难题;构建过程面临原始数据质量参差不齐,需处理90%的重复内容,确保数据集可执行性,并通过教育质量评分、无关内容过滤、推理轨迹生成等多层筛选机制,最终从2TB原始数据中提炼出高质量训练样本。
常用场景
经典使用场景
在数据科学教育领域,Jupyter Agent Dataset通过合成笔记本环境为机器学习模型提供了沉浸式训练场景。该数据集最经典的应用体现在构建智能编程助手方面,研究者利用其包含的5.1万个合成笔记本和约2亿token的代码轨迹,训练模型理解数据科学工作流的完整生命周期。这些模型能够自主执行数据清洗、可视化分析和统计建模等任务,显著提升了代码生成与执行的一体化能力。
实际应用
在实际应用层面,该数据集支撑的智能代理已广泛应用于商业数据分析平台和科研计算环境。企业数据团队利用其构建自动化报表生成系统,能够根据自然语言查询自动执行数据提取、转换和可视化操作。科研工作者则借助该技术快速原型化数据分析流程,特别是在生物信息学和金融建模领域,大幅降低了跨领域研究者进行复杂数据分析的技术门槛。
衍生相关工作
基于该数据集衍生的经典工作包括DABStep基准测试体系的完善和轻量级代码代理架构的创新。研究者开发了具有思维链推理能力的Jupyter-Agent-Qwen3-4B-Thinking模型,在保持参数效率的同时实现了75%的基准测试通过率。这些工作推动了代码生成模型从单纯语法正确性向功能完备性的范式转变,为后续的ToolFormer、OpenInterpreter等工具学习框架提供了重要参考。
以上内容由遇见数据集搜集并总结生成



