TOFFEE-30K

github2026-05-02 更新2026-05-05 收录

下载链接：

https://github.com/wang0702/TOFFEE

下载链接

链接失效反馈

官方服务：

资源简介：

发布的TOFFEE-30K语料库以Swift格式的对话JSON保存，每个样本都保留了完整的多轮轨迹，包括推理轮次、工具调用消息、工具输出以及合成过程中使用的工具元数据。

The released TOFFEE-30K corpus is stored in Swift-formatted conversational JSON. Each sample retains the complete multi-turn dialogue trajectory, including inference turns, tool call messages, tool outputs, and tool metadata used during the synthesis process.

创建时间：

2026-04-29

原始信息汇总

TOFFEE 数据集概述

数据集简介

TOFFEE 是一个通过执行驱动的树搜索方法合成的数据代理轨迹语料库，旨在用于数据代理的监督微调和上下文学习。

数据集发布

托管平台：Hugging Face
数据集地址：https://huggingface.co/datasets/wang0702/toffee
主要数据文件：data/toffee30k_swift.json（TOFFEE-30K 语料库，Swift 格式的对话 JSON）

数据格式

每个样本由 generation/assembler.py 导出，保留了完整的多轮轨迹，包括：

推理轮次
工具调用消息
工具输出
合成过程中使用的工具元数据

系统架构

TOFFEE 采用三阶段设计：

任务合成器（Task Synthesizer）
- 从目标数据环境构建分析任务
- 通过三层基础层次结构（源单元、范围、锚点）实现
- 包含四谓词准入检查（Replay、Reach、NonDeg、Solvable）
轨迹探索器（Trajectory Explorer）
- 执行驱动的策略树搜索
- 每个候选步骤在真实环境中执行
- 从观察到的结果中评分分支值
- 通过轨迹前缀缓存实现任务间共享前缀复用
自适应扩展控制器（Adaptive Expansion Controller, AEC）
- 使用上下文线性 Bandit（LinUCB）对可行控制动作进行排序
- 动作空间包括工具、模型层级、历史长度、推理努力
- 根据排序置信度和剩余预算自适应调整扩展宽度

代码结构

toffee/ ├── cli.py # 合成运行编排入口 ├── config.py # 模型层级、预算、超参数 ├── utils.py # 共享工具函数 ├── client/openrouter.py # LLM 客户端封装 ├── core/ # 核心执行模块 │ ├── executor.py # 工具执行 │ ├── operators.py # 步骤操作符和可行性 │ └── state.py # 分析状态表示 ├── generation/ # 生成模块 │ ├── ingest.py │ ├── bottomup.py │ └── assembler.py # Swift 格式轨迹导出 ├── search/ # 搜索模块 │ ├── mcts.py # 策略树搜索 │ ├── bandit.py # LinUCB 实现 │ ├── evaluator.py # 执行驱动的评分和奖励 │ ├── memoization.py # 轨迹前缀缓存 │ └── baselines.py # 基线策略实现 ├── agent_runtime/ # 代理运行时 │ ├── core/ │ ├── tools/ │ ├── storage/ │ ├── adapters/ │ └── extensions/ ├── data/ │ └── toffee30k_swift.json # 已发布的数据文件 └── runs/ # 合成输出目录

搜集汇总

数据集介绍

构建方式

TOFFEE-30K数据集的构建根植于对异构真实数据环境中分析任务的深刻理解，采用一种三阶段合成流水线自动生成高质量的智能体执行轨迹。首先，任务合成器通过三级锚定层级（源单元、作用域、锚点）从目标数据环境中提取可验证的分析任务，并辅以四谓词准入检查（可重放、可达、非简并、可解）剔除不可行任务。随后，轨迹探索器在真实环境中执行执行引导的策略树搜索，每次候选步骤均通过实际工具调用获取反馈，而非依赖文本模拟，同时利用轨迹前缀缓存复用共享子路径。最后，自适应扩展控制器通过上下文线性臂算法（LinUCB）在工具、模型层级、历史长度和推理努力四个维度构成的动作空间中动态排序可行控制动作，并依据置信度与剩余预算调整搜索树的扩展宽度。整个流程生成的轨迹经组装后转换为Swift格式的多轮对话语料，形成最终的TOFFEE-30K数据集。

特点

TOFFEE-30K数据集的核心特点在于其执行引导的合成范式与自适应优化机制的深度融合。每一段轨迹均包含完整的推理轮次、工具调用消息、工具输出及合成所用的工具元数据，确保了轨迹的丰富性与可溯源性。与依赖预定义模板或静态模拟的方法不同，该数据集中的轨迹源自对真实异构数据环境的迭代交互，每一步操作均经过实际执行验证，从而避免了文本模拟可能带来的幻觉与逻辑脱节。此外，自适应扩展控制器通过上下文多臂赌博机动态调整搜索策略，在工具选择、模型使用与推理深度之间实现精细化平衡，使得生成的轨迹在多样性、覆盖度与任务可行性上均具备显著优势。这些特质使得TOFFEE-30K成为面向数据智能体监督微调和上下文学习的理想语料资源。

使用方法

TOFFEE-30K数据集以Hugging Face平台托管的Swift格式JSON文件形式发布，用户可通过Hugging Face库直接下载至本地。数据文件（toffee30k_swift.json）遵循多轮对话结构，每个样本保留了推理轨迹、工具调用及对应的环境反馈，可直接用于大型语言模型的监督微调或上下文学习场景。使用时，用户需配置OpenRouter API密钥并安装必要的Python依赖库（如openai、httpx与numpy），随后通过命令行运行合成流程，支持多种搜索策略切换（包括mcts、single_pass、react、best_of_n和beam_search），其中mcts为默认主方案，便于与基线方法进行对比实验。输出结果将自动存储至指定的runs目录，为进一步的分析与模型训练提供便利。

背景与挑战

背景概述

TOFFEE-30K数据集诞生于2025年初，由以王（Wang）为首的研究团队开发，旨在解决数据智能体（Data Agent）在复杂异构数据环境中的轨迹生成瓶颈。传统方法依赖人工示范或静态模拟，难以兼顾任务多样性、执行可靠性与训练数据规模。该数据集通过执行锚定树搜索（Execution-Grounded Tree Search）技术，在真实数据环境中自动化合成高质量的智能体决策轨迹，为监督微调和上下文学习提供大规模语料。其核心创新在于三级接地层次结构（Grounding Hierarchy）与自适应扩展控制器（Adaptive Expansion Controller）的协同设计，显著提升了数据智能体在分析任务上的泛化能力，对自动化数据科学、大模型智能体训练等领域产生了深远影响。

当前挑战

TOFFEE-30K面临的挑战可从两个维度剖析：领域问题层面，数据智能体在异构数据环境（如数据库、API、代码库）中执行分析任务时，常因工具选择不当、上下文长度限制或推理路径过长而导致任务失败，亟需一种能兼顾执行效率与结果准确性的轨迹生成框架。构建过程层面，合成系统需解决三大难题：其一，如何从无结构的原始数据中自动构建可验证的分析任务，避免重复、退化或不可解的无效样本；其二，搜索算法需在指数级分支空间中平衡探索与利用，既保证轨迹质量又控制计算开销；其三，自适应扩展控制器需在线学习不同（工具、模型、上下文长度、推理努力）组合的效用，在有限预算内最大化长尾任务的覆盖度。

常用场景

经典使用场景

在数据密集型科学研究中，智能数据分析代理的构建长期受困于高质量训练轨迹的匮乏。TOFFEE-30K数据集应运而生，它通过执行驱动的树搜索机制，在真实异构数据环境中合成具备多轮推理与工具调用能力的代理轨迹。该数据集的经典使用场景聚焦于对大型语言模型进行监督微调与上下文学习，使其能够习得复杂数据分析任务中的工具选择、推理路径规划与资源自适应分配能力。研究者在训练数据代理时，可直接利用该语料库中的完整交互序列（涵盖推理步骤、工具调用及执行反馈），显著提升模型在结构化任务中的自主决策与执行效能。

实际应用

在金融风控、医疗诊断、科研数据分析等需要多步交互式分析的场景中，TOFFEE-30K展现出显著的应用价值。实际部署时，机构可基于该数据集微调专用数据代理，使其能够自动连接数据库、调用统计模型、生成可视化报告并迭代优化查询策略。例如在生物信息学中，代理可通过该语料库习得逐步分析基因表达数据的工作流：从数据清洗、差异表达分析到通路富集解释，全程自动执行并适配计算资源。该数据集还支持跨领域迁移，通过其自适应扩展控制器（AEC），代理能在未知的分析环境中动态调整工具、模型上下文长度与推理强度，大幅降低人工干预成本。

衍生相关工作

TOFFEE-30K的发布催生了多个前沿研究方向，其中最典型的工作包括基于LinUCB的多臂赌博机策略优化、执行接地树搜索的搜索空间剪枝技术，以及轨迹前缀缓存机制。研究者借鉴其自适应扩展控制器设计，开发出能根据分析状态排名置信度动态调整搜索宽度的算法，显著提升有限预算下的轨迹质量。此外，该数据集提供的Swift格式多轮交互语料，已成为对比单次通过、ReAct、束搜索等基线方法的标准基准。部分衍生工作进一步扩展了接地层次结构，将其应用至多模态数据环境，而轨迹前缀缓存的思想则被引入在线学习场景，用于加速相似任务的策略复用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集