TOFFEE-30K
收藏TOFFEE 数据集概述
数据集简介
TOFFEE 是一个通过执行驱动的树搜索方法合成的数据代理轨迹语料库,旨在用于数据代理的监督微调和上下文学习。
数据集发布
- 托管平台:Hugging Face
- 数据集地址:https://huggingface.co/datasets/wang0702/toffee
- 主要数据文件:
data/toffee30k_swift.json(TOFFEE-30K 语料库,Swift 格式的对话 JSON)
数据格式
每个样本由 generation/assembler.py 导出,保留了完整的多轮轨迹,包括:
- 推理轮次
- 工具调用消息
- 工具输出
- 合成过程中使用的工具元数据
系统架构
TOFFEE 采用三阶段设计:
-
任务合成器(Task Synthesizer)
- 从目标数据环境构建分析任务
- 通过三层基础层次结构(源单元、范围、锚点)实现
- 包含四谓词准入检查(Replay、Reach、NonDeg、Solvable)
-
轨迹探索器(Trajectory Explorer)
- 执行驱动的策略树搜索
- 每个候选步骤在真实环境中执行
- 从观察到的结果中评分分支值
- 通过轨迹前缀缓存实现任务间共享前缀复用
-
自适应扩展控制器(Adaptive Expansion Controller, AEC)
- 使用上下文线性 Bandit(LinUCB)对可行控制动作进行排序
- 动作空间包括工具、模型层级、历史长度、推理努力
- 根据排序置信度和剩余预算自适应调整扩展宽度
代码结构
toffee/ ├── cli.py # 合成运行编排入口 ├── config.py # 模型层级、预算、超参数 ├── utils.py # 共享工具函数 ├── client/openrouter.py # LLM 客户端封装 ├── core/ # 核心执行模块 │ ├── executor.py # 工具执行 │ ├── operators.py # 步骤操作符和可行性 │ └── state.py # 分析状态表示 ├── generation/ # 生成模块 │ ├── ingest.py │ ├── bottomup.py │ └── assembler.py # Swift 格式轨迹导出 ├── search/ # 搜索模块 │ ├── mcts.py # 策略树搜索 │ ├── bandit.py # LinUCB 实现 │ ├── evaluator.py # 执行驱动的评分和奖励 │ ├── memoization.py # 轨迹前缀缓存 │ └── baselines.py # 基线策略实现 ├── agent_runtime/ # 代理运行时 │ ├── core/ │ ├── tools/ │ ├── storage/ │ ├── adapters/ │ └── extensions/ ├── data/ │ └── toffee30k_swift.json # 已发布的数据文件 └── runs/ # 合成输出目录




