Schema-Guided Dialogue (SGD)

github2026-04-20 更新2026-04-23 收录

下载链接：

https://github.com/distil-labs/distil-tft-benchmarking

下载链接

链接失效反馈

官方服务：

资源简介：

基于Schema-Guided Dialogue (SGD)数据集，目标任务是餐厅搜索和预订服务的多轮工具调用，包括三个工具：`respond_to_user`（向用户发送文本消息）、`FindRestaurants`（按菜系、城市、价格范围、现场音乐、酒精搜索餐厅）和`ReserveRestaurant`（预订餐桌，包括餐厅名称、城市、时间、日期、聚会规模）。测试集包含34个多轮Restaurants_1对话，训练痕迹包含327个Restaurants_1痕迹。

Based on the Schema-Guided Dialogue (SGD) dataset, the target task is multi-turn tool calling for restaurant search and booking services, which involves three tools: `respond_to_user` (sends text messages to users), `FindRestaurants` (searches restaurants based on cuisine, city, price range, live music and alcohol), and `ReserveRestaurant` (reserves dining tables with parameters including restaurant name, city, time, date and party size). The test set includes 34 multi-turn Restaurants_1 dialogues, while the training traces contain 327 Restaurants_1 traces.

创建时间：

2026-04-12

原始信息汇总

TFT (Training from Traces) Benchmark 数据集概述

数据集来源

基于 Schema-Guided Dialogue (SGD) 数据集构建，原始地址为：https://github.com/google-research-datasets/dstc8-schema-guided-dialogue。

目标任务

多轮工具调用，用于餐厅搜索和预订服务，涉及三个工具：

respond_to_user：向用户发送文本消息。
FindRestaurants：按菜系、城市、价格范围、现场音乐、酒精饮料等条件搜索餐厅。
ReserveRestaurant：预订餐桌（餐厅名称、城市、时间、日期、用餐人数）。

数据划分

测试集

包含 34 个多轮 Restaurants_1 对话（从 367 个可用轨迹中保留）。
评估时，通过设置 expand_tool_calling_turns=true 将其扩展为 约 359 个每轮评估对，每个对是一个以助手工具调用结束的对话前缀。

训练轨迹

剩余的 327 个 Restaurants_1 轨迹（排除测试对话）构成标准来源。
每个场景在训练前对这些轨迹应用不同的破坏或约束。

评估场景

场景 1：基线

训练数据：327 个干净的 Restaurants_1 轨迹（无破坏）。
测试质量上限，即各流程在完美数据下的表现。

场景 2：噪声标签

训练数据：327 个 Restaurants_1 轨迹，其中 50% 的助手工具调用被破坏（为 TFT 种子保留 10% 的干净轨迹）。
破坏类型针对工具时机，包括工具交换、参数交换、替换为 respond_to_user 或服务工具等。

场景 3：模式漂移

训练数据：Restaurants_2（146 个轨迹）和 Restaurants_1（146 个轨迹）的 50/50 混合，共 292 个轨迹。0% 的训练数据使用正确的 R1 函数名。
测试对 API 版本变化的适应性，轨迹使用混乱、不一致的工具命名。

场景 4：低数据量

训练数据：5 个干净的 Restaurants_1 轨迹（从 327 个中通过固定种子子采样）。
测试极端数据稀缺情况。

场景 5：轨迹混合

训练数据：80% Hotels_1（142 个轨迹） + 20% Restaurants_1（36 个轨迹），共 178 个轨迹。
酒店轨迹被破坏以最大化混淆，模型看到 R1 函数名与酒店内容一起以随机顺序出现。

结果

所有结果均使用 llm-as-a-judge 作为主要指标（0-1 尺度），在共享测试集（约 359 个扩展轮次对）上评估。

场景	TFT	直接训练	差异
S1 基线	0.866	0.864	+0.2pp
S2 噪声标签	0.844	0.721	+12.3pp
S3 模式漂移	0.844	0.585	+25.9pp
S4 低数据量	0.852	0.649	+20.3pp
S5 轨迹混合	0.858	0.694	+16.4pp

TFT 在干净数据上（S1）与直接训练表现相当，并在每个被破坏的场景上优于直接训练 12-26 个百分点。

教师模型评估

教师模型在同一测试集上的评估结果（各 5 个种子）：

教师模型	均值（法官）	标准差
GLM-5	0.835	0.006
Qwen3-235B	0.768	0.018
MiniMax-M2	0.762	0.010
DeepSeek-3.2	0.744	0.014

已训练模型

所有训练模型均发布于 HuggingFace。每个模型均为使用 LoRA（合并权重）微调的 Qwen3-1.7B 模型。

场景	TFT 模型	直接训练模型
S1 基线	distillabs/tft-benchmark-s1-tft-Qwen3-1.7B	distillabs/tft-benchmark-s1-direct-Qwen3-1.7B
S2 噪声标签	distillabs/tft-benchmark-s2-tft-Qwen3-1.7B	distillabs/tft-benchmark-s2-direct-Qwen3-1.7B
S3 模式漂移	distillabs/tft-benchmark-s3-tft-Qwen3-1.7B	distillabs/tft-benchmark-s3-direct-Qwen3-1.7B
S4 低数据量	distillabs/tft-benchmark-s4-tft-Qwen3-1.7B	distillabs/tft-benchmark-s4-direct-Qwen3-1.7B
S5 轨迹混合	distillabs/tft-benchmark-s5-tft-Qwen3-1.7B	distillabs/tft-benchmark-s5-direct-Qwen3-1.7B

配置

模型

学生模型：Qwen3-1.7B
教师模型 / 合成生成：zai.glm-5
法官模型：openai.gpt-oss-120b
委员会（TFT 重新标记）：openai.gpt-oss-120b + zai.glm-5

关键设置

任务：multi-turn-tool-calling-closed-book
合成数据生成目标：2000 个示例
生成：每次 LLM 调用生成 1 个示例（防止长度截断）
突变主题：4 个桶，匹配测试集轮次长度分布（9-13、13-17、15-19、21-29 轮）
最大总长度：20,000 个令牌
相关性/连贯性过滤：可按场景配置

目录结构

数据集文件按场景组织，每个场景包含 tft/、tft-raw-data/ 和 direct/ 子目录，分别存放 TFT 流程输入、原始训练数据和直接训练输入。具体文件包括配置文件、任务描述、轨迹文件（JSONL 格式）和测试集。

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，Schema-Guided Dialogue (SGD) 数据集为多轮工具调用任务提供了结构化基础。该数据集的构建基于原始 SGD 数据集中的餐厅搜索与预订服务场景，通过精心设计的数据处理流程实现。具体而言，从可用的 367 条对话轨迹中，划分出 34 条多轮对话作为测试集，其余 327 条则作为训练轨迹源。为了模拟现实世界中的噪声与挑战，研究团队引入了五种不同的数据场景，包括对工具调用进行标签噪声注入、模式漂移下的函数名重命名、极低数据量设置以及跨领域轨迹混合等系统化数据扰动，从而构建出一个能够全面评估模型鲁棒性的基准数据集。

特点

该数据集的核心特征在于其针对实际部署中常见问题的系统性模拟与封装。数据集设计了五个独立场景，分别对应标签噪声、模式漂移、数据稀缺和轨迹混淆等现实挑战，每种场景均通过可控的数据腐蚀策略实现。例如，在噪声标签场景中，半数助理工具调用被有意篡改，包括工具替换、参数交换等操作，以检验模型对错误时序的学习抵抗能力。数据集还提供了统一的测试集，包含 34 条多轮对话，可扩展为约 359 个每轮评估对，确保了评估的一致性与可比性。这些特征共同构成了一个多层次、高保真的评估环境，能够深入揭示不同训练方法在复杂条件下的性能差异。

使用方法

该数据集主要用于评估和比较基于生产轨迹训练小语言模型的两种方法：直接训练与 TFT 流程。研究人员可通过加载特定场景的配置与数据文件，分别执行两种训练流程。直接训练方法将原始或腐蚀后的轨迹直接作为训练样本，而 TFT 方法则首先对轨迹进行过滤与委员会重标注，随后利用教师大语言模型结合任务描述与工具模式生成干净的合成对话，再经过验证层筛选后用于学生模型微调。评估时，统一使用共享测试集，并采用 LLM 作为评判者的指标进行量化比较。所有训练好的模型均公开发布于 HuggingFace 平台，便于后续研究进行复现、分析与进一步应用。

背景与挑战

背景概述

Schema-Guided Dialogue（SGD）数据集由Google Research团队于2019年推出，作为第八届对话系统技术挑战赛（DSTC8）的核心组成部分。该数据集旨在推动面向任务的对话系统研究，其核心研究问题聚焦于多领域、多轮次对话状态跟踪与自然语言理解，通过引入结构化模式（Schema）来规范对话中涉及的领域、意图与槽位。SGD涵盖了20个领域，包含超过2万个人工标注的多轮对话，显著提升了对话系统在复杂、跨领域场景下的泛化能力与可扩展性，对后续对话AI的研究与工业应用产生了深远影响。

当前挑战

SGD数据集所针对的领域挑战在于如何构建一个能够处理多领域、动态模式且具备强泛化能力的对话系统。具体而言，对话状态跟踪需在复杂对话流中准确解析用户意图并维护跨领域的上下文一致性，而模式引导的对话管理则要求系统能灵活适应不断演进的API模式。在数据集构建过程中，挑战主要来自大规模、高质量的多领域对话标注，包括确保标注者对不同领域模式的理解一致性，以及处理对话中常见的指代消解、意图歧义等自然语言复杂性，从而保证数据集的可靠性与实用性。

常用场景

经典使用场景

在对话系统研究领域，Schema-Guided Dialogue (SGD) 数据集常被用作评估多轮任务导向对话系统的基准。其经典使用场景集中于模拟真实世界中的服务调用交互，例如餐厅搜索与预订。研究者利用该数据集的多轮对话结构，训练模型理解用户意图、跟踪对话状态，并准确执行工具调用。这种场景不仅测试模型的语义理解能力，还检验其在复杂对话流程中保持连贯性的表现，为对话系统的开发提供了标准化的实验环境。

衍生相关工作

围绕 SGD 数据集，衍生了一系列经典研究工作，例如基于模式引导的对话状态跟踪模型、多轮工具调用生成框架，以及噪声鲁棒性训练方法。这些工作利用数据集的丰富标注，探索了对话系统的端到端学习、小样本适应和跨领域迁移等方向。部分研究进一步扩展了数据集的用途，将其应用于评估大语言模型在工具调用任务上的性能，推动了对话系统与工具学习交叉领域的技术创新，为后续的基准测试和算法比较提供了重要参考。

数据集最近研究