Task-oriented Queries Benchmark (ToQB)

arXiv2024-06-05 更新2024-06-17 收录

下载链接：

https://github.com/google/task-oriented-queries

下载链接

链接失效反馈

官方服务：

资源简介：

Task-oriented Queries Benchmark (ToQB) 是由谷歌的研究人员Keun Soo YIM创建的一个新型数据集，专注于评估虚拟助手和聊天机器人等大型语言模型服务的质量。该数据集包含2922条任务导向的查询，如播放视频、订餐或叫出租车等。ToQB的创建过程利用了现有的任务导向对话数据集，并通过大型语言模型服务自动生成。数据集的应用领域主要集中在优化自然语言理解和执行系统，以解决任务导向查询的准确性和效率问题，从而提升人机交互的质量。

Task-oriented Queries Benchmark (ToQB) is a novel dataset developed by Keun Soo YIM, a researcher at Google, which focuses on evaluating the quality of services powered by large language models such as virtual assistants and chatbots. This dataset encompasses 2,922 task-oriented queries, including scenarios like playing videos, ordering meals, hailing taxis and other similar task-driven interactions. The construction of ToQB leverages existing task-oriented dialogue datasets and automatically generates query samples through large language model services. Its primary application fields center on optimizing natural language understanding and execution systems to resolve the accuracy and efficiency challenges of task-oriented queries, thereby improving the quality of human-computer interaction.

提供机构：

谷歌

创建时间：

2024-06-05

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，面向任务的查询评估长期缺乏标准化基准。Task-oriented Queries Benchmark (ToQB) 的构建采用了一种创新的自动化方法，该方法以现有的任务导向对话数据集（如TaskMaster v2和MultiWOZ）作为输入源。通过设计特定的自然语言处理子任务——对话用户请求摘要，利用大型语言模型服务对原始对话中的用户意图进行提取与转换，生成一次性动作查询。构建框架包含五个核心步骤：读取标注对话、预处理对话并进行提示工程、调用LLM进行摘要生成、检查与分类LLM响应、以及统计分析生成结果。该过程特别优化了提示策略，例如在多数领域省略系统话语以提升摘要准确率，并通过自动验证与人工审查相结合的方式过滤幻觉响应，最终从2,922个对话中高效生成了高质量的动作查询集合。

使用方法

ToQB数据集为评估和优化基于大型语言模型的虚拟助手、聊天机器人及搜索引擎的任务理解与执行能力提供了标准化基准。研究人员和开发者可将该数据集直接用于模型训练后的评估阶段，通过测量模型对数据集中一次性动作查询的意图理解准确率与任务完成度，来量化系统性能。具体应用时，可根据研究目标选择特定领域的查询子集，例如，专注于评估地理空间理解能力时可选用出租车领域的查询。该数据集亦支持细粒度的错误分析，通过对比模型输出与数据集中经过提炼的用户真实意图，可系统性地诊断模型在槽位填充、条件逻辑理解等方面的不足。此外，其公开可获取的特性及模块化的生成框架，允许社区贡献者将其轻松扩展至智能家居、多媒体、生产力等新兴领域，从而持续推动任务导向查询处理技术的迭代与发展。

背景与挑战

背景概述

随着自然语言处理与生成式人工智能技术的飞速发展，用户对虚拟助手、聊天机器人等服务的需求已从单纯的信息检索扩展至任务执行层面。任务导向查询（如播放视频、订购食物或呼叫出租车等单次指令）成为评估大型语言模型服务质量的基石。然而，现有自然语言处理领域的基准数据集主要聚焦于任务导向对话，缺乏专门针对单次动作查询的标准化评估工具。为此，Google研究员Keun Soo Yim于近期提出了任务导向查询基准（ToQB），通过创新方法利用现有任务导向对话数据集与大型语言模型服务，自动生成涵盖多领域的动作查询集合，旨在填补该领域的研究空白，推动人机交互系统的优化与比较。

当前挑战

任务导向查询基准所针对的核心领域问题在于评估系统对单次动作指令的理解与执行能力，其挑战体现在需确保查询的准确性与安全性，避免大型语言模型可能产生的幻觉风险，例如错误处理可能导致隐私泄露或安全威胁。在构建过程中，研究团队面临多重挑战：首先，从多轮对话中精准提炼用户原始意图并转化为单次查询，需克服对话语境复杂性与条件性表达的解析难题；其次，数据预处理与提示工程需细致优化，例如在提示中省略系统话语或说话者标签以平衡信息完整性与模型理解效果；此外，输入数据集的标注清洗工作繁重，需纠正转录错误、同义词差异及语法不一致等问题，以保证生成查询的语义一致性与高质量。

常用场景

经典使用场景

在自然语言处理领域，任务导向查询基准（ToQB）为评估虚拟助手、聊天机器人等大型语言模型服务的质量提供了标准化工具。该数据集通过自动化框架，将现有任务导向对话数据集转化为一次性动作查询，涵盖了订餐、叫车等多个垂直领域。其经典使用场景在于为研究人员和开发者提供一个统一的测试平台，用以衡量模型在理解用户意图并执行具体任务时的准确性与效率，从而推动对话系统在真实应用环境中的性能优化。

解决学术问题

ToQB数据集有效解决了任务导向查询领域缺乏标准化基准的学术难题。传统任务导向对话数据集侧重于多轮交互，难以直接评估一次性动作查询的完成质量。该数据集通过创新性地定义对话用户请求摘要这一自然语言处理子任务，利用大型语言模型自动生成高质量查询，填补了学术研究中的空白。其意义在于为自然语言理解与任务履行系统的迭代改进提供了可重复的测量基础，促进了开放协作与研究进展，对提升生成式人工智能服务的可靠性与安全性具有深远影响。

实际应用

在实际应用层面，ToQB数据集被广泛用于评估和优化各类基于大型语言模型的服务。例如，在语音助手开发中，该基准帮助测试系统对复杂多步骤任务查询的理解与执行准确性；搜索引擎提供商可利用其优化对动作导向查询的响应能力，提升用户体验；聊天机器人开发者则借助ToQB增强自然语言理解与任务履行功能，确保在多样对话上下文中有效处理用户请求。这些应用共同推动了人工智能服务在真实世界场景中的实用化与普及。

数据集最近研究