PRACTIQ

Name: PRACTIQ
Creator: 亚马逊网络服务
Published: 2024-10-15 04:36:35
License: 暂无描述

arXiv2024-10-15 更新2024-10-17 收录

下载链接：

https://github.com/dummy-anonymous/practiq-datageneration/to-be-released

下载链接

链接失效反馈

官方服务：

资源简介：

PRACTIQ是由亚马逊网络服务创建的一个实用对话式文本到SQL数据集，专门用于处理模糊和无法回答的查询。该数据集包含2800个对话，涵盖了四种模糊问题和四种无法回答的问题类别。数据集的创建过程包括数据库修改、SQL修改和对话细化三个阶段，通过大型语言模型生成用户与文本到SQL助手之间的对话。PRACTIQ旨在解决现有文本到SQL系统在处理实际世界中模糊和无法回答查询时的不足，特别是在对话环境中。

PRACTIQ is a practical conversational text-to-SQL dataset created by Amazon Web Services (AWS), specifically designed to handle ambiguous and unanswerable queries. This dataset includes 2800 dialogues, covering four categories of ambiguous questions and four categories of unanswerable questions. The dataset construction process involves three stages: database modification, SQL modification and dialogue refinement, during which dialogues between users and text-to-SQL assistants are generated via large language models. PRACTIQ aims to address the shortcomings of existing text-to-SQL systems when processing real-world ambiguous and unanswerable queries, especially in conversational environments.

提供机构：

亚马逊网络服务

创建时间：

2024-10-15

搜集汇总

数据集介绍

构建方式

PRACTIQ数据集的构建基于对现有text-to-SQL数据集的深入分析，识别出四类模糊问题和四类不可回答问题。通过解析SQL查询并修改数据库，生成包含模糊和不可回答问题的对话。具体步骤包括：首先，通过自定义解析器提取SQL查询中的列和单元值，并利用大型语言模型（LLM）生成语义相似但不等价的列名或值；其次，根据用户问题、修改后的数据库和原始SQL，生成助手的初始响应、用户澄清响应和助手的澄清SQL响应；最后，执行构建的澄清SQL，获取结果并生成自然语言解释。

特点

PRACTIQ数据集的主要特点在于其包含了模糊和不可回答的用户查询，这些查询在实际应用中常见但以往的数据集中较少涉及。数据集通过对话形式展现，包括用户初始问题、助手寻求澄清的响应、用户澄清响应、助手澄清后的SQL响应及其执行结果的自然语言解释。此外，数据集还包含直接生成有用SQL响应的案例，这些响应考虑了模糊性的多个方面，而非仅请求用户澄清。

使用方法

PRACTIQ数据集可用于评估和训练text-to-SQL系统，特别是在处理模糊和不可回答查询方面的能力。使用方法包括：首先，进行问题类别分类，判断查询是否可回答或属于八种模糊/不可回答类别之一；其次，进行澄清SQL生成，根据助手的澄清问题和用户的澄清响应预测最终SQL。通过这些任务，可以评估现有模型在实际应用中的表现，并指导模型的进一步优化。

背景与挑战

背景概述

PRACTIQ数据集由Amazon Web Services和University of Massachusetts at Amherst的研究人员共同创建，旨在解决现有文本到SQL数据集主要关注明确意图且可回答的用户问题，而忽略了实际用户问题中常见的模糊性和不可回答性。该数据集包含基于真实用户问题的模糊和不可回答的查询，通过四轮对话生成，包括初始用户问题、助手寻求澄清的响应、用户澄清以及助手带有自然语言解释的澄清SQL响应。PRACTIQ的构建填补了现有数据集的空白，为训练和评估能够处理实际应用中模糊和不可回答查询的文本到SQL系统提供了宝贵的资源。

当前挑战

PRACTIQ数据集面临的挑战主要集中在两个方面：一是解决领域问题中的模糊性和不可回答性，这些问题在实际应用中普遍存在，但现有数据集往往忽略；二是构建过程中遇到的挑战，包括识别和分类模糊问题、生成高质量的对话数据以及确保生成的SQL查询的准确性和可执行性。此外，如何有效评估和提升大型语言模型在处理这些复杂查询时的性能，也是该数据集需要解决的重要问题。

常用场景

经典使用场景

PRACTIQ数据集在自然语言到SQL转换领域中，主要用于处理用户查询中的模糊性和不可回答性问题。其经典使用场景包括：当用户提出具有多重解释或因缺乏相关数据而无法回答的问题时，系统需要首先识别问题的可回答性、模糊性或不可回答性，进而决定是否请求用户澄清或直接提供正确的SQL响应。例如，当用户询问“查找ID以'B'开头的访客的姓名和年龄”时，系统可能需要澄清用户所指的‘年龄’是‘入场年龄’还是‘当前年龄’。

衍生相关工作

基于PRACTIQ数据集，研究者们开发了多种改进的文本到SQL模型和系统。例如，一些研究工作通过引入多轮对话机制，增强了系统处理模糊查询的能力；另一些工作则专注于提升模型在不可回答查询上的识别和响应策略。此外，PRACTIQ还激发了关于数据生成和质量控制的新方法研究，推动了自然语言处理技术在实际应用中的进一步发展。

数据集最近研究