CLAMBSQL

github2024-12-05 更新2024-12-06 收录

下载链接：

https://github.com/mengzhang18/CLEAR

下载链接

链接失效反馈

官方服务：

资源简介：

我们提出的用于系统评估歧义消解的基准。实例和数据库可在此处获取。

The benchmark we propose for the systematic evaluation of ambiguity resolution. Instances and the database are available here.

创建时间：

2024-11-25

原始信息汇总

CLEAR: A Parser-Independent Disambiguation Framework for NL2SQL

数据集概述

数据集列表

数据集名称	描述
testzer0/AmbiQT	用于评估和改进在模糊性下的文本到SQL生成（EMNLP 2023）
AMBROSIA	用于解析模糊问题并将其转换为数据库查询的基准（arxiv）
BIRD	用于评估大型数据库基础的文本到SQL生成的大型基准（NeurIPS 2023）
CLAMBSQL	我们提出的用于系统评估模糊性解析的基准。实例和数据库可在此处获取：CLAMBSQL

CLAMBSQL 数据格式

每个示例包含以下字段：

index: 示例的索引。
db_id: 示例的数据库名称。
ambig_type: 示例的模糊类型。
question: 示例的模糊问题。
schema_without_content: 不包含数据库内容的数据库模式提取。
schema_with_content: 包含数据库内容的数据库模式提取。
ambiguous_queries: 回答问题的所有可能的SQL查询。
gold_ambiguity: 模糊性的黄金候选映射。
clarification_context: 用于模糊性澄清的自然语言反馈。
clear_ambiguity: 模糊性澄清的黄金选择映射。
gold_query: 与澄清相对应的问题的实际意图的黄金SQL解析。

示例

json { "index": 0, "db_id": "world_1", "ambig_type": "column", "db_file": "column/world_1/world_1.sqlite", "question": "What is the continent name which Anguilla belongs to?", "schema_without_content": "city : countrycode , name , population , district , id | sqlite_sequence : name , seq | country : capital , headofstate , localname , lifeexpectancy , gnp , gnpold , continent_name , code , surfacearea , population , code2 , mainland , region , indepyear , governmentform , name | countrylanguage : language , percentage , isofficial , countrycode", "schema_with_content": "city : countrycode ("DMA", "NER", "NLD"), name ("Scottsdale", "Taxco de AlarcÃ³n", "Wellington"), population (89423, 245772, 315382), district ("Borsod-AbaÃºj-ZemplÃ©n", "West Java", "Midi-PyrÃ©nÃ©es"), id (3788, 3629, 340) | sqlite_sequence : name ("city"), seq (4079) | country : capital (2973, 3243, 3212), headofstate ("Hamad ibn Isa al-Khalifa", None, "Vicente Fox Quesada"), localname ("MÃ©xico", "Makedonija", "Sverige"), lifeexpectancy (77.6, 77.0, 54.8), gnp (340238.0, 6041.0, 211860.0), gnpold (573.0, 360478.0, 2141.0), continent_name ("Europe", "Oceania", "South America"), code ("VCT", "SYR", "NFK"), surfacearea (774815.0, 96.0, 1862.0), population (453000, 50456000, 9586000), code2 ("AD", "ID", "SK"), mainland ("Europe", "Oceania", "South America"), region ("Eastern Europe", "Polynesia", "Polynesia"), indepyear (836, 1143, 1581), governmentform ("Islamic Emirate", "Occupied by Marocco", "Constitutional Monarchy"), name ("French Polynesia", "Iran", "Chad") | countrylanguage : language ("Kanem-bornu", "Dari", "Yao"), percentage (8.2, 14.0, 11.4), isofficial ("T", "F"), countrycode ("SYC", "UMI", "LBY")", "ambiguous_queries": [ "select mainland from country where name = Anguilla", "select continent_name from country where name = Anguilla" ], "gold_ambiguity": { "match": "{"continent": [{"country": ["mainland"]}, {"country": ["continent_name"]}]}", "query": "{}" }, "clarification_context": ""continent" refers to the schema "country"."continent_name"", "clear_ambiguity": "{"continent": {"country": ["continent_name"]}}", "gold_query": "select continent_name from country where name = Anguilla" }

搜集汇总

数据集介绍

构建方式

在构建CLAMBSQL数据集时，研究者们精心设计了包含多种模糊性类型的自然语言查询问题，并将其与相应的数据库模式和内容进行匹配。每个实例不仅包含了原始的模糊查询问题，还提供了数据库模式的两种提取方式：一种包含内容，另一种不包含内容。此外，数据集还记录了所有可能的SQL查询、金标准模糊性映射、澄清上下文以及最终的澄清模糊性映射和金标准SQL解析。这种多层次的构建方式确保了数据集在评估模糊性解析框架时的全面性和准确性。

特点

CLAMBSQL数据集的显著特点在于其对模糊性问题的系统化处理和多维度标注。每个实例不仅涵盖了问题的模糊性类型，还提供了详细的上下文信息和数据库模式，使得研究者能够深入分析和解决自然语言到SQL转换中的模糊性问题。此外，数据集中的金标准解析和澄清上下文为模型的训练和评估提供了可靠的基准，确保了研究结果的可重复性和可验证性。

使用方法

使用CLAMBSQL数据集时，研究者首先需下载数据集并将其放置在指定目录中。随后，通过配置环境变量和运行脚本，可以启动模糊性解析过程。数据集支持多种模糊性表示和澄清输入的生成，适用于不同的自然语言到SQL解析器。通过调整参数，如数据库根路径、工作目录路径和语言模型类型，研究者可以灵活地进行实验和评估，从而优化和验证其模糊性解析框架的性能。

背景与挑战

背景概述

CLAMBSQL数据集是由一支专注于自然语言处理（NLP）和数据库查询解析的研究团队创建的，旨在解决自然语言到SQL查询转换中的歧义问题。该数据集的核心研究问题是如何在不依赖特定解析器的情况下，系统地评估和消除自然语言查询中的歧义。CLAMBSQL的创建标志着在NL2SQL领域中，对于歧义处理框架的进一步探索，为后续研究提供了宝贵的资源和基准。

当前挑战

CLAMBSQL数据集面临的挑战主要集中在两个方面。首先，如何准确识别和分类自然语言查询中的歧义类型，这是一个复杂且多变的问题。其次，在构建过程中，如何确保数据集的多样性和覆盖面，以反映真实世界中可能出现的各种查询场景，也是一个重要的挑战。此外，数据集的评估标准和方法的制定，以确保其能够有效支持NL2SQL系统的开发和优化，也是一项不容忽视的难题。

常用场景

经典使用场景

在自然语言处理领域，CLAMBSQL数据集被广泛用于评估和改进自然语言到SQL查询的转换系统。该数据集通过提供包含歧义的查询问题及其对应的多种可能SQL查询，帮助研究人员开发和测试能够有效解决歧义的解析模型。例如，数据集中的一个经典场景是，模型需要根据用户提供的自然语言查询，从多个可能的SQL查询中选择最符合用户意图的查询。

衍生相关工作

基于CLAMBSQL数据集，许多研究工作得以展开，推动了自然语言处理和数据库领域的交叉研究。例如，一些研究通过改进歧义解析算法，提高了自然语言到SQL转换的准确性；另一些研究则探索了如何利用大规模预训练语言模型（如GPT-4）来增强解析能力。这些工作不仅丰富了该领域的理论基础，也为实际应用提供了技术支持。

数据集最近研究