SeSQL

github2024-01-17 更新2024-05-31 收录

下载链接：

https://github.com/SUDA-LA/SeSQL

下载链接

链接失效反馈

官方服务：

资源简介：

SeSQL提供了一个高质量且大规模的会话级中文Text-to-SQL数据集，包含5,028个会话和27,012个问题/SQL对。所有会话均从零开始手工构建。此外，还提供了包括数据库内容、表结构、训练/验证/测试数据集等资源。

SeSQL offers a high-quality and large-scale conversational-level Chinese Text-to-SQL dataset, comprising 5,028 conversations and 27,012 question/SQL pairs. All conversations are manually constructed from scratch. Additionally, it provides resources including database content, table structures, and training/validation/test datasets.

创建时间：

2023-08-06

原始信息汇总

数据集概述

SeSQL 是一个高质量、大规模的中文会话级文本到SQL数据集，包含以下关键内容：

数据集内容

数据库内容文件 db_content.json：存储数据库的内容信息，包括每个表的内容数据。
数据库模式文件 tables.json：存储数据库的表结构信息，包括每个表的结构数据。
训练/验证/测试数据集 train/dev/test.json：分割后的数据集。
单轮数据集 single-round-question-completed/：包含单轮的上下文无关SeSQL数据集，也包括train/dev/test分割。
示例文件 examples/：
- 会话级数据集示例 session_level_examples.json：存储自然语言问题、SQL语句及相应的数据库信息，用于会话级模型训练。
- 单轮数据集示例 single_round_examples.json：存储自然语言问题、SQL语句及相应的数据库信息，用于单轮模型训练。

基准模型

会话级解析模型 session-level-parser-IGSQL：经过修改以支持中文会话级文本到SQL语义解析的模型。
单轮解析模型 single-round-parser-LGESQL：经过部分修改以支持中文单轮文本到SQL语义解析的模型。

评估

会话级评估：位于scripts/evaluation_session_level.py。
单轮评估：位于scripts/eval_single_round.sh。

数据集使用

基准模型的使用说明（包括预处理、训练和评估）可在每个基准目录下的README文件中找到。

搜集汇总

数据集介绍

构建方式

SeSQL数据集的构建过程体现了高度的专业性和严谨性。该数据集包含5,028个会话和27,012个问题/SQL对，所有会话均从零开始手动构建，确保了数据的高质量和准确性。数据集提供了完整的数据库内容、表结构信息以及训练、开发、测试集的划分，同时还包含了单轮和会话级别的Text-to-SQL数据，为模型训练和评估提供了全面的支持。

特点

SeSQL数据集以其大规模和高品质著称，特别适用于中文Text-to-SQL任务。数据集不仅提供了丰富的数据库内容和表结构信息，还包含了会话级别和单轮级别的Text-to-SQL数据，能够满足不同模型训练的需求。此外，数据集还提供了基线模型，包括会话级别解析模型IGSQL和单轮解析模型LGESQL，这些模型经过修改以支持中文Text-to-SQL语义解析，并适配SeSQL数据集。

使用方法

SeSQL数据集的使用方法简洁明了。用户可以通过提供的脚本进行会话级别和单轮级别的评估，依赖项仅为`nltk`，安装简便。基线模型的使用方法包括预处理、训练和评估，均在每个基线目录的README文件中详细说明。数据集还提供了压缩文件和示例文件，方便用户快速预览和理解数据内容。通过引用相关论文，用户可以进一步了解数据集的构建细节和实验验证。

背景与挑战

背景概述

SeSQL数据集由研究团队于2022年发布，旨在为中文自然语言处理领域提供一个高质量、大规模的会话级文本到SQL转换数据集。该数据集包含5,028个会话和27,012个问题/SQL对，所有会话均从零开始手工构建。SeSQL不仅提供了完整的数据库内容和表结构信息，还包含了训练、开发和测试集的分割。该数据集的发布填补了中文会话级Text-to-SQL研究的空白，为相关领域的模型训练和评估提供了重要资源。SeSQL的研究成果已被NLPCC 2023主会议接受，进一步推动了中文自然语言处理与数据库交互领域的发展。

当前挑战

SeSQL数据集在构建和应用过程中面临多重挑战。首先，会话级Text-to-SQL任务要求模型能够理解并处理复杂的上下文依赖关系，这对语义解析的准确性和连贯性提出了更高要求。其次，中文与英文在语法结构和表达方式上的差异，使得现有的英文Text-to-SQL模型难以直接应用于中文场景，需要进行大量的适配和优化。此外，数据集的构建过程中，手工标注的复杂性和一致性维护也是一大挑战，确保每个会话中的问题与SQL语句的准确对应需要耗费大量的人力和时间。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

SeSQL数据集在自然语言处理领域，尤其是中文文本到SQL查询的转换任务中，展现了其独特的价值。该数据集通过提供大规模、高质量的会话级中文Text-to-SQL数据，为研究者们提供了一个理想的实验平台。在会话级Text-to-SQL任务中，模型需要理解并处理多轮对话中的上下文信息，从而生成准确的SQL查询语句。SeSQL数据集通过精心设计的会话结构和丰富的数据库内容，使得模型能够在复杂的对话场景中进行有效的语义解析和查询生成。

解决学术问题

SeSQL数据集解决了中文Text-to-SQL任务中的多个关键学术问题。首先，它填补了中文会话级Text-to-SQL数据集的空白，为研究者们提供了一个高质量的数据资源。其次，通过提供详细的数据库内容和表结构信息，SeSQL数据集使得模型能够更好地理解数据库的语义信息，从而提高查询生成的准确性。此外，SeSQL数据集还支持单轮和多轮Text-to-SQL任务的评估，为不同场景下的模型性能提供了全面的测试平台。

衍生相关工作

SeSQL数据集的发布推动了中文Text-to-SQL领域的研究进展，并衍生了一系列经典工作。例如，研究者们基于SeSQL数据集开发了多种会话级和单轮Text-to-SQL解析模型，如IGSQL和LGESQL。这些模型通过引入图神经网络和上下文依赖机制，显著提升了中文Text-to-SQL任务的性能。此外，SeSQL数据集还为其他相关研究提供了数据支持，如跨语言Text-to-SQL任务和数据库语义理解等，进一步拓展了该领域的研究边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集