SeSQL
收藏github2024-01-17 更新2024-05-31 收录
下载链接:
https://github.com/SUDA-LA/SeSQL
下载链接
链接失效反馈官方服务:
资源简介:
SeSQL提供了一个高质量且大规模的会话级中文Text-to-SQL数据集,包含5,028个会话和27,012个问题/SQL对。所有会话均从零开始手工构建。此外,还提供了包括数据库内容、表结构、训练/验证/测试数据集等资源。
SeSQL offers a high-quality and large-scale conversational-level Chinese Text-to-SQL dataset, comprising 5,028 conversations and 27,012 question/SQL pairs. All conversations are manually constructed from scratch. Additionally, it provides resources including database content, table structures, and training/validation/test datasets.
创建时间:
2023-08-06
原始信息汇总
数据集概述
SeSQL 是一个高质量、大规模的中文会话级文本到SQL数据集,包含以下关键内容:
数据集内容
- 数据库内容文件
db_content.json:存储数据库的内容信息,包括每个表的内容数据。 - 数据库模式文件
tables.json:存储数据库的表结构信息,包括每个表的结构数据。 - 训练/验证/测试数据集
train/dev/test.json:分割后的数据集。 - 单轮数据集
single-round-question-completed/:包含单轮的上下文无关SeSQL数据集,也包括train/dev/test分割。 - 示例文件
examples/:- 会话级数据集示例
session_level_examples.json:存储自然语言问题、SQL语句及相应的数据库信息,用于会话级模型训练。 - 单轮数据集示例
single_round_examples.json:存储自然语言问题、SQL语句及相应的数据库信息,用于单轮模型训练。
- 会话级数据集示例
基准模型
- 会话级解析模型
session-level-parser-IGSQL:经过修改以支持中文会话级文本到SQL语义解析的模型。 - 单轮解析模型
single-round-parser-LGESQL:经过部分修改以支持中文单轮文本到SQL语义解析的模型。
评估
- 会话级评估:位于
scripts/evaluation_session_level.py。 - 单轮评估:位于
scripts/eval_single_round.sh。
数据集使用
- 基准模型的使用说明(包括预处理、训练和评估)可在每个基准目录下的README文件中找到。
搜集汇总
数据集介绍

构建方式
SeSQL数据集的构建过程体现了高度的专业性和严谨性。该数据集包含5,028个会话和27,012个问题/SQL对,所有会话均从零开始手动构建,确保了数据的高质量和准确性。数据集提供了完整的数据库内容、表结构信息以及训练、开发、测试集的划分,同时还包含了单轮和会话级别的Text-to-SQL数据,为模型训练和评估提供了全面的支持。
特点
SeSQL数据集以其大规模和高品质著称,特别适用于中文Text-to-SQL任务。数据集不仅提供了丰富的数据库内容和表结构信息,还包含了会话级别和单轮级别的Text-to-SQL数据,能够满足不同模型训练的需求。此外,数据集还提供了基线模型,包括会话级别解析模型IGSQL和单轮解析模型LGESQL,这些模型经过修改以支持中文Text-to-SQL语义解析,并适配SeSQL数据集。
使用方法
SeSQL数据集的使用方法简洁明了。用户可以通过提供的脚本进行会话级别和单轮级别的评估,依赖项仅为`nltk`,安装简便。基线模型的使用方法包括预处理、训练和评估,均在每个基线目录的README文件中详细说明。数据集还提供了压缩文件和示例文件,方便用户快速预览和理解数据内容。通过引用相关论文,用户可以进一步了解数据集的构建细节和实验验证。
背景与挑战
背景概述
SeSQL数据集由研究团队于2022年发布,旨在为中文自然语言处理领域提供一个高质量、大规模的会话级文本到SQL转换数据集。该数据集包含5,028个会话和27,012个问题/SQL对,所有会话均从零开始手工构建。SeSQL不仅提供了完整的数据库内容和表结构信息,还包含了训练、开发和测试集的分割。该数据集的发布填补了中文会话级Text-to-SQL研究的空白,为相关领域的模型训练和评估提供了重要资源。SeSQL的研究成果已被NLPCC 2023主会议接受,进一步推动了中文自然语言处理与数据库交互领域的发展。
当前挑战
SeSQL数据集在构建和应用过程中面临多重挑战。首先,会话级Text-to-SQL任务要求模型能够理解并处理复杂的上下文依赖关系,这对语义解析的准确性和连贯性提出了更高要求。其次,中文与英文在语法结构和表达方式上的差异,使得现有的英文Text-to-SQL模型难以直接应用于中文场景,需要进行大量的适配和优化。此外,数据集的构建过程中,手工标注的复杂性和一致性维护也是一大挑战,确保每个会话中的问题与SQL语句的准确对应需要耗费大量的人力和时间。这些挑战不仅影响了数据集的构建效率,也对后续模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
SeSQL数据集在自然语言处理领域,尤其是中文文本到SQL查询的转换任务中,展现了其独特的价值。该数据集通过提供大规模、高质量的会话级中文Text-to-SQL数据,为研究者们提供了一个理想的实验平台。在会话级Text-to-SQL任务中,模型需要理解并处理多轮对话中的上下文信息,从而生成准确的SQL查询语句。SeSQL数据集通过精心设计的会话结构和丰富的数据库内容,使得模型能够在复杂的对话场景中进行有效的语义解析和查询生成。
解决学术问题
SeSQL数据集解决了中文Text-to-SQL任务中的多个关键学术问题。首先,它填补了中文会话级Text-to-SQL数据集的空白,为研究者们提供了一个高质量的数据资源。其次,通过提供详细的数据库内容和表结构信息,SeSQL数据集使得模型能够更好地理解数据库的语义信息,从而提高查询生成的准确性。此外,SeSQL数据集还支持单轮和多轮Text-to-SQL任务的评估,为不同场景下的模型性能提供了全面的测试平台。
衍生相关工作
SeSQL数据集的发布推动了中文Text-to-SQL领域的研究进展,并衍生了一系列经典工作。例如,研究者们基于SeSQL数据集开发了多种会话级和单轮Text-to-SQL解析模型,如IGSQL和LGESQL。这些模型通过引入图神经网络和上下文依赖机制,显著提升了中文Text-to-SQL任务的性能。此外,SeSQL数据集还为其他相关研究提供了数据支持,如跨语言Text-to-SQL任务和数据库语义理解等,进一步拓展了该领域的研究边界。
以上内容由遇见数据集搜集并总结生成



