SENLIDB Dataset

github2024-01-19 更新2024-05-31 收录

下载链接：

https://github.com/johnthebrave/nlidb-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含24,890个独特的SQL查询，这些查询是从Stack Exchange Data Explorer网站（http://data.stackexchange.com/stackoverflow/queries）提取的。除了原始网站上的信息外，该数据集还包含了296个查询的780个额外手动注释。

本数据集汇聚了共计24,890个独特的SQL查询，这些查询源自Stack Exchange Data Explorer网站（http://data.stackexchange.com/stackoverflow/queries）。除却原始网站所提供的信息之外，该数据集还附加了针对296个查询的780条细致入微的手动注释。

创建时间：

2017-07-31

原始信息汇总

SENLIDB 数据集概述

数据集内容

数据集大小: 包含24,890个独特的SQL查询。
数据来源: 从Stack Exchange Data Explorer网站（http://data.stackexchange.com/stackoverflow/queries）提取。
额外信息: 包含780个额外的手动标注，涉及296个查询。

文件结构

train.json:
- 条目数: 24,594个。
- 结构: javascript { title : "(string) 查询标题" description : "(string) 查询描述" sql_plain : "(string) 原始查询" sql : "(string) 去除注释的查询" comments : "(list of strings) 移除的注释列表" url : "(string) 查询或其修订版的URL" id : "(string) 从URL提取的唯一标识符" }
test.json:
- 条目数: 296个。
- 结构: 与训练文件相同，增加以下字段： javascript { annotations: [ { annotation : "(string) 手动标注的自然语言描述" annotator_id: "(integer) 标注者的唯一标识" } ] }

许可证

本作品采用Creative Commons Attribution-ShareAlike 3.0 Unported License许可。

搜集汇总

数据集介绍

构建方式

SENLIDB数据集的构建基于Stack Exchange Data Explorer网站上的SQL查询数据，共提取了24,890条独特的SQL查询。为了增强数据的可用性，研究团队对其中296条查询进行了人工标注，共添加了780条注释。数据集分为训练集和测试集两部分，训练集包含24,594条查询，测试集包含296条查询，每条查询均包含标题、描述、原始SQL语句、去除注释的SQL语句、被移除的注释列表以及查询的URL和唯一标识符。测试集额外增加了自然语言的人工标注信息，为研究提供了更丰富的语义信息。

使用方法

SENLIDB数据集的使用方法较为灵活，适用于多种研究场景。研究者可通过加载train.json和test.json文件分别访问训练集和测试集数据。训练集可用于模型的预训练和参数优化，而测试集则可用于模型的性能评估和对比分析。每条查询的元信息（如标题、描述、SQL语句等）为自然语言生成、语义解析等任务提供了丰富的输入特征。人工标注信息还可用于监督学习或作为评估模型的参考标准。数据集的使用需遵循Creative Commons Attribution-ShareAlike 3.0 Unported License的许可协议。

背景与挑战

背景概述

SENLIDB数据集由Florin Brad、Radu Iacob、Ionel Hosu和Traian Rebedea等研究人员于2017年创建，旨在为自然语言与数据库接口（NNLIDB）的研究提供支持。该数据集包含24,890条从Stack Exchange Data Explorer站点提取的独特SQL查询，并额外提供了780条针对296条查询的手动注释。这些数据不仅涵盖了查询的原始信息，还包含了经过处理的SQL语句及其注释，为研究自然语言与数据库交互的语义理解提供了丰富的资源。SENLIDB数据集的发布推动了自然语言处理与数据库技术交叉领域的研究，特别是在自动生成SQL查询和语义解析方面具有重要影响力。

当前挑战

SENLIDB数据集在解决自然语言与数据库接口问题时面临多重挑战。首先，自然语言描述的多样性与SQL查询的精确性之间存在显著差异，如何准确地将自然语言意图映射为结构化查询语句是一个核心难题。其次，数据集中部分查询的描述信息缺失或不完整，增加了语义解析的难度。在构建过程中，研究人员需从海量数据中筛选出具有代表性的查询，并对其进行手动注释，这一过程耗时且易受主观因素影响。此外，如何确保注释的一致性和准确性也是数据集构建中的关键挑战。这些问题的解决对于提升自然语言与数据库交互系统的性能至关重要。

常用场景

经典使用场景

SENLIDB数据集在自然语言处理与数据库交互领域具有重要应用，尤其在训练和评估自然语言到SQL查询的转换模型时，该数据集提供了丰富的SQL查询实例及其对应的自然语言描述。研究人员可以利用这些数据来开发和优化神经网络模型，以实现更高效、更准确的数据库查询语言转换。

解决学术问题

SENLIDB数据集解决了自然语言处理领域中的一个关键问题，即如何将用户的自然语言查询准确地转换为数据库可执行的SQL语句。通过提供大量带有注释的SQL查询，该数据集为研究者提供了一个标准化的测试平台，帮助他们评估和改进自然语言到SQL的转换算法，从而推动了该领域的技术进步。

实际应用

在实际应用中，SENLIDB数据集被广泛用于开发智能数据库查询系统，这些系统能够理解用户的自然语言输入并自动生成相应的SQL查询。这种技术在企业数据分析、客户关系管理以及智能客服系统中具有广泛的应用前景，极大地提高了数据查询的效率和用户体验。

数据集最近研究