five

RaffaSch121/fixed_spider|文本到SQL数据集|数据清洗数据集

收藏
hugging_face2024-06-14 更新2024-06-15 收录
文本到SQL
数据清洗
下载链接:
https://hf-mirror.com/datasets/RaffaSch121/fixed_spider
下载链接
链接失效反馈
资源简介:
Cleaned Spider Dataset for Text2SQL是Spider数据集的改进版本,专门用于Text2SQL任务。该数据集解决了原始数据集中的一些关键问题,如大小写不一致、引用不存在的表以及缺少模式等问题,从而提高了数据质量和可靠性。数据集包含自然语言问题及其对应的SQL查询,适用于训练和评估Text2SQL模型。数据集的文本为英文,且不包含个人或敏感信息。
提供机构:
RaffaSch121
原始信息汇总

Cleaned Spider Dataset for Text2SQL

数据集概述

Cleaned Spider Dataset for Text2SQL 是原始 Spider 数据集的改进版本,原始 Spider 数据集是一个大规模、复杂且跨域的语义解析和文本到 SQL 数据集。这个增强版本解决了原始数据集中发现的几个关键问题,确保了用于训练文本到 SQL 模型的高质量和可靠性。增强版本通过 Turbulars 的高级数据处理能力和内部通用数据库连接器实现。

支持的任务和排行榜

原始 Spider 数据集的排行榜可以在 Spider Leaderboard 查看。增强数据集与相同的任务兼容,并且由于其质量的提高,可以用于实现更好的性能。

语言

数据集中的文本为英语。

数据集结构

数据实例

数据集中的每个实例代表一个自然语言问题及其等效的 SQL 查询。

数据字段

  • db_id: 数据库名称
  • question: 需要解释为 SQL 的自然语言问题
  • query: 目标 SQL 查询
  • query_toks: 查询的标记列表
  • query_toks_no_value: 不带值的查询标记列表
  • question_toks: 问题的标记列表

数据集创建

策划理由

基于我们在训练 Text2SQL 模型方面的经验,Cleaned Spider Dataset for Text2SQL 是为了解决原始 Spider 数据集中的以下问题而创建的:

  1. 大小写差异:规范化数据库布局以及查询中引用的列和表。
  2. 不存在的表:删除引用不存在的表的查询。
  3. 缺少模式:随机为每个数据库布局引入 1-3 个模式,并相应更新受影响的查询。

源数据

数据集基于原始 Spider 数据集,该数据集由 11 名耶鲁大学学生标注。

标注

原始数据集由耶鲁大学的学生标注。增强工作由 Turbulars 内部团队使用他们的通用数据库连接器完成。

个人和敏感信息

该数据集中不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

提高文本到 SQL 数据集的质量可以显著增强自然语言界面到数据库的开发,使数据查询更加易于访问和高效。此外,还能促进数据洞察的民主化。

偏见讨论

数据集继承了原始 Spider 数据集中的任何偏见。

其他已知限制

虽然增强版本解决了几个关键问题,但用户仍应注意自动化数据集处理的内有限制。

附加信息

数据集策展人

原始 Spider 数据集由耶鲁大学的一个研究团队策展。增强工作由 Turbular 团队完成。

引用信息

如果您使用此数据集,请引用原始 Spider 数据集:

bibtex @inproceedings{yu-etal-2018-spider, title = "{S}pider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-{SQL} Task", author = "Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and Zhang, Zilin and Radev, Dragomir", editor = "Riloff, Ellen and Chiang, David and Hockenmaier, Julia and Tsujii, Jun{}ichi", booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing", month = oct # "-" # nov, year = "2018", address = "Brussels, Belgium", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D18-1425", doi = "10.18653/v1/D18-1425", pages = "3911--3921", archivePrefix={arXiv}, eprint={1809.08887}, primaryClass={cs.CL}, }

贡献

感谢 Turbular 团队的其他成员对数据集进行增强并确保其质量。特别感谢 @olinguyen 添加原始数据集。更多关于我们工作的信息,请访问 www.turbular.com。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Cleaned Spider Dataset for Text2SQL 是基于原始Spider数据集的改进版本,旨在解决原始数据集中存在的若干关键问题。通过Turbular的高级数据处理能力和内部通用数据库连接器,该数据集在数据库布局、表引用和查询一致性方面进行了优化。具体改进包括统一数据库布局中的大小写、移除引用不存在表的查询,并为每个数据库布局随机引入1-3个模式以更新相关查询。这些改进显著提升了数据集的质量和可靠性,使其更适合用于训练文本到SQL的模型。
特点
该数据集的特点在于其高质量和跨领域的复杂性。每个数据实例包含一个自然语言问题及其对应的SQL查询,涵盖了多个数据库领域。数据集中的字段包括数据库名称、自然语言问题、目标SQL查询及其分词形式。通过改进,数据集消除了原始版本中的不一致性,如大小写差异和非存在表的引用问题,同时引入了随机模式以增强查询的多样性。这些特点使得该数据集在训练和评估文本到SQL模型时表现出更高的准确性和鲁棒性。
使用方法
该数据集的使用方法主要围绕文本到SQL任务的模型训练和评估展开。用户可以通过加载数据集中的自然语言问题和对应的SQL查询,构建和训练文本到SQL模型。数据集的结构清晰,字段包括数据库名称、问题、查询及其分词形式,便于直接用于模型输入和输出。此外,该数据集与原始Spider数据集的排行榜兼容,用户可以通过改进后的数据集在相同的任务上获得更好的性能表现。使用该数据集时,建议用户引用原始Spider数据集的相关文献,以尊重其贡献。
背景与挑战
背景概述
Cleaned Spider Dataset for Text2SQL 是基于原始Spider数据集的改进版本,旨在解决自然语言到SQL查询的语义解析问题。该数据集由耶鲁大学的研究团队于2018年创建,并由Turbular团队进一步优化。Spider数据集作为大规模、跨领域的文本到SQL转换任务基准,推动了自然语言处理领域的发展,特别是在数据库查询接口的自动化方面。Cleaned Spider Dataset通过修正原始数据集中的关键问题,如大小写不一致、引用不存在的表以及缺失的数据库模式,显著提升了数据质量,为模型训练提供了更可靠的基准。
当前挑战
Cleaned Spider Dataset for Text2SQL 面临的挑战主要集中在两个方面。首先,文本到SQL转换任务本身具有高度复杂性,尤其是在跨领域场景下,模型需要理解多样化的数据库结构和自然语言表达之间的映射关系。其次,在数据集的构建过程中,原始Spider数据集存在诸如大小写不一致、引用不存在的表以及模式缺失等问题,这些问题需要通过复杂的后处理步骤进行修正。尽管Turbular团队通过其先进的数据库连接器和数据处理能力解决了部分问题,但自动化处理仍可能引入新的偏差或错误,这为数据集的进一步优化提出了挑战。
常用场景
经典使用场景
在自然语言处理领域,RaffaSch121/fixed_spider数据集被广泛用于训练和评估文本到SQL的转换模型。该数据集通过提供高质量的自然语言问题及其对应的SQL查询,帮助研究人员开发能够准确理解用户查询意图并生成相应SQL语句的模型。特别是在跨领域和复杂查询场景下,该数据集的表现尤为突出。
解决学术问题
RaffaSch121/fixed_spider数据集解决了原始Spider数据集中存在的多个关键问题,如大小写不一致、引用不存在的表以及缺少数据库模式等。这些问题在原始数据集中可能导致模型训练的不稳定性和性能下降。通过修复这些问题,该数据集显著提升了文本到SQL模型的训练效果,为语义解析和数据库查询生成领域的研究提供了更可靠的数据基础。
衍生相关工作
基于RaffaSch121/fixed_spider数据集,许多经典的研究工作得以展开。例如,研究人员开发了更高效的文本到SQL模型,如基于Transformer的架构和强化学习方法。此外,该数据集还推动了跨领域语义解析技术的发展,使得模型能够更好地适应不同数据库结构和查询需求。这些工作不仅提升了模型的性能,也为未来的研究提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国光伏电站空间分布ChinaPV数据集(2015,2020年)

该数据集是中国光伏电站空间分布ChinaPV数据,数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源,处理方法是基于GEE遥感云计算平台,运用随机森林分类模型对2020年中国光伏电站进行遥感提取,后经过形态学运算,灯光数据滤除,轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息,反映了中国地区光伏电站发展现状及其地域分布规律,以ESRI Shapefile格式存储。

国家地球系统科学数据中心 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录