RaffaSch121/fixed_spider|文本到SQL数据集|数据清洗数据集
收藏Cleaned Spider Dataset for Text2SQL
数据集概述
Cleaned Spider Dataset for Text2SQL 是原始 Spider 数据集的改进版本,原始 Spider 数据集是一个大规模、复杂且跨域的语义解析和文本到 SQL 数据集。这个增强版本解决了原始数据集中发现的几个关键问题,确保了用于训练文本到 SQL 模型的高质量和可靠性。增强版本通过 Turbulars 的高级数据处理能力和内部通用数据库连接器实现。
支持的任务和排行榜
原始 Spider 数据集的排行榜可以在 Spider Leaderboard 查看。增强数据集与相同的任务兼容,并且由于其质量的提高,可以用于实现更好的性能。
语言
数据集中的文本为英语。
数据集结构
数据实例
数据集中的每个实例代表一个自然语言问题及其等效的 SQL 查询。
数据字段
db_id
: 数据库名称question
: 需要解释为 SQL 的自然语言问题query
: 目标 SQL 查询query_toks
: 查询的标记列表query_toks_no_value
: 不带值的查询标记列表question_toks
: 问题的标记列表
数据集创建
策划理由
基于我们在训练 Text2SQL 模型方面的经验,Cleaned Spider Dataset for Text2SQL 是为了解决原始 Spider 数据集中的以下问题而创建的:
- 大小写差异:规范化数据库布局以及查询中引用的列和表。
- 不存在的表:删除引用不存在的表的查询。
- 缺少模式:随机为每个数据库布局引入 1-3 个模式,并相应更新受影响的查询。
源数据
数据集基于原始 Spider 数据集,该数据集由 11 名耶鲁大学学生标注。
标注
原始数据集由耶鲁大学的学生标注。增强工作由 Turbulars 内部团队使用他们的通用数据库连接器完成。
个人和敏感信息
该数据集中不包含个人或敏感信息。
使用数据的注意事项
数据集的社会影响
提高文本到 SQL 数据集的质量可以显著增强自然语言界面到数据库的开发,使数据查询更加易于访问和高效。此外,还能促进数据洞察的民主化。
偏见讨论
数据集继承了原始 Spider 数据集中的任何偏见。
其他已知限制
虽然增强版本解决了几个关键问题,但用户仍应注意自动化数据集处理的内有限制。
附加信息
数据集策展人
原始 Spider 数据集由耶鲁大学的一个研究团队策展。增强工作由 Turbular 团队完成。
引用信息
如果您使用此数据集,请引用原始 Spider 数据集:
bibtex @inproceedings{yu-etal-2018-spider, title = "{S}pider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-{SQL} Task", author = "Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and Zhang, Zilin and Radev, Dragomir", editor = "Riloff, Ellen and Chiang, David and Hockenmaier, Julia and Tsujii, Jun{}ichi", booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing", month = oct # "-" # nov, year = "2018", address = "Brussels, Belgium", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D18-1425", doi = "10.18653/v1/D18-1425", pages = "3911--3921", archivePrefix={arXiv}, eprint={1809.08887}, primaryClass={cs.CL}, }
贡献
感谢 Turbular 团队的其他成员对数据集进行增强并确保其质量。特别感谢 @olinguyen 添加原始数据集。更多关于我们工作的信息,请访问 www.turbular.com。

中国光伏电站空间分布ChinaPV数据集(2015,2020年)
该数据集是中国光伏电站空间分布ChinaPV数据,数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源,处理方法是基于GEE遥感云计算平台,运用随机森林分类模型对2020年中国光伏电站进行遥感提取,后经过形态学运算,灯光数据滤除,轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息,反映了中国地区光伏电站发展现状及其地域分布规律,以ESRI Shapefile格式存储。
国家地球系统科学数据中心 收录
Solar Radiation Data
该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。
www.nrel.gov 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录