five

CSpider|Text-to-SQL数据集|自然语言处理数据集

收藏
github2019-11-01 更新2025-02-08 收录
Text-to-SQL
自然语言处理
下载链接:
https://github.com/taolusi/chisp
下载链接
链接失效反馈
资源简介:
CSpider数据集是Text-to-SQL数据集的中文版本,由研究人员从原始的英文Spider数据集翻译而来。为了追求多样性,表达相似含义的句子被翻译成不同的中文表达方式,以保持丰富性。具体来说,数据库的表名和列名仍然保持英文原样,只有某些人名和地名进行了本地化处理。

The CSpider dataset is the Chinese version of the Text-to-SQL dataset, translated by researchers from the original English Spider dataset. To ensure diversity, sentences with similar meanings are translated into different Chinese expressions to maintain richness. Specifically, the names of database tables and columns are kept in English, with only certain names of individuals and places localized.
提供机构:
Westlake University
创建时间:
2019-11-01
原始信息汇总

CSpider 数据集概述

基本信息

  • 名称:CSpider
  • 类型:大规模中文数据集
  • 用途:复杂跨领域语义解析和文本到SQL任务(自然语言关系数据库接口)
  • 发布年份:2019年
  • 相关论文A Pilot Study for Chinese SQL Semantic Parsing

数据集特点

  • 语言:中文
  • 规模:大规模
  • 复杂性:复杂跨领域
  • 来源:基于英文数据集Spider翻译而来

数据内容

  • 训练数据train.json
  • 开发数据dev.json
  • 测试数据:未公开(需通过任务网站提交)
  • 数据库:包含多个数据库文件
  • 词嵌入:提供字符级和词级嵌入文件

下载链接

任务网站

引用信息

bibtex @inproceedings{min2019pilot, title={A Pilot Study for Chinese SQL Semantic Parsing}, author={Min, Qingkai and Shi, Yuefeng and Zhang, Yue}, booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)}, pages={3643--3649}, year={2019} }

基线模型

  • 环境要求
    • Python 2.7
    • Pytorch 0.2.0 GPU
  • 依赖安装pip install -r requirements.txt
  • 数据准备
    • 下载数据、嵌入和数据库
    • 可选下载预训练Glove嵌入
  • 训练:使用train_all.sh脚本
  • 测试:使用test_gen.sh脚本生成SQL查询
  • 评估:使用evaluation.sh脚本评估生成的SQL查询

致谢

AI搜集汇总
数据集介绍
main_image_url
构建方式
CSpider数据集的构建,是在Spider数据集的基础上,针对中文文本进行了全面转换和拓展。该数据集的构建借鉴了Spider数据集的划分方式,并在此基础上增加了跨领域的复杂语义解析和文本到SQL任务,旨在为自然语言处理领域提供更为丰富和挑战性的研究资源。
特点
CSpider数据集的特点在于其大规模的中文文本覆盖,以及复杂和跨领域的语义解析能力。数据集包含了多个领域的真实世界问题,并为每个问题提供了对应的SQL查询语句。此外,它还提供了基准模型和性能评估手段,有助于研究者进行效果对比和模型优化。
使用方法
使用CSpider数据集,用户需要先设置Python环境和相关依赖库。数据集可以从Google Drive或BaiduNetDisk下载,并根据需要选择字符级或词级别处理。通过运行预处理脚本,用户可以生成训练文件,随后使用训练脚本训练模型。测试和评估则通过相应的脚本进行,确保了数据集使用的便捷性和高效性。
背景与挑战
背景概述
CSpider数据集,作为自然语言处理领域的一项重要成果,旨在为复杂及跨领域语义解析与文本到SQL任务提供大规模中文数据集。该数据集由Min Qingkai、Shi Yuefeng和Zhang Yue等研究人员于2019年提出,并在EMNLP会议上发表了相关论文。CSpider数据集的构建,为研究中文SQL语义解析提供了实验基础,并推动了自然语言接口与关系型数据库结合的研究进展。基于Spider数据集的中文翻译,CSpider在学术研究中具有重要的影响力,为领域内的研究人员提供了宝贵的资源。
当前挑战
CSpider数据集在构建与应用过程中面临多项挑战。首先,如何保证数据集的多样性和跨领域特性,满足不同场景下的语义解析需求,是一大难题。其次,构建过程中,数据的质量控制、错误标注的纠正以及数据平衡性的维持,都是数据集构建过程中的关键挑战。此外,在文本到SQL任务中,如何准确捕捉自然语言与结构化查询语言之间的映射关系,以及提高模型的泛化能力,是该领域面临的共同难题。
常用场景
经典使用场景
CSpider数据集作为自然语言处理领域的重要资源,其经典使用场景主要集中于复杂且跨领域的语义解析以及文本到SQL任务。该数据集提供了一个平台,使得研究人员能够在此之上训练和测试自然语言接口,以便对关系型数据库进行查询。
衍生相关工作
基于CSpider数据集,学术界已经衍生出了一系列相关工作,包括但不限于改进的文本到SQL模型、跨领域语义解析的算法研究以及针对中文特定语言特点的优化策略,这些研究进一步扩展了该数据集的应用范围和影响力。
数据集最近研究
最新研究方向
CSpider数据集作为中文复杂领域和跨领域语义解析及文本到SQL任务的规模化数据集,其研究方向的最新进展主要体现在深度学习模型在自然语言处理接口关系型数据库中的应用。该数据集紧跟自然语言处理领域的前沿,旨在提升机器对于复杂查询语句的理解和执行能力。近期研究聚焦于通过CSpider数据集进一步优化SQL语义解析模型,提高跨领域数据上的泛化能力和准确率,以及探索更加高效的自然语言到SQL的映射算法。这些研究对于提升数据库交互式查询系统的智能水平具有重要的理论和实际意义,为中文信息处理技术的发展提供了新的视角和工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

SHHS Sleep Heart Health Study Dataset

SHHS(Sleep Heart Health Study)数据集是一个大型多中心研究项目,旨在研究睡眠障碍与心血管疾病之间的关系。数据集包括了参与者的睡眠记录、心血管健康指标、生活习惯、遗传信息等多方面的数据。

sleepdata.org 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Global Water Quality Dataset

该数据集包含了全球多个地区的水质监测数据,涵盖了多种水质参数,如pH值、溶解氧、电导率、温度等。数据集旨在帮助研究人员和政策制定者了解全球水质的现状和变化趋势。

www.kaggle.com 收录