five

CSpider|Text-to-SQL数据集|自然语言处理数据集

收藏
github2019-11-01 更新2025-02-08 收录
Text-to-SQL
自然语言处理
下载链接:
https://github.com/taolusi/chisp
下载链接
链接失效反馈
资源简介:
CSpider数据集是Text-to-SQL数据集的中文版本,由研究人员从原始的英文Spider数据集翻译而来。为了追求多样性,表达相似含义的句子被翻译成不同的中文表达方式,以保持丰富性。具体来说,数据库的表名和列名仍然保持英文原样,只有某些人名和地名进行了本地化处理。

The CSpider dataset is the Chinese version of the Text-to-SQL dataset, translated by researchers from the original English Spider dataset. To ensure diversity, sentences with similar meanings are translated into different Chinese expressions to maintain richness. Specifically, the names of database tables and columns are kept in English, with only certain names of individuals and places localized.
提供机构:
Westlake University
创建时间:
2019-11-01
原始信息汇总

CSpider 数据集概述

基本信息

  • 名称:CSpider
  • 类型:大规模中文数据集
  • 用途:复杂跨领域语义解析和文本到SQL任务(自然语言关系数据库接口)
  • 发布年份:2019年
  • 相关论文A Pilot Study for Chinese SQL Semantic Parsing

数据集特点

  • 语言:中文
  • 规模:大规模
  • 复杂性:复杂跨领域
  • 来源:基于英文数据集Spider翻译而来

数据内容

  • 训练数据train.json
  • 开发数据dev.json
  • 测试数据:未公开(需通过任务网站提交)
  • 数据库:包含多个数据库文件
  • 词嵌入:提供字符级和词级嵌入文件

下载链接

任务网站

引用信息

bibtex @inproceedings{min2019pilot, title={A Pilot Study for Chinese SQL Semantic Parsing}, author={Min, Qingkai and Shi, Yuefeng and Zhang, Yue}, booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)}, pages={3643--3649}, year={2019} }

基线模型

  • 环境要求
    • Python 2.7
    • Pytorch 0.2.0 GPU
  • 依赖安装pip install -r requirements.txt
  • 数据准备
    • 下载数据、嵌入和数据库
    • 可选下载预训练Glove嵌入
  • 训练:使用train_all.sh脚本
  • 测试:使用test_gen.sh脚本生成SQL查询
  • 评估:使用evaluation.sh脚本评估生成的SQL查询

致谢

AI搜集汇总
数据集介绍
main_image_url
构建方式
CSpider数据集的构建,是在Spider数据集的基础上,针对中文文本进行了全面转换和拓展。该数据集的构建借鉴了Spider数据集的划分方式,并在此基础上增加了跨领域的复杂语义解析和文本到SQL任务,旨在为自然语言处理领域提供更为丰富和挑战性的研究资源。
特点
CSpider数据集的特点在于其大规模的中文文本覆盖,以及复杂和跨领域的语义解析能力。数据集包含了多个领域的真实世界问题,并为每个问题提供了对应的SQL查询语句。此外,它还提供了基准模型和性能评估手段,有助于研究者进行效果对比和模型优化。
使用方法
使用CSpider数据集,用户需要先设置Python环境和相关依赖库。数据集可以从Google Drive或BaiduNetDisk下载,并根据需要选择字符级或词级别处理。通过运行预处理脚本,用户可以生成训练文件,随后使用训练脚本训练模型。测试和评估则通过相应的脚本进行,确保了数据集使用的便捷性和高效性。
背景与挑战
背景概述
CSpider数据集,作为自然语言处理领域的一项重要成果,旨在为复杂及跨领域语义解析与文本到SQL任务提供大规模中文数据集。该数据集由Min Qingkai、Shi Yuefeng和Zhang Yue等研究人员于2019年提出,并在EMNLP会议上发表了相关论文。CSpider数据集的构建,为研究中文SQL语义解析提供了实验基础,并推动了自然语言接口与关系型数据库结合的研究进展。基于Spider数据集的中文翻译,CSpider在学术研究中具有重要的影响力,为领域内的研究人员提供了宝贵的资源。
当前挑战
CSpider数据集在构建与应用过程中面临多项挑战。首先,如何保证数据集的多样性和跨领域特性,满足不同场景下的语义解析需求,是一大难题。其次,构建过程中,数据的质量控制、错误标注的纠正以及数据平衡性的维持,都是数据集构建过程中的关键挑战。此外,在文本到SQL任务中,如何准确捕捉自然语言与结构化查询语言之间的映射关系,以及提高模型的泛化能力,是该领域面临的共同难题。
常用场景
经典使用场景
CSpider数据集作为自然语言处理领域的重要资源,其经典使用场景主要集中于复杂且跨领域的语义解析以及文本到SQL任务。该数据集提供了一个平台,使得研究人员能够在此之上训练和测试自然语言接口,以便对关系型数据库进行查询。
衍生相关工作
基于CSpider数据集,学术界已经衍生出了一系列相关工作,包括但不限于改进的文本到SQL模型、跨领域语义解析的算法研究以及针对中文特定语言特点的优化策略,这些研究进一步扩展了该数据集的应用范围和影响力。
数据集最近研究
最新研究方向
CSpider数据集作为中文复杂领域和跨领域语义解析及文本到SQL任务的规模化数据集,其研究方向的最新进展主要体现在深度学习模型在自然语言处理接口关系型数据库中的应用。该数据集紧跟自然语言处理领域的前沿,旨在提升机器对于复杂查询语句的理解和执行能力。近期研究聚焦于通过CSpider数据集进一步优化SQL语义解析模型,提高跨领域数据上的泛化能力和准确率,以及探索更加高效的自然语言到SQL的映射算法。这些研究对于提升数据库交互式查询系统的智能水平具有重要的理论和实际意义,为中文信息处理技术的发展提供了新的视角和工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

FinEval

FinEval数据集由上海财经大学创建,包含4661个高质量的多项选择题,覆盖金融、经济、会计和证书四大领域,共涉及34个不同的学术科目。数据主要来源于公开渠道的模拟考试题目,旨在评估大型语言模型在金融领域的知识和应用能力。该数据集适用于金融领域知识评估,特别是在中国语境下的应用,如金融虚拟助手和金融犯罪检测等。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

United Nations Comtrade Database

联合国商品贸易统计数据库(UN Comtrade)是一个全球性的贸易数据资源,提供了超过170个国家和地区的商品贸易数据。该数据库涵盖了从1962年至今的进出口数据,包括商品的详细描述、数量、价值等信息。数据按月更新,用户可以查询和下载特定国家、商品类别和时间段的贸易数据。

comtrade.un.org 收录