five

CSpider|Text-to-SQL数据集|自然语言处理数据集

收藏
github2019-11-01 更新2025-02-08 收录
Text-to-SQL
自然语言处理
下载链接:
https://github.com/taolusi/chisp
下载链接
链接失效反馈
资源简介:
CSpider数据集是Text-to-SQL数据集的中文版本,由研究人员从原始的英文Spider数据集翻译而来。为了追求多样性,表达相似含义的句子被翻译成不同的中文表达方式,以保持丰富性。具体来说,数据库的表名和列名仍然保持英文原样,只有某些人名和地名进行了本地化处理。

The CSpider dataset is the Chinese version of the Text-to-SQL dataset, translated by researchers from the original English Spider dataset. To ensure diversity, sentences with similar meanings are translated into different Chinese expressions to maintain richness. Specifically, the names of database tables and columns are kept in English, with only certain names of individuals and places localized.
提供机构:
Westlake University
创建时间:
2019-11-01
原始信息汇总

CSpider 数据集概述

基本信息

  • 名称:CSpider
  • 类型:大规模中文数据集
  • 用途:复杂跨领域语义解析和文本到SQL任务(自然语言关系数据库接口)
  • 发布年份:2019年
  • 相关论文A Pilot Study for Chinese SQL Semantic Parsing

数据集特点

  • 语言:中文
  • 规模:大规模
  • 复杂性:复杂跨领域
  • 来源:基于英文数据集Spider翻译而来

数据内容

  • 训练数据train.json
  • 开发数据dev.json
  • 测试数据:未公开(需通过任务网站提交)
  • 数据库:包含多个数据库文件
  • 词嵌入:提供字符级和词级嵌入文件

下载链接

任务网站

引用信息

bibtex @inproceedings{min2019pilot, title={A Pilot Study for Chinese SQL Semantic Parsing}, author={Min, Qingkai and Shi, Yuefeng and Zhang, Yue}, booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)}, pages={3643--3649}, year={2019} }

基线模型

  • 环境要求
    • Python 2.7
    • Pytorch 0.2.0 GPU
  • 依赖安装pip install -r requirements.txt
  • 数据准备
    • 下载数据、嵌入和数据库
    • 可选下载预训练Glove嵌入
  • 训练:使用train_all.sh脚本
  • 测试:使用test_gen.sh脚本生成SQL查询
  • 评估:使用evaluation.sh脚本评估生成的SQL查询

致谢

AI搜集汇总
数据集介绍
main_image_url
构建方式
CSpider数据集的构建,是在Spider数据集的基础上,针对中文文本进行了全面转换和拓展。该数据集的构建借鉴了Spider数据集的划分方式,并在此基础上增加了跨领域的复杂语义解析和文本到SQL任务,旨在为自然语言处理领域提供更为丰富和挑战性的研究资源。
特点
CSpider数据集的特点在于其大规模的中文文本覆盖,以及复杂和跨领域的语义解析能力。数据集包含了多个领域的真实世界问题,并为每个问题提供了对应的SQL查询语句。此外,它还提供了基准模型和性能评估手段,有助于研究者进行效果对比和模型优化。
使用方法
使用CSpider数据集,用户需要先设置Python环境和相关依赖库。数据集可以从Google Drive或BaiduNetDisk下载,并根据需要选择字符级或词级别处理。通过运行预处理脚本,用户可以生成训练文件,随后使用训练脚本训练模型。测试和评估则通过相应的脚本进行,确保了数据集使用的便捷性和高效性。
背景与挑战
背景概述
CSpider数据集,作为自然语言处理领域的一项重要成果,旨在为复杂及跨领域语义解析与文本到SQL任务提供大规模中文数据集。该数据集由Min Qingkai、Shi Yuefeng和Zhang Yue等研究人员于2019年提出,并在EMNLP会议上发表了相关论文。CSpider数据集的构建,为研究中文SQL语义解析提供了实验基础,并推动了自然语言接口与关系型数据库结合的研究进展。基于Spider数据集的中文翻译,CSpider在学术研究中具有重要的影响力,为领域内的研究人员提供了宝贵的资源。
当前挑战
CSpider数据集在构建与应用过程中面临多项挑战。首先,如何保证数据集的多样性和跨领域特性,满足不同场景下的语义解析需求,是一大难题。其次,构建过程中,数据的质量控制、错误标注的纠正以及数据平衡性的维持,都是数据集构建过程中的关键挑战。此外,在文本到SQL任务中,如何准确捕捉自然语言与结构化查询语言之间的映射关系,以及提高模型的泛化能力,是该领域面临的共同难题。
常用场景
经典使用场景
CSpider数据集作为自然语言处理领域的重要资源,其经典使用场景主要集中于复杂且跨领域的语义解析以及文本到SQL任务。该数据集提供了一个平台,使得研究人员能够在此之上训练和测试自然语言接口,以便对关系型数据库进行查询。
衍生相关工作
基于CSpider数据集,学术界已经衍生出了一系列相关工作,包括但不限于改进的文本到SQL模型、跨领域语义解析的算法研究以及针对中文特定语言特点的优化策略,这些研究进一步扩展了该数据集的应用范围和影响力。
数据集最近研究
最新研究方向
CSpider数据集作为中文复杂领域和跨领域语义解析及文本到SQL任务的规模化数据集,其研究方向的最新进展主要体现在深度学习模型在自然语言处理接口关系型数据库中的应用。该数据集紧跟自然语言处理领域的前沿,旨在提升机器对于复杂查询语句的理解和执行能力。近期研究聚焦于通过CSpider数据集进一步优化SQL语义解析模型,提高跨领域数据上的泛化能力和准确率,以及探索更加高效的自然语言到SQL的映射算法。这些研究对于提升数据库交互式查询系统的智能水平具有重要的理论和实际意义,为中文信息处理技术的发展提供了新的视角和工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

Apple Stock Price Data

Historical stock price data for AAPL (apple)

kaggle 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。

github 收录