CSpider

github2019-11-01 更新2025-02-08 收录

下载链接：

https://github.com/taolusi/chisp

下载链接

链接失效反馈

资源简介：

CSpider数据集是Text-to-SQL数据集的中文版本，由研究人员从原始的英文Spider数据集翻译而来。为了追求多样性，表达相似含义的句子被翻译成不同的中文表达方式，以保持丰富性。具体来说，数据库的表名和列名仍然保持英文原样，只有某些人名和地名进行了本地化处理。

The CSpider dataset is the Chinese version of the Text-to-SQL dataset, translated by researchers from the original English Spider dataset. To ensure diversity, sentences with similar meanings are translated into different Chinese expressions to maintain richness. Specifically, the names of database tables and columns are kept in English, with only certain names of individuals and places localized.

提供机构：

Westlake University

创建时间：

2019-11-01

原始信息汇总

CSpider 数据集概述

基本信息

名称：CSpider
类型：大规模中文数据集
用途：复杂跨领域语义解析和文本到SQL任务（自然语言关系数据库接口）
发布年份：2019年
相关论文：A Pilot Study for Chinese SQL Semantic Parsing

数据集特点

语言：中文
规模：大规模
复杂性：复杂跨领域
来源：基于英文数据集Spider翻译而来

数据内容

训练数据：train.json
开发数据：dev.json
测试数据：未公开（需通过任务网站提交）
数据库：包含多个数据库文件
词嵌入：提供字符级和词级嵌入文件

下载链接

完整数据集：Google Drive 或百度网盘（提取码：cgh1）
论文数据集：Google Drive

任务网站

CSpider任务网站

引用信息

bibtex @inproceedings{min2019pilot, title={A Pilot Study for Chinese SQL Semantic Parsing}, author={Min, Qingkai and Shi, Yuefeng and Zhang, Yue}, booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)}, pages={3643--3649}, year={2019} }

基线模型

环境要求：
- Python 2.7
- Pytorch 0.2.0 GPU
依赖安装：pip install -r requirements.txt
数据准备：
- 下载数据、嵌入和数据库
- 可选下载预训练Glove嵌入
训练：使用train_all.sh脚本
测试：使用test_gen.sh脚本生成SQL查询
评估：使用evaluation.sh脚本评估生成的SQL查询

致谢

基于Spider数据集
实现基于SyntaxSQLNet

搜集汇总

数据集介绍

构建方式

CSpider数据集的构建，是在Spider数据集的基础上，针对中文文本进行了全面转换和拓展。该数据集的构建借鉴了Spider数据集的划分方式，并在此基础上增加了跨领域的复杂语义解析和文本到SQL任务，旨在为自然语言处理领域提供更为丰富和挑战性的研究资源。

特点

CSpider数据集的特点在于其大规模的中文文本覆盖，以及复杂和跨领域的语义解析能力。数据集包含了多个领域的真实世界问题，并为每个问题提供了对应的SQL查询语句。此外，它还提供了基准模型和性能评估手段，有助于研究者进行效果对比和模型优化。

使用方法

使用CSpider数据集，用户需要先设置Python环境和相关依赖库。数据集可以从Google Drive或BaiduNetDisk下载，并根据需要选择字符级或词级别处理。通过运行预处理脚本，用户可以生成训练文件，随后使用训练脚本训练模型。测试和评估则通过相应的脚本进行，确保了数据集使用的便捷性和高效性。

背景与挑战

背景概述

CSpider数据集，作为自然语言处理领域的一项重要成果，旨在为复杂及跨领域语义解析与文本到SQL任务提供大规模中文数据集。该数据集由Min Qingkai、Shi Yuefeng和Zhang Yue等研究人员于2019年提出，并在EMNLP会议上发表了相关论文。CSpider数据集的构建，为研究中文SQL语义解析提供了实验基础，并推动了自然语言接口与关系型数据库结合的研究进展。基于Spider数据集的中文翻译，CSpider在学术研究中具有重要的影响力，为领域内的研究人员提供了宝贵的资源。

当前挑战

CSpider数据集在构建与应用过程中面临多项挑战。首先，如何保证数据集的多样性和跨领域特性，满足不同场景下的语义解析需求，是一大难题。其次，构建过程中，数据的质量控制、错误标注的纠正以及数据平衡性的维持，都是数据集构建过程中的关键挑战。此外，在文本到SQL任务中，如何准确捕捉自然语言与结构化查询语言之间的映射关系，以及提高模型的泛化能力，是该领域面临的共同难题。

常用场景

经典使用场景

CSpider数据集作为自然语言处理领域的重要资源，其经典使用场景主要集中于复杂且跨领域的语义解析以及文本到SQL任务。该数据集提供了一个平台，使得研究人员能够在此之上训练和测试自然语言接口，以便对关系型数据库进行查询。

衍生相关工作

基于CSpider数据集，学术界已经衍生出了一系列相关工作，包括但不限于改进的文本到SQL模型、跨领域语义解析的算法研究以及针对中文特定语言特点的优化策略，这些研究进一步扩展了该数据集的应用范围和影响力。

数据集最近研究