CSpider|Text-to-SQL数据集|自然语言处理数据集
收藏CSpider 数据集概述
基本信息
- 名称:CSpider
- 类型:大规模中文数据集
- 用途:复杂跨领域语义解析和文本到SQL任务(自然语言关系数据库接口)
- 发布年份:2019年
- 相关论文:A Pilot Study for Chinese SQL Semantic Parsing
数据集特点
- 语言:中文
- 规模:大规模
- 复杂性:复杂跨领域
- 来源:基于英文数据集Spider翻译而来
数据内容
- 训练数据:
train.json
- 开发数据:
dev.json
- 测试数据:未公开(需通过任务网站提交)
- 数据库:包含多个数据库文件
- 词嵌入:提供字符级和词级嵌入文件
下载链接
- 完整数据集:Google Drive 或 百度网盘(提取码:cgh1)
- 论文数据集:Google Drive
任务网站
引用信息
bibtex @inproceedings{min2019pilot, title={A Pilot Study for Chinese SQL Semantic Parsing}, author={Min, Qingkai and Shi, Yuefeng and Zhang, Yue}, booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)}, pages={3643--3649}, year={2019} }
基线模型
- 环境要求:
- Python 2.7
- Pytorch 0.2.0 GPU
- 依赖安装:
pip install -r requirements.txt
- 数据准备:
- 下载数据、嵌入和数据库
- 可选下载预训练Glove嵌入
- 训练:使用
train_all.sh
脚本 - 测试:使用
test_gen.sh
脚本生成SQL查询 - 评估:使用
evaluation.sh
脚本评估生成的SQL查询
致谢
- 基于Spider数据集
- 实现基于SyntaxSQLNet

SHHS Sleep Heart Health Study Dataset
SHHS(Sleep Heart Health Study)数据集是一个大型多中心研究项目,旨在研究睡眠障碍与心血管疾病之间的关系。数据集包括了参与者的睡眠记录、心血管健康指标、生活习惯、遗传信息等多方面的数据。
sleepdata.org 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Global Water Quality Dataset
该数据集包含了全球多个地区的水质监测数据,涵盖了多种水质参数,如pH值、溶解氧、电导率、温度等。数据集旨在帮助研究人员和政策制定者了解全球水质的现状和变化趋势。
www.kaggle.com 收录