首届中文NL2SQL挑战赛数据集|NL2SQL数据集|自然语言处理数据集
收藏数据集概述
数据集名称
首届中文NL2SQL挑战赛数据集
数据集组成
- 训练集:约40,000条有标签数据,包含文件:
- train.json:每行一条数据样本,包含字段:
table_id
:表格IDquestion
:自然语言问句sql
:SQL查询结构,包括选择列(sel
)、聚合函数(agg
)、条件连接操作(cond_conn_op
)和条件(conds
)
- train.tables.json:每行一张表格数据,包含字段:
id
:表格IDname
:表格名称title
:表格标题header
:列名types
:列类型rows
:行数据
- train.db:SQLite格式的数据库文件,表名为train.tables.json中的
name
字段
- train.json:每行一条数据样本,包含字段:
- 验证集:5,000条数据
- 测试集:10,000条数据,分为初赛和复赛两部分,各5,000条
数据字典
- op_sql_dict:SQL操作符字典
- agg_sql_dict:SQL聚合函数字典
- conn_sql_dict:SQL条件连接字典
数据使用
-
开源给学术界,严禁商业使用与未授权公开转发
-
引用格式:
@misc{sun2020tableqa, title={TableQA: a Large-Scale Chinese Text-to-SQL Dataset for Table-Aware SQL Generation}, author={Ningyuan Sun and Xuefeng Yang and Yunfeng Liu}, year={2020}, eprint={2006.06434}, archivePrefix={arXiv}, primaryClass={cs.DB} }

VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
glaive-function-calling-openai
该数据集包含用于训练和评估语言模型在函数调用能力上的对话示例。数据集包括一个完整的函数调用示例集合和一个精选的子集,专注于最常用的函数。数据集的结构包括一个完整的数据集和几个测试子集。每个记录都是一个JSON对象,包含对话消息、可用函数定义和实际的函数调用。数据集还包括最常用的函数分布信息,并提供了加载和评估数据集的示例代码。
huggingface 收录
Titanic Dataset
Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics
kaggle 收录