zhanghanchong/css
收藏Hugging Face2023-07-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zhanghanchong/css
下载链接
链接失效反馈官方服务:
资源简介:
CSS是一个大规模跨模式的中文文本到SQL数据集。
CSS是一个大规模跨模式的中文文本到SQL数据集。
提供机构:
zhanghanchong
原始信息汇总
数据集概述
基本信息
- 任务类别: 文本到文本生成
- 语言: 中文
- 数据集大小: 1K<n<10K
- 许可证: cc-by-4.0
数据集描述
- 数据集名称: CSS
- 数据集类型: 大规模跨模式中文文本到SQL数据集
数据集分割
示例基础分割
- 训练集: 3472个问题/SQL对
- 开发集: 434个问题/SQL对
- 测试集: 434个问题/SQL对
模板基础分割
- 训练集: 3470个问题/SQL对
- 开发集: 430个问题/SQL对
- 测试集: 440个问题/SQL对
模式基础分割
- 训练集: 18550个问题/SQL对
- 开发集: 8150个问题/SQL对
- 测试集: 6920个问题/SQL对
引用信息
@misc{zhang2023css, title={CSS: A Large-scale Cross-schema Chinese Text-to-SQL Medical Dataset}, author={Hanchong Zhang and Jieyu Li and Lu Chen and Ruisheng Cao and Yunyan Zhang and Yu Huang and Yefeng Zheng and Kai Yu}, year={2023}, eprint={2305.15891}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

背景与挑战
背景概述
CSS是一个大规模跨模式的中文文本到SQL数据集,主要用于医疗领域。数据集包含多种分割方式(基于示例、模板和模式),并提供了详细的训练、开发和测试集划分。数据集以中文为主,大小在1K到10K之间,采用CC-BY-4.0许可证。
以上内容由遇见数据集搜集并总结生成



