shibing624/CSC
收藏Hugging Face2023-05-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shibing624/CSC
下载链接
链接失效反馈官方服务:
资源简介:
中文拼写纠错数据集,共27万条,是通过原始SIGHAN13、14、15年数据集和Wang271k数据集合并整理后得到,json格式,带错误字符位置信息。
中文拼写纠错数据集,共27万条,是通过原始SIGHAN13、14、15年数据集和Wang271k数据集合并整理后得到,json格式,带错误字符位置信息。
提供机构:
shibing624
原始信息汇总
中文拼写纠错数据集(CSC)概述
数据集描述
- 任务类别:文本生成
- 数据集名称:CSC
- 数据集用途:用于中文拼写纠错任务,训练预训练语言模型
数据集详情
原始数据集概要
- test.json 和 dev.json:来自SIGHAN数据集,包含SIGHAN13、14、15年的数据,共4千条,文件大小339kb。
- train.json:来自Wang271k数据集,共27万条,文件大小93MB。
数据集结构
数据实例
- id:唯一标识符
- original_text:原始错误文本
- wrong_ids:错误字的位置,从0开始
- correct_text:纠正后的文本
数据分割
| 分割 | 数量 |
|---|---|
| train | 251835条 |
| dev | 27981条 |
| test | 1100条 |
许可证信息
- 许可证:Apache 2.0
引用信息
latex @misc{Xu_Pycorrector_Text_error, title={Pycorrector: Text error correction tool}, author={Xu Ming}, year={2021}, howpublished={url{https://github.com/shibing624/pycorrector}}, }



