five

shibing624/CSC

收藏
Hugging Face2023-05-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shibing624/CSC
下载链接
链接失效反馈
官方服务:
资源简介:
中文拼写纠错数据集,共27万条,是通过原始SIGHAN13、14、15年数据集和Wang271k数据集合并整理后得到,json格式,带错误字符位置信息。

中文拼写纠错数据集,共27万条,是通过原始SIGHAN13、14、15年数据集和Wang271k数据集合并整理后得到,json格式,带错误字符位置信息。
提供机构:
shibing624
原始信息汇总

中文拼写纠错数据集(CSC)概述

数据集描述

  • 任务类别:文本生成
  • 数据集名称:CSC
  • 数据集用途:用于中文拼写纠错任务,训练预训练语言模型

数据集详情

原始数据集概要

  • test.json 和 dev.json:来自SIGHAN数据集,包含SIGHAN13、14、15年的数据,共4千条,文件大小339kb。
  • train.json:来自Wang271k数据集,共27万条,文件大小93MB。

数据集结构

数据实例

  • id:唯一标识符
  • original_text:原始错误文本
  • wrong_ids:错误字的位置,从0开始
  • correct_text:纠正后的文本

数据分割

分割 数量
train 251835条
dev 27981条
test 1100条

许可证信息

  • 许可证:Apache 2.0

引用信息

latex @misc{Xu_Pycorrector_Text_error, title={Pycorrector: Text error correction tool}, author={Xu Ming}, year={2021}, howpublished={url{https://github.com/shibing624/pycorrector}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作