shibing624/CSC

Name: shibing624/CSC
Creator: shibing624
Published: 2023-05-12 07:30:59
License: 暂无描述

Hugging Face2023-05-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/shibing624/CSC

下载链接

链接失效反馈

官方服务：

资源简介：

中文拼写纠错数据集，共27万条，是通过原始SIGHAN13、14、15年数据集和Wang271k数据集合并整理后得到，json格式，带错误字符位置信息。

提供机构：

shibing624

原始信息汇总

中文拼写纠错数据集（CSC）概述

数据集描述

任务类别：文本生成
数据集名称：CSC
数据集用途：用于中文拼写纠错任务，训练预训练语言模型

数据集详情

原始数据集概要

test.json 和 dev.json：来自SIGHAN数据集，包含SIGHAN13、14、15年的数据，共4千条，文件大小339kb。
train.json：来自Wang271k数据集，共27万条，文件大小93MB。

数据集结构

数据实例

id：唯一标识符
original_text：原始错误文本
wrong_ids：错误字的位置，从0开始
correct_text：纠正后的文本

数据分割

分割	数量
train	251835条
dev	27981条
test	1100条

许可证信息

许可证：Apache 2.0

引用信息

latex @misc{Xu_Pycorrector_Text_error, title={Pycorrector: Text error correction tool}, author={Xu Ming}, year={2021}, howpublished={url{https://github.com/shibing624/pycorrector}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集