five

p208p2002/zhtw-sentence-error-correction

收藏
Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/p208p2002/zhtw-sentence-error-correction
下载链接
链接失效反馈
官方服务:
资源简介:
中文错字纠正数据集,通过规则和字典从维基百科生成,包含随机错字、近似音错字、缺字错误、冗字错误等多种错误类型。数据集分为三个子集:alpha子集包含95%的错误和5%的不变,单句中可能有多处错误;beta子集包含50%的错误和50%的不变,单句中仅有一处错误;gamma子集包含100%的错误,单句中可能有多处错误。

中文错字纠正数据集,通过规则和字典从维基百科生成,包含随机错字、近似音错字、缺字错误、冗字错误等多种错误类型。数据集分为三个子集:alpha子集包含95%的错误和5%的不变,单句中可能有多处错误;beta子集包含50%的错误和50%的不变,单句中仅有一处错误;gamma子集包含100%的错误,单句中可能有多处错误。
提供机构:
p208p2002
原始信息汇总

中文錯字糾正資料集

由規則與字典自維基百科產生的錯誤糾正資料集。

包含錯誤類型:隨機錯字、近似音錯字、缺字錯誤、冗字錯誤。

資料集使用函式庫: p208p2002/zh-mistake-text-gen

子集

  • alpha: 95%錯誤,5%不變。單句中可能有多個錯誤。
  • beta: 50%錯誤,50%不變。單句中僅有一個錯誤。
  • gamma: 100%錯誤。單句中可能有多個錯誤。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作