MCSCSet
收藏魔搭社区2025-08-05 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/MCSCSet
下载链接
链接失效反馈官方服务:
资源简介:
displayName: MCSCSet
labelTypes:
- Chinese Corpus
license:
- CC BY-NC 2.0
mediaTypes:
- Text
paperUrl: https://arxiv.org//pdf/2210.11720.pdf
publishDate: "2022"
publishUrl: https://github.com/yzhihao/mcscset
publisher:
- Mila – Quebec Artifcial Intelligence Institute
- Tsinghua Shenzhen International Graduate School
- Tencent Jarvis Lab
- Sun Yat-Sen University
tags:
- Chinese spelling correction
taskTypes: []
---
# 数据集介绍
## 简介
我们介绍了MCSCSet,这是一个大型的专家注释数据集,专门用于医学领域的中文拼写校正 (MCSC)。与现有的开放域CSC数据集相比,MCSCSet涉及: i) 从腾讯一点收集的大量真实医学查询,ii) 由医学专家手动注释的相应拼写错误的句子。我们的资源进一步提供了医学领域的混淆集,其中包括医学中常见的易出错字符及其相应的拼写错误。
## Download dataset
:modelscope-code[]{type="git"}
显示名称:MCSCSet
labelTypes:
- 中文语料库(Chinese Corpus)
license:
- 知识共享署名-非商业性使用2.0(CC BY-NC 2.0)
mediaTypes:
- 文本(Text)
paperUrl:https://arxiv.org//pdf/2210.11720.pdf
publishDate:2022年
publishUrl:https://github.com/yzhihao/mcscset
publisher:
- 魁北克人工智能研究所(Mila – Quebec Artificial Intelligence Institute)
- 清华大学深圳国际研究生院
- 腾讯Jarvis实验室
- 中山大学
tags:
- 中文拼写校正(Chinese spelling correction)
taskTypes:无
---
# 数据集介绍
## 简介
我们推出MCSCSet这一面向医学领域的大规模专家标注数据集,专用于医学中文拼写校正(MCSC)。相较于现有开放域中文拼写校正(CSC)数据集,MCSCSet包含两大核心组成部分:其一,样本源自腾讯一点平台收集的海量真实医学查询语句;其二,所有存在拼写错误的对应语句均经医学专家手动标注修正。此外,本数据集还配套提供医学领域字符混淆集,涵盖医学场景下常见的易出错字符及其典型拼写错误形式。
## 数据集下载
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-02



