five

MCSCSet

收藏
魔搭社区2025-08-05 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/MCSCSet
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: MCSCSet labelTypes: - Chinese Corpus license: - CC BY-NC 2.0 mediaTypes: - Text paperUrl: https://arxiv.org//pdf/2210.11720.pdf publishDate: "2022" publishUrl: https://github.com/yzhihao/mcscset publisher: - Mila – Quebec Artifcial Intelligence Institute - Tsinghua Shenzhen International Graduate School - Tencent Jarvis Lab - Sun Yat-Sen University tags: - Chinese spelling correction taskTypes: [] --- # 数据集介绍 ## 简介 我们介绍了MCSCSet,这是一个大型的专家注释数据集,专门用于医学领域的中文拼写校正 (MCSC)。与现有的开放域CSC数据集相比,MCSCSet涉及: i) 从腾讯一点收集的大量真实医学查询,ii) 由医学专家手动注释的相应拼写错误的句子。我们的资源进一步提供了医学领域的混淆集,其中包括医学中常见的易出错字符及其相应的拼写错误。 ## Download dataset :modelscope-code[]{type="git"}

显示名称:MCSCSet labelTypes: - 中文语料库(Chinese Corpus) license: - 知识共享署名-非商业性使用2.0(CC BY-NC 2.0) mediaTypes: - 文本(Text) paperUrl:https://arxiv.org//pdf/2210.11720.pdf publishDate:2022年 publishUrl:https://github.com/yzhihao/mcscset publisher: - 魁北克人工智能研究所(Mila – Quebec Artificial Intelligence Institute) - 清华大学深圳国际研究生院 - 腾讯Jarvis实验室 - 中山大学 tags: - 中文拼写校正(Chinese spelling correction) taskTypes:无 --- # 数据集介绍 ## 简介 我们推出MCSCSet这一面向医学领域的大规模专家标注数据集,专用于医学中文拼写校正(MCSC)。相较于现有开放域中文拼写校正(CSC)数据集,MCSCSet包含两大核心组成部分:其一,样本源自腾讯一点平台收集的海量真实医学查询语句;其二,所有存在拼写错误的对应语句均经医学专家手动标注修正。此外,本数据集还配套提供医学领域字符混淆集,涵盖医学场景下常见的易出错字符及其典型拼写错误形式。 ## 数据集下载 :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-02
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作