five

MuCGEC

收藏
魔搭社区2025-11-03 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/MuCGEC
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: MuCGEC (Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction) labelTypes: - Chinese Corpus license: - Apache 2.0 mediaTypes: - Text paperUrl: https://arxiv.org/pdf/2204.10994v3.pdf publishDate: "2022" publishUrl: https://github.com/HillZhang1999/MuCGEC publisher: - Soochow University - Alibaba tags: - Sentence taskTypes: - Grammatical Error Correction --- # 数据集介绍 ## 简介 MuCGEC 是一个用于汉语语法纠错 (CGEC) 的多参考多源评估数据集,由从三个不同的汉语作为第二语言 (CSL) 学习器来源收集的 7,063 个句子组成。每个句子都由三位注释者更正,他们的更正由专家仔细审查,每个句子有 2.3 个参考文献。 ## 类定义 null ## 引文 ``` @article{zhang2022mucgec, title={MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction}, author={Zhang, Yue and Li, Zhenghua and Bao, Zuyi and Li, Jiacheng and Zhang, Bo and Li, Chen and Huang, Fei and Zhang, Min}, journal={arXiv preprint arXiv:2204.10994}, year={2022} } ``` ## Download dataset :modelscope-code[]{type="git"}

displayName: MuCGEC(面向汉语语法纠错的多参考多源评估数据集,Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction) labelTypes: - 中文语料库 license: - Apache 2.0 mediaTypes: - 文本 paperUrl: https://arxiv.org/pdf/2204.10994v3.pdf publishDate: "2022" publishUrl: https://github.com/HillZhang1999/MuCGEC publisher: - 苏州大学 - 阿里巴巴 tags: - 句子 taskTypes: - 语法纠错 --- # 数据集介绍 ## 简介 MuCGEC是一款面向汉语语法纠错(Chinese Grammatical Error Correction,CGEC)的多参考多源评估数据集,共收录7063条句子,其数据源自三类不同的汉语作为第二语言(Chinese as a Second Language,CSL)学习者语料。每条句子均经三名标注人员完成纠错修正,且所有修正结果均经过专家严格审核,平均每条句子对应2.3个参考纠错版本。 ## 类定义 无 ## 引文 @article{zhang2022mucgec, title={MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction}, author={Zhang, Yue and Li, Zhenghua and Bao, Zuyi and Li, Jiacheng and Zhang, Bo and Li, Chen and Huang, Fei and Zhang, Min}, journal={arXiv preprint arXiv:2204.10994}, year={2022} } ## 数据集下载 :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-01
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MuCGEC是一个多参考、多源的中文语法错误纠正评估数据集,包含7,063个来自不同中文学习者的句子,每个句子有三位标注者的纠正和专家审核,平均提供2.3个参考纠正。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作