MuCGEC
收藏魔搭社区2025-11-03 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/MuCGEC
下载链接
链接失效反馈官方服务:
资源简介:
displayName: MuCGEC (Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical
Error Correction)
labelTypes:
- Chinese Corpus
license:
- Apache 2.0
mediaTypes:
- Text
paperUrl: https://arxiv.org/pdf/2204.10994v3.pdf
publishDate: "2022"
publishUrl: https://github.com/HillZhang1999/MuCGEC
publisher:
- Soochow University
- Alibaba
tags:
- Sentence
taskTypes:
- Grammatical Error Correction
---
# 数据集介绍
## 简介
MuCGEC 是一个用于汉语语法纠错 (CGEC) 的多参考多源评估数据集,由从三个不同的汉语作为第二语言 (CSL) 学习器来源收集的 7,063 个句子组成。每个句子都由三位注释者更正,他们的更正由专家仔细审查,每个句子有 2.3 个参考文献。
## 类定义
null
## 引文
```
@article{zhang2022mucgec,
title={MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction},
author={Zhang, Yue and Li, Zhenghua and Bao, Zuyi and Li, Jiacheng and Zhang, Bo and Li, Chen and Huang, Fei and Zhang, Min},
journal={arXiv preprint arXiv:2204.10994},
year={2022}
}
```
## Download dataset
:modelscope-code[]{type="git"}
displayName: MuCGEC(面向汉语语法纠错的多参考多源评估数据集,Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction)
labelTypes:
- 中文语料库
license:
- Apache 2.0
mediaTypes:
- 文本
paperUrl: https://arxiv.org/pdf/2204.10994v3.pdf
publishDate: "2022"
publishUrl: https://github.com/HillZhang1999/MuCGEC
publisher:
- 苏州大学
- 阿里巴巴
tags:
- 句子
taskTypes:
- 语法纠错
---
# 数据集介绍
## 简介
MuCGEC是一款面向汉语语法纠错(Chinese Grammatical Error Correction,CGEC)的多参考多源评估数据集,共收录7063条句子,其数据源自三类不同的汉语作为第二语言(Chinese as a Second Language,CSL)学习者语料。每条句子均经三名标注人员完成纠错修正,且所有修正结果均经过专家严格审核,平均每条句子对应2.3个参考纠错版本。
## 类定义
无
## 引文
@article{zhang2022mucgec,
title={MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction},
author={Zhang, Yue and Li, Zhenghua and Bao, Zuyi and Li, Jiacheng and Zhang, Bo and Li, Chen and Huang, Fei and Zhang, Min},
journal={arXiv preprint arXiv:2204.10994},
year={2022}
}
## 数据集下载
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-01
搜集汇总
数据集介绍

背景与挑战
背景概述
MuCGEC是一个多参考、多源的中文语法错误纠正评估数据集,包含7,063个来自不同中文学习者的句子,每个句子有三位标注者的纠正和专家审核,平均提供2.3个参考纠正。
以上内容由遇见数据集搜集并总结生成



