MuCGEC
收藏github2023-06-09 更新2024-05-31 收录
下载链接:
https://github.com/HillZhang1999/MuCGEC
下载链接
链接失效反馈官方服务:
资源简介:
MuCGEC是一个多参考多源评估数据集,用于中文语法错误纠正。该数据集主要来自中文二语学习者,采样自NLPCC18测试集、CGED测试集以及中文Lang8训练集,通过三人随机标注加审核专家审核方式构建。
MuCGEC is a multi-reference, multi-source evaluation dataset designed for Chinese grammatical error correction. The dataset primarily originates from Chinese second language learners, sampled from the NLPCC18 test set, the CGED test set, and the Chinese Lang8 training set. It was constructed through a process involving random annotation by three individuals followed by expert review.
创建时间:
2022-04-19
原始信息汇总
MuCGEC数据集概述
数据集描述
- 名称: MuCGEC (Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction)
- 来源: 主要来自中文二语学习者,采样自
NLPCC18测试集、CGED测试集及中文Lang8训练集。 - 构建方式: 采用三人随机标注加审核专家审核方式构建测试集。
- 数据统计:
- MuCGEC-NLPCC18: 1996句,错误句子数1904(95.4%),平均字数29.7,平均编辑数2.5,平均答案数2.5。
- MuCGEC-CGED: 3125句,错误句子数2988(95.6%),平均字数44.8,平均编辑数4.0,平均答案数2.3。
- MuCGEC-Lang8: 1942句,错误句子数1652(85.1%),平均字数37.5,平均编辑数2.8,平均答案数2.1。
- MuCGEC-ALL: 7063句,错误句子数6544(92.7%),平均字数38.5,平均编辑数3.2,平均答案数2.3。
数据集特点
- 多答案: 相较于之前的CGEC评测集,MuCGEC拥有更丰富的答案。
- 多数据来源: 数据来源多样,包括NLPCC18、CGED和Lang8。
数据下载与使用
- 开发集: 已开放下载。
- 测试集: 以在线榜单形式给出,需参考链接https://tianchi.aliyun.com/dataset/dataDetail?dataId=131328使用。
CGEC基准模型
模型描述
- Seq2Edit模型: 设计编辑动作标签,将语法纠错任务视作序列标注任务。
- Seq2Seq模型: 将语法纠错看做是从错误句子翻译为正确句子的过程,利用神经机器翻译模型。
- 集成模型: 提供基于编辑的模型集成方法,支持异构模型融合。
模型性能
- seq2seq_lang8: 在NLPCC18上精确度37.78/召回度29.91/F0.5值35.89,在MuCGEC上精确度40.44/召回度26.71/F0.5值36.67。
- seq2seq_lang8+hsk: 在NLPCC18上精确度41.50/召回度32.87/F0.5值39.43,在MuCGEC上精确度44.02/召回度28.51/F0.5值39.70。
- seq2edit_lang8: 在NLPCC18上精确度37.43/召回度26.29/F0.5值34.50,在MuCGEC上精确度38.08/召回度22.90/F0.5值33.62。
- seq2edit_lang8+hsk: 在NLPCC18上精确度43.12/召回度30.18/F0.5值39.72,在MuCGEC上精确度44.65/召回度27.32/F0.5值39.62。
模型评估工具
- ChERRANT: 支持字、词粒度的评估,是MuCGEC数据集主要使用的评测指标。
- M2Scorer: 用于NLPCC18官方数据集的评估。
搜集汇总
数据集介绍

构建方式
MuCGEC数据集的构建基于多个来源的中文二语学习者数据,包括NLPCC18测试集、CGED测试集以及中文Lang8训练集。通过从这些数据集中各采样2000-3000句,采用三人随机标注加审核专家审核的方式,确保了数据的高质量和多样性。数据集涵盖了拼写、词法、语法、语义等多类错误,旨在为中文语法纠错(CGEC)领域提供更加全面和准确的评估基准。
特点
MuCGEC数据集的特点在于其多参考、多来源的构建方式,提供了丰富的答案和数据来源,显著提升了模型评估的合理性。相较于之前的CGEC评测集,MuCGEC不仅数据量更大,还涵盖了更广泛的错误类型和领域。此外,数据集还提供了详细的错误类别体系和修改方案,为研究人员提供了宝贵的参考资源。
使用方法
MuCGEC数据集的使用方法包括下载开发集和测试集,并通过天池平台进行在线评测。研究人员可以利用提供的基线模型(如Seq2Edit和Seq2Seq模型)进行训练和推理,并使用ChERRANT工具进行指标计算。数据集还支持模型集成方法,允许异构模型的融合,从而进一步提升纠错效果。
背景与挑战
背景概述
MuCGEC数据集是由Yue Zhang等人于2022年提出的一个多参考多源中文语法纠错评估数据集,旨在解决中文语法纠错(CGEC)领域中的关键问题。该数据集由来自NLPCC18、CGED和Lang8等多个来源的语料构成,涵盖了丰富的语言错误类型和多样化的文本领域。MuCGEC的创建不仅填补了现有中文语法纠错评测集在数据量、答案多样性和领域覆盖上的不足,还为研究人员提供了一个高质量、多答案的评估基准。该数据集在NAACL2022会议上发布,迅速成为中文语法纠错领域的重要资源,推动了相关技术的发展与应用。
当前挑战
MuCGEC数据集在构建和应用过程中面临多重挑战。首先,中文语法错误的多样性和复杂性使得数据标注和纠错模型的开发极具挑战性。其次,数据集的构建依赖于多源数据的整合与标注,如何确保标注的一致性和准确性成为关键问题。此外,现有的中文语法纠错模型在处理复杂句式和语义错误时表现不佳,如何提升模型在细粒度错误类型上的纠错能力仍是一个亟待解决的问题。最后,尽管MuCGEC提供了多参考答案,但如何设计更有效的评估指标以全面衡量模型的性能,仍需进一步探索。
常用场景
经典使用场景
MuCGEC数据集在中文语法纠错(CGEC)领域中被广泛用于评估和提升模型的性能。该数据集通过提供多来源、多参考的标注数据,使得研究者能够在更接近真实场景的条件下测试和优化他们的纠错算法。特别是在处理复杂的中文语法结构时,MuCGEC提供了一个标准化的测试平台,帮助研究者验证模型的有效性和鲁棒性。
衍生相关工作
MuCGEC数据集的发布催生了一系列相关研究和技术创新。例如,基于MuCGEC的SynGEC模型在EMNLP2022会议上被提出,该模型通过融入适配句法信息,显著提升了纠错性能。此外,NaSGEC模型在ACL2023会议上被录用,该模型针对社交媒体、学术写作和复杂病句等特定领域进行了优化。这些衍生工作不仅推动了中文语法纠错技术的发展,也为相关领域的研究提供了新的思路和方法。
数据集最近研究
最新研究方向
近年来,中文语法纠错(CGEC)领域的研究逐渐聚焦于多领域、多来源数据的整合与模型优化。MuCGEC数据集的推出,为研究者提供了一个高质量、多参考的评估基准,显著推动了该领域的发展。最新的研究方向包括面向社交媒体、学术写作和复杂病句的定制化纠错模型,如NaSGEC和SynGEC模型,分别在ACL2023和EMNLP2022会议上获得认可。这些模型通过融入适配句法和多领域数据,显著提升了纠错性能。此外,基于BART的SOTA模型在通用领域和法律领域的应用,进一步拓展了CGEC技术的实际应用场景。这些进展不仅提升了模型的泛化能力,也为教育、新闻和通讯等领域提供了更精准的纠错工具,具有重要的学术和实用价值。
以上内容由遇见数据集搜集并总结生成



