CLG-CGEC
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/CLG-CGEC
下载链接
链接失效反馈官方服务:
资源简介:
汉语语法纠错 (CGEC) 既是一项具有挑战性的自然语言处理任务,也是人类日常生活中的普遍应用。最近,为CGEC研究的发展提出了许多数据驱动的方法。但是,CGEC领域存在两个主要局限性: 首先,缺乏高质量的注释训练语料库,使现有CGEC模型的性能无法得到显着提高。其次,广泛使用的测试集中的语法错误不是中文母语者,导致CGEC模型与实际应用之间存在明显差距。在本文中,我们提出了一种基于语言规则的方法来构建具有自动生成语法错误的大规模CGEC训练语料库。此外,我们提出了一个具有挑战性的CGEC基准测试,该基准完全源于母语为中文的人在实际情况下的错误。大量的实验和详细的分析不仅证明了我们的方法构建的训练数据有效地提高了CGEC模型的性能,而且还反映出我们的基准是CGEC领域进一步发展的绝佳资源。
提供机构:
OpenDataLab
创建时间:
2022-11-24



