CLG-CGEC
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/CLG-CGEC
下载链接
链接失效反馈官方服务:
资源简介:
汉语语法纠错 (CGEC) 既是一项具有挑战性的自然语言处理任务,也是人类日常生活中的普遍应用。最近,为CGEC研究的发展提出了许多数据驱动的方法。但是,CGEC领域存在两个主要局限性: 首先,缺乏高质量的注释训练语料库,使现有CGEC模型的性能无法得到显着提高。其次,广泛使用的测试集中的语法错误不是中文母语者,导致CGEC模型与实际应用之间存在明显差距。在本文中,我们提出了一种基于语言规则的方法来构建具有自动生成语法错误的大规模CGEC训练语料库。此外,我们提出了一个具有挑战性的CGEC基准测试,该基准完全源于母语为中文的人在实际情况下的错误。大量的实验和详细的分析不仅证明了我们的方法构建的训练数据有效地提高了CGEC模型的性能,而且还反映出我们的基准是CGEC领域进一步发展的绝佳资源。
提供机构:
OpenDataLab
创建时间:
2022-11-24
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集为汉语语法纠错(CGEC)任务构建,采用基于语言规则的方法自动生成语法错误,以创建大规模训练语料库,并提供一个源自中文母语者实际错误的挑战性基准测试。实验表明,该数据能有效提升CGEC模型性能,并可作为领域进一步发展的资源。
以上内容由遇见数据集搜集并总结生成



