FCGEC

github2024-03-05 更新2024-05-31 收录

下载链接：

https://github.com/xlxwalex/FCGEC

下载链接

链接失效反馈

官方服务：

资源简介：

FCGEC是一个大规模的中文语法纠错数据集，主要来源于小初高中学生的病句试题以及新闻聚合网站，包含41,340个句子，用于训练和评估纠错模型系统。

FCGEC is a large-scale Chinese grammar error correction dataset, primarily sourced from sentence error exercises of elementary, middle, and high school students, as well as news aggregation websites. It contains 41,340 sentences, designed for training and evaluating grammar correction model systems.

创建时间：

2022-10-09

原始信息汇总

FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction

数据集概述

数据集介绍

FCGEC是一个专注于中文语法错误检测与纠正的数据集。该数据集旨在提供一个大规模的母语使用者语料，用于训练和评估纠错模型系统。数据集解决了之前中文纠错数据集的三个主要问题：数据量少、主要集中在非中文母语使用者的错误、纠错方式单一。

数据集统计信息

数据来源: 小初高中学生的病句试题以及新闻聚合网站
句子总数: 41,340
错误句子数: 22,517 (54.47%)
平均长度: 53.1
平均参考数: 1.7

数据集划分

训练集: 36,340句
验证集: 2,000句
测试集: 3,000句

数据集任务

FCGEC定义了三个任务：

错误检测: 判断句子是否包含语法错误。
类型检测: 识别七种错误类型之一。
文本纠错: 输出无语法错误的句子。

数据集更新

最新更新于2023年11月8日，解决了训练集、验证集和测试集之间存在同源句子的问题。

数据集使用

数据集仅限于非商业和学术研究使用。

数据集文件

训练、验证及测试数据位于data目录下。
测试集不提供标签，需通过Codalab评测页面提交模型预测结果进行性能评估。

模型与评测

提出了STG (Switch-Tagger-Generator)模型作为纠错基准。
使用Accuracy, Precision, Recall, Macro F1 score以及Exact Match和character-level edit metric作为评测指标。

引用信息

引用格式请参考论文：FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction。

搜集汇总

数据集介绍

构建方式

FCGEC数据集的构建基于小初高中学生的病句试题以及新闻聚合网站，旨在提供大规模母语使用者的多参考文本纠检错语料。为了确保数据的多样性和准确性，每个句子被随机分配给2-4个标注者进行标注。经过去重和筛选，最终数据集包含41,340个句子，分为训练集、验证集和测试集，分别包含36,340、2,000和3,000个句子。

特点

FCGEC数据集的特点在于其专注于中文母语使用者的语法错误，涵盖了七种常见的错误类型，包括语序不当、搭配不当、成分缺失等。数据集的每个错误句子平均有1.7个参考修改，提供了多样化的纠错方案。此外，数据集还支持错误检测、类型检测和文本纠错三个任务，为中文语法纠错研究提供了全面的评估基准。

使用方法

FCGEC数据集的使用方法包括下载数据文件并按照指定的格式进行加载。用户可以通过提供的训练集和验证集训练模型，并在测试集上进行评估。测试集的标签未公开，用户需通过Codalab评测页面提交预测结果以获取性能指标。此外，数据集还提供了基于编辑的STG模型作为基准，用户可以根据需要选择独立或联合训练模式，并通过提供的脚本进行模型训练和测试。

背景与挑战

背景概述

FCGEC（Fine-Grained Corpus for Chinese Grammatical Error Correction）数据集由浙江大学的研究团队于2022年发布，旨在解决中文语法检错与纠错（CGEC）领域的关键问题。该数据集聚焦于中文母语使用者的语法错误，填补了现有数据集中以非母语使用者为主的空白。FCGEC的语料主要来源于小初高中学生的病句试题和新闻聚合网站，经过多轮标注和筛选，最终包含41,340个句子，其中54.47%的句子存在语法错误。该数据集的发布为中文语法纠错模型的训练与评估提供了高质量的多参考文本，推动了CGEC领域的研究进展。

当前挑战

FCGEC数据集在构建与应用过程中面临多重挑战。首先，中文语法错误的多样性与复杂性使得数据标注难度显著增加，尤其是母语使用者的错误类型更为复杂，难以通过单一修改方式解决。其次，数据集的构建过程中需确保标注的一致性与准确性，尽管每个句子由2-4名标注者独立标注，但仍需通过去重和筛选来保证数据质量。此外，FCGEC在模型训练与评估中，需应对多任务（错误检测、类型检测、文本纠错）的协同优化问题，尤其是在错误类型与纠错操作之间的关联性建模上，仍需进一步探索。这些挑战不仅体现在数据集的构建过程中，也对其在实际应用中的性能提出了更高要求。

常用场景

经典使用场景

FCGEC数据集在中文语法检错纠错（CGEC）领域中具有广泛的应用，尤其在教育和技术开发领域。该数据集通过提供大量母语使用者的多参考文本纠检错语料，为训练和评估纠检错模型系统提供了坚实的基础。其经典使用场景包括自动化的中文语法错误检测与纠正，特别是在教育软件和在线学习平台中，帮助学生和语言学习者提高中文写作能力。

衍生相关工作

FCGEC数据集的发布催生了一系列相关研究和技术创新。基于该数据集，研究者们提出了多种改进的语法纠错模型，如结合预训练语言模型的STG变体和多任务学习框架。此外，FCGEC还推动了中文语法纠错评测标准的完善，促进了与其他数据集（如MuCGEC和YACLC）的对比研究。这些工作不仅提升了中文语法纠错的性能，也为其他语言的语法纠错研究提供了借鉴。

数据集最近研究