FlaCGEC

Name: FlaCGEC
Creator: 华东师范大学
Published: 2023-09-26 18:22:43
License: 暂无描述

arXiv2023-09-26 更新2024-06-21 收录

下载链接：

https://github.com/hyDududu/FlaCGEC

下载链接

链接失效反馈

官方服务：

资源简介：

FlaCGEC是一个由华东师范大学创建的中文语法错误修正数据集，包含10,000个句子，涵盖78个具体的语法点和3种编辑类型。数据集通过从汉语专家定义的语言模式中收集原始语料，通过规则进行句子编辑，并手动精炼生成样本。FlaCGEC旨在为解释和诊断中文语法错误修正方法提供深入的语言拓扑结构，适用于自然语言处理中的写作辅助和搜索引擎等场景，以解决复杂的语法错误问题。

FlaCGEC is a Chinese grammatical error correction dataset developed by East China Normal University. It contains 10,000 sentences, covering 78 specific grammatical points and 3 types of editing operations. The dataset is constructed by collecting raw corpora from language patterns defined by Chinese language experts, conducting sentence edits via rule-based methods, and then manually refining the generated samples. FlaCGEC aims to provide in-depth linguistic topological structures for interpreting and diagnosing Chinese grammatical error correction methods, and is applicable to scenarios such as writing assistance and search engines in the field of natural language processing to address complex grammatical error issues.

提供机构：

华东师范大学

创建时间：

2023-09-26

搜集汇总

数据集介绍

构建方式

汉语语法纠错领域长期受困于缺乏深层语言学标注的困境，现有数据集多仅提供修正后的标准句，难以揭示语法错误的拓扑结构。为突破这一瓶颈，FlaCGEC数据集以《国际中文教育中文水平等级标准》为纲，构建了包含78个细粒度语法点的层级化语言学Schema。数据构建分三步推进：首先从HSK阅读语料中提取目标句，通过正则表达式与迭代标注模型为句子赋予语法点标签；继而针对每个语法点设计删除、替换、语序重排三类编辑规则，自动生成包含多种错误的源句；最后邀请13名母语者依据严格准则筛选无效样本，经资深标注员复核后形成最终语料。整个流程产出约1.2万条句子，每条均附带M2格式的精细标注，涵盖语法错误跨度、类型及修正方案。

特点

FlaCGEC的核心突破在于其细粒度语言学标注的深度与广度。与既往数据集仅包含数种至二十余种错误类型不同，本数据集覆盖了210种语法点与编辑类型的组合，其语法Schema源自官方等级标准，具有权威性与系统性。数据分布呈现显著特点：不同语法点的错误频率存在差异，如被动句错误远多于感叹句；编辑类型与语法点之间存在内在关联，例如感叹句仅出现替换错误，而时间介词则缺乏替换编辑，这种自然约束恰好反映了真实语言表达中的规律。实验表明，该数据集对现有最优模型构成严峻挑战——即便采用EBGEC等强基线，F0.5得分仍与人类表现存在显著差距，且跨数据集迁移时性能大幅下滑，凸显了其覆盖语法错误范围的独特性与诊断价值。

使用方法

FlaCGEC数据集采用标准M2格式存储，可直接接入主流CGEC评测流程。用户可通过GitHub仓库获取训练集（10,804句）、开发集（1,334句）与测试集（1,325句），句子平均长度约35字，每句包含约1.7个编辑点。评测时推荐使用MaxMatch（M2）评分器，以精确率、召回率和F0.5为指标，分别评估错误检测与修正能力。数据集支持两种典型应用场景：一是作为训练语料微调GECToR、BART等模型，二是作为诊断工具测试模型的泛化能力——通过对比不同语法点上的表现差异，可精准定位模型在数词灵活用法、特殊句式等难点上的薄弱环节。零样本测试亦表明，该数据集能有效区分大语言模型的基础语义恢复能力与语法点精准辨识能力之间的鸿沟。

背景与挑战

背景概述

中文语法纠错（CGEC）任务因其在写作辅助、搜索引擎等自然语言处理场景中的关键价值，近年来吸引了研究者的广泛关注。然而，现有CGEC数据集多聚焦于浅层语法错误标注，缺乏对语法错误深层语言学拓扑结构的揭示，这严重制约了模型的可解释性与诊断能力。为突破这一瓶颈，华东师范大学与新加坡管理大学的研究团队于2023年联合发布了FlaCGEC数据集。该数据集基于《国际中文教育中文水平等级标准》中的语言学家语法体系，通过规则编辑与人工精炼相结合的方式，构建了涵盖78个细粒度语法点、3种编辑类型（删除、替换、语序调整）的10k句级语料。FlaCGEC的提出不仅为CGEC领域提供了首个具备深度语言学标注的诊断性基准，更推动了模型泛化能力评估的范式革新，在CIKM 2023上发表后迅速成为该领域的重要参考资源。

当前挑战

FlaCGEC数据集面临的核心挑战源自其对语法错误覆盖的全面性与细粒度标注的复杂性。首先，现有CGEC模型在该数据集上表现不佳，即便最优模型（EBGEC）的F0.5值（64.87%）仍与人类表现（71.53%）存在显著差距，暴露出模型在应对多样化语法错误（如数词灵活用法、情态副词隐喻场景）时的泛化能力不足。其次，数据集构建过程本身充满挑战：从HSK标准阅读语料中自动提取目标句子后，需通过规则编辑生成错误句子，但随机组合易产生语义混乱或不符合现实场景的无效样本，必须依赖13名母语者进行多轮人工筛选与质量审核，确保编辑与语法点的逻辑一致性。此外，不同语法点与编辑类型的组合存在天然不平衡（如感叹句仅适用替换编辑），要求模型在训练中学习语言表达的固有规律，进一步加剧了任务难度。

常用场景

经典使用场景

在中文语法错误纠正（CGEC）领域，FlaCGEC数据集以其细粒度语言标注的独特优势，成为评估和诊断各类语法纠错模型性能的经典基准。该数据集覆盖78个实例化语法点与三种编辑类型（删除、替换、重排），为研究者提供了从词类介词到复句连词的全面错误类型。通过将错误定位至具体语法点，FlaCGEC不仅支持传统的句子级纠错评估，更实现了对模型在特定语法现象上表现的精确定量分析，从而揭示了不同模型在处理复杂句法结构时的能力差异。

衍生相关工作

FlaCGEC数据集的发布催生了一系列重要的衍生研究工作。基于其细粒度标注特性，研究者开发了针对特定语法点的诊断性评估框架，深入分析了GECToR-Chinese、Chinese BART和EBGEC等主流模型在不同语法类别上的表现差异。该数据集还促进了跨数据集泛化能力的研究，揭示了在FCGEC和CTC等现有数据集上训练的模型在FlaCGEC上性能大幅下降的现象，从而推动了更全面的语法错误覆盖策略。此外，研究者利用FlaCGEC评估了ChatGPT和GPT-3等大语言模型在零样本设置下的语法纠错能力，发现了其在语法点精准判别上的不足，为后续模型改进指明了方向。

数据集最近研究