CL2GEC

Hugging Face2025-11-12 更新2025-11-13 收录

下载链接：

https://huggingface.co/datasets/QShane/CL2GEC

下载链接

链接失效反馈

官方服务：

资源简介：

CL²GEC是一个面向学术写作的中文语法错误纠错基准测试数据集，包含法学、管理学、教育学等10个一级学科的文本数据，每个样本包括错误原句和至少一个修正参照句。数据集按照学科划分训练集、验证集和测试集，用于研究持续学习中的遗忘和迁移等行为。

创建时间：

2025-10-31

原始信息汇总

CL²GEC 数据集概述

数据集简介

CL²GEC 是一个面向中文文献语法纠错任务的持续学习基准数据集，专注于学术写作领域。该数据集覆盖10个一级学科，每个样本包含错误句子和修正参考。

核心特征

任务类型：中文语法纠错、文本到文本生成
学习范式：持续学习协议
领域范围：学术写作，涵盖10个学科领域

数据规模

训练集：7,000个样本
验证集：1,000个样本
测试集：2,000个样本

数据结构

数据字段

id：唯一样本标识符
source：包含错误的原始句子
references：一个或多个修正后的句子
category：一级学科分类
edits：词符/字符级别的编辑信息（可选）

学科分类

中文标签	英文名称
法学	Law
管理	Management
教育	Education
经济学	Economics
理学	Sciences
历史学	History
农学	Agronomy
文学	Literature
哲学	Philosophy
艺术学	Arts

数据来源与标注

来源：从CNKI学术PDF中提取，涵盖10个一级学科和100个二级学科
处理：保留摘要和正文，移除非语言内容，进行句子分割和匿名化处理
标注流程：多模型一致性错误检测、LLM预重写、双独立标注、专家评审

评估指标

语法纠错指标：精确率、召回率、F0.5分数
持续学习指标：平均性能、后向迁移

应用场景

学术文本中文语法纠错研究
跨领域鲁棒性和学科感知建模
持续学习中的遗忘和迁移研究

引用信息

bibtex @misc{qin2025cl2gec, title = {CL$^2$GEC: A Multi-Discipline Benchmark for Continual Learning in Chinese Literature Grammatical Error Correction}, author = {Shang Qin and Jingheng Ye and Yinghui Li and Hai-Tao Zheng and Qi Li and Jinxiao Shan and Zhixing Li and Hong-Gee Kim}, year = {2025}, eprint = {2509.13672}, archivePrefix = {arXiv}, primaryClass = {cs.CL}, url = {https://arxiv.org/abs/2509.13672} }

搜集汇总

数据集介绍

构建方式

在学术文本语法纠错研究领域，CL²GEC数据集通过系统化流程构建而成。其原始语料源自中国知网学术文献，覆盖法学、管理学等十个一级学科，采用自然语言处理工具进行句子切分与敏感信息脱敏。标注过程融合多模型一致性检测与大型语言模型预改写技术，由具备学科背景的资深标注者独立完成双盲标注，最终经领域专家全面审核确保达到出版级质量。

特点

该数据集显著特征体现在多维度学科覆盖与持续学习框架设计。其囊括的万条样本均标注具体学科类别，为研究领域适应性提供结构化基础。每个样本不仅包含错误原文与修正结果，还提供字符级编辑标注，支持细粒度错误分析。数据集按学科划分的训练验证测试集，天然构成持续学习中的任务序列，为研究模型跨领域迁移与遗忘现象提供标准实验环境。

使用方法

研究者可依据标准数据划分开展中文语法纠错任务，输入含错误句子并输出语义等效的规范表达。评估时推荐采用精准率、召回率与F0.5值等指标，持续学习场景则可计算平均性能与逆向迁移指标。使用过程需注意遵循数据许可协议，结合学科类别信息构建领域自适应模型，或按学科顺序模拟持续学习场景以观测知识迁移规律。

背景与挑战

背景概述

随着中文自然语言处理技术的深入发展，语法纠错任务逐渐从通用领域延伸至学术写作这一复杂场景。CL²GEC数据集由研究团队于2025年构建，聚焦于跨学科中文文献的语法错误修正，覆盖法学、理学、文学等十大一级学科。该数据集通过系统化标注流程，为持续学习范式下的领域适应性研究提供了标准化评估基准，推动了学术文本智能处理技术的边界拓展。

当前挑战

学术文献语法纠错需应对学科术语差异与句式复杂性带来的领域迁移难题，例如法律条文严谨性与文学修辞灵活性之间的表征冲突。数据构建过程中面临双重挑战：一方面需通过多模型协同检测与专家双重标注保证错误标注的精确度，另一方面须在持续学习框架下解决模型在跨学科序列训练中的灾难性遗忘问题。

常用场景

经典使用场景

在学术文本处理领域，CL²GEC数据集为中文语法纠错研究提供了跨学科的实验平台。其经典应用场景聚焦于模型在法学、经济学等十个一级学科文本上的序列学习能力评估，通过模拟真实学术写作中的语法错误修正过程，系统考察模型在连续学习范式下的性能演变规律。该设计有效捕捉了模型面对不同学科术语和表达风格时的适应性与稳定性。

衍生相关工作

基于该数据集衍生的经典研究主要围绕持续学习算法优化展开，包括动态架构调整、知识蒸馏等方法的创新。这些工作通过构建学科序列任务，系统探索了模型在法学至哲学等学科递进学习过程中的性能保持机制，为多领域文本处理模型的设计提供了重要方法论参考。

数据集最近研究