five

CL2GEC

收藏
arXiv2025-09-17 更新2025-09-19 收录
下载链接:
https://www.cnki.net/
下载链接
链接失效反馈
官方服务:
资源简介:
CL2GEC是一个为持续学习中的中文文学语法纠错设计的多学科基准数据集,包含来自10个不同学科的10,000个由人工注释的句子。该数据集旨在模拟连续接触多个学术领域的过程,以反映现实世界的编辑动态。数据集的内容包括每个句子最多三个独立的人类参考,从中国知网(CNKI)收集,并经过版权清洗和专业编辑的双重检查,以反映真实的错误模式。CL2GEC为评估和推进终身语法纠错提供了新的标准,旨在解决现实世界中学术写作中的持续领域适应问题。

CL2GEC is a multi-disciplinary benchmark dataset developed for Chinese literary grammatical error correction in continual learning, which includes 10,000 manually annotated sentences spanning 10 distinct disciplines. It is designed to simulate the process of sequentially engaging with multiple academic domains, thus reflecting real-world editorial dynamics. Each sentence in the dataset has up to three independent human reference corrections; the corpus was collected from China National Knowledge Infrastructure (CNKI), and underwent dual verification through copyright cleansing and professional editing to authentically capture real-world error patterns. CL2GEC establishes a novel benchmark for evaluating and advancing lifelong grammatical error correction, with the core goal of addressing the challenge of continual domain adaptation in real-world academic writing.
提供机构:
清华大学
创建时间:
2025-09-17
搜集汇总
数据集介绍
main_image_url
构建方式
CL2GEC数据集的构建采用了多阶段协同标注流程,依托中国知网(CNKI)学术文献库,系统采集了法学、管理学、教育学等10个一级学科的真实学术文本。通过PDF解析、章节过滤、句子分割及噪声清除等预处理步骤,确保语料的学术规范性与语法完整性。采用自动化语法错误检测与GPT-4o预校正相结合的策略,由学科匹配的标注人员进行双盲标注,最终经领域专家复核验证,形成包含10,000句对的高质量多参考语料库。
特点
该数据集显著区别于传统语法纠错资源,其核心特征体现在学科维度与持续学习范式的深度融合。涵盖10个学科领域的学术文本,每个学科包含1,000个句子,均衡覆盖自然科学与人文社科领域。语料呈现学科特有的语法错误模式和语言风格差异,例如科技文献的句式复杂性与法律文本的术语规范性。数据集支持任务序列化评估,提供随机与语义排序两种任务流,适配灾难性遗忘、逆向迁移等持续学习指标的量化分析。
使用方法
研究者可通过该数据集构建序列化学习任务流,模拟现实场景中模型逐步适应多学科语法的过程。评估时需采用ChERRANT评分器计算字符级编辑指标(精确度、召回率、F0.5),并结合持续学习特化指标如平均性能(AvgPerf)与逆向迁移(BWT)。支持参数高效微调(如LoRA)与持续学习算法(EWC、GEM等)的对比实验,需控制任务顺序变量并报告多次随机排序的平均结果以确保结论稳健性。
背景与挑战
背景概述
CL2GEC数据集由清华大学深圳国际研究生院联合鹏城实验室等单位于2025年共同构建,旨在解决多学科学术写作中的中文语法纠错问题。该数据集包含10个学科领域的1万条人工标注语句,源自中国知网学术文献,重点关注连续学习场景下的领域适应性。其创新性在于首次将连续学习范式引入语法纠错领域,为研究模型在动态学科环境中的知识保持与迁移能力提供了标准化评估框架,对推动智能写作助手在学术场景的应用具有重要意义。
当前挑战
该数据集核心挑战体现在领域问题与构建过程两个维度:在领域问题层面,需解决多学科学术文本中语法错误的领域特异性问题,例如不同学科在术语体系、句法结构和错误模式上的显著差异;在构建层面,面临学术文本错误密度低导致的标注效率挑战,需通过自动错误检测与LLM预校正的混合流程确保质量,同时还要处理学科间语义相似性对连续学习效果的复杂影响。
常用场景
经典使用场景
在学术写作辅助领域,CL2GEC数据集被设计用于评估语法纠错模型在持续学习场景下的跨学科适应能力。该数据集通过模拟模型依次接触不同学科文本的过程,要求系统在保持已有语言学知识的同时,逐步掌握法律、经济、科学等十个学科的特有表达规范和错误模式。这种设定有效还原了现实世界中学术编辑系统需要不断适应新兴学科发展的实际需求,为研究模型在动态环境下的性能演化提供了标准化测试平台。
衍生相关工作
该数据集催生了一系列针对持续学习语法纠错的创新方法研究。基于其构建的评估体系,研究者开发了结合正交梯度下降(OGD)的参数优化策略,以及改进的梯度 episodic memory(GEM)算法来增强知识保留能力。这些工作进一步拓展到动态课程学习、任务序列优化等方向,形成了跨学科语法纠错的特有研究范式,推动了持续学习在自然语言生成任务中的理论发展与技术落地。
数据集最近研究
最新研究方向
随着学术写作自动化需求的增长,CL2GEC数据集推动了中文语法纠错系统在持续学习范式下的多学科适应性研究。当前前沿聚焦于探索正则化方法(如EWC、OGD)在缓解灾难性遗忘方面的优势,同时分析任务顺序对知识迁移的微妙影响。该数据集通过涵盖法学、经济学等10个学科的语料,模拟真实场景中模型对领域特异性语言风格的渐进适应,为构建具备跨学科泛化能力的智能写作助手提供了关键基准。相关研究正结合参数高效微调技术与回放策略,致力于平衡模型在新任务学习与旧知识保留之间的性能,推动自然语言处理在学术领域的实用化进程。
相关研究论文
  • 1
    CL$^2$GEC: A Multi-Discipline Benchmark for Continual Learning in Chinese Literature Grammatical Error Correction清华大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作