five

NaSGEC

收藏
arXiv2023-05-25 更新2024-06-21 收录
下载链接:
https://github.com/HillZhang1999/NaSGEC
下载链接
链接失效反馈
官方服务:
资源简介:
NaSGEC是一个针对中文母语者文本的多领域语法错误修正数据集,由苏州大学人工智能研究院创建。该数据集包含来自社交媒体、科学写作和考试三个领域的12500个句子,旨在解决中文语法错误修正的跨领域问题。数据集的创建过程包括数据收集、独立标注和专家评审,确保了数据质量。NaSGEC的应用领域广泛,包括写作辅助、论文校对和中文教学,为中文语法错误修正提供了丰富的测试平台。

NaSGEC is a multi-domain grammatical error correction dataset for texts written by native Chinese speakers, developed by the Institute of Artificial Intelligence at Soochow University. This dataset comprises 12,500 sentences sourced from three domains: social media, scientific writing, and examinations, aiming to address cross-domain challenges in Chinese grammatical error correction. The dataset creation workflow includes data collection, independent annotation, and expert review, which guarantees the high quality of the data. NaSGEC covers a wide range of application scenarios, including writing assistance, thesis proofreading, and Chinese language teaching, serving as a rich testbed for Chinese grammatical error correction research.
提供机构:
苏州大学人工智能研究院
创建时间:
2023-05-25
搜集汇总
数据集介绍
main_image_url
构建方式
NaSGEC数据集的构建聚焦于多领域母语文本,涵盖社交媒体、本科论文和汉语考试三大场景。首先从微信公众号平台、计算机科学本科论文及考试病句判断题中分别采集原始句子。为提升标注效率,在社交媒体和论文领域利用多个竞争性语法纠错模型投票筛选潜在错误句,再随机抽取标注。每句分配给两名标注者独立改写,随后由专家以双盲方式审核并补充遗漏的正确修改,最终形成12,500句多参考标准答案的高质量语料库。
特点
NaSGEC的核心特点在于其多领域覆盖与母语错误分布的多样性。社交媒体句子口语化、词汇丰富但标点缺失常见;论文领域句式正式、术语密集且错误稀疏;考试领域错误经过精心设计,类型均衡但修正方式多样。相较于学习者语料,母语句子更长、命名实体更多且词汇多样性更高,但错误密度显著降低。三个领域在错误类型分布上呈现系统性差异,如社交媒体与论文以替换错误为主,而考试领域各类错误比例接近,为跨领域适应研究提供了理想试验场。
使用方法
NaSGEC可用于训练和评估跨领域语法纠错模型。研究者可采用序列到序列或序列到编辑模型,在真实学习者数据或合成母语数据上预训练后,针对特定领域进行微调。数据集划分为训练、开发、测试三部分,支持领域迁移实验。通过词汇重叠率、错误类型分布相似度和错误模式重叠度等指标,可量化领域差异。此外,可结合风格适应与错误分布适应进行数据增强,以提升目标领域性能。代码与模型已开源,便于复现与扩展。
背景与挑战
背景概述
中文语法纠错(CGEC)长期以来主要聚焦于学习者语料,忽略了母语者在实际写作中产生的错误。为填补这一空白,苏州大学与阿里巴巴达摩院于2023年联合发布了NaSGEC数据集,由Yue Zhang、Zhenghua Li等研究人员主导构建。该数据集包含12,500条来自社交媒体、本科学位论文及中文考试三个领域的母语文本句子,每条句子均经双人独立标注与专家审核,确保了多重高质量参考。NaSGEC的诞生不仅拓宽了CGEC的研究范畴,更首次为跨领域语法纠错提供了系统性的评测基准,揭示了不同写作场景下错误分布与语言风格的显著差异,对推动语法纠错技术从单一领域向多领域泛化具有里程碑意义。
当前挑战
NaSGEC面临的核心挑战在于跨领域泛化与数据构建的复杂性。首先,不同领域(如社交媒体、学术论文与考试)在写作风格、词汇丰富度及错误类型分布上存在系统性差异,导致现有模型在跨域测试时性能波动剧烈,例如在考试领域表现优异的模型在社交媒体上可能大幅下降。其次,母语文本中错误密度极低(如仅9.3%的句子含错),人工高效筛选错误句子成本高昂,不得不依赖多模型投票法,这引入了采样偏差,可能遗漏复杂语义错误。此外,多参考标注虽提升了数据质量,但标注准确率仅77.46%,凸显了专家复核机制的必要性,同时增加了数据构建的时间与人力投入。
常用场景
经典使用场景
NaSGEC作为首个面向母语者的多领域中文语法纠错数据集,涵盖了社交媒体、本科论文及汉语考试三大典型场景。其经典使用场景在于为跨领域语法纠错模型提供统一的评估基准,研究者可基于该数据集检验模型在不同写作风格(如正式学术文本与口语化社交内容)下的泛化能力,从而推动语法纠错技术从单一学习者语料向真实母语应用场景的迁移。
解决学术问题
该数据集有效解决了当前中文语法纠错领域缺乏多领域标注语料的学术困境。传统研究多聚焦于学习者作文,导致模型在母语者文本上表现欠佳。NaSGEC通过系统标注12,500句多领域数据,揭示了不同领域在错误类型分布、词汇多样性及编辑密度上的显著差异,为跨领域领域适应、低错误密度场景下的误差检测等前沿问题提供了关键数据支撑,显著拓宽了语法纠错的研究边界。
衍生相关工作
基于NaSGEC衍生了一系列重要工作:研究者提出了领域感知数据增强方法,通过模拟目标领域的写作风格和错误分布显著提升模型性能;跨领域迁移实验揭示了社交媒体与学术文本间的错误模式相似性,催生了领域自适应纠错框架的设计;此外,该数据集还推动了Seq2Edit与Seq2Seq两种范式在特定领域的对比分析,为后续开发融合拷贝机制与语法增强的混合模型奠定了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作