YACLC (Yet Another Chinese Learner Corpus)

Name: YACLC (Yet Another Chinese Learner Corpus)
Creator: 北京语言大学信息科学学院
Published: 2021-12-30 21:07:08
License: 暂无描述

arXiv2021-12-30 更新2024-06-21 收录

下载链接：

https://yaclc.wenmind.net

下载链接

链接失效反馈

官方服务：

资源简介：

YACLC是一个大规模、多维度标注的中文学习者语料库，由北京语言大学信息科学学院创建。该数据集包含32,124条由中文作为外语学习者撰写的句子，每条句子平均有14.6次修订，总计469,000次修订。数据集通过自建的众包平台进行标注，设计了包括句子可接受性评分、语法错误和流畅性修正的标注方案。YACLC旨在支持中文国际教育研究和中文自动语法错误修正任务，帮助中文教师分析学习者错误，并提升自动修正模型的性能。

YACLC is a large-scale, multi-dimensionally annotated Chinese learner corpus created by the School of Information Science, Beijing Language and Culture University. This dataset contains 32,124 sentences written by learners of Chinese as a foreign language, with an average of 14.6 revisions per sentence and a total of 469,000 revisions across the entire corpus. The dataset was annotated via a self-developed crowdsourcing platform, and an annotation scheme covering sentence acceptability scoring, grammatical error annotation and fluency correction was designed. YACLC aims to support research in Chinese international education and Chinese automatic grammatical error correction tasks, helping Chinese teachers analyze learner errors and improve the performance of automatic correction models.

提供机构：

北京语言大学信息科学学院

创建时间：

2021-12-30

搜集汇总

数据集介绍

构建方式

在汉语作为第二语言习得研究领域，构建高质量学习者语料库是推动教学与自动纠错技术发展的关键。YACLC语料库的构建过程始于从Lang-8语言学习平台采集原始文本，通过严格的数据清洗流程，剔除非学习者撰写的文章、繁体中文内容及重复或过于简单的句子，最终筛选出32,124句有效学习者语句。随后，研究团队设计了多维标注方案，涵盖句子可接受性评分、语法纠错与流畅性修正，并搭建了众包标注平台，招募183名标注者依据最小编辑与流畅性编辑原则，对每句进行多轮标注，最终通过后处理整合为包含46.9万条修正句的大规模语料库。

特点

YACLC语料库的突出特点体现在其多维标注体系与高质量数据规模上。该语料库不仅提供句子级别的二元可接受性评分，还针对每句原始文本标注了基于语法纠错与流畅性优化的多重修正版本，其中语法修正遵循最小编辑原则，流畅修正则致力于提升语句的地道表达。语料库共包含32,124句学习者原始语句，平均每句获得14.6条修正，标注一致性经科恩卡帕系数评估达到0.38，体现了良好的标注可靠性。此外，语料库覆盖丰富的主题内容与学习者背景，为汉语二语习得研究与自动纠错模型训练提供了全面而细致的资源支持。

使用方法

YACLC语料库可广泛应用于汉语国际教育与自然语言处理领域。在汉语教学研究中，教师与研究者可通过分析语料中的错误类型与修正模式，深入理解学习者的常见偏误规律，进而优化教学策略与教材设计。在技术应用层面，该语料库为汉语自动语法纠错任务提供了大规模训练与评测数据，支持模型学习从语法纠错到流畅性提升的多维度修正能力。使用者可通过公开平台获取语料库的JSON格式数据，依据标注标签区分语法与流畅修正，结合原始语句与多重修正版本，开展错误分析、模型训练或跨语言对比研究。

背景与挑战

背景概述

在第二语言习得与自然语言处理领域，学习者语料库作为记录外语学习者语言产出的关键资源，对于揭示语言习得规律、优化外语教学以及推动自动语法纠错技术发展具有深远意义。然而，针对汉语作为外语的学习者语料库建设长期处于相对滞后的状态，现有资源如HSK动态作文语料库存在数据分布不均、标注维度单一等问题。为此，北京语言大学、清华大学等机构的研究团队于近年联合构建了YACLC（Yet Another Chinese Learner Corpus）这一大规模、多维度标注的汉语学习者语料库。该语料库采集自Lang-8平台，包含超过3.2万句由汉语学习者撰写的文本，并通过众包标注平台获得了近47万条语法与流畅性修订标注。其核心研究目标在于填补高质量汉语学习者语料库的空白，为汉语国际教育研究及自动语法纠错模型训练提供坚实的数据支撑，进而推动相关领域的实证研究与技术应用。

当前挑战

YACLC语料库致力于解决汉语作为外语学习中的自动语法纠错与语言流畅性提升问题，其面临的核心挑战体现在任务定义与数据构建两个层面。在任务层面，汉语语法结构的复杂性与灵活性使得错误类型界定与修订标准难以统一，例如词序错误、成分缺失与词汇误用等错误往往交织出现，要求模型不仅能够识别表面错误，还需深入理解学习者的表达意图。同时，流畅性修订涉及语言的地道性与自然度，其主观性强，缺乏客观的评估基准，增加了自动化处理的难度。在构建过程中，挑战主要源于数据质量与标注一致性：原始学习者文本中存在大量噪声与非规范表达，需经过严格的清洗与筛选；而多维度标注方案要求标注者同时进行语法纠错与流畅性优化，这对标注者的语言素养与判断力提出了较高要求。尽管采用众包策略与一致性评估机制，如何在保证标注效率的同时维持高质量与高一致性，仍是语料库建设中的关键难题。

常用场景

经典使用场景

在汉语作为第二语言的教学与习得研究中，YACLC数据集常被用于深入分析学习者的语言偏误模式。该数据集通过多维度的标注体系，不仅记录了语法层面的错误修正，还提供了基于流畅性的改写建议，为研究者揭示了学习者在词汇选择、句式结构和语用习惯上的系统性困难。这种精细的标注方式使得YACLC成为探究中介语发展轨迹、评估教学干预效果的重要实证基础，尤其在对比不同母语背景学习者的汉语习得路径时展现出独特价值。

衍生相关工作

YACLC的发布直接催生了汉语语法纠错领域系列创新研究。以该数据集为基础举办的CUGE评测任务，推动了基于Transformer的序列到序列纠错模型发展，如融合复制机制与语法约束的混合架构。相关研究进一步拓展到可控文本改写、多参考修正质量评估等方向，部分工作探索了将语法纠错与流畅性提升统一建模的端到端框架。这些衍生成果不仅丰富了计算语言学的技术体系，也为构建新一代自适应语言学习平台奠定了算法基础。

数据集最近研究