汉语学习者文本多维标注数据集YACLC V1.0

github2022-01-10 更新2024-05-31 收录

下载链接：

https://github.com/blcuicall/YACLC

下载链接

链接失效反馈

资源简介：

汉语学习者文本多维标注数据集（Yet Another Chinese Learner Corpus，YACLC）是一个大规模的、提供偏误多维标注的汉语学习者文本数据集。我们招募了百余位汉语国际教育、语言学及应用语言学等专业背景的研究生组成标注团队，并采用众包策略分组标注。每个句子由10位标注员进行标注，每位标注员需要给出0或1的句子可接受度评分，以及纠偏标注和流利标注两个维度的标注结果。本数据集可用于语法纠错、文本校对等自然语言处理任务，也可为汉语二语教学与习得、语料库语言学等研究领域提供数据支持。

The Yet Another Chinese Learner Corpus (YACLC) is a large-scale Chinese learner text dataset with multi-dimensional error annotations. We recruited over 100 graduate students with professional backgrounds in fields such as Teaching Chinese to Speakers of Other Languages, linguistics and applied linguistics to form an annotation team, and implemented grouped annotation using a crowdsourcing strategy. Each sentence was annotated by 10 annotators, who were required to provide a binary acceptability score (0 or 1) as well as annotation results from two dimensions: error correction annotation and fluency annotation. This dataset can be applied to natural language processing tasks such as grammatical error correction and text proofreading, and also provides data support for research areas including Chinese as a second language teaching and acquisition, and corpus linguistics.

创建时间：

2022-01-05

原始信息汇总

数据集概述

数据集名称

汉语学习者文本多维标注数据集（Yet Another Chinese Learner Corpus，YACLC）V1.0

数据集描述

YACLC是一个大规模的汉语学习者文本数据集，提供偏误多维标注。数据集由多所高校团队共同发布，主要用于语法纠错、文本校对等自然语言处理任务，以及汉语二语教学与习得、语料库语言学等研究领域。

数据集构成

训练集：8,000条数据，每条包括原始句子及其多种纠偏标注与流利标注。
验证集：1,000条数据，每条包括原始句子及其全部纠偏标注与流利标注。
测试集：1,000条数据，每条包括原始句子及其全部纠偏标注与流利标注。

数据格式

每条数据包含以下信息：

句子id
学习者原句文本
篇章id
篇章标题
标注员数量
多维标注信息（包括标注维度、标注后的正确文本、修改操作数量、提供该标注的标注员数量）

数据集使用

提交结果需为文本文件，每行为一个修改后的句子，使用THULAC工具包分词。
评测指标为F_0.5，通过eval.py脚本与标准答案文件test_gold_m2比较。

数据集获取

获取训练集数据，请联系数据研发团队（blcuicall@163.com）。数据资源仅限学术研究使用，商用需购买。

搜集汇总

数据集介绍

构建方式

汉语学习者文本多维标注数据集YACLC V1.0的构建过程体现了严谨的学术态度与科学的标注策略。该数据集由北京语言大学、清华大学等多所高校联合开发，招募了百余位具有汉语国际教育、语言学及应用语言学背景的研究生作为标注团队。每个句子由10位标注员进行标注，标注内容包括句子可接受度评分、纠偏标注和流利标注。纠偏标注旨在从语法层面修正偏误句，遵循忠实原意、最小改动的原则；流利标注则致力于使句子更符合母语者的表达习惯。通过众包策略分组标注，确保了数据的多样性与可靠性。

特点

YACLC V1.0数据集以其多维标注的独特设计脱颖而出。数据集不仅提供了语法层面的纠偏标注，还包含了流利标注，能够全面反映汉语学习者在语法与表达习惯上的偏误。每条数据均包含原始句子及其多种纠偏与流利标注结果，标注信息详细记录了修改操作的数量及标注员的数量。训练集、验证集和测试集的规模分别为8,000条、1,000条和1,000条，数据格式清晰，便于研究者直接使用。测试集数据未包含标注者信息，确保了评测的公平性。

使用方法

YACLC V1.0数据集的使用方法简洁明了，适用于多种自然语言处理任务。研究者可通过邮件联系数据研发团队获取训练集数据，数据仅限学术研究使用。评测时，需提交一个文本文件，每行为一个修改后的句子，并与测试集中的数据逐条对应。修改结果需使用THULAC工具包进行分词处理。评测脚本`eval.py`将提交结果与标准答案文件`test_gold_m2`进行比较，输出F_0.5指标，包括精确率、召回率和F_0.5值。该数据集为语法纠错、文本校对等任务提供了高质量的数据支持，同时也为汉语二语教学与习得研究提供了丰富的语料资源。

背景与挑战

背景概述

汉语学习者文本多维标注数据集YACLC V1.0由北京语言大学、清华大学、北京师范大学等高校联合发布，主要研究人员包括杨麟儿、杨尔弘、孙茂松等。该数据集于2021年发布，旨在为汉语学习者文本提供多维度的标注，涵盖语法纠错和流利性修正两个主要维度。通过众包策略，百余位语言学及应用语言学背景的研究生参与了标注工作，每个句子由10位标注员进行标注，确保了数据的多样性和准确性。该数据集不仅为自然语言处理任务如语法纠错和文本校对提供了重要支持，还为汉语二语教学与习得、语料库语言学等领域的研究提供了丰富的数据资源。

当前挑战

YACLC数据集在构建过程中面临多重挑战。首先，汉语学习者文本的多样性和复杂性使得标注工作极具挑战性，标注员需要在保持原意的基础上进行最小化修改，同时确保修改后的句子符合汉语语法规范和母语者的表达习惯。其次，众包标注策略虽然提高了数据的多样性，但也带来了标注一致性问题和质量控制难题。此外，数据集的规模较大，标注信息的多维性增加了数据处理和存储的复杂性。在应用层面，如何有效利用多维标注信息进行模型训练和评估，尤其是在语法纠错和流利性修正任务中，仍是一个亟待解决的问题。

常用场景

经典使用场景

汉语学习者文本多维标注数据集YACLC V1.0在自然语言处理领域中被广泛应用于语法纠错和文本校对任务。通过对学习者文本的多维标注，该数据集为研究者提供了丰富的语言偏误数据，帮助开发更精准的语法纠错模型。特别是在汉语作为第二语言的教学与习得研究中，YACLC为分析学习者的语言使用习惯和常见错误提供了宝贵的数据支持。

实际应用

在实际应用中，YACLC数据集被广泛用于开发智能写作辅助工具和在线汉语学习平台。通过基于该数据集的语法纠错模型，学习者能够获得实时的语言错误反馈，提升写作能力。同时，该数据集也为汉语教师的教材编写和教学策略优化提供了数据支持，促进了汉语教学的个性化和精准化。

衍生相关工作

YACLC数据集催生了一系列与汉语语法纠错和文本流利性改进相关的研究工作。例如，基于该数据集的语法纠错模型在多个自然语言处理评测任务中取得了显著成果。此外，该数据集还推动了汉语学习者语料库的构建与分析研究，为语料库语言学领域提供了新的研究方向和数据资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集