YACLC
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/YACLC
下载链接
链接失效反馈官方服务:
资源简介:
“文心” 中文学习者文本多维注释数据集 (又一个中文学习者语料库,YACLC) 是一个大规模的中文学习者文本数据集,提供有偏见的多维注释。我们招募了100多名具有向其他语言使用者、语言学、应用语言学教授汉语等专业背景的研究生组成注释团队,并采用众包策略对注释进行分组。每个句子由10个注释者进行注释,每个注释者需要给出0或1的句子可接受性得分,以及语法纠错和基于流利度的两个维度的注释结果。纠偏评标是从语法层面对错句进行修改,遵循忠实于原意、变化极小的原则,将错句修改成符合汉语语法规范的句子; 流畅评标是将句子修改得更通顺、更地道,符合说话者的母语表达习惯。注释时,如果句子可接受性得分为0,则注释者需要完成至少一个偏差校正注释,并且可以同时进行流利的注释。如果句子可接受性得分为1,则注释者只需要给出流利的注释。该数据集可用于语法纠错、文本校对等自然语言处理任务,也可为汉语第二语言教学与习得、语料库语言学等研究领域提供数据支持。
提供机构:
OpenDataLab
创建时间:
2023-05-15
搜集汇总
数据集介绍

背景与挑战
背景概述
YACLC是一个大规模中文学习者文本数据集,通过众包策略由专业注释团队对句子进行多维标注,包括可接受性评分、语法纠错和流畅度修正。该数据集适用于语法纠错等自然语言处理任务,并为汉语教学与研究提供数据支持。
以上内容由遇见数据集搜集并总结生成



