five

YACLC

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/YACLC
下载链接
链接失效反馈
官方服务:
资源简介:
“文心” 中文学习者文本多维注释数据集 (又一个中文学习者语料库,YACLC) 是一个大规模的中文学习者文本数据集,提供有偏见的多维注释。我们招募了100多名具有向其他语言使用者、语言学、应用语言学教授汉语等专业背景的研究生组成注释团队,并采用众包策略对注释进行分组。每个句子由10个注释者进行注释,每个注释者需要给出0或1的句子可接受性得分,以及语法纠错和基于流利度的两个维度的注释结果。纠偏评标是从语法层面对错句进行修改,遵循忠实于原意、变化极小的原则,将错句修改成符合汉语语法规范的句子; 流畅评标是将句子修改得更通顺、更地道,符合说话者的母语表达习惯。注释时,如果句子可接受性得分为0,则注释者需要完成至少一个偏差校正注释,并且可以同时进行流利的注释。如果句子可接受性得分为1,则注释者只需要给出流利的注释。该数据集可用于语法纠错、文本校对等自然语言处理任务,也可为汉语第二语言教学与习得、语料库语言学等研究领域提供数据支持。
提供机构:
OpenDataLab
创建时间:
2023-05-15
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作