five

汉语学习者文本多维标注数据集YACLC V1.0|自然语言处理数据集|汉语学习数据集

收藏
github2022-01-10 更新2024-05-31 收录
自然语言处理
汉语学习
下载链接:
https://github.com/blcuicall/YACLC
下载链接
链接失效反馈
资源简介:
汉语学习者文本多维标注数据集(Yet Another Chinese Learner Corpus,YACLC)是一个大规模的、提供偏误多维标注的汉语学习者文本数据集。我们招募了百余位汉语国际教育、语言学及应用语言学等专业背景的研究生组成标注团队,并采用众包策略分组标注。每个句子由10位标注员进行标注,每位标注员需要给出0或1的句子可接受度评分,以及纠偏标注和流利标注两个维度的标注结果。本数据集可用于语法纠错、文本校对等自然语言处理任务,也可为汉语二语教学与习得、语料库语言学等研究领域提供数据支持。
创建时间:
2022-01-05
原始信息汇总

数据集概述

数据集名称

汉语学习者文本多维标注数据集(Yet Another Chinese Learner Corpus,YACLC)V1.0

数据集描述

YACLC是一个大规模的汉语学习者文本数据集,提供偏误多维标注。数据集由多所高校团队共同发布,主要用于语法纠错、文本校对等自然语言处理任务,以及汉语二语教学与习得、语料库语言学等研究领域。

数据集构成

  • 训练集:8,000条数据,每条包括原始句子及其多种纠偏标注与流利标注。
  • 验证集:1,000条数据,每条包括原始句子及其全部纠偏标注与流利标注。
  • 测试集:1,000条数据,每条包括原始句子及其全部纠偏标注与流利标注。

数据格式

每条数据包含以下信息:

  • 句子id
  • 学习者原句文本
  • 篇章id
  • 篇章标题
  • 标注员数量
  • 多维标注信息(包括标注维度、标注后的正确文本、修改操作数量、提供该标注的标注员数量)

数据集使用

  • 提交结果需为文本文件,每行为一个修改后的句子,使用THULAC工具包分词。
  • 评测指标为F_0.5,通过eval.py脚本与标准答案文件test_gold_m2比较。

数据集获取

获取训练集数据,请联系数据研发团队(blcuicall@163.com)。数据资源仅限学术研究使用,商用需购买。

AI搜集汇总
数据集介绍
main_image_url
构建方式
汉语学习者文本多维标注数据集YACLC V1.0的构建过程体现了严谨的学术态度与科学的标注策略。该数据集由北京语言大学、清华大学等多所高校联合开发,招募了百余位具有汉语国际教育、语言学及应用语言学背景的研究生作为标注团队。每个句子由10位标注员进行标注,标注内容包括句子可接受度评分、纠偏标注和流利标注。纠偏标注旨在从语法层面修正偏误句,遵循忠实原意、最小改动的原则;流利标注则致力于使句子更符合母语者的表达习惯。通过众包策略分组标注,确保了数据的多样性与可靠性。
特点
YACLC V1.0数据集以其多维标注的独特设计脱颖而出。数据集不仅提供了语法层面的纠偏标注,还包含了流利标注,能够全面反映汉语学习者在语法与表达习惯上的偏误。每条数据均包含原始句子及其多种纠偏与流利标注结果,标注信息详细记录了修改操作的数量及标注员的数量。训练集、验证集和测试集的规模分别为8,000条、1,000条和1,000条,数据格式清晰,便于研究者直接使用。测试集数据未包含标注者信息,确保了评测的公平性。
使用方法
YACLC V1.0数据集的使用方法简洁明了,适用于多种自然语言处理任务。研究者可通过邮件联系数据研发团队获取训练集数据,数据仅限学术研究使用。评测时,需提交一个文本文件,每行为一个修改后的句子,并与测试集中的数据逐条对应。修改结果需使用THULAC工具包进行分词处理。评测脚本`eval.py`将提交结果与标准答案文件`test_gold_m2`进行比较,输出F_0.5指标,包括精确率、召回率和F_0.5值。该数据集为语法纠错、文本校对等任务提供了高质量的数据支持,同时也为汉语二语教学与习得研究提供了丰富的语料资源。
背景与挑战
背景概述
汉语学习者文本多维标注数据集YACLC V1.0由北京语言大学、清华大学、北京师范大学等高校联合发布,主要研究人员包括杨麟儿、杨尔弘、孙茂松等。该数据集于2021年发布,旨在为汉语学习者文本提供多维度的标注,涵盖语法纠错和流利性修正两个主要维度。通过众包策略,百余位语言学及应用语言学背景的研究生参与了标注工作,每个句子由10位标注员进行标注,确保了数据的多样性和准确性。该数据集不仅为自然语言处理任务如语法纠错和文本校对提供了重要支持,还为汉语二语教学与习得、语料库语言学等领域的研究提供了丰富的数据资源。
当前挑战
YACLC数据集在构建过程中面临多重挑战。首先,汉语学习者文本的多样性和复杂性使得标注工作极具挑战性,标注员需要在保持原意的基础上进行最小化修改,同时确保修改后的句子符合汉语语法规范和母语者的表达习惯。其次,众包标注策略虽然提高了数据的多样性,但也带来了标注一致性问题和质量控制难题。此外,数据集的规模较大,标注信息的多维性增加了数据处理和存储的复杂性。在应用层面,如何有效利用多维标注信息进行模型训练和评估,尤其是在语法纠错和流利性修正任务中,仍是一个亟待解决的问题。
常用场景
经典使用场景
汉语学习者文本多维标注数据集YACLC V1.0在自然语言处理领域中被广泛应用于语法纠错和文本校对任务。通过对学习者文本的多维标注,该数据集为研究者提供了丰富的语言偏误数据,帮助开发更精准的语法纠错模型。特别是在汉语作为第二语言的教学与习得研究中,YACLC为分析学习者的语言使用习惯和常见错误提供了宝贵的数据支持。
实际应用
在实际应用中,YACLC数据集被广泛用于开发智能写作辅助工具和在线汉语学习平台。通过基于该数据集的语法纠错模型,学习者能够获得实时的语言错误反馈,提升写作能力。同时,该数据集也为汉语教师的教材编写和教学策略优化提供了数据支持,促进了汉语教学的个性化和精准化。
衍生相关工作
YACLC数据集催生了一系列与汉语语法纠错和文本流利性改进相关的研究工作。例如,基于该数据集的语法纠错模型在多个自然语言处理评测任务中取得了显著成果。此外,该数据集还推动了汉语学习者语料库的构建与分析研究,为语料库语言学领域提供了新的研究方向和数据资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

frames-benchmark

FRAMES数据集是一个综合评估数据集,旨在测试检索增强生成(RAG)系统在事实性、检索准确性和推理方面的能力。该数据集包含824个具有挑战性的多跳问题,这些问题需要从2到15篇维基百科文章中获取信息。问题涵盖了历史、体育、科学、动物、健康等多个主题,并且每个问题都标有推理类型,如数值、表格、多重约束、时间性和后处理。数据集还提供了每个问题的黄金答案和相关的维基百科文章。FRAMES数据集的主要特点包括测试端到端的RAG能力、需要整合来自多个来源的信息、包含复杂的推理和时间性消歧,并设计为对最先进的语言模型具有挑战性。该数据集可用于评估RAG系统性能、基准测试语言模型的事实性和推理能力,以及开发和测试多跳检索策略。

huggingface 收录

Apple Stock Price Data

Historical stock price data for AAPL (apple)

kaggle 收录