汉语学习者文本多维标注数据集YACLC V1.0|自然语言处理数据集|汉语学习数据集
收藏数据集概述
数据集名称
汉语学习者文本多维标注数据集(Yet Another Chinese Learner Corpus,YACLC)V1.0
数据集描述
YACLC是一个大规模的汉语学习者文本数据集,提供偏误多维标注。数据集由多所高校团队共同发布,主要用于语法纠错、文本校对等自然语言处理任务,以及汉语二语教学与习得、语料库语言学等研究领域。
数据集构成
- 训练集:8,000条数据,每条包括原始句子及其多种纠偏标注与流利标注。
- 验证集:1,000条数据,每条包括原始句子及其全部纠偏标注与流利标注。
- 测试集:1,000条数据,每条包括原始句子及其全部纠偏标注与流利标注。
数据格式
每条数据包含以下信息:
- 句子id
- 学习者原句文本
- 篇章id
- 篇章标题
- 标注员数量
- 多维标注信息(包括标注维度、标注后的正确文本、修改操作数量、提供该标注的标注员数量)
数据集使用
- 提交结果需为文本文件,每行为一个修改后的句子,使用THULAC工具包分词。
- 评测指标为F_0.5,通过
eval.py
脚本与标准答案文件test_gold_m2
比较。
数据集获取
获取训练集数据,请联系数据研发团队(blcuicall@163.com)。数据资源仅限学术研究使用,商用需购买。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
frames-benchmark
FRAMES数据集是一个综合评估数据集,旨在测试检索增强生成(RAG)系统在事实性、检索准确性和推理方面的能力。该数据集包含824个具有挑战性的多跳问题,这些问题需要从2到15篇维基百科文章中获取信息。问题涵盖了历史、体育、科学、动物、健康等多个主题,并且每个问题都标有推理类型,如数值、表格、多重约束、时间性和后处理。数据集还提供了每个问题的黄金答案和相关的维基百科文章。FRAMES数据集的主要特点包括测试端到端的RAG能力、需要整合来自多个来源的信息、包含复杂的推理和时间性消歧,并设计为对最先进的语言模型具有挑战性。该数据集可用于评估RAG系统性能、基准测试语言模型的事实性和推理能力,以及开发和测试多跳检索策略。
huggingface 收录
Apple Stock Price Data
Historical stock price data for AAPL (apple)
kaggle 收录