Native Chinese Reader (NCR)
收藏arXiv2021-12-14 更新2024-06-21 收录
下载链接:
https://sites.google.com/view/native-chinese-reader/
下载链接
链接失效反馈官方服务:
资源简介:
Native Chinese Reader (NCR) 是一个专为机器阅读理解设计的数据集,包含8390个文档,平均长度为1024字,涵盖现代和古典中文多种文体。该数据集源自中国高中语文课程的考试题目,旨在评估母语为中文的青少年的语言能力。与现有中文MRC数据集相比,NCR不仅文档长度更长,问题也更具有挑战性,需要较强的推理能力和常识知识来解答。NCR的应用领域主要集中在提升中文自然语言理解能力,特别是在古典文学和诗歌的理解上,旨在缩小当前MRC模型与母语使用者之间的性能差距。
Native Chinese Reader (NCR) is a machine reading comprehension (MRC) dataset consisting of 8,390 documents, with an average length of 1,024 Chinese characters, covering various literary styles of both modern and classical Chinese. Derived from Chinese high school Chinese language curriculum exam questions, this dataset is designed to evaluate the language proficiency of adolescent native Chinese speakers. Compared with existing Chinese MRC datasets, NCR not only features longer documents but also poses more challenging questions that require robust reasoning abilities and commonsense knowledge to solve. The main application domains of NCR focus on enhancing Chinese natural language understanding capabilities, particularly for the comprehension of classical Chinese literature and poetry, with the aim of narrowing the performance gap between current MRC models and native Chinese speakers.
提供机构:
清华大学
创建时间:
2021-12-13
搜集汇总
数据集介绍

构建方式
Native Chinese Reader (NCR) 数据集的构建基于中国高中中文课程的考试题,旨在评估母语为中文的青少年的语言能力。数据集收集了8390篇文档,平均长度为1024个字符,涵盖现代文章、古典文学和古典诗歌等多种中文写作风格。文档来源于在线开放的高中教育资源,经过数据清洗后,随机分为训练集、验证集和测试集。为了确保测试集中的问题新颖且未曾在线上出现,还邀请了高中语文教师手动生成了193个问题,用于扩充测试集。最终,NCR 数据集由 6315 篇文档和 15419 个问题组成训练集,1000 篇文档和 2443 个问题组成验证集,以及 1073 篇文档和 2615 个问题组成测试集。
特点
NCR 数据集具有以下特点:1)文档长度长,平均长度为 1024 个字符,远超现有中文 MRC 数据集;2)问题难度大,需要较强的推理能力和常识才能正确回答;3)涵盖现代和古典中文写作风格,包括古典文学和古典诗歌;4)问题类型丰富,包括匹配、语义、摘要、推理和情感等。
使用方法
使用 NCR 数据集的方法包括:1)进行模型训练和评估,以评估模型的阅读理解能力;2)进行数据增强,以提高模型的泛化能力;3)参与在线竞赛,以检验当前 MRC 方法的极限。使用 NCR 数据集时,需要注意文档的写作风格、长度和问题类型,以及模型的结构和训练参数。
背景与挑战
背景概述
在自然语言理解领域中,机器阅读理解(MRC)是一个重要的基础任务,它要求机器阅读文档并根据上下文正确回答问题。尽管在英语MRC领域已经取得了显著进展,但中文MRC领域的研究同样不容忽视。现有的中文MRC数据集要么是特定领域的,要么只关注现代汉语中的短文本。为了克服这些限制,清华大学、纽约大学、深圳大学、北京大学等机构的研究人员共同开发了Native Chinese Reader (NCR)数据集,旨在构建具有母语水平的中文阅读理解系统。该数据集收集自中国高中中文课程的考试题目,旨在评估母语为中文的青少年的语言能力。NCR包含8390篇文档,平均长度为1024个字符,涵盖了广泛的中文写作风格,包括现代文章、古典文学和古典诗歌。这些文档上的20477个问题要求强大的推理能力和常识来找出正确答案。研究人员使用流行的中文预训练模型实现了多个基线模型,并启动了一个在线竞赛来检验当前方法的极限。最好的模型达到59%的测试准确率,而人类评估的平均准确率为79%,这表明当前MRC模型与母语中文说话者之间存在显著的性能差距。NCR数据集的发布为中文自然语言理解的研究提供了重要的资源。
当前挑战
NCR数据集面临的挑战主要包括:1) 阅读材料长度短。现有的中文MRC数据集大多只包含几百个字符的短文本,而NCR包含的文档平均长度为1024个字符,这对模型的理解能力提出了更高的要求。2) 问题难度不足。大多数现有数据集的问题要么是提取式的,要么是特定领域的(例如,专注于成语或简单事实)。NCR中的问题则需要更强的推理能力和常识知识。3) 缺乏对古典中文文档的阅读理解。NCR是第一个包含古典文学和诗歌的中文MRC数据集,这对模型的阅读理解能力提出了更高的要求。4) 模型性能与人类水平存在差距。尽管NCR数据集的发布推动了中文MRC模型的发展,但最好的模型在测试集上的准确率仍然远低于人类的平均水平。这表明当前MRC模型在理解中文文本的深层含义和推理方面仍存在较大的提升空间。
常用场景
经典使用场景
数据集经典使用场景描述
实际应用
数据集实际应用情况描述
衍生相关工作
数据集衍生相关工作描述
以上内容由遇见数据集搜集并总结生成



