CMRC 2017
收藏arXiv2018-03-15 更新2024-06-21 收录
下载链接:
https://github.com/ymcui/cmrc2017
下载链接
链接失效反馈官方服务:
资源简介:
CMRC 2017是由科大讯飞研究院与哈尔滨工业大学联合实验室创建的中文阅读理解数据集,旨在推动中文机器阅读理解研究。该数据集包含两种类型:填空式阅读理解和用户查询阅读理解,涵盖大规模训练数据及人工标注的验证和测试集。数据集内容主要来源于儿童阅读材料,通过自动生成和人工标注相结合的方式创建,适用于机器阅读理解模型的训练与评估,特别是针对中文语言的处理能力提升。
CMRC 2017 is a Chinese machine reading comprehension dataset developed by the joint laboratory of iFLYTEK Research and Harbin Institute of Technology, aiming to advance research in Chinese machine reading comprehension. This dataset covers two types: cloze-style reading comprehension and user query-based reading comprehension, and includes large-scale training data as well as manually annotated validation and test sets. The content of the dataset is mainly derived from children's reading materials, and it is constructed through a combination of automatic generation and manual annotation. It is suitable for training and evaluating machine reading comprehension models, especially for improving the Chinese language processing capabilities of such models.
提供机构:
科大讯飞研究院与哈尔滨工业大学联合实验室
创建时间:
2017-09-25
搜集汇总
数据集介绍

构建方式
CMRC 2017数据集的构建主要分为自动生成和人工标注两部分。首先,从儿童阅读材料中收集约20,000篇段落,通过词性标注和依存解析等预处理步骤,自动生成大规模的训练数据。其次,通过人工标注的方式构建验证集和测试集,确保数据的质量和多样性。
特点
该数据集的特点在于:1)包含大规模自动生成的训练数据;2)验证集和测试集由人工标注,保证了问题的质量和难度;3)数据集分为两种类型,一种是填空式阅读理解,另一种是用户查询式阅读理解,增加了数据集的多样性。
使用方法
使用该数据集时,首先可以利用大规模的训练数据进行模型的训练。在模型训练完成后,通过验证集和测试集对模型进行评估,以检验模型的性能。对于用户查询式阅读理解任务,可能需要采用迁移学习或领域适应的方法来缩小训练数据与测试数据之间的差异。
背景与挑战
背景概述
CMRC 2017数据集是一项针对中文机器阅读理解的任务,由哈尔滨工业大学和社会计算与信息检索研究中心、北京 iFLYTEK 研究院联合实验室共同创建。该数据集旨在推动中文机器阅读理解领域的研究,包含大规模自动生成的训练集和人工标注的验证集、测试集。CMRC 2017数据集的发布伴随着第一次中文机器阅读理解评测大赛,吸引了众多研究者和机构的参与,显示出该数据集在相关领域的潜在影响力。
当前挑战
该数据集面临的挑战主要包括:1) 所解决的领域问题是中文机器阅读理解,特别是闭卷式阅读理解的挑战;2) 构建过程中遇到的挑战,如数据自动生成中的错误处理、人工标注的质量控制等。在闭卷式阅读理解任务中,数据集需要解决如何准确填空的问题;而在用户查询阅读理解任务中,则需要解决训练数据与测试数据之间的领域适应性挑战。
常用场景
经典使用场景
CMRC 2017数据集被广泛应用于中文机器阅读理解的评价,特别是在中文自然语言处理领域。该数据集包含了大规模自动生成的训练集和人工标注的验证集、测试集,能够为研究者提供丰富的资源,以推动中文阅读理解技术的发展。
实际应用
在实际应用中,CMRC 2017数据集可以用于训练和评估中文问答系统,提高机器对中文文本的理解能力,进而应用于智能客服、信息检索、自动摘要等领域,提升相关系统的性能和用户体验。
衍生相关工作
CMRC 2017数据集的发布催生了一系列相关研究工作,包括但不限于基于该数据集的阅读理解模型改进、跨领域迁移学习、以及结合深度学习技术的文本理解方法研究,进一步推动了中文自然语言处理领域的发展。
以上内容由遇见数据集搜集并总结生成



