Chinese Reading Comprehension Datasets

github2024-03-09 更新2024-05-31 收录

下载链接：

https://github.com/ymcui/Chinese-RC-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这里列出了几个公开的中文阅读理解数据集，包括数据集的类型、查询类型、答案类型、文档数量、查询数量等详细信息。

This section enumerates several publicly available Chinese reading comprehension datasets, detailing aspects such as dataset type, query type, answer type, number of documents, and number of queries.

创建时间：

2019-03-26

原始信息汇总

数据集概述

数据集名称

Chinese Machine Reading Comprehension Datasets

数据集内容

Chinese Reading Comprehension Datasets
- 描述公开的中文阅读理解数据集。
- 包含多个数据集，如People Daily & Childrens Fairy Tale, WebQA, CMRC 2017, DuReader, CMRC 2018, DRCD, C^3, CMRC 2019, ChID等。

数据集详情

数据集	类型	查询类型	答案类型	文档数量	查询数量	下载链接
People Daily & Childrens Fairy Tale	news & tale	Cloze	word	28K	100K	链接
WebQA	Web	User log	entity	-	42K	链接
CMRC 2017	news	Cloze & Query	word	-	364K	链接
DuReader	Web	User log	free form	1M	200K	链接
CMRC 2018	Wiki	Query	Span	-	18K	链接
DRCD	Wiki	Query	Span	-	34K	链接
C^3	mixed	Query	choice	14K	24K	链接
CMRC 2019	Story	cloze	Sentence	1K	100K	链接
ChID	varies	cloze	idiom	580K	729K	链接

评估与竞赛

多个中文阅读理解评估研讨会或竞赛，如CMRC 2017, CMRC 2018, 2018 NLP Challenge on Machine Reading Comprehension, CIPS-SOGOU QA Competition, CMRC 2019, 2019 NLP Language and Intelligence Challenge, Chinese Idiom Understanding Contest等。

联系方式

问题反馈：通过Github Issues留言。

搜集汇总

数据集介绍

构建方式

Chinese Reading Comprehension Datasets的构建过程基于多种公开可用的中文阅读理解数据集，涵盖了新闻、童话、网络日志、维基百科等多种文本类型。每个数据集均通过技术报告或学术论文详细描述其构建方法，确保数据的透明性和可重复性。例如，People Daily & Children's Fairy Tale数据集通过从新闻和童话中提取文本，生成填空式问题；WebQA数据集则基于用户日志构建，旨在回答实体类问题。这些数据集的构建均遵循严格的学术标准，确保其适用于机器阅读理解任务的研究与评估。

特点

该数据集的特点在于其多样性和广泛性，涵盖了从新闻、童话到网络日志、维基百科等多种文本类型，且问题形式多样，包括填空式、用户查询式、自由回答式等。每个数据集均提供了详细的文档数量和问题数量，便于研究者根据需求选择合适的数据集。此外，部分数据集还提供了繁体中文版本，如DRCD数据集，进一步扩展了其应用范围。这些数据集不仅规模庞大，且均经过严格的学术验证，确保了其高质量和可靠性。

使用方法

Chinese Reading Comprehension Datasets的使用方法灵活多样，研究者可根据具体任务需求选择合适的数据集进行实验。每个数据集均提供了下载链接，便于快速获取数据。在使用过程中，建议研究者首先阅读相关的技术报告或学术论文，了解数据集的构建细节和适用场景。此外，该数据集还提供了多个先进系统的性能对比，研究者可参考这些结果进行模型优化与评估。对于特定任务，如填空式阅读理解或自由回答式阅读理解，可选择相应的数据集进行训练与测试，以提升模型的性能与泛化能力。

背景与挑战

背景概述

Chinese Reading Comprehension Datasets 是一系列专注于中文机器阅读理解任务的数据集集合，涵盖了多种文本类型和问答形式。这些数据集由多位研究人员和机构共同创建，最早可追溯至2016年，主要贡献者包括Cui等人。其核心研究问题在于提升中文自然语言处理中的阅读理解能力，特别是在问答系统、信息检索和文本理解等领域的应用。这些数据集通过提供多样化的文本来源和问答形式，推动了中文机器阅读理解技术的发展，并在学术界和工业界产生了广泛影响。

当前挑战

Chinese Reading Comprehension Datasets 面临的挑战主要体现在两个方面。首先，中文语言的特殊性，如复杂的语法结构、丰富的词汇多样性以及多义词的广泛存在，使得机器在理解文本时面临较大困难。其次，数据集的构建过程中，如何确保数据的多样性和代表性是一大难题。例如，不同数据集的文本来源和问答形式差异较大，如何统一标注标准并保证数据质量成为关键问题。此外，随着深度学习模型的快速发展，如何设计更具挑战性的任务以评估模型的真实理解能力，也是当前研究的重要方向。

常用场景

经典使用场景

在自然语言处理领域，Chinese Reading Comprehension Datasets 被广泛用于训练和评估中文阅读理解模型。这些数据集涵盖了新闻、童话、网络问答等多种文本类型，通过填空、实体识别、自由回答等多种任务形式，帮助研究者深入理解中文文本的语义和结构。

衍生相关工作

基于 Chinese Reading Comprehension Datasets，研究者提出了多种先进的阅读理解模型，如 SAW Reader、CAW Reader 和 BERT_CN。这些模型在多个公开评测中取得了优异的成绩，进一步推动了中文阅读理解领域的研究进展。

数据集最近研究