Chinese Reading Comprehension Datasets
收藏github2024-03-09 更新2024-05-31 收录
下载链接:
https://github.com/ymcui/Chinese-RC-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
这里列出了几个公开的中文阅读理解数据集,包括数据集的类型、查询类型、答案类型、文档数量、查询数量等详细信息。
This section enumerates several publicly available Chinese reading comprehension datasets, detailing aspects such as dataset type, query type, answer type, number of documents, and number of queries.
创建时间:
2019-03-26
原始信息汇总
数据集概述
数据集名称
- Chinese Machine Reading Comprehension Datasets
数据集内容
- Chinese Reading Comprehension Datasets
- 描述公开的中文阅读理解数据集。
- 包含多个数据集,如People Daily & Childrens Fairy Tale, WebQA, CMRC 2017, DuReader, CMRC 2018, DRCD, C^3, CMRC 2019, ChID等。
数据集详情
| 数据集 | 类型 | 查询类型 | 答案类型 | 文档数量 | 查询数量 | 下载链接 |
|---|---|---|---|---|---|---|
| People Daily & Childrens Fairy Tale | news & tale | Cloze | word | 28K | 100K | 链接 |
| WebQA | Web | User log | entity | - | 42K | 链接 |
| CMRC 2017 | news | Cloze & Query | word | - | 364K | 链接 |
| DuReader | Web | User log | free form | 1M | 200K | 链接 |
| CMRC 2018 | Wiki | Query | Span | - | 18K | 链接 |
| DRCD | Wiki | Query | Span | - | 34K | 链接 |
| C^3 | mixed | Query | choice | 14K | 24K | 链接 |
| CMRC 2019 | Story | cloze | Sentence | 1K | 100K | 链接 |
| ChID | varies | cloze | idiom | 580K | 729K | 链接 |
评估与竞赛
- 多个中文阅读理解评估研讨会或竞赛,如CMRC 2017, CMRC 2018, 2018 NLP Challenge on Machine Reading Comprehension, CIPS-SOGOU QA Competition, CMRC 2019, 2019 NLP Language and Intelligence Challenge, Chinese Idiom Understanding Contest等。
联系方式
- 问题反馈:通过Github Issues留言。
搜集汇总
数据集介绍

构建方式
Chinese Reading Comprehension Datasets的构建过程基于多种公开可用的中文阅读理解数据集,涵盖了新闻、童话、网络日志、维基百科等多种文本类型。每个数据集均通过技术报告或学术论文详细描述其构建方法,确保数据的透明性和可重复性。例如,People Daily & Children's Fairy Tale数据集通过从新闻和童话中提取文本,生成填空式问题;WebQA数据集则基于用户日志构建,旨在回答实体类问题。这些数据集的构建均遵循严格的学术标准,确保其适用于机器阅读理解任务的研究与评估。
特点
该数据集的特点在于其多样性和广泛性,涵盖了从新闻、童话到网络日志、维基百科等多种文本类型,且问题形式多样,包括填空式、用户查询式、自由回答式等。每个数据集均提供了详细的文档数量和问题数量,便于研究者根据需求选择合适的数据集。此外,部分数据集还提供了繁体中文版本,如DRCD数据集,进一步扩展了其应用范围。这些数据集不仅规模庞大,且均经过严格的学术验证,确保了其高质量和可靠性。
使用方法
Chinese Reading Comprehension Datasets的使用方法灵活多样,研究者可根据具体任务需求选择合适的数据集进行实验。每个数据集均提供了下载链接,便于快速获取数据。在使用过程中,建议研究者首先阅读相关的技术报告或学术论文,了解数据集的构建细节和适用场景。此外,该数据集还提供了多个先进系统的性能对比,研究者可参考这些结果进行模型优化与评估。对于特定任务,如填空式阅读理解或自由回答式阅读理解,可选择相应的数据集进行训练与测试,以提升模型的性能与泛化能力。
背景与挑战
背景概述
Chinese Reading Comprehension Datasets 是一系列专注于中文机器阅读理解任务的数据集集合,涵盖了多种文本类型和问答形式。这些数据集由多位研究人员和机构共同创建,最早可追溯至2016年,主要贡献者包括Cui等人。其核心研究问题在于提升中文自然语言处理中的阅读理解能力,特别是在问答系统、信息检索和文本理解等领域的应用。这些数据集通过提供多样化的文本来源和问答形式,推动了中文机器阅读理解技术的发展,并在学术界和工业界产生了广泛影响。
当前挑战
Chinese Reading Comprehension Datasets 面临的挑战主要体现在两个方面。首先,中文语言的特殊性,如复杂的语法结构、丰富的词汇多样性以及多义词的广泛存在,使得机器在理解文本时面临较大困难。其次,数据集的构建过程中,如何确保数据的多样性和代表性是一大难题。例如,不同数据集的文本来源和问答形式差异较大,如何统一标注标准并保证数据质量成为关键问题。此外,随着深度学习模型的快速发展,如何设计更具挑战性的任务以评估模型的真实理解能力,也是当前研究的重要方向。
常用场景
经典使用场景
在自然语言处理领域,Chinese Reading Comprehension Datasets 被广泛用于训练和评估中文阅读理解模型。这些数据集涵盖了新闻、童话、网络问答等多种文本类型,通过填空、实体识别、自由回答等多种任务形式,帮助研究者深入理解中文文本的语义和结构。
衍生相关工作
基于 Chinese Reading Comprehension Datasets,研究者提出了多种先进的阅读理解模型,如 SAW Reader、CAW Reader 和 BERT_CN。这些模型在多个公开评测中取得了优异的成绩,进一步推动了中文阅读理解领域的研究进展。
数据集最近研究
最新研究方向
在自然语言处理领域,中文阅读理解数据集的研究正逐步深入,特别是在机器阅读理解(MRC)技术的应用与优化方面。近年来,随着深度学习技术的快速发展,基于Transformer架构的预训练模型如BERT、ERNIE等在中文阅读理解任务中展现出显著优势。研究者们不仅关注模型的性能提升,还致力于解决数据集的多样性和复杂性挑战。例如,DuReader和CMRC系列数据集因其大规模和真实场景的应用背景,成为评估模型泛化能力的重要基准。此外,针对特定任务如成语填空(ChID)和开放域问答(WebQA)的专用数据集,也在推动相关技术的创新。这些研究不仅提升了中文自然语言处理的技术水平,还为智能问答系统、教育技术等实际应用提供了有力支持。
以上内容由遇见数据集搜集并总结生成



