Chinese Reading Comprehension Datasets

github2020-09-23 更新2024-05-31 收录

下载链接：

https://github.com/neng245547874/Chinese-RC-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库收集了多个公开的中文阅读理解数据集，包括新闻、童话、网络数据等多种类型，用于训练和评估中文机器阅读理解模型。

This repository compiles a variety of publicly available Chinese reading comprehension datasets, encompassing diverse types such as news articles, fairy tales, and web data, aimed at training and evaluating Chinese machine reading comprehension models.

创建时间：

2019-09-12

原始信息汇总

数据集概述

数据集内容

部分	描述
Chinese Reading Comprehension Datasets	描述公开的中文阅读理解数据集
State-of-the-art Systems	列出针对这些数据集的顶尖系统（已发表/未发表）
Chinese Reading Comprehension Evaluations and Competitions	介绍中文阅读理解竞赛

Chinese Reading Comprehension Datasets

数据集	类型	查询类型	答案类型	文档数量	查询数量	下载链接
People Daily & Childrens Fairy Tale [1]	新闻 & 童话	填空	单词	28K	100K	link
WebQA [2]	网络	用户日志	实体	-	42K	link
CMRC 2017 [3]	新闻	填空 & 查询	单词	-	364K	link
DuReader [4]	网络	用户日志	自由形式	1M	200K	link
CMRC 2018 [5]	维基	查询	跨度	-	18K	link
DRCD [6]<sup>(繁体中文)</sup>	维基	查询	跨度	-	34K	link
C^3 [7]	混合	查询	选择	14K	24K	link
CMRC 2019 [8]	故事	填空	句子	1K	100K	link
ChID [9]	多变	填空	成语	580K	729K	link

State-of-the-art Systems

People Daily & Childrens Fairy Tale

系统	PD-DEV	PD-TEST	CFT-TEST-AUTO	CFT-TEST-HUMAN	备注
SAW Reader (Zhang et al., 2018)	72.8	75.1	-	43.8	-
CAW Reader (Zhang et al., 2018)	69.4	70.5	-	39.7	-
CAS Reader (Cui et al., 2016)	65.2	68.1	41.3	35.0	-
AS Reader (Cui et al., 2016)	64.1	67.2	40.9	33.1	-

CMRC 2017

Cloze Track

系统	DEV	TEST	备注
6ESTATES PTE LTD (ensemble)	81.85	81.90	-
SJTU BCMI-NLP (ensemble)	78.35	80.67	-
YunSiChuangZhi (ensemble)	79.20	80.27	-
SAW Reader (Zhang et al., 2018)	78.95	78.80	-
CAW Reader (Zhang et al., 2018)	77.95	78.50	-
Word + Char + BPE-FRQ (Zhang et al., 2018)	79.05	78.83	-

User Query Track

系统	DEV	TEST	备注
ECNU (ensemble)	90.45	69.53	-
SXU-3 (single model)	47.80	49.07	-
ZZU (single model)	31.10	32.53	-

DuReader

系统	ROUGE-L	BLEU-4	备注
AliReader	63.48	61.54	-
NI-Reader (ensemble)	63.38	59.23	-
mrc_try_mingyan (single model)	62.20	59.72	-
Yan et al., 2018	50.71	49.39	-
Li et al., 2018	44.95	42.68	-
Wang et al., 2018	44.18	40.97	-
Xu et al., 2018	39.60	34.76	-
Match-LSTM (He et al., 2018)	39.2	31.9	-
BiDAF (He et al., 2018)	39.0	31.8	-

CMRC 2018

系统	DEV-EM	DEV-F1	TEST-EM	TEST-F1	CHALLENGE-EM	CHALLENGE-F1	备注
P-Reader (single model)	59.894	81.499	65.189	84.386	15.079	39.583	-
GM-Reader (ensemble)	58.931	80.069	64.045	83.046	15.675	37.315	-
MCA-Reader (ensemble)	66.698	85.538	71.175	88.090	15.476	37.104	-
Z-Reader (single model)	79.776	92.696	74.178	88.145	13.889	37.422	-
SRC->DS(±) (Yang et al., 2019)	49.2	65.4	-	-	-	-	-

DRCD

系统	DEV-EM	DEV-F1	TEST-EM	TEST-EM	备注
SRC + DS(±) (Yang et al., 2019)	55.4	67.7	-	-	-
r-net (single model)	-	-	29.1	44.4	-

C^3

系统	DEV-1A	TEST-1A	DEV-1B	TEST-1B	DEV-2A	TEST-2A	DEV-2B	TEST-2B	备注
BERT_CN (Sun et al., 2019)	63.0	62.6	62.3	62.1	36.7	26.2	34.7	31.3	-

Chinese Reading Comprehension Evaluations and Competitions

The First Evaluation Workshop on Chinese Machine Reading Comprehension (CMRC 2017)
主办：CIPS-CL, Joint Laboratory of HIT and iFLYTEK Research (HFL), iFLYTEK Co. Ltd
竞赛类型：填空式RC, 用户查询RC
The Second Evaluation Workshop on Chinese Machine Reading Comprehension (CMRC 2018)
主办：CIPS-CL, Joint Laboratory of HIT and iFLYTEK Research (HFL), iFLYTEK Co. Ltd
竞赛类型：跨度提取RC
2018 NLP Challenge on Machine Reading Comprehension
主办：CCF, CIPSC, Baidu Inc.
竞赛类型：开放领域RC
CIPS-SOGOU QA Competition
主办：CIPSC, SOGOU
竞赛类型：事实QA, 非事实QA
The Third Evaluation Workshop on Chinese Machine Reading Comprehension (CMRC 2019)
主办：CIPS-CL, Joint Laboratory of HIT and iFLYTEK Research (HFL), iFLYTEK Co. Ltd
竞赛类型：句子填空
2019 NLP Language and Intelligence Challenge
主办：CCF, CIPSC, Baidu Inc.
竞赛类型：开放领域RC
Chinese Idiom Understanding Contest
主办：CCF, Tsinghua University
竞赛类型：填空测试

搜集汇总

数据集介绍

构建方式

Chinese Reading Comprehension Datasets的构建基于多种公开可用的中文阅读理解数据集，涵盖了新闻、童话、网络日志、维基百科等多种文本类型。这些数据集通过技术报告或学术论文的形式公开发布，确保了数据的透明性和可验证性。每个数据集都经过精心设计，包含了不同类型的查询和答案形式，如填空、实体识别、自由形式回答等，以满足不同研究需求。数据集的构建过程严格遵循学术规范，确保了数据的多样性和代表性。

使用方法

使用Chinese Reading Comprehension Datasets时，研究者可以通过GitHub提供的链接下载各个数据集。每个数据集都附有详细的技术报告或论文，帮助用户理解其构建背景和应用场景。研究者可以根据具体的研究需求选择合适的数据集，并利用其提供的查询和答案形式进行实验。此外，数据集的公开性使得研究者可以轻松复现和验证已有的研究成果，进一步推动中文阅读理解领域的发展。

背景与挑战

背景概述

Chinese Reading Comprehension Datasets（中文阅读理解数据集）是一系列旨在推动中文自然语言处理领域发展的公开数据集。这些数据集由多个研究团队和机构共同创建，最早可追溯至2016年，主要研究人员包括Cui等人。这些数据集的核心研究问题在于如何通过机器阅读理解技术提升中文文本的理解能力，涵盖新闻、童话、网络文本等多种文体。这些数据集的发布不仅推动了中文阅读理解模型的发展，还为相关领域的学术研究和工业应用提供了重要的数据支持。

当前挑战

中文阅读理解数据集在构建和应用过程中面临多重挑战。首先，中文语言的复杂性和多样性使得模型在理解上下文和语义时面临较大困难，尤其是在处理成语、多义词和长文本时。其次，数据集的构建需要大量高质量的中文语料，而获取和标注这些数据的过程耗时且成本高昂。此外，不同数据集之间的格式和标注标准不一致，导致模型在跨数据集迁移时表现不佳。最后，尽管已有多个先进模型在这些数据集上取得了显著成果，但在处理开放域问题和复杂推理任务时，模型的性能仍有待进一步提升。

常用场景

经典使用场景

在自然语言处理领域，Chinese Reading Comprehension Datasets 被广泛用于训练和评估中文阅读理解模型。这些数据集涵盖了新闻、童话、网络问答等多种文本类型，通过填空、查询和自由形式的问题，模型能够学习如何从文本中提取关键信息并生成准确的回答。这种多样化的数据集设计使得模型能够在不同语境下进行测试，从而提升其泛化能力。

解决学术问题

该数据集解决了中文阅读理解模型在复杂语境下的表现问题。通过提供大量真实世界中的文本和问题，研究者能够深入分析模型在处理不同文本类型时的表现，尤其是在处理多义词、长句和复杂逻辑关系时的能力。这些数据集的出现为中文自然语言处理领域提供了标准化的评估基准，推动了该领域的技术进步。

实际应用

在实际应用中，Chinese Reading Comprehension Datasets 被用于开发智能问答系统、教育辅助工具以及信息检索系统。例如，基于这些数据集训练的模型可以应用于在线教育平台，帮助学生通过阅读理解练习提升语言能力。此外，智能客服系统也可以利用这些数据集来提升对用户问题的理解和回答准确性。

数据集最近研究