five

Chinese Reading Comprehension Datasets

收藏
github2020-09-23 更新2024-05-31 收录
下载链接:
https://github.com/neng245547874/Chinese-RC-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库收集了多个公开的中文阅读理解数据集,包括新闻、童话、网络数据等多种类型,用于训练和评估中文机器阅读理解模型。

This repository compiles a variety of publicly available Chinese reading comprehension datasets, encompassing diverse types such as news articles, fairy tales, and web data, aimed at training and evaluating Chinese machine reading comprehension models.
创建时间:
2019-09-12
原始信息汇总

数据集概述

数据集内容

部分 描述
Chinese Reading Comprehension Datasets 描述公开的中文阅读理解数据集
State-of-the-art Systems 列出针对这些数据集的顶尖系统(已发表/未发表)
Chinese Reading Comprehension Evaluations and Competitions 介绍中文阅读理解竞赛

Chinese Reading Comprehension Datasets

数据集 类型 查询类型 答案类型 文档数量 查询数量 下载链接
People Daily & Childrens Fairy Tale [1] 新闻 & 童话 填空 单词 28K 100K link
WebQA [2] 网络 用户日志 实体 - 42K link
CMRC 2017 [3] 新闻 填空 & 查询 单词 - 364K link
DuReader [4] 网络 用户日志 自由形式 1M 200K link
CMRC 2018 [5] 维基 查询 跨度 - 18K link
DRCD [6]<sup>(繁体中文)</sup> 维基 查询 跨度 - 34K link
C^3 [7] 混合 查询 选择 14K 24K link
CMRC 2019 [8] 故事 填空 句子 1K 100K link
ChID [9] 多变 填空 成语 580K 729K link

State-of-the-art Systems

People Daily & Childrens Fairy Tale
系统 PD-DEV PD-TEST CFT-TEST-AUTO CFT-TEST-HUMAN 备注
SAW Reader (Zhang et al., 2018) 72.8 75.1 - 43.8 -
CAW Reader (Zhang et al., 2018) 69.4 70.5 - 39.7 -
CAS Reader (Cui et al., 2016) 65.2 68.1 41.3 35.0 -
AS Reader (Cui et al., 2016) 64.1 67.2 40.9 33.1 -
CMRC 2017
Cloze Track
系统 DEV TEST 备注
6ESTATES PTE LTD (ensemble) 81.85 81.90 -
SJTU BCMI-NLP (ensemble) 78.35 80.67 -
YunSiChuangZhi (ensemble) 79.20 80.27 -
SAW Reader (Zhang et al., 2018) 78.95 78.80 -
CAW Reader (Zhang et al., 2018) 77.95 78.50 -
Word + Char + BPE-FRQ (Zhang et al., 2018) 79.05 78.83 -
User Query Track
系统 DEV TEST 备注
ECNU (ensemble) 90.45 69.53 -
SXU-3 (single model) 47.80 49.07 -
ZZU (single model) 31.10 32.53 -
DuReader
系统 ROUGE-L BLEU-4 备注
AliReader 63.48 61.54 -
NI-Reader (ensemble) 63.38 59.23 -
mrc_try_mingyan (single model) 62.20 59.72 -
Yan et al., 2018 50.71 49.39 -
Li et al., 2018 44.95 42.68 -
Wang et al., 2018 44.18 40.97 -
Xu et al., 2018 39.60 34.76 -
Match-LSTM (He et al., 2018) 39.2 31.9 -
BiDAF (He et al., 2018) 39.0 31.8 -
CMRC 2018
系统 DEV-EM DEV-F1 TEST-EM TEST-F1 CHALLENGE-EM CHALLENGE-F1 备注
P-Reader (single model) 59.894 81.499 65.189 84.386 15.079 39.583 -
GM-Reader (ensemble) 58.931 80.069 64.045 83.046 15.675 37.315 -
MCA-Reader (ensemble) 66.698 85.538 71.175 88.090 15.476 37.104 -
Z-Reader (single model) 79.776 92.696 74.178 88.145 13.889 37.422 -
SRC->DS(±) (Yang et al., 2019) 49.2 65.4 - - - - -
DRCD
系统 DEV-EM DEV-F1 TEST-EM TEST-EM 备注
SRC + DS(±) (Yang et al., 2019) 55.4 67.7 - - -
r-net (single model) - - 29.1 44.4 -
C^3
系统 DEV-1A TEST-1A DEV-1B TEST-1B DEV-2A TEST-2A DEV-2B TEST-2B 备注
BERT_CN (Sun et al., 2019) 63.0 62.6 62.3 62.1 36.7 26.2 34.7 31.3 -

Chinese Reading Comprehension Evaluations and Competitions

  1. The First Evaluation Workshop on Chinese Machine Reading Comprehension (CMRC 2017)
    主办:CIPS-CL, Joint Laboratory of HIT and iFLYTEK Research (HFL), iFLYTEK Co. Ltd
    竞赛类型:填空式RC, 用户查询RC

  2. The Second Evaluation Workshop on Chinese Machine Reading Comprehension (CMRC 2018)
    主办:CIPS-CL, Joint Laboratory of HIT and iFLYTEK Research (HFL), iFLYTEK Co. Ltd
    竞赛类型:跨度提取RC

  3. 2018 NLP Challenge on Machine Reading Comprehension
    主办:CCF, CIPSC, Baidu Inc.
    竞赛类型:开放领域RC

  4. CIPS-SOGOU QA Competition
    主办:CIPSC, SOGOU
    竞赛类型:事实QA, 非事实QA

  5. The Third Evaluation Workshop on Chinese Machine Reading Comprehension (CMRC 2019)
    主办:CIPS-CL, Joint Laboratory of HIT and iFLYTEK Research (HFL), iFLYTEK Co. Ltd
    竞赛类型:句子填空

  6. 2019 NLP Language and Intelligence Challenge
    主办:CCF, CIPSC, Baidu Inc.
    竞赛类型:开放领域RC

  7. Chinese Idiom Understanding Contest
    主办:CCF, Tsinghua University
    竞赛类型:填空测试

搜集汇总
数据集介绍
main_image_url
构建方式
Chinese Reading Comprehension Datasets的构建基于多种公开可用的中文阅读理解数据集,涵盖了新闻、童话、网络日志、维基百科等多种文本类型。这些数据集通过技术报告或学术论文的形式公开发布,确保了数据的透明性和可验证性。每个数据集都经过精心设计,包含了不同类型的查询和答案形式,如填空、实体识别、自由形式回答等,以满足不同研究需求。数据集的构建过程严格遵循学术规范,确保了数据的多样性和代表性。
使用方法
使用Chinese Reading Comprehension Datasets时,研究者可以通过GitHub提供的链接下载各个数据集。每个数据集都附有详细的技术报告或论文,帮助用户理解其构建背景和应用场景。研究者可以根据具体的研究需求选择合适的数据集,并利用其提供的查询和答案形式进行实验。此外,数据集的公开性使得研究者可以轻松复现和验证已有的研究成果,进一步推动中文阅读理解领域的发展。
背景与挑战
背景概述
Chinese Reading Comprehension Datasets(中文阅读理解数据集)是一系列旨在推动中文自然语言处理领域发展的公开数据集。这些数据集由多个研究团队和机构共同创建,最早可追溯至2016年,主要研究人员包括Cui等人。这些数据集的核心研究问题在于如何通过机器阅读理解技术提升中文文本的理解能力,涵盖新闻、童话、网络文本等多种文体。这些数据集的发布不仅推动了中文阅读理解模型的发展,还为相关领域的学术研究和工业应用提供了重要的数据支持。
当前挑战
中文阅读理解数据集在构建和应用过程中面临多重挑战。首先,中文语言的复杂性和多样性使得模型在理解上下文和语义时面临较大困难,尤其是在处理成语、多义词和长文本时。其次,数据集的构建需要大量高质量的中文语料,而获取和标注这些数据的过程耗时且成本高昂。此外,不同数据集之间的格式和标注标准不一致,导致模型在跨数据集迁移时表现不佳。最后,尽管已有多个先进模型在这些数据集上取得了显著成果,但在处理开放域问题和复杂推理任务时,模型的性能仍有待进一步提升。
常用场景
经典使用场景
在自然语言处理领域,Chinese Reading Comprehension Datasets 被广泛用于训练和评估中文阅读理解模型。这些数据集涵盖了新闻、童话、网络问答等多种文本类型,通过填空、查询和自由形式的问题,模型能够学习如何从文本中提取关键信息并生成准确的回答。这种多样化的数据集设计使得模型能够在不同语境下进行测试,从而提升其泛化能力。
解决学术问题
该数据集解决了中文阅读理解模型在复杂语境下的表现问题。通过提供大量真实世界中的文本和问题,研究者能够深入分析模型在处理不同文本类型时的表现,尤其是在处理多义词、长句和复杂逻辑关系时的能力。这些数据集的出现为中文自然语言处理领域提供了标准化的评估基准,推动了该领域的技术进步。
实际应用
在实际应用中,Chinese Reading Comprehension Datasets 被用于开发智能问答系统、教育辅助工具以及信息检索系统。例如,基于这些数据集训练的模型可以应用于在线教育平台,帮助学生通过阅读理解练习提升语言能力。此外,智能客服系统也可以利用这些数据集来提升对用户问题的理解和回答准确性。
数据集最近研究
最新研究方向
近年来,中文阅读理解数据集(Chinese Reading Comprehension Datasets)在自然语言处理领域的研究中占据了重要地位。随着深度学习技术的快速发展,研究者们逐渐将注意力转向如何提升模型在复杂语境下的理解能力。当前的研究热点主要集中在多模态阅读理解、跨领域迁移学习以及基于预训练语言模型的微调策略上。例如,BERT及其变体在CMRC和DuReader等数据集上的表现显著优于传统模型,推动了阅读理解任务向更复杂的语义理解和推理方向发展。此外,随着中文阅读理解竞赛的频繁举办,研究者们不仅关注模型的性能提升,还致力于解决数据集的多样性和真实性问题,以更好地模拟实际应用场景。这些研究不仅推动了中文自然语言处理技术的进步,也为智能问答系统、机器翻译等应用提供了强有力的支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作