MRCDataset
收藏github2020-12-17 更新2024-05-31 收录
下载链接:
https://github.com/crlgdx/MRCDataset
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含多个机器阅读理解相关的数据集,涉及多种语言、问题类型和来源,用于研究和开发机器阅读理解模型。
This repository encompasses a variety of datasets pertinent to machine reading comprehension, spanning multiple languages, question types, and sources, intended for the research and development of machine reading comprehension models.
创建时间:
2020-03-07
原始信息汇总
数据集概述
数据集列表
| 数据集 | 语言 | 问题数量 | 文章数量 | 问题来源 | 文章来源 | 答案类型 |
|---|---|---|---|---|---|---|
| CNN/DM | 英 | 1.4M | 300K | 人工合成 | 新闻 | 填空 |
| CBT | 英 | 688K | 108 | 人工合成 | 儿童读物 | 多项选择 |
| RACE | 英 | 870K | 50K | 英语考试 | 英语考试 | 多项选择 |
| MCTest | 英 | 2K | 500 | 众包 | 虚假故事 | 多项选择 |
| NewsQA | 英 | 100K | 10K | 众包 | 新闻 | 抽取型 |
| SQuAD | 英 | 100K | 536 | 众包 | 百科 | 抽取型 |
| SearchQA | 英 | 140K | 6.9M | 搜索日志 | 网络文本 | 抽取型 |
| TrivaQA | 英 | 40K | 660K | 搜索日志 | 百科/网络文本 | 抽取型 |
| NarrativeQA | 英 | 46K | 1.5K | 众包 | 书籍/电影 | 描述型 |
| MS-MARCO | 英 | 100K | 200K | 搜索日志 | 网络文本 | 描述型 |
| DuReader | 中 | 200K | 1M | 搜索日志 | 网络文本 | 描述型 |
| HLF-RC | 中 | 100K | 28K | 人工合成 | 新闻/儿童故事 | 填空 |
| CMRC 2018 | 中 | 20K | - | 众包 | 百科 | 抽取型 |
| DRCD | 中 | 30K | 10K | 众包 | 百科 | 抽取型 |
| CJRC | 中 | 50K | 10K | 人工合成 | 裁判文书 | 抽取/判断 |
搜集汇总
数据集介绍

构建方式
MRCDataset的构建主要依赖于众包和人工合成两种方式。通过众包平台,数据集收集了大量来自网络文本、百科、新闻等多样化来源的问题和文章,确保了数据的广泛性和代表性。人工合成部分则通过模拟真实场景,如英语考试和儿童读物,生成具有挑战性的问题和答案,进一步丰富了数据集的深度和复杂性。
特点
MRCDataset的特点在于其多样化的数据来源和丰富的问题类型。数据集涵盖了从新闻、百科到儿童读物等多种文本类型,问题类型包括填空、多项选择、抽取型和描述型等,能够全面评估机器阅读理解模型的性能。此外,数据集的规模庞大,问题数量从数千到数百万不等,确保了模型训练的充分性和测试的广泛性。
使用方法
使用MRCDataset时,研究人员可以通过下载数据集文件,按照提供的格式加载问题和文章。数据集通常以JSON或CSV格式存储,便于直接用于模型训练和评估。研究人员可以利用数据集中的问题和答案对模型进行训练,并通过预定义的评估指标,如准确率、F1分数等,来衡量模型的性能。此外,数据集还提供了详细的文档和示例代码,帮助用户快速上手并应用于实际研究中。
背景与挑战
背景概述
MRCDataset作为机器阅读理解领域的重要资源,由张超然、裘杭萍、孙毅和王中伟等研究人员于2020年提出,旨在推动基于预训练模型的机器阅读理解研究。该数据集涵盖了多种语言和文本类型,包括新闻、百科、儿童读物等,问题类型多样,如填空、多项选择、抽取型和描述型等。其核心研究问题在于如何通过大规模数据集提升模型对文本的理解能力,从而在问答系统中实现更高的准确性和泛化能力。MRCDataset的发布为机器阅读理解领域提供了丰富的实验数据,推动了相关技术的快速发展。
当前挑战
MRCDataset在解决机器阅读理解问题时面临多重挑战。首先,数据集的多样性和复杂性要求模型具备强大的泛化能力,以应对不同来源和类型的文本。其次,众包数据的质量参差不齐,可能导致噪声数据影响模型训练效果。此外,多语言和多答案类型的设计增加了数据标注和模型训练的难度。在构建过程中,研究人员还需解决数据规模与标注成本之间的平衡问题,以及如何确保数据集的代表性和公平性。这些挑战不仅考验了数据集的构建能力,也对后续模型的性能提出了更高要求。
常用场景
经典使用场景
MRCDataset在机器阅读理解领域中被广泛应用,特别是在基于预训练模型的自然语言处理研究中。该数据集通过提供大量的问题-文章对,支持模型在理解文本内容的基础上进行答案抽取或填空,从而评估和提升模型的理解能力。
解决学术问题
MRCDataset解决了机器阅读理解中的核心问题,即如何使模型能够准确理解并回答基于文本的问题。通过提供多样化的文本来源和问题类型,该数据集帮助研究者验证模型在处理不同语言和文本风格时的泛化能力,推动了自然语言处理技术的发展。
衍生相关工作
MRCDataset的发布促进了多项相关研究的发展,包括基于BERT、GPT等预训练模型的阅读理解系统。这些研究不仅提升了模型的性能,还推动了自然语言处理技术的边界,为后续的学术研究和工业应用奠定了坚实的基础。
以上内容由遇见数据集搜集并总结生成



