DuReader

Name: DuReader
Creator: 百度公司
Published: 2018-06-11 11:26:30
License: 暂无描述

arXiv2018-06-11 更新2024-06-21 收录

下载链接：

http://ai.baidu.com/broad/download?dataset=dureader

下载链接

链接失效反馈

官方服务：

资源简介：

DuReader是由百度公司创建的一个大规模、开放领域的中国机器阅读理解（MRC）数据集，旨在解决实际的MRC问题。该数据集包含20万问题、42万答案和100万文档，是目前最大的中文MRC数据集。数据来源于百度搜索和百度知道，答案由人工生成，特别强调了yes-no和意见问题。DuReader的创建过程涉及从搜索日志中随机抽样问题，并使用预训练分类器自动选择问题，然后由人工标注。该数据集主要应用于机器阅读理解领域，旨在推动MRC技术的发展，特别是在处理真实世界数据源、多样问题类型和大规模数据方面。

DuReader is a large-scale, open-domain Chinese machine reading comprehension (MRC) dataset developed by Baidu, which is designed to address real-world MRC problems. It contains 200,000 questions, 420,000 answers and 1,000,000 documents, making it the largest Chinese MRC dataset to date. The dataset is sourced from Baidu Search and Baidu Zhidao, with all answers manually generated, and special emphasis is placed on yes-no questions and opinion-based questions. The creation process of DuReader includes randomly sampling questions from search logs, automatically selecting the sampled questions via pre-trained classifiers, followed by manual annotation. This dataset is primarily applied in the field of machine reading comprehension, aiming to promote the development of MRC technologies, especially in handling real-world data sources, diverse question types and large-scale datasets.

提供机构：

百度公司

创建时间：

2017-11-14

搜集汇总

数据集介绍

构建方式

在机器阅读理解领域，构建贴近真实应用场景的数据集至关重要。DuReader的构建过程始于从百度搜索引擎和百度知道社区中提取真实用户查询，通过预训练分类器自动筛选出问题查询，并由人工标注员进行最终确认。随后，针对每个问题，从上述两个来源收集相关文档，保留完整文档内容而非仅截取段落，以模拟现实中的信息检索环境。答案部分则由众包工作者在阅读文档后手动生成摘要式回答，并经过多轮质量控制和专家审核，确保数据的准确性与多样性。

特点

DuReader数据集在中文机器阅读理解领域展现出显著特点。其问题来源于真实搜索日志和问答社区，涵盖了实体、描述和是否问题等多种类型，并特别标注了事实与观点类别，这为研究社区提供了探索观点性问题和多文档摘要任务的机会。数据规模庞大，包含20万个问题、100万份文档和42万个答案，是目前最大的中文MRC数据集。此外，答案与源文档之间的编辑距离较大，强调摘要生成而非简单片段抽取，进一步提升了任务的挑战性。

使用方法

使用DuReader数据集时，研究者可将其应用于训练和评估机器阅读理解模型。数据集已预先划分为训练集、开发集和测试集，便于直接进行模型训练与验证。由于文档内容完整且长度较长，建议在模型中引入段落选择机制，以提升处理效率。针对的是否问题和观点类问题，可采用意见感知评估方法，要求模型同时输出答案和意见标签。此外，数据集的丰富标注支持多角度分析，如跨文档推理和摘要生成，有助于推动面向真实应用的MRC技术发展。

背景与挑战

背景概述

在自然语言处理领域，机器阅读理解（MRC）作为评估模型理解与推理能力的关键任务，长期以来依赖于高质量的数据集推动技术演进。DuReader数据集由百度公司于2018年发布，旨在构建一个面向真实应用场景的大规模中文机器阅读理解资源。该数据集基于百度搜索和百度知道的实际用户查询与文档，涵盖了实体、描述及是非等多种问题类型，并包含手动生成的摘要式答案。其规模达到20万问题、100万文档及42万答案，成为当时最大的中文MRC数据集，显著促进了中文自然语言处理研究的发展，并为跨语言MRC技术提供了重要基准。

当前挑战

DuReader数据集所解决的领域问题在于真实世界中的机器阅读理解，其核心挑战包括处理多样化的问答类型，尤其是是非问题与观点问题，这些类型要求模型超越传统的片段抽取方法，进行多文档摘要与推理。构建过程中的挑战主要体现在数据采集与标注的复杂性上：首先，从海量搜索日志中筛选真实用户问题需依赖高效分类器，并确保问题分布的多样性；其次，答案标注要求人工阅读多篇完整文档并进行概括性总结，而非简单复制文本，这导致答案与源文档之间的编辑距离较大，增加了标注成本与质量控制的难度。此外，数据集中文档长度显著超过以往数据集，使得段落选择成为模型效率与性能的关键瓶颈。

常用场景

经典使用场景

在自然语言处理领域，机器阅读理解任务旨在评估模型从文本中提取信息并回答问题的能力。DuReader作为大规模中文机器阅读理解数据集，其经典使用场景聚焦于训练和评估模型处理真实世界用户查询的能力。该数据集基于百度搜索和百度知道的实际日志构建，涵盖了实体、描述和是非等多种问题类型，尤其强调观点类和是非类问题的处理，为模型提供了丰富的语义理解和推理挑战。研究者常利用DuReader来测试模型在开放域文档中的段落选择、答案生成和多文档摘要等核心任务上的表现，推动机器阅读理解技术向更实用、更复杂的方向发展。

实际应用

DuReader在实际应用中具有广泛价值，尤其在智能搜索引擎和社区问答系统中表现突出。基于该数据集训练的模型能够更准确地理解用户自然语言查询，从海量网络文档中提取或生成简明答案，提升搜索效率。在百度知道等问答社区，模型可辅助自动回答用户问题，减少人工干预，增强用户体验。此外，DuReader还支持个性化推荐、教育辅助和客户服务等场景，通过机器阅读理解技术实现信息的高效过滤与整合。其真实数据源和多样问题类型确保了模型在实际部署中的鲁棒性和适应性，推动了人工智能技术在中文环境下的落地与普及。

衍生相关工作

DuReader的发布催生了众多相关经典研究工作，主要集中在模型创新和任务扩展方面。例如，研究者基于DuReader开发了改进的段落选择机制，以应对长文档处理挑战，如层次化注意力网络和多粒度编码方法。在答案生成领域，出现了结合序列到序列模型和强化学习的技术，用于处理是非类和观点类问题的摘要生成。此外，DuReader还激发了跨语言机器阅读理解的研究，通过迁移学习将中文经验应用于其他语言数据集。该数据集支持的共享竞赛也促进了社区合作，涌现出如融合预训练语言模型（如BERT）的先进方法，显著提升了基线性能，推动了整个机器阅读理解领域的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集