DuReader|机器阅读理解数据集|中文信息处理数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

机器阅读理解

中文信息处理

下载链接：

https://opendatalab.org.cn/OpenDataLab/DuReader

下载链接

链接失效反馈

资源简介：

DuReader 是一个大规模的开放域中文机器阅读理解数据集。该数据集由 200K 问题、420K 答案和 1M 文档组成。问题和文档基于百度搜索和百度智道。答案是手动生成的。该数据集还提供了问题类型注释——每个问题都被手动注释为实体、描述或是否以及事实或意见之一。

提供机构：

OpenDataLab

创建时间：

2022-06-23

AI搜集汇总

数据集介绍

构建方式

DuReader数据集的构建基于大规模的中文问答对，涵盖了广泛的主题和领域。该数据集通过从多个中文网页和文档中提取问答对，经过人工筛选和标注，确保了数据的质量和多样性。构建过程中，特别注重于真实世界中的复杂问题和长答案，以模拟实际应用场景，从而为自然语言处理研究提供了丰富的资源。

特点

DuReader数据集以其高质量和多样性著称，包含了超过20万个问答对，覆盖了从日常生活到专业领域的广泛话题。其特点在于答案的详细性和复杂性，许多答案包含多个段落和丰富的信息，适合用于训练和评估复杂的问答系统。此外，数据集还提供了答案的来源信息，便于研究人员进行溯源和验证。

使用方法

DuReader数据集适用于多种自然语言处理任务，包括但不限于问答系统、信息检索和文本摘要。研究人员可以通过该数据集训练模型，以提高其在中文环境下的问答能力。使用时，建议结合具体的任务需求，选择合适的子集进行训练和测试。此外，数据集的详细答案和来源信息也为模型的解释性和可信度提供了支持。

背景与挑战

背景概述

DuReader数据集是由百度公司于2017年创建的，旨在推动中文自然语言处理（NLP）领域的发展。该数据集由百度自然语言处理团队主导，核心研究问题是如何在中文环境下实现高效、准确的自然语言理解与问答系统。DuReader的创建标志着中文NLP研究进入了一个新的阶段，其丰富的数据资源和多样化的问答场景为研究人员提供了宝贵的实验平台，极大地推动了中文问答系统的技术进步和应用拓展。

当前挑战

DuReader数据集在构建过程中面临了多重挑战。首先，中文语言的复杂性和多样性使得数据标注和处理变得尤为困难。其次，问答系统的准确性和响应速度要求极高，如何在保证答案质量的同时提升系统效率是一个重要课题。此外，数据集的多样性和覆盖范围也带来了数据管理和处理的挑战，如何有效整合和利用这些数据资源以提升模型的泛化能力，是当前研究中亟待解决的问题。

发展历史

创建时间与更新

DuReader数据集由百度公司于2017年首次发布，旨在为中文自然语言处理领域提供高质量的问答数据。该数据集在2018年进行了首次更新，增加了更多样化的问答对，以适应不断发展的研究需求。

重要里程碑

DuReader的发布标志着中文问答系统研究进入了一个新的阶段。其首次发布时，包含了超过20万个问答对，涵盖了广泛的主题和领域，极大地丰富了中文自然语言处理的数据资源。2018年的更新进一步扩展了数据集的规模和多样性，引入了更多复杂和实际应用场景中的问题，为研究人员提供了更丰富的实验材料。此外，DuReader还推出了基于该数据集的竞赛，推动了中文问答技术的快速发展和应用。

当前发展情况

当前，DuReader已成为中文自然语言处理领域的重要基准数据集之一。它不仅被广泛应用于问答系统的研究和开发中，还为学术界和工业界提供了宝贵的数据资源。DuReader的成功应用，推动了中文问答技术的进步，促进了相关算法的优化和创新。同时，DuReader的不断更新和扩展，确保了其在面对新兴技术和应用场景时的持续适用性和影响力。未来，DuReader有望继续引领中文问答系统的发展，为人工智能技术的进步做出更大贡献。

发展历程

DuReader数据集首次提出，旨在解决中文阅读理解任务，由百度公司发布。
2017年
DuReader 2.0版本发布，增加了数据量和多样性，提升了数据集的质量和覆盖范围。
2018年
DuReader数据集在多个国际竞赛中被广泛应用，展示了其在中文阅读理解领域的有效性。
2019年
DuReader数据集被用于训练和评估多种先进的自然语言处理模型，推动了中文NLP技术的发展。
2020年

常用场景

经典使用场景

在自然语言处理领域，DuReader数据集被广泛应用于问答系统的开发与优化。该数据集包含了大量中文问答对，涵盖了从日常生活到专业知识的广泛主题。研究者们利用DuReader进行模型训练，以提升问答系统的准确性和响应速度。通过分析DuReader中的问题和答案，研究者能够深入理解中文语言的复杂性，从而设计出更加智能和用户友好的问答系统。

实际应用

DuReader数据集在实际应用中展现了其巨大的潜力。在教育领域，基于DuReader训练的问答系统能够为学生提供即时的学习支持，解答学术疑问。在医疗领域，该系统可以辅助医生快速获取疾病信息和治疗方案，提高诊疗效率。在客户服务中，DuReader支持的智能助手能够处理大量用户查询，提升服务质量和用户满意度。这些应用场景充分展示了DuReader在提升信息获取效率和用户体验方面的优势。

衍生相关工作

DuReader数据集的发布催生了众多相关研究工作。研究者们基于DuReader开发了多种问答模型，如基于深度学习的BERT模型和基于图神经网络的GNN模型，这些模型在多个问答基准测试中表现优异。此外，DuReader还激发了对多语言问答系统的研究，推动了中文与其他语言问答技术的融合。DuReader的影响不仅限于学术界，还促进了工业界在智能问答技术上的创新和应用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录