DuReaderretrieval

Name: DuReaderretrieval
Creator: 百度公司
Published: 2022-11-15 22:42:31
License: 暂无描述

arXiv2022-11-15 更新2024-06-21 收录

下载链接：

https://github.com/baidu/DuReader/tree/master/DuReader-Retrieval

下载链接

链接失效反馈

官方服务：

资源简介：

DuReaderretrieval是一个大规模的中文数据集，用于从网络搜索引擎中检索段落。该数据集包含超过90K查询和超过8M独特段落，所有查询均来自百度搜索的真实用户请求，文档段落来自搜索结果。数据集通过远监督和人工标注相结合的方式创建，旨在解决段落检索中的挑战，如显著短语不匹配和语法不匹配。此外，数据集还提供了跨领域和跨语言的评估集，以评估模型的泛化能力和跨语言检索能力。

DuReaderretrieval is a large-scale Chinese dataset for paragraph retrieval from web search engines. It contains over 90K queries and over 8M unique paragraphs, where all queries are real user requests from Baidu Search, and the document paragraphs are sourced from search results. The dataset is developed through a hybrid approach combining distant supervision and manual annotation, aiming to tackle core challenges in paragraph retrieval such as prominent phrase mismatches and grammatical mismatches. In addition, the dataset provides cross-domain and cross-language evaluation sets to assess a model's generalization capability and cross-language retrieval performance.

提供机构：

百度公司

创建时间：

2022-03-19

搜集汇总

数据集介绍

构建方式

在中文信息检索领域，高质量标注数据的稀缺长期制约着密集检索模型的发展。DuReaderretrieval的构建以百度搜索引擎的真实用户查询为基础，从机器阅读理解数据集DuReader中通过远程监督方法初始化标注。具体而言，研究团队利用DuReader中人工撰写的答案，通过计算答案与文档段落之间的F1分数来识别正例段落，阈值设定为0.5。为解决原始段落过短的问题，对文档进行了智能拼接，确保最终段落长度具有实际语义。同时，为避免检索系统过度依赖文档标题中的词汇重叠，构建过程中移除了所有文档标题，迫使模型深入理解段落上下文信息。

使用方法

该数据集适用于训练和评估两阶段的检索-重排模型框架。研究者可首先利用其大规模训练集（包含约8.6万查询）训练密集检索模型，例如基于ERNIE等预训练语言模型初始化的双编码器。随后，可使用开发集进行超参数调优与模型选择。在评估阶段，除了标准的同领域测试集，还可利用其提供的cMedQA和cCOVID-News两个医学领域测试集，进行零样本或微调后的跨领域泛化能力评估。对于跨语言检索任务，数据集提供了人工翻译的英文查询及其对应的中文正例段落，支持从单语到跨语言的知识迁移研究。评估指标推荐使用MRR@10、Recall@1和Recall@50，以全面衡量检索与重排性能。

背景与挑战

背景概述

DuReaderretrieval数据集由百度公司与爱丁堡大学的研究团队于2022年联合构建，旨在填补中文段落检索领域大规模高质量基准数据的空白。该数据集源自百度搜索引擎的真实用户查询日志，包含超过9万条查询和800余万独特段落，通过人工标注与远程监督相结合的方式确保数据质量。其核心研究问题聚焦于提升密集检索模型在中文环境下的性能评估，推动跨领域与跨语言检索能力的发展，对自然语言处理与信息检索领域产生了深远影响，成为中文检索研究的重要基石。

当前挑战

DuReaderretrieval致力于解决中文段落检索中的语义匹配难题，其挑战主要体现在查询与段落间的显著短语失配和句法结构不一致性，例如实体、数字或修饰语的不对应问题。在构建过程中，研究团队面临两大挑战：一是大规模数据中误标负例的普遍存在，通过多检索器结果池化与人工复核策略予以缓解；二是训练集与测试集语义相似查询导致的信息泄露风险，采用基于查询匹配模型的过滤机制加以控制。此外，数据噪声如拼写错误及跨领域泛化能力不足，进一步增加了模型训练的复杂性。

常用场景

经典使用场景

在信息检索领域，DuReaderretrieval数据集作为大规模中文段落检索基准，其经典使用场景聚焦于评估密集检索模型在真实网络搜索环境下的性能表现。该数据集源自百度搜索引擎的真实用户查询日志，涵盖超过90,000条查询和800万独特段落，为研究者提供了模拟商业搜索引擎检索过程的实验平台。通过构建两阶段检索-重排序框架，该数据集能够系统测试模型在应对查询与段落间语义匹配、短语错位及句法差异等复杂情况时的鲁棒性，成为推动中文检索技术发展的核心评测工具。

解决学术问题

DuReaderretrieval致力于解决当前段落检索研究中普遍存在的标注质量缺陷与评估偏差问题。针对现有数据集中常见的假阴性样本泛滥及训练-测试集语义泄露现象，该数据集通过人工标注池化检索结果显著降低了假阴性比例，并采用语义相似度模型剔除训练集中与开发/测试集高度相似的查询，从而提升了评估结果的可靠性。此外，其跨领域与跨语言评测集的引入，为探究检索模型的领域泛化能力与多语言适应性提供了结构化实验环境，有效推动了检索系统在噪声鲁棒性、语义理解深度及跨模态迁移等方面的理论突破。

实际应用

在实际应用层面，DuReaderretrieval为构建高性能中文搜索引擎与智能问答系统提供了关键数据支撑。基于该数据集训练的检索模型可广泛应用于商业搜索引擎的段落排序优化、垂直领域知识库检索（如医疗咨询、新闻聚合）以及跨语言信息服务平台。其高质量的人工标注与大规模真实查询-段落对，能够显著提升系统在应对用户自然语言查询时的意图理解精度与内容覆盖广度，尤其在处理口语化表达、实体歧义及长尾查询等实际场景中展现出重要工程价值。

数据集最近研究