DocQAC benchmark

Name: DocQAC benchmark
Creator: 微软公司; 印度理工学院·卡拉格普尔
Published: 2026-04-20 21:30:45
License: 暂无描述

arXiv2026-04-20 更新2026-04-22 收录

下载链接：

https://bit.ly/3IGEkbH

下载链接

链接失效反馈

官方服务：

资源简介：

DocQAC benchmark是由微软研究院与印度理工学院联合构建的文档内查询自动补全专用数据集，基于ORCAS数据集增强而来，包含丰富的查询-文档对。该数据集通过严格的相似查询扩充和GPT-4驱动的相关性标注流程，融合了原始点击查询与语义相似查询，并创新性地采用加权相似度方法估算未点击查询的伪点击量。其核心应用场景为提升长文档检索效率，解决专业术语拼写纠错和上下文敏感查询建议等关键问题，适用于PDF阅读器、IDE等文档交互工具的搜索功能优化。

The DocQAC benchmark is a specialized dataset for in-document query auto-completion, jointly constructed by Microsoft Research and the Indian Institute of Technology. Enhanced based on the ORCAS dataset, it contains abundant query-document pairs. This dataset integrates original clicked queries and semantically similar queries through rigorous similar query expansion and a GPT-4-driven relevance annotation pipeline, and innovatively adopts a weighted similarity method to estimate the pseudo-click counts of unclicked queries. Its core application scenarios include improving the efficiency of long-document retrieval, resolving key issues such as technical term spelling correction and context-aware query suggestion, and it is suitable for optimizing the search functions of document interaction tools like PDF readers and IDEs.

提供机构：

微软公司; 印度理工学院·卡拉格普尔

创建时间：

2026-04-20

搜集汇总

数据集介绍

构建方式

在信息检索领域，文档内查询自动补全（DocQAC）任务旨在提升用户在长文档中的搜索效率。DocQAC基准数据集的构建基于ORCAS数据集，通过一系列严谨的流程实现。首先，从ORCAS中筛选出包含10至500个查询的文档，并确保文档文本内容源自TREC数据集，以保障数据质量。随后，通过时序划分策略创建训练、验证和测试集，模拟真实场景中的时间演变。为了增强数据多样性，利用DeBERTa-v3-base嵌入从Bing查询日志中检索语义相似的查询进行数据增强，并通过GPT-4进行严格的二元相关性标注，过滤无关查询对。最后，为未见查询估计伪点击次数，并依据查询与文档在训练集中的出现情况，构建了四个细分的测试集，以全面评估模型在不同泛化场景下的性能。

特点

该数据集的核心特点在于其紧密贴合文档内搜索的独特需求。与传统的网络查询自动补全不同，DocQAC强调查询建议必须严格植根于特定文档的上下文内容，而非全局流行度。数据集包含了丰富的查询-文档对，其中查询不仅包含用户实际点击的条目，还纳入了经过严格筛选的语义相似查询，显著提升了覆盖范围与挑战性。其精心设计的四个测试子集——涵盖查询与文档的可见与未见组合——为系统评估提供了多维度的视角，能够细致衡量模型在已知内容召回、面对新文档或新查询时的泛化与适应能力。这种结构使得该数据集成为推动上下文感知、精准查询补全技术发展的关键资源。

使用方法

在自然语言处理与信息检索的研究中，DocQAC数据集为开发和评估文档特定的查询自动补全系统提供了标准测试平台。研究者可利用该数据集训练序列到序列模型（如T5、BART）或微调大型语言模型（如LLaMA、Phi-3），以前缀和文档内容（或其摘要、关键短语等压缩表示）作为输入，生成目标补全后缀。评估时，应综合采用多种指标：以平均倒数排名（MRR）和节省输入字符数（TES）作为核心指标，衡量系统帮助用户快速定位目标的有效性；同时辅以语义匹配（SBMRR）、部分匹配（PPN/PRN）及多样性指标（α-NDCG）进行深入分析。数据集中提供的不同测试分割要求模型能够灵活应对已知查询、未知文档等多种复杂情况，从而全面检验系统的实用性与鲁棒性。

背景与挑战

背景概述

文档内查询自动补全（DocQAC）基准数据集由微软研究院与印度理工学院卡拉格普尔分校的研究团队于2026年联合构建，旨在解决长文档内部搜索场景下的查询辅助生成问题。该数据集源于信息检索领域对传统网络查询自动补全（WebQAC）系统的局限性反思，特别是在处理技术手册、法律文书等专业长文档时，用户常面临复杂术语拼写困难与搜索效率低下的挑战。DocQAC基准的建立标志着研究焦点从依赖全局查询日志的通用补全，转向利用具体文档上下文与局部交互历史的个性化补全，为提升专业文档检索系统的智能化水平提供了关键数据支撑。

当前挑战

DocQAC数据集致力于解决文档内搜索场景下的查询自动补全问题，其核心挑战在于如何精准建模用户意图与文档内容的局部关联，以生成既符合文档主题又满足用户信息需求的补全建议。在构建过程中，研究团队面临多重困难：首先，需从ORCAS等现有日志中筛选并增强高质量的查询-文档对，同时通过语义相似度与生成式模型进行数据扩充与相关性标注，以克服原始数据稀疏性与噪声干扰；其次，必须设计合理的评估指标（如打字节省量TES）与数据划分策略（如基于查询与文档可见性的四类测试集），以全面衡量模型在冷启动、词汇迁移等复杂情境下的泛化能力与实用性。

常用场景

经典使用场景

在信息检索领域，长文档导航一直是用户面临的核心挑战，DocQAC benchmark 应运而生，专门针对文档内查询自动补全任务。该数据集最经典的使用场景是模拟用户在浏览技术手册、学术论文或法律文书等长篇文档时，通过输入部分查询前缀，系统能够基于文档内容生成上下文相关的补全建议。例如，当用户在维基百科页面中搜索“巴黎”相关信息时，输入前缀“fr”，DocQAC 系统能够优先推荐“france capital”、“france tourism”等与文档主题紧密关联的补全项，而非通用网络搜索中流行的“free games”或“friends”等全局高频查询，从而显著提升文档内信息定位的精确性与效率。

衍生相关工作

自 DocQAC benchmark 发布以来，已衍生出多项经典研究工作，主要集中在自适应约束解码与上下文融合策略上。例如，基于 T5、BART 等编码器-解码器模型的字典树引导解码框架，通过软性偏置机制在推理阶段动态调整语言模型的生成方向，有效解决了生成漂移问题。同时，检索增强生成技术被广泛探索，结合 BM25 稀疏检索与密集向量相似度方法，从文档中提取关键片段以增强补全质量。这些工作不仅在效率上超越了大型指令调优模型如 LLaMA-3 和 Phi-3，还为后续研究提供了可扩展的基线，推动了文档感知查询补全系统在低延迟、高精度场景中的持续优化。

数据集最近研究