SCOPE
收藏arXiv2026-05-27 更新2026-05-29 收录
下载链接:
https://huggingface.co/datasets/DylanJHJ/scope
下载链接
链接失效反馈官方服务:
资源简介:
SCOPE数据集是由阿姆斯特丹大学与约翰斯·霍普金斯大学等机构联合构建的覆盖感知检索训练资源,旨在解决长格式检索增强生成中信息覆盖不足的挑战。该数据集包含9万条训练对,源自Researchy Questions的查询及其分解子问题,通过Llama-3 70B模型生成子问题可回答性标注来增强覆盖信号。其构建过程通过合成多角度查询和覆盖评分,专门用于训练能够同时优化相关性和信息覆盖度的检索模型,主要应用于长格式RAG系统,以提升事实覆盖的全面性。
The SCOPE dataset is a coverage-aware retrieval training resource jointly developed by the University of Amsterdam, Johns Hopkins University and other institutions, aiming to address the challenge of insufficient information coverage in long-form retrieval-augmented generation (RAG). This dataset includes 90,000 training pairs sourced from queries and their decomposed sub-questions within the Researchy Questions dataset, with its coverage signals enhanced by annotative labels for sub-question answerability generated by the Llama-3 70B model. Its construction workflow synthesizes multi-angle queries and calculates coverage scores, and is specifically designed to train retrieval models that jointly optimize both relevance and information coverage. It is primarily deployed in long-form RAG systems to improve the comprehensiveness of factual coverage.
提供机构:
阿姆斯特丹大学; 约翰斯·霍普金斯大学; 莱顿大学
创建时间:
2026-05-27
原始信息汇总
数据集概述
数据集名称:DylanJHJ/scope
许可证:Apache-2.0
说明:该数据集页面未提供详细的描述信息、数据构成、使用方式或相关示例。目前仅公开了许可证信息,为 Apache-2.0 开源许可。
搜集汇总
数据集介绍

构建方式
在长文本检索增强生成(RAG)的背景下,信息覆盖度的评估对检索模型提出了全新挑战。为训练面向覆盖感知的检索模型,我们构建了SCOPE数据集。该数据集以Researchy Questions中的81K条多角度查询为起点,充分利用其内置的子问题结构。通过Llama-3 70B模型对每个子问题与候选文档进行可回答性判断(0-5分制),将高于阈值4的评分视为覆盖信号,从而为每对查询-文档计算覆盖分数。候选文档由BM25从Clueweb语料库中初步检索,并经Qwen3重排序筛选出Top-20,最终形成约90K训练三元组,正负样本基于覆盖分数的高低范围采样。
使用方法
SCOPE数据集专为覆盖感知检索模型的训练而设计,最典型的应用是结合CoveR框架进行两阶段微调。首先在MSMARCO等相关性数据集上进行预热训练以保留基础语义能力,随后利用SCOPE中的覆盖分数采样正负样本,通过覆盖对比学习(CovCon)或覆盖自蒸馏(CovDistil)目标更新编码器。数据以Hugging Face格式提供,可直接加载查询、子问题列表及对应文档的覆盖评分。用户可根据需求调整阈值参数或正负样本覆盖范围(如高覆盖组≥75%,低覆盖组≤0%),以适配不同的检索场景。其展平版本还可作为通用相关性训练数据进行使用。
背景与挑战
背景概述
随着大型语言模型(LLM)在处理长文本能力上的显著提升,一种新型的搜索范式——长文本检索增强生成(Long-form RAG)应运而生,其核心目标不再局限于返回单一最相关文档,而是要求检索结果能够覆盖用户复杂信息需求中的多个方面。传统的基于相关性的稠密检索模型,如MSMARCO训练的编码器,倾向于将查询与高相关度文档嵌入到一个狭窄的语义空间中,导致检索结果在细粒度的事实层面(即信息核)上存在严重的冗余和覆盖不足。为应对这一挑战,由阿姆斯特丹大学、约翰霍普金斯大学和莱顿大学的研究人员(Jia-Huei Ju、Eugene Yang、Trevor Adriaanse、Suzan Verberne及Andrew Yates)于2026年创建的SCOPE数据集,旨在为覆盖感知检索(Coverage-Aware Retrieval)提供专门的训练信号。该数据集包含约9万个训练对,利用Researchy Questions中的多角度查询,并通过Llama-3 70B模型对子问题的可回答性进行自动化判断,从而生成了细粒度的覆盖信号,为高效评估和提升长文本RAG系统的信息全面性奠定了重要基础。
当前挑战
SCOPE数据集主要致力于解决长文本RAG场景下面临的覆盖排名挑战,其中核心问题在于传统检索模型难以识别并返回一组能共同涵盖查询中所有子信息需求的多样化文档。具体而言,领域挑战包括:1)标准稠密检索在优化相关性时,会诱导模型偏好语义高度相似但内容冗余的文档,忽视了对不同事实核的全面覆盖;2)现有训练数据(如MSMARCO)的查询答案形式短小且信息需求狭窄,无法支撑对多维度、开放性问题覆盖能力的建模。在数据构建过程中,亦面临若干挑战:1)原始Researchy Questions缺乏与分解后子问题直接关联的相关性标注,需借助LLM生成可回答性判断,但自动标注结果存在噪声与分布不均;2)在从海量候选中高效采样高质量正负样本时,需设计精密的覆盖度评分与阈值策略,以确保训练信号既能反映细粒度覆盖度,又不会因过度严格或宽松而损害模型的通用相关性排名能力。
常用场景
经典使用场景
在信息检索领域,SCOPE数据集最经典的用途是训练和评估面向长文本检索增强生成(Long-form RAG)场景的覆盖率感知检索模型。该数据集通过整合Researchy Questions中具有多角度子问题的复杂查询,并利用大语言模型自动生成子问题可回答性判断,为模型提供了细粒度的信息覆盖信号。研究者可利用SCOPE训练诸如CoveR这类双编码器模型,使其在海量文档中不仅关注单一相关性,更能捕捉同一查询下多个子信息需求的全面覆盖,从而提升检索结果对后续生成任务的支撑质量。
解决学术问题
SCOPE数据集针对性地解决了当前信息检索领域一个核心学术瓶颈:传统基于相关性排序的检索方法在面向长文本RAG时,因忽视信息覆盖率而导致检索结果冗余、缺乏多样性,难以满足复杂查询的多方面信息需求。通过提供大规模、带有自动标注覆盖信号的训练对,SCOPE使得学术界能够系统研究并量化覆盖率感知排序的训练目标,如覆盖对比学习和覆盖自蒸馏。该数据集的提出推动了检索模型从单一“寻找最相关文档”向“确保信息综合体全面性”的范式转变,为未来搜索系统的评估标准提供了全新视角与重要基准。
实际应用
在实际应用层面,SCOPE数据集旨在赋能新一代智能搜索引擎和报告生成系统。例如,在集成大语言模型的搜索引擎(如Google AI Mode)中,用户提交的复杂研究型问题往往包含多个子问题,检索系统需要从海量网页中召回一组能够全面覆盖各个子信息需求的文档,供大模型整合生成结构化报告。SCOPE训练的覆盖率感知模型能够在法律文书辅助撰写、市场调研报告生成、医疗文献综述等场景中,显著降低信息冗余,提升最终输出内容的完备性与准确性,从而改善用户体验和决策支持质量。
数据集最近研究
最新研究方向
当前,随着长文本检索增强生成(Long-form RAG)范式的兴起,信息检索领域正经历从传统相关排序向覆盖感知排序的深刻变革。SCOPE数据集应运而生,它通过大规模合成覆盖信号,将查询分解的多视角子问题与大语言模型的可回答性判断深度融合,为训练覆盖感知检索模型提供了90K高质量训练对。前沿研究聚焦于如何利用该数据集打破标准稠密检索器仅优化相关性的局限,通过覆盖对比学习与自蒸馏等创新目标,重塑嵌入空间以同时捕捉信息的多样性与完整性。这一方向直接回应了新兴搜索系统在报告生成等任务中对信息全面覆盖的核心需求,其影响在于推动检索评估从文档级相关向细粒度事实覆盖的范式跃迁,弥合了传统检索效率与长文本RAG综合产出品质之间的鸿沟,为构建更具包容性、低冗余的未来智能搜索引擎奠定了关键基础设施。
相关研究论文
- 1Search for Coverage: Learning Coverage-Aware Retrieval with Augmented Sub-Question Answerability阿姆斯特丹大学; 约翰斯·霍普金斯大学; 莱顿大学 · 2026年
以上内容由遇见数据集搜集并总结生成



