CRUMB
收藏arXiv2025-09-09 更新2025-11-24 收录
下载链接:
https://hf-mirror.com/datasets/jfkback/crumb
下载链接
链接失效反馈官方服务:
资源简介:
CRUMB是一个由八个多样化的复杂检索任务组成的评估套件,这些任务都是从现有数据集中精心挑选的。每个任务都有多个方面,每个查询都表达了独特的方式,以及额外的数据集特定特征,使得这个集合多样化且全面,重点关注真实的检索环境。这些任务包括针对电影检索的舌尖查询、针对科学论文检索的多方面查询、针对实体检索的基于集合的逻辑查询、针对法规检索的特定于州的法律问题、针对定理检索的多约束数学问题查询、具有相关网页的多样化的Stack Exchange问题、使用患者病史作为查询的临床试验搜索,以及使用多约束代码问题作为查询和代码片段作为文档的代码检索。这些任务的一些独特特征包括查询和文档之间不同的词汇、高度专业的术语和数值比较。虽然我们展示了多种类型的具有复杂查询的检索任务,但总会有一些未被考虑到的任务。我们的目标是涵盖几种不同的变化,并包含可能影响检索质量的其它特征,以便全面了解检索模型在复杂检索任务上的表现。为了促进最佳的检索性能,我们使用统一的markdown格式来处理文档,并在分块的版本中包含标题,以提供上下文。我们的格式允许未来研究使用文档结构的检索模型,并为检索模型提供重要的上下文,以便它们能够良好地执行。我们相信,将这些数据集统一起来,以便能够简单地测试检索系统在各种复杂的任务上的表现,具有重要的价值。我们选择的原始数据集和最终集合中使用的子数据集反映了在选择真实检索任务方面的重大投资,这些任务具有高质量的关联性判断。此外,原始数据集中的许多数据集缺乏适合现代检索模型的标准版本(例如,文档以XML格式出现,其中包含不必要的字段),而我们版本的数据集已经过处理,更适合现代检索模型。使用CRUMB,我们评估了一系列多样化的、具有代表性的、最先进的神经检索模型,以评估它们在复杂任务上的表现,并从中得出关于当前模型在何处最困难以及最佳模型共享哪些特征的几个见解。我们发现,即使是最先进的模型在这些复杂任务上也表现不佳,所有任务中最好的平均nDCG@10仅为0.346,R@100仅为0.587。我们发现,当查询和文档之间的语义和关键词重叠较低或此类重叠是相关性的弱信号时,模型往往难以在排名靠前的文档上获得精确度指标。例如,在舌尖检索任务中,查询通常具有最小的术语重叠,因此具有最低的nDCG值。SetOps任务中的查询具有基于集合的操作,例如“和”和“非”,以实体页面作为文档,具有所有基线模型中最低的最大nDCG。由于查询中的基于集合的操作,通常具有相关术语或语义的文档要么不相关,要么仅部分相关。这些观察结果对表现最佳的模型是正确的,而一般来说,在数据集与常见的检索训练数据集存在显着差异时,较弱的模型会表现不佳。例如,定理检索和代码检索都具有与常见检索模型非常不同的文档词汇表,并且看到较不强大模型的性能较差。我们发现,模型性能最受到四个因素的影响:(1)模型遵循指令的能力(2)模型的大小(3)模型所训练的培训数据集的多样性和难度(4)所使用的基模型。使用基于LLM的查询重写技术的实验表明,重写往往会损害表现更好的模型,同时为表现较弱的模型带来显着的改进。这一发现表明,至少在当前的先进重写技术中,查询重写对提高复杂任务性能的效用是有限的。总的来说,这项工作的主要贡献包括:(1)构建由八个多样化复杂检索任务组成的复杂检索评估套件(2)对广泛的顶级检索模型进行基准测试,以揭示它们在复杂任务上的表现(3)分析表现最佳模型具有哪些品质,使它们能够在复杂任务上表现良好(4)分析哪些数据特征对模型性能的影响最大。
CRUMB is an evaluation suite consisting of eight diverse and complex retrieval tasks, carefully curated from existing datasets. Each task encompasses multiple dimensions, with every query expressing a unique formulation, paired with additional dataset-specific characteristics that make this collection diverse and comprehensive, with a focus on realistic retrieval environments. These tasks include tip-of-the-tongue queries for movie retrieval, multi-faceted queries for scientific paper retrieval, set-based logical queries for entity retrieval, state-specific legal questions for regulatory retrieval, multi-constraint mathematical problem queries for theorem retrieval, diverse Stack Exchange questions with associated webpages, clinical trial searches using patient medical histories as queries, and code retrieval that takes multi-constraint coding problems as queries and code snippets as documents.
Some unique features of these tasks include mismatched vocabularies between queries and documents, highly specialized terminology, and numerical comparisons. While we showcase multiple types of retrieval tasks with complex queries, there will inevitably be some unaddressed tasks. Our goal is to cover several distinct variations and incorporate other features that may affect retrieval quality, so as to gain a comprehensive understanding of retrieval models' performance on complex retrieval tasks.
To facilitate optimal retrieval performance, we adopt a unified markdown format for processing documents, and include titles in chunked versions to provide contextual information. Our format enables future research to leverage retrieval models that utilize document structure, and provides critical context for retrieval models to perform effectively. We believe that unifying these datasets to enable simple testing of retrieval systems across various complex tasks holds significant value. The original datasets we selected and the subsets used in the final collection reflect substantial investment in curating realistic retrieval tasks with high-quality relevance judgments. Furthermore, many original datasets lack standardized versions suitable for modern retrieval models (e.g., documents exist in XML format with unnecessary fields), while our processed dataset versions have been optimized for modern retrieval models.
Using CRUMB, we evaluated a diverse set of representative state-of-the-art neural retrieval models to assess their performance on complex tasks, and derived several insights regarding the most challenging scenarios for current models and the shared characteristics of top-performing models. We found that even state-of-the-art models perform poorly on these complex tasks: the best average nDCG@10 across all tasks is only 0.346, and R@100 is only 0.587. We observed that models often struggle to achieve strong precision metrics on top-ranked documents when the semantic and keyword overlap between queries and documents is low, or when such overlap is a weak signal for relevance. For example, in the tip-of-the-tongue retrieval task, queries typically have minimal term overlap, thus resulting in the lowest nDCG values. Queries in the SetOps task feature set-based operations such as "AND" and "NOT" using entity pages as documents, exhibiting the lowest maximum nDCG among all baseline models. Due to the set-based operations in the queries, documents that usually contain relevant terms or semantics are either irrelevant or only partially relevant. These observations apply to the best-performing models, and in general, weaker models perform poorly when the dataset differs significantly from common retrieval training datasets. For instance, theorem retrieval and code retrieval have document vocabularies that are drastically different from those of common retrieval models, and we observed poorer performance from less powerful models.
We found that model performance is most impacted by four factors: (1) the model's ability to follow instructions, (2) model size, (3) the diversity and difficulty of the training dataset the model was trained on, and (4) the base model used. Experiments using LLM-based query rewriting techniques showed that rewriting often harms better-performing models while bringing significant improvements to weaker models. This finding suggests that, at least with current state-of-the-art rewriting techniques, the utility of query rewriting for improving complex task performance is limited.
Overall, the primary contributions of this work include: (1) Constructing a complex retrieval evaluation suite composed of eight diverse complex retrieval tasks; (2) Benchmarking a wide range of top-tier retrieval models to reveal their performance on complex tasks; (3) Analyzing the qualities that enable best-performing models to excel on complex tasks; (4) Analyzing which data features have the greatest impact on model performance.
提供机构:
马萨诸塞大学安姆斯特分校,USA
创建时间:
2025-09-09
搜集汇总
数据集介绍

构建方式
在信息检索领域,面对复杂查询任务评估资源匮乏的现状,CRUMB数据集通过整合八个现有高质量数据集构建而成。这些数据集涵盖论文检索、电影推荐、代码搜索等多样领域,每个任务均包含多维度约束的自然语言查询。构建过程中采用统一的Markdown格式处理文档,并运用基于BERT令牌的上下文分块策略,确保文档结构信息得以保留。同时为每个任务划分验证集,支持模型调优和少样本学习方法的评估。
特点
CRUMB数据集的核心特点在于其查询的复杂性和任务的多样性。查询普遍包含多部分描述、逻辑运算或专业领域约束,例如集合操作查询涉及'与或非'逻辑,临床检索需处理患者病史中的数值条件。数据集覆盖学术、医疗、法律等八个垂直领域,文档库规模从数万至百万级不等,且采用带层级标题的上下文分块技术,显著提升了语义完整性。这种设计有效模拟了现实场景中用户对检索系统处理复杂信息需求的能力挑战。
使用方法
该数据集支持两种评估模式:分块文档版本适用于标准神经检索模型,完整文档版本则面向长上下文处理模型。评估时建议采用nDCG@10、R@100等指标,对于仅含文档级标注的任务可使用MaxP策略聚合分块得分。研究人员可通过官方仓库获取统一格式的数据,利用验证集进行超参数调优或提示工程设计。基准测试表明,当前最优模型在复杂检索任务上仍存在显著提升空间,尤其适合用于推动下一代检索模型在语义理解和逻辑推理方面的创新。
背景与挑战
背景概述
CRUMB(复杂检索统一多任务基准)由马萨诸塞大学阿默斯特分校的Julian Killingback和Hamed Zamani于2025年构建,旨在解决信息检索领域对复杂查询处理能力评估的不足。随着大型语言模型的普及,用户对检索系统处理多维度自然语言查询的期望日益提升,而传统基准如TREC和MSMARCO主要关注简单单方面查询,难以全面反映真实场景中的信息需求多样性。CRUMB整合了八个精心设计的复杂检索任务,涵盖科学论文检索、代码检索、法律问答等多个领域,其统一的结构化文档格式和上下文感知分块策略为下一代检索模型的研发提供了标准化评估框架。
当前挑战
CRUMB面临的挑战主要体现在两个方面:其一,领域问题层面,现有检索模型在复杂查询任务中表现显著不足,最佳模型的平均nDCG@10仅达0.346,尤其在处理集合操作、术语重叠度低或需要数值推理的任务时性能急剧下降;其二,构建过程层面,需克服多源数据集标准化困难,包括统一异构文档格式、确保分块策略的语义完整性,以及通过人工验证和自动化对齐解决原始数据标签不一致性问题,同时需平衡任务多样性与评估可行性,避免引入领域偏差。
常用场景
经典使用场景
在信息检索领域,CRUMB数据集作为复杂检索任务的统一评估基准,其经典应用场景聚焦于评估检索模型在处理多维度自然语言查询时的性能表现。该数据集整合了八个高度多样化的复杂检索任务,涵盖电影推荐、科学论文检索、代码搜索等多个垂直领域,每个任务均包含具有多重约束或逻辑运算的自然语言查询。通过提供标准化的文档格式和上下文感知的文本分块策略,CRUMB为研究人员系统性地测试模型在真实复杂检索场景中的泛化能力提供了重要平台。
实际应用
在实际应用层面,CRUMB数据集所代表的复杂检索能力对现代智能信息系统具有显著价值。其应用场景包括临床医疗系统中的临床试验匹配,通过患者病史描述精准检索相关治疗方案;法律咨询领域的法规条文检索,支持多要素法律问题的精准定位;软件开发中的代码片段检索,帮助开发者基于自然语言描述快速定位解决方案。这些应用体现了复杂检索技术在提升专业领域信息获取效率方面的重要作用,为构建更智能、更精准的行业专用搜索引擎提供了技术验证基础。
衍生相关工作
基于CRUMB数据集的核心思想,衍生出了一系列针对复杂检索的创新研究工作。在模型架构方面,Promptriever等指令调优检索模型通过引入查询级指令实现了动态检索策略调整;在训练方法上,ReasonIR通过合成推理数据增强模型对复杂逻辑的理解能力;在评估体系方面,BIRCO和BRIGHT等基准进一步扩展了复杂检索任务的覆盖范围。这些工作共同推动了检索模型从传统的词项匹配向语义理解、逻辑推理和指令跟随等高级能力的演进,形成了复杂检索技术发展的良性生态。
以上内容由遇见数据集搜集并总结生成



