CRUMB

github2025-09-11 更新2025-09-12 收录

下载链接：

https://github.com/jfkback/crumb

下载链接

链接失效反馈

官方服务：

资源简介：

CRUMB是一个多样化且真实的基准数据集，旨在评估信息检索模型在复杂、多方面的搜索任务上的能力。它包含8个精心策划的检索任务，这些任务具有多个组件或要求（即复杂），与许多现有的常见评估集合和基准不同。该数据集涵盖法律问答、临床试验、代码、科学论文等多个领域，提供自然且包含多个约束或要求的复杂查询，以及统一的Markdown格式文档。

CRUMB is a diverse and authentic benchmark dataset developed to evaluate the capabilities of information retrieval models on complex, multi-faceted search tasks. It includes 8 carefully curated retrieval tasks that feature multiple components or requirements (i.e., inherently complex), which distinguishes it from many existing mainstream evaluation collections and benchmarks. This dataset covers multiple domains such as legal question answering, clinical trials, code, scientific papers and more, providing natural complex queries with multiple constraints or requirements, as well as documents in a unified Markdown format.

创建时间：

2025-09-07

原始信息汇总

CRUMB 数据集概述

基本信息

数据集名称：CRUMB（Complex Retrieval Unified Multi-task Benchmark）
主要用途：评估信息检索模型在复杂、多方面的搜索任务上的能力
数据来源：包含法律问答、临床试验、代码、科学论文等多个领域
访问方式：通过 Hugging Face Datasets 库加载（数据集名称：jfkback/crumb）

核心特点

任务多样性：包含八个不同的检索任务
查询复杂性：查询为自然语言，包含多个约束或要求
数据标准化：文档以统一的 Markdown 格式提供，并采用上下文分块以保留文档结构
版本灵活性：提供分块段落版本（适用于标准检索器）和完整文档版本（适用于长上下文模型）
验证集支持：每个任务包含开发集，支持调优和少样本提示方法

任务列表

任务名称	查询类型	语料库
论文检索	多方面科学论文标准	科学论文摘要
代码检索	多约束编码问题	已验证的代码解决方案
定理检索	数学问题	数学定理
法律问答	带有地理约束的法律问题	州法律法规
舌尖现象	对电影/电视的模糊、多细节描述	维基百科页面
临床试验检索	患者医疗史	临床试验描述
StackExchange 问答	需要推理的社区问题	网页和维基百科
集合操作	带有基于集合操作的实体查询	维基百科页面

数据结构

数据集分为四个子集：

evaluation_queries：包含查询及其对应的真实相关性标签（qrels）
validation_queries：结构与 evaluation_queries 相同，用于开发
passage_corpus：包含分块文档（段落）的语料库
full_document_corpus：包含完整、未分块文档的语料库

查询子集字段

query_id：查询的唯一字符串标识符
query_content：复杂查询的字符串内容
instruction：可选的字符串，提供任务特定指令
passage_qrels：包含 passage_corpus 相关性判断的字典列表
passage_binary_qrels：与 passage_qrels 相同，但标签为二进制分数
full_document_qrels：包含 full_document_corpus 相关性判断的字典列表
use_max_p：布尔标志，标识此查询集合是否应使用 MaxP 进行评估
metadata：包含查询附加元数据的字符串化 JSON 对象

语料库子集字段

document_id：文档/段落的唯一字符串标识符
document_content：文档/段落的文本内容
parent_id：提取此段落的完整文档的 document_id（如果适用）
metadata：包含文档/段落附加元数据的字符串化 JSON 对象

使用注意事项

对于使用二进制评估指标（如召回率或精确率）的任务，建议使用 passage_binary_qrels
对于没有每块标签的数据集，建议对段落（即分块）集合使用 MaxP
某些任务的 passage 和 full_document 集合内容相同，因为原始文档太短而无法分块

评估支持

正在开发标准化评估库，以简化在 CRUMB 上的基准测试
将提供基线模型运行结果、重写查询和定性示例

引用信息

如果使用 CRUMB 基准测试或任何相关工件，请引用相关论文，并同时引用所使用的特定任务的原始来源。

搜集汇总

数据集介绍

构建方式

在信息检索领域，随着语言模型技术的飞速发展，用户对系统处理多维度复杂查询的需求日益增长。CRUMB数据集的构建采用了多任务统一框架，精心策划了涵盖法律问答、临床试验、代码检索及科学论文等八个不同领域的复杂检索任务。每个任务均基于真实场景设计，文档内容以统一的Markdown格式呈现，并通过上下文感知的分块处理保留文档结构完整性，同时提供分块段落和完整文档两种版本以适应不同模型的评估需求。

特点

CRUMB数据集的核心特点在于其多样性与真实性，它突破了传统检索基准仅关注单一方面查询的局限。该数据集包含自然语言编写的多约束复杂查询，每个任务均配备开发集以支持模型调优和少样本提示策略。其标准化数据格式与多粒度评估体系（包括分段和全文版本）为检索模型提供了全面而严谨的测试环境，显著提升了评估结果的可靠性与可比性。

使用方法

研究者可通过Hugging Face datasets库快速加载CRUMB数据集，灵活选择具体任务及其配置（分块或全文版本）。评估时需注意根据任务特性选用二元或分级相关性标注，并对部分任务应用MaxP聚合策略以优化分块检索效果。数据集提供标准化查询-文档对及元数据信息，支持端到端的检索性能测试，同时即将发布的评估库将进一步简化基准对比流程。

背景与挑战

背景概述

信息检索领域长期以来依赖于针对单一维度查询设计的评估基准，随着语言模型技术的飞速发展，用户对多维度复杂检索任务的需求日益凸显。2025年由Julian Killingback与Hamed Zamani联合推出的CRUMB基准测试集，首次系统性地整合了科学文献检索、临床实验匹配、法律条文查询等八个跨领域复杂任务，通过标准化Markdown文档结构与多粒度数据版本，为下一代检索系统的性能评估提供了重要基础设施。该数据集通过揭示当前最先进模型在复杂查询处理上的显著缺陷，推动了检索技术向多约束条件理解方向的范式转移。

当前挑战

CRUMB致力于解决多维度复合查询的精准检索问题，其核心挑战在于模型需要同时解析查询中的多重语义约束、逻辑关系及领域特定术语。构建过程中面临三大技术难点：一是跨领域文档的结构化统一，需将法律条文、数学定理、医疗记录等异构数据转化为标准化表示；二是上下文保持的分块策略设计，需在文档切割过程中维持原始语义完整性；三是多维相关性标注体系建立，要求对复合查询下的文档相关性进行细粒度分级评估。这些挑战共同推动了检索系统在语义理解与结构感知方面的技术边界。

常用场景

经典使用场景

在信息检索领域，CRUMB数据集作为评估复杂多维度检索任务的权威基准，其经典应用场景主要体现在对前沿检索模型的系统性性能验证。该数据集通过八个精心设计的子任务——涵盖法律问答、临床试验匹配、代码检索等专业领域——要求模型同时处理包含多重约束条件、模糊描述或跨模态需求的复杂查询。研究者通常利用其标准化评估框架，对比不同模型在相同复杂场景下的召回率与准确率，从而揭示模型在真实世界复杂信息需求下的实际表现。

解决学术问题

CRUMB有效解决了传统检索基准局限于单维度简单查询的学术研究瓶颈，为多约束复合检索任务提供了系统化评估方案。其意义在于首次统一了复杂检索任务的评价标准，揭示了即使最先进的检索模型在面临多条件联合推理时仍存在显著性能缺陷。该数据集推动了检索模型从关键词匹配向语义理解与逻辑推理的范式转变，为下一代智能检索系统的理论创新提供了关键实验依据与方向指引。

衍生相关工作

基于CRUMB数据集已衍生出多项具有影响力的研究工作，包括基于大语言模型的查询重写策略（如Query-to-Answer、Query-as-Reasoning-Trace技术）、面向长文档的上下文聚合检索方法（MaxP评估框架），以及针对多约束检索的联合优化算法。这些工作不仅显著提升了复杂检索任务的性能指标，更推动了检索系统与生成模型的深度融合，为构建下一代具备推理能力的智能检索体系奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集