complex-instructions

Name: complex-instructions
Creator: ContextualAI
Published: 2025-08-13 04:30:11
License: 暂无描述

Hugging Face2025-08-13 更新2025-08-14 收录

下载链接：

https://huggingface.co/datasets/ContextualAI/complex-instructions

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估能够遵循特定指令进行段落排名的检索系统的数据集。每个查询都附带一个指令，指定在检索过程中应优先考虑的信息方面或类型。数据集包含以下特征：查询、指令、正样本元数据、负样本元数据、源数据集和段落ID。

This is a dataset for evaluating retrieval systems capable of following specific instructions to conduct passage ranking. Each query is paired with an instruction that specifies the information aspects or types that should be prioritized during the retrieval process. The dataset includes the following features: query, instruction, positive sample metadata, negative sample metadata, source dataset, and passage ID.

提供机构：

ContextualAI

创建时间：

2025-08-11

原始信息汇总

ContextualAI Complex Instruction-Following Retrieval Dataset 概述

数据集简介

用途：评估能够根据特定指令对段落进行排序的检索系统
特点：每个查询附带指令，指定检索时应优先考虑的信息方面或类型

数据集结构

特征字段

query: 搜索查询
instruction: 检索的具体指令
positive_metadata: 相关段落的元数据/上下文
negative_metadata: 非相关段落的元数据/上下文列表
source_dataset: 包含完整段落的源数据集名称
passage_id: 从源数据集中检索完整段落的唯一标识符

数据统计

训练集:
- 样本数量: 271
- 大小: 324702字节
下载大小: 142784字节
数据集总大小: 324702字节

数据处理

注意事项：由于法律原因，无法托管原始段落，需通过脚本处理
处理步骤：
1. 从源数据集下载原始段落
2. 使用提供的Python脚本合并元数据

评估方法

评估指标：平均倒数排名(MRR)
评估流程：
1. 对每个查询-指令对检索/排序所有段落
2. 查找正段落的排名
3. 计算倒数排名(1/rank)
4. 对所有查询取平均值

引用信息

bibtex @dataset{ContextualAI-complex-instructions, title={Contextual Complex Instruction-Following Retrieval Dataset}, author={George Halal, Sheshansh Agrawal}, year={2025}, publisher={HuggingFace} }

许可信息

许可证类型：Creative Commons Attribution Non Commercial Share Alike 4.0

联系方式

联系人：george@contextual.ai
问题反馈：在数据集仓库提交issue

搜集汇总

数据集介绍

构建方式

在信息检索领域，高质量的数据集对于评估系统性能至关重要。该数据集通过整合多个源数据集中的查询-指令对构建而成，采用元数据与原始文本分离的存储策略。研究人员精心设计了查询指令配对机制，每个查询均附带特定检索要求，正负样本通过源数据集中的篇章ID动态关联，既保证了数据多样性又避免了版权问题。

特点

该数据集的核心价值在于其独特的指令驱动检索范式。每个查询都配有明确的检索指令，要求系统根据特定维度进行相关性判断，有效模拟了真实场景中的复杂信息需求。数据样本涵盖多源异构文本，正负样本的元数据与篇章内容分离存储，既保留了丰富的上下文信息，又提供了灵活的扩展接口。这种设计特别适合评估检索系统对复杂语义要求的理解能力。

使用方法

使用该数据集需要分步骤处理原始文本与元数据。首先通过提供的Python脚本自动下载源数据集，随后将篇章内容与本地存储的元数据进行智能匹配。评估阶段采用平均倒数排名(MRR)指标，要求开发者实现自定义检索函数，系统会根据查询指令对候选篇章进行排序。整个过程支持批量处理同源数据，显著提升了大规模评估的效率，同时确保了实验的可重复性。

背景与挑战

背景概述

ContextualAI复杂指令检索数据集由George Halal和Sheshansh Agrawal于2025年创建，旨在评估检索系统在遵循特定指令进行段落排序方面的能力。该数据集通过引入指令驱动的检索范式，对传统基于关键词匹配的检索方法提出了革新性挑战。其核心研究问题聚焦于如何使检索系统准确理解并执行用户提供的复杂指令，从而提升信息检索的精准度和语义理解深度。作为多源异构数据集的集成产物，该数据集通过融合来自不同领域的查询-指令-段落三元组，为构建新一代上下文感知检索系统提供了重要基准。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，现有检索模型难以有效平衡指令语义理解与段落相关性判断的协同优化，导致对隐含意图和多维度检索要求的响应不足；在构建过程中，由于法律限制无法直接托管原始文本段落，需设计分布式数据处理流程来实现元数据与源数据的动态关联，这种非标准化的数据结构对数据一致性和评估复现性提出了更高要求。此外，指令的多样性与段落相关性标注之间的复杂映射关系，也使得评估指标的鲁棒性面临严峻考验。

常用场景

经典使用场景

在信息检索领域，complex-instructions数据集为评估检索系统在遵循复杂指令时的性能提供了标准化测试环境。该数据集通过精心设计的查询-指令对，模拟真实场景中用户对检索结果的多维度需求，例如要求系统优先考虑特定属性或信息类型。研究人员可利用该数据集验证检索模型对语义约束条件的理解能力，特别是在需要综合考量查询意图和指令偏好的复杂情境下。

实际应用

在商业搜索引擎和智能助手开发中，该数据集指导构建能理解精细化搜索指令的实用系统。电商平台可借鉴其框架开发支持多条件商品检索的引擎，如'优先显示续航超过10小时的轻薄本'这类复合需求。企业知识库系统利用该数据集训练的模型，能够准确响应包含业务逻辑的文档查询指令，大幅提升专业场景下的信息获取效率。

衍生相关工作

基于该数据集衍生的经典研究包括指令感知的稠密检索模型（InstructDR）和动态指令编码架构。微软研究院提出的Contriever模型通过在该数据集上的测试，验证了指令微调对跨领域检索的增强效果。后续工作如FLIRT框架进一步探索了指令与查询的联合表示学习，推动形成了检索-指令协同优化的新研究方向。

以上内容由遇见数据集搜集并总结生成