recency-based-instructions

Name: recency-based-instructions
Creator: ContextualAI
Published: 2025-08-13 04:29:01
License: 暂无描述

Hugging Face2025-08-13 更新2025-08-14 收录

下载链接：

https://huggingface.co/datasets/ContextualAI/recency-based-instructions

下载链接

链接失效反馈

官方服务：

资源简介：

基于上下文的近期指令跟随检索数据集，旨在评估能够在排序过程中遵循特定指令的检索系统。每个查询都附带一个指令，指定在检索过程中应优先考虑的信息方面或类型。

提供机构：

ContextualAI

创建时间：

2025-08-11

原始信息汇总

ContextualAI Recency-Based Instruction-Following Retrieval Dataset 概述

数据集基本信息

数据集名称: Contextual Recency-Based Instruction-Following Retrieval Dataset
许可证: Creative Commons Attribution Non Commercial Share Alike 4.0
发布者: George Halal, Sheshansh Agrawal
发布年份: 2025
数据集大小: 266587字节
下载大小: 85326字节
训练集样本数: 268

数据集结构

特征

query: 搜索查询
instruction: 检索时应优先考虑的特定方面的指令
positive_metadata: 相关段落的元数据/上下文
negative_metadata: 非相关段落的元数据/上下文列表
source_dataset: 包含完整段落的源数据集名称
passage_id: 从源数据集中检索完整段落的唯一标识符

数据处理

注意事项: 由于法律原因，数据集不包含原始段落，需通过提供的脚本从源数据集下载并合并。
处理脚本: 包含Python脚本用于加载数据集、合并元数据与原始段落。

评估

评估指标: 平均倒数排名（Mean Reciprocal Rank, MRR）
评估过程:
1. 对每个查询-指令对，检索/排名所有段落（1个正例 + N个负例）
2. 找到正例段落的排名
3. 计算倒数排名（1/rank）
4. 对所有查询取平均
评估脚本: 包含Python脚本用于计算MRR。

引用

bibtex @dataset{ContextualAI-recency-based-instructions, title={Contextual Recency-Based Instruction-Following Retrieval Dataset}, author={George Halal, Sheshansh Agrawal}, year={2025}, publisher={HuggingFace} }

联系方式

问题反馈: 在数据集仓库提交问题或联系george@contextual.ai。

搜集汇总

数据集介绍

构建方式

在信息检索领域，时效性指令数据集采用了一种创新的构建方法。研究者从多个权威语料库中精选查询样本，并为每个查询配以特定指令，明确标注需要优先检索的信息类型。通过系统化地标注正负样本的元数据，并保留原始语料库的索引标识，构建了一个既保持原始数据完整性又具备明确评估目标的基准数据集。这种构建方式既解决了数据版权问题，又确保了评估的严谨性。

使用方法

使用该数据集需要分阶段处理：首先通过提供的Python脚本从原始语料库下载并合并完整文本，构建出包含查询、指令和完整篇章的评估集合。评估时采用平均倒数排名(MRR)指标，要求检索系统根据指令对正负样本进行排序。数据集特别设计了批处理机制，可高效处理来自不同源数据集的样本，为研究者提供了标准化的评估流程和对比基准。

背景与挑战

背景概述

由ContextualAI团队于2025年发布的基于时效性的指令遵循检索数据集，代表了信息检索领域对动态语义理解的最新探索。该数据集由George Halal和Sheshansh Agrawal等研究者构建，核心在于解决传统检索系统无法有效解析时序敏感指令的瓶颈。通过整合多源异构数据中的查询-指令-段落三元组，该数据集为评估检索模型在复杂语义约束下的性能提供了标准化基准，显著推动了对话式搜索和时序敏感检索方向的研究进程。

当前挑战

该数据集主要面临双重技术挑战：在领域问题层面，如何建模指令中的时序敏感特征（如'最新进展'、'近期事件'等）与文档时效性的动态关联仍存在语义鸿沟；在构建过程中，由于版权限制需跨多个源数据集进行异构数据对齐，且需确保负样本在时效性维度上具有区分度，这种非对称的负采样策略极大增加了数据标注复杂度。此外，评估时要求检索系统同时处理显式指令和隐式时序线索，这对现有排序模型的多任务协同能力提出了更高要求。

常用场景

经典使用场景

在信息检索领域，该数据集为评估检索系统在遵循特定指令下的性能提供了标准化测试环境。通过结合查询与定制化指令，研究者能够系统分析模型对时效性、相关性等多维度需求的响应能力，特别适用于验证复杂检索任务中指令理解的精确性。

解决学术问题

该数据集有效解决了传统检索系统对用户意图理解不足的学术难题，通过引入指令驱动的评估框架，推动了对动态检索策略、多维度相关性排序等核心问题的研究。其结构化设计为分析检索模型在时效性偏好、上下文感知等细分场景的缺陷提供了量化依据。

实际应用

在智能客服系统与垂直领域搜索引擎中，该数据集指导开发的模型能精准解析用户隐含需求。例如法律文献检索场景，系统可依据'优先近三年判例'等指令动态调整排序策略，显著提升专业场景下的服务效率与用户满意度。

数据集最近研究