IFIR

Name: IFIR
Creator: 中国科学院大学先进交叉学科学院, 中国科学院重庆绿色智能技术研究院, 浙江大学, 耶鲁大学
Published: 2025-03-07 01:32:22
License: 暂无描述

arXiv2025-03-07 更新2025-03-08 收录

下载链接：

https://github.com/SighingSnow/IFIR

下载链接

链接失效反馈

官方服务：

资源简介：

IFIR是一个综合性的评估指令遵循信息检索能力的基准数据集，包含2426个高质量示例，涵盖金融、法律、医疗保健和科学文献四个专业领域的8个子集。每个子集针对一个或多个特定领域的检索任务，模拟现实世界中定制化指令的关键场景。IFIR通过融入不同复杂度的指令，实现对指令遵循检索能力的详细分析。该数据集由领域专家进行综合验证，确保高质量，并应用于评估信息检索系统在遵循复杂、特定领域指令方面的性能。

IFIR is a comprehensive benchmark dataset for evaluating instruction-following information retrieval capabilities. It comprises 2,426 high-quality examples, including 8 subsets across four professional domains: finance, law, healthcare, and scientific literature. Each subset targets one or more domain-specific retrieval tasks, simulating critical real-world scenarios of customized instructions. IFIR enables in-depth analysis of instruction-following retrieval performance by integrating instructions with varying complexity levels. This dataset has been comprehensively verified by domain experts to guarantee its high quality, and is utilized to assess the performance of information retrieval systems when following complex, domain-specific instructions.

提供机构：

中国科学院大学先进交叉学科学院, 中国科学院重庆绿色智能技术研究院, 浙江大学, 耶鲁大学

创建时间：

2025-03-07

搜集汇总

数据集介绍

构建方式

IFIR数据集的构建采用了半自动化和人工参与的流程，以确保数据集的规模和质量。首先，从现有的专业领域IR基准中收集了查询数据，然后针对每个专业领域扩展了查询，增加了详细的指令，这些指令模拟了现实世界中的场景。为了确保指令的质量和与实际需求的匹配，每个示例都经过了领域专家的彻底验证。此外，还使用了LLM（例如GPT-4o）来评估原始相关段落与指令的相关性，并由人工注释者进行审查。最终，数据集包括2,426个指令跟随查询，涵盖了金融、科学文献、法律和医疗保健四个专业领域。

特点

IFIR数据集的特点包括涵盖四个专业领域（金融、科学文献、法律和医疗保健）的2,426个高质量示例，每个示例平均有6.14个真实段落。数据集还包括不同级别的指令复杂性，以模拟现实世界中的信息检索场景。为了更精确地评估模型性能，提出了一种新的LLM-based评估方法，即INSTFOL，用于评估信息检索器在遵循指令方面的能力。此外，IFIR数据集还包括了相关段落的注释，以确保其完整性和准确性。

使用方法

IFIR数据集的使用方法包括使用nDCG和INSTFOL两种评估指标来评估信息检索器的性能。nDCG是一种广泛采用的IR指标，用于评估检索性能。INSTFOL是一种新的LLM-based评估方法，专门设计用于评估信息检索器在遵循指令方面的能力。通过在15个前沿信息检索器上进行广泛的实验，包括基于LLM的模型，可以得出关键发现，并指导未来检索器的发展。

背景与挑战

背景概述

IFIR数据集是首个旨在评估专业领域指令式信息检索的全面基准。该数据集由中国科学院大学、中国科学院重庆绿色智能技术研究院、浙江大学和耶鲁大学的研究人员共同创建，包含2426个高质量示例，涵盖了金融、法律、医疗保健和科学文献四个专业领域。每个子集都针对一个或多个特定领域的检索任务，模拟了现实世界场景中定制指令的必要性。IFIR通过在不同复杂程度的指令下进行评估，使对指令式检索能力的分析更加细致。此外，该数据集还提出了一个基于大型语言模型（LLM）的新型评估方法，即INSTFOL，旨在更精确、可靠地评估模型在遵循指令方面的性能。通过在15个前沿信息检索器上的广泛实验，包括基于LLM的检索器，结果表明，当前模型在有效遵循复杂、特定领域的指令方面面临重大挑战。

当前挑战

IFIR数据集的挑战主要包括：1) 模型在遵循复杂、特定领域的指令方面存在困难；2) 构建过程中所遇到的挑战，包括长指令的处理、密集专业知识的理解以及高度定制化指令的识别等。具体而言，当前模型在处理超过1,024个token的长指令时存在困难，因为它们通常是在最大token长度为512的情况下进行训练的。此外，对于需要专业知识的指令，特别是在科学文献和医疗保健领域，常见的训练数据并未涵盖所有专家知识。最后，高度定制化的指令，如用户或医生在金融和医疗保健领域有多个优先目标和需求，传统的检索器可能无法识别。

常用场景

经典使用场景

IFIR数据集广泛应用于评估信息检索系统在专业领域中的指令遵循能力。它包含了2426个高质量的示例，覆盖了八个子集，涵盖了金融、法律、医疗保健和科学文献四个专业领域。每个子集都针对一个或多个特定领域的检索任务，模拟了现实世界中定制指令至关重要的场景。IFIR通过在不同复杂程度的指令中纳入指令，能够对指令遵循检索能力进行详细分析。我们还提出了一种基于大型语言模型的新型评估方法，以提供更精确和可靠的指令遵循性能评估。通过在15个前沿信息检索器上的广泛实验，包括基于LLM的检索器，我们的结果表明，当前模型在有效遵循复杂、特定领域的指令方面面临着重大挑战。我们进一步提供深入分析，以突出这些局限性，为检索器开发提供未来发展的见解。

衍生相关工作

IFIR数据集衍生了一系列相关的经典工作，例如INSTRUCTOR和GritLM-7B等模型，这些模型在处理复杂指令方面表现出色。此外，IFIR的引入还促进了基于大型语言模型的新型评估方法的发展，如INSTFOL，它可以更精确地评估检索器遵循指令的能力。这些衍生工作为进一步研究指令遵循检索提供了重要的基础和方向。

数据集最近研究