PosIR

github2026-01-12 更新2026-01-13 收录

下载链接：

https://github.com/Ziyang1060/PosIR

下载链接

链接失效反馈

官方服务：

资源简介：

PosIR是一个大规模异构基准数据集，用于诊断检索模型中的位置偏差。它包含310个数据集，涵盖10种语言和31个领域，通过严格的流程将相关性与精确的参考跨度联系起来，从而严格分离文档长度和信息位置。

PosIR is a large-scale heterogeneous benchmark dataset for diagnosing positional bias in retrieval models. It encompasses 310 datasets spanning 10 languages and 31 domains, and connects relevance with precise reference spans via a rigorous workflow, thereby strictly disentangling document length and information position.

创建时间：

2026-01-07

原始信息汇总

PosIR: Position-Aware Heterogeneous Information Retrieval Benchmark 数据集概述

数据集简介

PosIR（Position-Aware Information Retrieval）是一个用于诊断检索模型中位置偏差（position bias）的大规模异构信息检索基准。该基准旨在解决现有评估方法通常忽略相关信息位置敏感性的问题，严格解耦文档长度与信息位置的影响。

核心特性

位置感知相关性：提供基于文本片段（span-level）的细粒度相关性标注。
解耦设计：严格分离文档长度与证据位置的影响。
规模与多样性：包含310个数据集，覆盖10种语言和31个领域。
诊断能力：专门用于诊断信息检索中的位置偏差（首因偏差和近因偏差）。
可解释性分析支持：支持基于梯度的显著性分析，用于探究模型内部机制。

技术细节

构建方法：通过严格的构建流程，将相关性与精确的参考文本片段绑定。
实验发现：
- 在长上下文设置下，模型在PosIR上的性能与MMTEB基准相关性较低，揭示了当前短文本基准的局限性。
- 位置偏差普遍存在，并随文档长度增加而加剧；大多数模型表现出首因偏差，部分模型显示出意外的近因偏差。
- 基于梯度的显著性分析进一步揭示了驱动这些位置偏好的不同内部注意力机制。

资源与访问

数据集地址：https://huggingface.co/datasets/infgrad/PosIR-Benchmark-v1
论文：即将发布（arXiv预印本准备中）
排行榜：即将开放，欢迎贡献

使用说明

环境安装

推荐使用 uv 和 Python 3.12 管理环境。需安装的Python包包括：polars, transformers, sentence_transformers, scikit-learn, pandas, pytrec_eval, psutil, flash-attn, datasets, einops。

评估流程

下载数据集至 PosIR-Benchmark-v1/ 目录。
配置并运行 eval.sh 脚本进行单语或跨语言检索评估。
使用 agg_result.py 脚本聚合31个领域的结果。
使用 ndcg_PSI_analysis.py 脚本计算所有模型的NDCG和PSI指标。
（可选）使用 draw_fig.py 脚本可视化结果。

显著性分析

提供了针对 Qwen3-Embedding-8B 和 NV-Embed-v2 模型的基于梯度的显著性分析实验脚本（gradient_saliency/qwen3_exp.py, gradient_saliency/nvidia_exp.py）和可视化脚本（gradient_saliency/visualize.py）。

搜集汇总

数据集介绍

构建方式

在信息检索领域，对密集检索模型的位置敏感性进行系统评估尚属空白。PosIR基准的构建采用严谨的流程，通过将相关性标注与文档内的精确参考片段（span）进行绑定，实现了文档长度与信息位置在评估中的严格解耦。该流程覆盖了10种语言和31个领域，生成了310个数据集，确保了评估的广泛性和诊断的针对性。

特点

PosIR基准的核心特征在于其位置感知的相关性标注机制，该机制支持在片段级别进行证据定位。这一设计使得基准能够专门诊断检索模型中的位置偏差，包括首因效应和近因效应。基准规模宏大，语言和领域覆盖广泛，并支持基于梯度的显著性分析，为探究模型内部注意力机制提供了独特工具。

使用方法

使用PosIR基准需先配置指定Python环境并安装依赖库。评估流程包括下载数据集、运行评估脚本以获取各领域详细结果、聚合31个领域的整体性能指标，并计算NDCG和PSI等关键度量。此外，基准提供了针对特定模型的梯度显著性分析实验脚本，用户可通过运行这些脚本并可视化结果，深入探究模型的位置偏好机制。

背景与挑战

背景概述

在信息检索领域，密集检索模型虽已取得显著成就，但其对相关信息位置的敏感性评估——即位置偏差问题——长期缺乏系统性的研究框架。现有基准大多采用位置无关的相关性标注，将长文本处理能力与特定证据位置的偏见混为一谈。为应对这一挑战，研究团队近期推出了PosIR（位置感知信息检索）基准，这是一个旨在诊断多样化检索场景中位置偏差的综合评估体系。该数据集由310个子集构成，涵盖10种语言和31个领域，通过将相关性严格锚定于文本中的具体引用片段，实现了文档长度与信息位置的有效解耦。PosIR的建立为开发位置鲁棒的检索系统提供了关键的诊断工具，有望推动该领域向更精细、更公平的评估范式演进。

当前挑战

PosIR数据集致力于解决信息检索中模型对证据位置敏感性的评估难题，其核心挑战在于如何精准量化检索模型在长文档中表现出的位置偏差，如首因效应与近因效应。在构建过程中，研究团队面临多重技术障碍：首先，需设计严谨的标注流程，确保每项相关性判断均与文本中的具体跨度紧密关联，从而剥离文档长度对评估结果的干扰；其次，跨语言、多领域的大规模数据收集与标准化处理要求极高的协调性与一致性，以保障基准的广泛代表性与可比性。这些挑战共同凸显了在复杂检索环境中建立可靠、无偏评估标准的艰巨性。

常用场景

经典使用场景

在信息检索领域，密集检索模型虽已取得显著进展，但其对相关信息位置的敏感性评估仍存空白。PosIR数据集通过构建跨语言、多领域的基准测试，专门用于诊断检索模型中的位置偏差现象。该数据集将相关性标注与精确的文本跨度绑定，有效分离文档长度与证据位置的影响，为模型在长文本上下文中的性能评估提供了标准化场景。研究人员可借助PosIR系统分析模型对文本开头或结尾信息的偏好程度，从而深入探究位置偏差的普遍性与强度。

衍生相关工作

围绕PosIR数据集，一系列经典研究工作得以衍生，主要集中在位置偏差的机制分析与模型改进方面。例如，基于梯度显著性分析的技术被广泛应用于探究嵌入模型内部注意力分布，揭示不同模型对文本位置敏感性的内在驱动因素。此外，结合PosIR的评估结果，研究者提出了多种针对位置偏差的校正方法，如注意力重加权或上下文均衡策略，这些工作进一步促进了长文本检索模型的鲁棒性提升，并为后续跨模态检索、低资源语言检索等领域的偏差研究奠定了方法论基础。

数据集最近研究