hybrid-late-interaction-bm25

Hugging Face2026-05-31 更新2026-06-01 收录

下载链接：

https://huggingface.co/datasets/datamokotow/hybrid-late-interaction-bm25

下载链接

链接失效反馈

官方服务：

资源简介：

该资源库并非一个独立的数据集，而是一个专注于信息检索领域混合检索方法研究的项目成果集合。项目核心研究问题是'词汇搜索何时有助于后期交互检索？'，具体探讨了将词汇检索（BM25）与语义检索相结合，作为第一级候选生成器，为后续基于ModernColBERT等模型的后期交互重排序阶段提供高质量候选集的有效性。研究在七个BEIR风格的标准信息检索基准数据集上进行了评估。主要发现表明，采用词汇与语义检索结果融合（RRF）的混合第一级候选生成策略，相较于纯词汇（BM25）或纯语义第一级生成器，能显著提升候选集的召回率（Recall@100），进而使得后续的ModernColBERT重排序获得更高的检索精度（nDCG@10）。项目内容包含研究论文、实验配置与运行脚本、完整的实验结果与指标表格，以及用于复现的详细命令记录。请注意，项目本身不包含原始的BEIR数据集或其索引，但提供了用于数据准备和实验复现的脚本。

创建时间：

2026-05-31

原始信息汇总

数据集概述

数据集名称：Hybrid Candidate Generation for Late-Interaction Retrieval
许可证：MIT
任务类别：文本检索（text-retrieval）
标签：混合搜索（hybrid-search）、BM25、语义搜索（semantic-search）、晚期交互（late-interaction）、ColBERT、重排序（reranking）、BEIR
发布者：Rutvik Acharya（Hugging Face 用户 datamokotow）

核心研究内容

本数据集对应一篇研究论文，探讨词汇搜索（BM25）在晚期交互检索中的辅助作用。核心发现：在晚期交互重排序中，将BM25与语义搜索混合作为第一阶段的候选项生成器，效果最佳。

实验设置：在7个BEIR风格的数据集上，使用ModernColBERT对混合（词汇+语义）候选项进行重排序。
主要结果：
- 混合策略使平均nDCG@10从0.3826（仅重排序BM25 top-100）提升至0.4211。
- 平均Recall@100从0.5262（BM25）提升至0.6743（混合第一阶段）。

实验结果表格

系统	nDCG@10	Recall@100
BM25 第一阶段	0.2956	0.5262
语义第一阶段	0.3831	0.6738
词汇+语义 RRF 第一阶段	0.3606	0.6743
ModernColBERT 重排序 BM25 top-100	0.3826	0.5262
ModernColBERT 重排序 RRF top-100	0.4211	0.6743

实验制品结构

paper/：论文PDF及LaTeX源码
experiments/：数据集准备、检索、融合、重排序、分析及表格编译的配置和脚本
results/paper8_chunked/：已完成运行的指标、表格和分析摘要
artifacts/paper_main/：命令表、清单和结果快照

复现步骤

安装依赖：uv sync
准备数据集：运行prepare_paper_data.py脚本，指定配置文件
运行主实验：运行run_paper_main.py脚本
编译论文表格：运行compile_paper_tables.py脚本

引用信息

如使用此数据集制品，请引用以下BibTeX条目：

@misc{acharya2026lexical_late_interaction, title={When Does Lexical Search Help Late-Interaction Retrieval? Hybrid Candidate Generation for Multi-Vector Reranking}, author={Acharya, Rutvik}, year={2026}, howpublished={Hugging Face dataset artifact}, url={https://huggingface.co/datasets/datamokotow/hybrid-late-interaction-bm25} }

搜集汇总

数据集介绍

构建方式

本数据集旨在探索词汇检索（BM25）与语义检索（ModernColBERT）混合策略对晚期交互重排序任务的影响。基于七个BEIR风格的标准数据集，研究团队构建了一套混合候选生成流水线：首先使用BM25进行词汇检索，同时利用ModernColBERT进行语义检索，随后通过互惠排名融合（RRF）将两者的前100个候选结果合并，作为重排序阶段的输入。这一构建方式系统化地比较了纯词汇、纯语义及混合策略在候选召回与排序质量上的差异，实验配置、脚本及结果均被完整归档。

特点

该数据集的核心特点在于其揭示了混合第一阶候选生成策略对晚期交互检索的显著增益。实验数据显示，在ModernColBERT重排序框架下，采用词汇与语义混合的RRF前100候选，平均nDCG@10从纯BM25候选的0.3826提升至0.4211，Recall@100由0.5262跃升至0.6743。这一改进归因于混合策略大幅提升了候选召回率，弥补了单一检索方式在相关文档覆盖上的不足，为多向量重排序中的候选生成环节提供了实证优化依据。

使用方法

使用者可通过本数据集复现完整实验流程。在安装uv依赖管理器并执行`uv sync`后，运行`prepare_paper_data.py`脚本配置指定实验配置文件，即可自动下载并准备七个BEIR数据集。随后通过`run_paper_main.py`启动主实验，依次执行检索、融合、重排序等步骤。最终借助`compile_paper_tables.py`脚本汇总实验指标，生成论文格式的对比表格。所有实验命令与配置细节均收录于`artifacts/paper_main/COMMANDS.md`文件中，便于研究者按图索骥。

背景与挑战

背景概述

在信息检索领域，基于多向量表示的延迟交互模型（如ColBERT）通过后期交互机制实现了检索精度与效率的平衡，但其对初始候选文档集的召回质量高度敏感。为探究词汇检索对延迟交互重排的增益机制，Rutvik Acharya等于2026年构建了hybrid-late-interaction-bm25数据集，系统研究BM25与语义检索混合作为第一阶段候选生成器对ModernColBERT重排性能的影响。该数据集基于BEIR基准中的七个标准数据集，通过对比纯词汇、纯语义及词汇-语义融合（RRF）三种候选生成策略，揭示了混合策略在平均nDCG@10指标上从0.3826提升至0.4211的显著效果，为延迟交互模型的实际部署提供了重要依据。

当前挑战

该数据集致力于解决延迟交互检索领域中的核心挑战：如何高效融合词汇与语义线索以提升候选集召回率。构建过程面临双重困难——一方面需从BEIR多源数据中统一评估流程，确保不同语料库下的检索公平性；另一方面，词汇与语义特征的异构性导致融合策略（如RRF）的最优权重难以确定，且实验涉及大规模索引生成与重排计算，对资源调度和算法复现性构成考验。此外，纯BM25的低召回（Recall@100仅0.5262）与语义检索的高计算成本之间的矛盾，凸显了混合方案在精度与效率权衡中的关键作用。

常用场景

经典使用场景

在信息检索领域，该数据集专为研究词汇检索（如BM25）与语义检索（如晚期交互模型）的混合候选生成而设计。其经典用法聚焦于评估现代ColBERT模型对混合第一阶段（词汇+语义）检索结果的再排序效果，通过在BEIR风格数据集上比较不同候选生成策略（纯BM25、纯语义、RRF融合）对最终检索精度的影响，揭示混合策略在提升Top-100候选召回率方面的核心价值。

解决学术问题

该数据集直面晚期交互检索中候选生成阶段的瓶颈问题：纯BM25召回不足而纯语义检索可能遗漏精确匹配。通过系统性实验表明，词汇与语义的RRF融合策略能显著提升Recall@100（从0.5262至0.6743），进而带动ModernColBERT再排序的nDCG@10提升近10%。这一发现为混合检索的学术研究提供了量化基准，验证了词汇信号在语义时代依然不可或缺。

衍生相关工作

该数据集衍生了一系列关于混合检索基线、融合策略及再排序效能的研究，包括对比不同词汇-语义组合（如SPLADE、Dense Passage Retrieval）、探索替代融合算法（如基于学习的方法）以及分析特定领域（如医学、法律）的混合效果。此外，其公开的完整可复现实验配置与结果表，已成为后续研究验证新型检索范式的标尺。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集