FutureQueryEval

github2025-08-28 更新2025-09-01 收录

下载链接：

https://github.com/DataScienceUIBK/llm-reranking-generalization-study

下载链接

链接失效反馈

官方服务：

资源简介：

FutureQueryEval是一个新颖的信息检索基准数据集，包含148个查询和2,938个查询-文档对，涵盖7个主题类别，旨在评估重排序模型在时间新颖性上的性能。所有查询都涉及2025年4月之后的事件，确保零污染，由4名专家标注人员标注，包含技术、体育、政治、科学、健康、商业和娱乐等多样化领域

FutureQueryEval is a novel information retrieval benchmark dataset consisting of 148 queries and 2,938 query-document pairs across 7 topical categories, designed to evaluate the temporal novelty performance of re-ranking models. All queries pertain to events occurring after April 2025 to ensure zero data contamination, and were annotated by four expert annotators, covering diverse domains including technology, sports, politics, science, health, business, and entertainment.

创建时间：

2025-08-22

原始信息汇总

FutureQueryEval 数据集概述

数据集简介

FutureQueryEval 是一个新颖的信息检索基准数据集，专门设计用于评估重排序模型在时间新颖性上的性能表现。该数据集包含 148 个查询和 2,938 个查询-文档对，涵盖 7 个主题类别，所有查询均涉及 2025 年 4 月之后的事件。

核心特征

零污染性：所有查询均指向 2025 年 4 月之后的事件
人工标注：由 4 名专家标注人员进行质量把控
多样化领域：技术、体育、政治、科学、健康、商业、娱乐
真实事件：基于实际新闻和发展，非合成数据

数据集统计

指标	数值
总查询数	148
总文档数	2,787
查询-文档对数	2,938
每查询平均相关文档数	6.54
语言	英语
许可证	Apache-2.0

类别分布

技术：25.0%（37 个查询）
体育：20.9%（31 个查询）
科学与环境：13.5%（20 个查询）
商业与金融：12.8%（19 个查询）
健康与医学：10.8%（16 个查询）
世界新闻与政治：9.5%（14 个查询）
娱乐与文化：7.4%（11 个查询）

数据收集方法

来源选择：主要新闻媒体、官方网站、体育组织
时间过滤：仅包含 2025 年 4 月之后的事件
查询创建：领域专家手动生成
新颖性验证：针对 GPT-4 知识截止进行测试
质量控制：多标注者审查与高级监督

评估结果

在 FutureQueryEval 数据集上的最佳表现模型：

列表式方法：Zephyr-7B（NDCG@10：62.65）
点式方法：MonoT5-3B（NDCG@10：60.75）
集合式方法：Flan-T5-XL（NDCG@10：56.57）
对式方法：EchoRank-XL（NDCG@10：54.97）
锦标赛方法：TourRank-GPT4o（NDCG@10：62.02）

数据集更新计划

FutureQueryEval 将每 6 个月更新一次，以保持时间新颖性：

版本 1.1（2025 年 12 月）：增加 100 个来自 2025 年 7-9 月事件的查询
版本 1.2（2026 年 6 月）：增加 100 个来自 2025 年 10 月-2026 年 3 月事件的查询

引用信息

bibtex @misc{abdallah2025good, title={How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models}, author={Abdelrahman Abdallah and Bhawna Piryani and Jamshid Mozafari and Mohammed Ali and Adam Jatowt}, year={2025}, eprint={2508.16757}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在信息检索领域，评估模型对未知查询的泛化能力至关重要。FutureQueryEval数据集的构建采用严谨的多阶段流程，首先从主流新闻媒体和官方渠道筛选2025年4月后发生的真实事件作为数据源，确保时间新颖性；随后由领域专家手工编写查询语句，并通过GPT-4知识截止测试验证其未被预训练数据污染；最终由四位专业标注员进行质量把控，形成包含148个查询和2938个查询-文档对的高质量标注集合。

特点

该数据集的核心价值体现在其时空独特性与标注质量。所有查询均针对2025年4月后发生的事件设计，彻底杜绝了大型语言模型训练数据污染问题，为评估模型真实泛化能力提供可靠基准。数据集涵盖技术、体育、科技环境等七大领域，每个查询平均配备6.54个相关文档，且全部经过多轮人工审核，保证标注一致性与准确性。其Apache 2.0开源协议进一步促进学术共享与协作研究。

使用方法

研究人员可通过Hugging Face平台直接加载该数据集，依托其提供的标准评估框架进行重排序模型性能测试。使用过程需遵循严格的时序验证流程，确保测试查询完全超出模型训练时间范围。评估指标主要采用NDCG@10等信息检索标准度量，同时支持运行时效率分析。数据集每半年更新一次，持续纳入新时段事件查询，助力研究者追踪模型在动态环境下的性能演化。

背景与挑战

背景概述

信息检索领域长期面临着模型泛化能力的考验，FutureQueryEval数据集由因斯布鲁克大学研究团队于2025年创建，旨在构建首个面向未来事件的时序性检索基准。该数据集聚焦大语言模型在未知查询场景下的重排序性能评估，通过精心设计的148个涉及2025年4月后真实事件的查询语句，覆盖科技、体育、政治等七大领域，为测试检索模型在时序外推场景下的鲁棒性提供了重要实验平台。

当前挑战

该数据集核心挑战在于解决检索模型对未知时间窗口内容的泛化能力不足问题，具体表现为模型面对未来事件查询时出现5-15%的性能衰减。构建过程中需克服时序验证难题，包括确保所有查询事件严格超越大语言模型训练时间截点，以及通过多专家标注体系维持标注质量的一致性，这些技术难点对构建真正无数据污染的时序基准提出了极高要求。

常用场景

经典使用场景

在信息检索领域，FutureQueryEval数据集被广泛应用于评估重排序模型对时间外推泛化能力的测试。该数据集通过精心设计的未来事件查询，模拟了真实搜索引擎面对新兴话题时的性能挑战，成为衡量模型时序适应性的黄金标准。研究者通常将其作为基准测试平台，对比不同重排序范式在未知时间窗口下的表现差异。

解决学术问题

该数据集有效解决了信息检索中模型时序泛化能力评估的学术难题。通过构建完全未被大型语言模型预训练数据污染的未来查询，它首次实现了对重排序模型真实泛化性能的准确测量。其价值在于揭示了现有方法在面对时间外推场景时普遍存在的5-15%性能衰减现象，为改进模型的时间鲁棒性提供了关键见解。

衍生相关工作

基于该数据集的研究催生了多个重要工作，包括Zephyr-7B在列表式重排序中的突破性表现，以及MonoT5-3B在效率与精度平衡方面的创新。这些成果不仅推动了重排序技术的时间泛化研究，还促进了如RankArena评估平台的建立，为后续时序信息检索研究建立了标准化评估体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集