FutureQueryEval
收藏FutureQueryEval 数据集概述
数据集简介
FutureQueryEval 是一个新颖的信息检索基准数据集,专门设计用于评估重排序模型在时间新颖性上的性能。该数据集包含 148 个查询和 2,938 个查询-文档对,涵盖 7 个主题类别,专门用于测试重排序模型对在大型语言模型预训练期间未见过的全新查询的泛化能力。
关键特性
- 零污染性:所有查询均涉及 2025 年 4 月之后的事件
- 人工标注:由 4 位专家标注员创建并经过质量控制
- 多样化领域:技术、体育、政治、科学、健康、商业、娱乐
- 真实事件:基于实际新闻和发展,非合成数据
- 时间新颖性:首个专门设计用于测试重排序模型对训练后事件泛化能力的基准
数据集统计
| 指标 | 数值 |
|---|---|
| 总查询数 | 148 |
| 总文档数 | 2,787 |
| 查询-文档对数 | 2,938 |
| 每个查询的平均相关文档数 | 6.54 |
| 语言 | 英语 |
| 许可证 | Apache-2.0 |
类别分布
| 类别 | 查询数 | 百分比 |
|---|---|---|
| 技术 | 37 | 25.0% |
| 体育 | 31 | 20.9% |
| 科学与环境 | 20 | 13.5% |
| 商业与金融 | 19 | 12.8% |
| 健康与医学 | 16 | 10.8% |
| 世界新闻与政治 | 14 | 9.5% |
| 娱乐与文化 | 11 | 7.4% |
数据集结构
文件组成
queries.tsv:包含查询信息- 列:
query_id,query_text,category
- 列:
corpus.tsv:包含文档集合- 列:
doc_id,title,text,url
- 列:
qrels.txt:包含相关性判断- 格式:
query_id 0 doc_id relevance_score
- 格式:
数据字段
查询
query_id(字符串):每个查询的唯一标识符query_text(字符串):自然语言查询category(字符串):主题类别(技术、体育等)
语料库
doc_id(字符串):每个文档的唯一标识符title(字符串):文档标题text(字符串):完整文档内容url(字符串):文档来源 URL
相关性判断 (qrels)
query_id(字符串):查询标识符iteration(整数):始终为 0(标准 TREC 格式)doc_id(字符串):文档标识符relevance(整数):相关性分数(0-3,3 为高度相关)
查询示例
🌍 世界新闻与政治:
"埃及在加沙受伤巴勒斯坦人支持方面采取了哪些具体行动,正如塞西总统和马克龙总统访问阿里什总医院期间所强调的那样?"
⚽ 体育:
"哪些球队获得了 2025 年 6 月举行的 2025 年欧洲足球锦标赛附加赛资格?"
💻 技术:
"苹果在 WWDC 2025 上宣布的新款 Vision Pro 2 的主要功能是什么?"
使用方法
加载数据集
python from datasets import load_dataset
dataset = load_dataset("abdoelsayed/FutureQueryEval") queries = dataset["queries"] corpus = dataset["corpus"] qrels = dataset["qrels"]
评估示例
python import pandas as pd
qrels_df = pd.read_csv("qrels.txt", sep=" ", names=["query_id", "iteration", "doc_id", "relevance"]) query_rels = qrels_df[qrels_df["query_id"] == "FQ001"]
研究应用
该数据集设计用于:
- 重排序器评估:测试对新颖内容的泛化能力
- 时间性信息检索研究:理解时间敏感检索挑战
- 领域鲁棒性:评估跨域性能
- 污染研究:对训练后数据进行干净评估
基准结果
在 FutureQueryEval 上表现最佳的方法:
| 方法 | 类型 | NDCG@10 | 运行时间 (秒) |
|---|---|---|---|
| Zephyr-7B | 列表式 | 62.65 | 1,240 |
| MonoT5-3B | 点式 | 60.75 | 486 |
| Flan-T5-XL | 集合式 | 56.57 | 892 |
数据集更新
FutureQueryEval 将每 6 个月更新一次,添加有关近期事件的新查询以保持时间新颖性:
- 版本 1.1 (2025 年 12 月):+100 个 2025 年 7-9 月的查询
- 版本 1.2 (2026 年 6 月):+100 个 2025 年 10 月-2026 年 3 月的查询
引用信息
bibtex @misc{abdallah2025good, title={How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models}, author={Abdelrahman Abdallah and Bhawna Piryani and Jamshid Mozafari and Mohammed Ali and Adam Jatowt}, year={2025}, eprint={2508.16757}, archivePrefix={arXiv}, primaryClass={cs.CL} }
联系信息
- 作者:Abdelrahman Abdallah, Bhawna Piryani
- 机构:因斯布鲁克大学
- 论文:https://arxiv.org/abs/2508.16757
- 代码:https://github.com/DataScienceUIBK/llm-reranking-generalization-study
许可证
本数据集基于 Apache-2.0 许可证发布。




