five

FutureQueryEval

收藏
Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/abdoelsayed/FutureQueryEval
下载链接
链接失效反馈
官方服务:
资源简介:
FutureQueryEval是一个新颖的信息检索(IR)基准数据集,旨在评估重排模型在时间新颖性上的性能。该数据集包含148个查询和2938个查询-文档对,跨越7个主题类别,特别设计用来测试重排模型在面对训练后未见的新颖查询时的泛化能力。
创建时间:
2025-08-22
原始信息汇总

FutureQueryEval 数据集概述

数据集简介

FutureQueryEval 是一个新颖的信息检索基准数据集,专门设计用于评估重排序模型在时间新颖性上的性能。该数据集包含 148 个查询和 2,938 个查询-文档对,涵盖 7 个主题类别,专门用于测试重排序模型对在大型语言模型预训练期间未见过的全新查询的泛化能力。

关键特性

  • 零污染性:所有查询均涉及 2025 年 4 月之后的事件
  • 人工标注:由 4 位专家标注员创建并经过质量控制
  • 多样化领域:技术、体育、政治、科学、健康、商业、娱乐
  • 真实事件:基于实际新闻和发展,非合成数据
  • 时间新颖性:首个专门设计用于测试重排序模型对训练后事件泛化能力的基准

数据集统计

指标 数值
总查询数 148
总文档数 2,787
查询-文档对数 2,938
每个查询的平均相关文档数 6.54
语言 英语
许可证 Apache-2.0

类别分布

类别 查询数 百分比
技术 37 25.0%
体育 31 20.9%
科学与环境 20 13.5%
商业与金融 19 12.8%
健康与医学 16 10.8%
世界新闻与政治 14 9.5%
娱乐与文化 11 7.4%

数据集结构

文件组成

  • queries.tsv:包含查询信息
    • 列:query_id, query_text, category
  • corpus.tsv:包含文档集合
    • 列:doc_id, title, text, url
  • qrels.txt:包含相关性判断
    • 格式:query_id 0 doc_id relevance_score

数据字段

查询

  • query_id (字符串):每个查询的唯一标识符
  • query_text (字符串):自然语言查询
  • category (字符串):主题类别(技术、体育等)

语料库

  • doc_id (字符串):每个文档的唯一标识符
  • title (字符串):文档标题
  • text (字符串):完整文档内容
  • url (字符串):文档来源 URL

相关性判断 (qrels)

  • query_id (字符串):查询标识符
  • iteration (整数):始终为 0(标准 TREC 格式)
  • doc_id (字符串):文档标识符
  • relevance (整数):相关性分数(0-3,3 为高度相关)

查询示例

🌍 世界新闻与政治:

"埃及在加沙受伤巴勒斯坦人支持方面采取了哪些具体行动,正如塞西总统和马克龙总统访问阿里什总医院期间所强调的那样?"

⚽ 体育:

"哪些球队获得了 2025 年 6 月举行的 2025 年欧洲足球锦标赛附加赛资格?"

💻 技术:

"苹果在 WWDC 2025 上宣布的新款 Vision Pro 2 的主要功能是什么?"

使用方法

加载数据集

python from datasets import load_dataset

dataset = load_dataset("abdoelsayed/FutureQueryEval") queries = dataset["queries"] corpus = dataset["corpus"] qrels = dataset["qrels"]

评估示例

python import pandas as pd

qrels_df = pd.read_csv("qrels.txt", sep=" ", names=["query_id", "iteration", "doc_id", "relevance"]) query_rels = qrels_df[qrels_df["query_id"] == "FQ001"]

研究应用

该数据集设计用于:

  • 重排序器评估:测试对新颖内容的泛化能力
  • 时间性信息检索研究:理解时间敏感检索挑战
  • 领域鲁棒性:评估跨域性能
  • 污染研究:对训练后数据进行干净评估

基准结果

在 FutureQueryEval 上表现最佳的方法:

方法 类型 NDCG@10 运行时间 (秒)
Zephyr-7B 列表式 62.65 1,240
MonoT5-3B 点式 60.75 486
Flan-T5-XL 集合式 56.57 892

数据集更新

FutureQueryEval 将每 6 个月更新一次,添加有关近期事件的新查询以保持时间新颖性:

  • 版本 1.1 (2025 年 12 月):+100 个 2025 年 7-9 月的查询
  • 版本 1.2 (2026 年 6 月):+100 个 2025 年 10 月-2026 年 3 月的查询

引用信息

bibtex @misc{abdallah2025good, title={How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models}, author={Abdelrahman Abdallah and Bhawna Piryani and Jamshid Mozafari and Mohammed Ali and Adam Jatowt}, year={2025}, eprint={2508.16757}, archivePrefix={arXiv}, primaryClass={cs.CL} }

联系信息

  • 作者:Abdelrahman Abdallah, Bhawna Piryani
  • 机构:因斯布鲁克大学
  • 论文:https://arxiv.org/abs/2508.16757
  • 代码:https://github.com/DataScienceUIBK/llm-reranking-generalization-study

许可证

本数据集基于 Apache-2.0 许可证发布。

搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,FutureQueryEval数据集通过严谨的多阶段流程构建而成。专家团队从主流新闻媒体和官方渠道筛选2025年4月后发生的真实事件,经由四位领域专家手工撰写查询语句,并采用多级质量控制和资深研究员复核机制确保数据质量。每个查询-文档对都经过严格的相关性标注,遵循TREC标准采用0-3分的四级评分体系。
特点
该数据集最显著的特征是其严格的时间新颖性保障,所有查询均基于大型语言模型训练截止时间后的真实事件构建,有效避免了数据污染问题。数据集涵盖技术、体育、政治等七大领域,包含148个精心设计的查询和2938个查询-文档对,每个查询平均配备6.54个相关文档,为评估检索模型在未知时间域上的泛化能力提供了理想测试环境。
使用方法
研究人员可通过HuggingFace数据集库直接加载该基准数据集,使用标准的三文件结构进行模型评估。查询文件提供详细的自然语言问句和分类信息,文档集合包含完整的文本内容和元数据,相关性标注文件则采用TREC标准格式。评估时只需计算模型在未见时间事件上的检索性能指标,特别适合用于测试重排序模型在处理时间敏感查询时的泛化能力。
背景与挑战
背景概述
信息检索领域长期面临着模型泛化能力的考验,特别是在处理时效性内容时表现尤为突出。FutureQueryEval数据集由因斯布鲁克大学研究团队于2025年创建,旨在评估重排序模型对训练后新兴事件的响应能力。该数据集聚焦于大语言模型预训练截止时间后的真实事件查询,通过精心设计的148个查询和2938个查询-文档对,覆盖七大主题领域,为时序信息检索研究提供了重要的基准测试平台,对推动检索模型的时效性适应能力具有深远影响。
当前挑战
该数据集核心挑战在于解决模型对训练后未知事件的泛化能力问题,特别是当查询内容完全超出模型预训练知识范围时的性能表现。构建过程中面临多重挑战:需要确保所有查询事件严格发生在2025年4月之后以避免数据污染,要求标注团队具备多领域专业知识来保证标注质量,同时必须从真实新闻源中筛选具有代表性的新兴事件,并建立科学的质量控制机制来维持标注一致性。
常用场景
经典使用场景
在信息检索领域,FutureQueryEval数据集作为评估重排序模型时间泛化能力的基准工具,其经典应用场景集中于测试模型对训练后新兴事件的响应能力。该数据集通过精心设计的148个查询和2938个查询-文档对,覆盖技术、体育、政治等七大主题领域,有效模拟了真实世界中用户对未见过事件的检索需求。研究人员利用这一基准能够系统评估不同重排序算法在面对时间新颖性查询时的表现差异,为模型优化提供明确方向。
实际应用
在实际应用层面,FutureQueryEval为搜索引擎和推荐系统的时效性优化提供了关键评估标准。新闻媒体机构可借助该数据集测试其检索系统对突发新闻的响应速度与准确性,金融科技公司则能评估风险预警系统对最新市场事件的捕捉能力。医疗健康领域同样受益,能够检验医学文献检索系统对最新科研成果的索引效果。这些应用显著提升了各类信息系统对时间敏感信息的处理质量,满足了用户对即时准确信息的需求。
衍生相关工作
基于FutureQueryEval数据集,学术界已衍生出多项重要研究工作。Zephyr-7B列表重排序方法在该基准上取得了62.65的NDCG@10最佳性能,推动了列表优化策略的发展。MonoT5-3B点式重排序模型则展示了高效参数利用的新途径,而Flan-T5-XL的集合重排序方法为多文档协同处理提供了创新思路。这些工作共同促进了重排序技术在处理时间新颖性查询方面的理论突破与实用化进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作