TREC 2024 RAG Track

Name: TREC 2024 RAG Track
Creator: ICT, CAS Beijing, China; ModelBest Inc. Beijing, China
Published: 2025-07-23 00:08:12
License: 暂无描述

arXiv2025-07-23 更新2025-07-24 收录

下载链接：

https://github.com/SwordFaith/RAVine

下载链接

链接失效反馈

官方服务：

资源简介：

TREC 2024 RAG Track数据集是从Bing搜索日志中提取的，反映了真实的用户搜索行为。该数据集包含84个查询，这些查询通常需要多方面的和多源的信息来回答，并且为每个查询提供了丰富的相关性标注，使得可以对数据集进行精细的评估。数据集用于评估具有搜索功能的代理LLMs，旨在提高其任务完整性和忠实度。

The TREC 2024 RAG Track Dataset is extracted from Bing search logs, capturing real-world user search behaviors. The dataset includes 84 queries that typically require multi-faceted and multi-source information for answering, and each query is accompanied by rich relevance annotations, enabling fine-grained evaluation of the dataset. This dataset is designed to evaluate search-augmented LLM-based AI Agents, with the objective of improving their task completeness and faithfulness.

提供机构：

ICT, CAS Beijing, China; ModelBest Inc. Beijing, China

创建时间：

2025-07-23

原始信息汇总

RAVine数据集概述

数据集简介

RAVine是一个面向代理型LLM搜索的综合性评估系统，包含网络环境、基准数据集和新型评估方法，作为全流程、可复现且目标对齐的评估沙盒。

核心特性

精确性：提供更精确且可归因的nuggets（声明级真实值）提取方法，使最终生成报告评估更准确。
全面性：不仅关注端到端结果评估，还设计了详细的搜索过程性能指标。
低成本：提供本地搜索API，将LLM-Judge(Gemini-2.5-Flash)的调用成本降至约0.01美元/评估数据。
完整沙盒：封装了搜索工具和评估框架，用户只需提供LLM即可运行或评估代理搜索。

数据集组成

查询与Nuggets：https://huggingface.co/datasets/sapphirex/RAVine-nuggets
原始Qrels：https://huggingface.co/datasets/sapphirex/RAVine-qrels
密集索引：https://huggingface.co/datasets/sapphirex/RAVine-dense-index
URL-Docid映射器：https://huggingface.co/datasets/sapphirex/RAVine-mapper
运行日志（用于复现）：https://huggingface.co/datasets/sapphirex/RAVine-logs

运行与评估方法

环境安装：
- 使用uv安装两个独立环境：
  - vllm环境：pip install vllm==0.9.0.1
  - 主程序环境：uv pip install -r requirements_agent.txt
配置文件编写：
- 在configs/目录下参考示例编写模型选择、运行环境、索引和文件路径的配置文件。
运行流程：
- 启动vllm服务：bash scripts/server/vllm.sh your_config_file
- 运行主程序：bash scripts/evaluation/run.sh your_config_file
- 批量运行：将配置写入/scripts/evaluation/run_all_eval.sh后执行

搜集汇总

数据集介绍

构建方式

TREC 2024 RAG Track数据集构建于MS MARCO V2.1大规模网页语料库之上，采用Bing搜索日志中经过人工筛选的查询作为测试集，这些查询反映了真实用户的多源信息需求。数据构建过程中引入了可归因的真值单元（nugget）采集策略，通过语义聚类和动态合并技术优化信息单元提取，支持细粒度评估。测试集最终包含84个经过质量筛选的多维度查询，每个查询关联的网页均标注了段落级相关性，为过程导向评估提供基础。

特点

该数据集的核心特点体现在三个方面：真实场景对齐的多点查询设计，支持长答案生成评估；创新的可归因真值构建方法，通过段落实例批处理与语义聚类技术，确保信息单元的完整性和可追溯性；全面的评估维度设计，不仅关注最终答案质量，还涵盖代理模型的工具调用效能、迭代过程表现及资源消耗等过程指标。数据集特别强调对代理搜索中内部知识依赖现象的检测能力，为现有评估框架提供了重要补充。

使用方法

使用该数据集需遵循标准化评估协议：首先配置静态网页环境与检索工具链，加载预构建的语义与词法双索引；随后运行代理模型进行多轮次搜索-获取迭代，记录工具调用轨迹与中间状态；最终通过块级答案解析匹配可归因信息单元，同步计算任务完整性、引用忠实度等端到端指标，并结合搜索增益、工具调用准确率等过程指标进行多维评估。评估过程需特别注意引用格式标准化处理与内部知识依赖的量化分析。

背景与挑战

背景概述

TREC 2024 RAG Track数据集由Yilong Xu、Xiang Long、Zhi Zheng和Jinhua Gao等研究人员于2024年创建，旨在解决智能搜索系统中代理搜索（agentic search）的评估问题。代理搜索作为一种更自主和自适应的检索增强范式，正在推动智能搜索系统的发展。然而，现有的评估框架未能很好地与代理搜索的目标对齐。该数据集通过引入多维度查询和长形式答案，更好地反映了用户意图，并采用了一种可归因的真实构建策略，以提高细粒度评估的准确性。此外，RAVine框架还评估了模型在迭代过程中与搜索工具的交互，并考虑了效率因素，为代理搜索系统的研究和发展提供了重要支持。

当前挑战

TREC 2024 RAG Track数据集面临的挑战主要包括三个方面：1) 领域问题的挑战：现有评估框架中的复杂查询往往偏离真实用户搜索场景，且倾向于在端到端评估中引入噪声，导致细粒度评估失真；2) 构建过程中的挑战：在构建真实数据时，现有方法在提取细粒度真实单元（如nuggets）时存在噪声，由于模型能力的限制和信息丢失，导致评估结果扭曲；3) 评估框架的挑战：大多数现有框架仅关注最终答案的质量，而忽略了代理搜索固有的迭代过程评估，这限制了模型的全面能力评估。

常用场景

经典使用场景

TREC 2024 RAG Track数据集在检索增强生成（RAG）领域的研究中扮演着关键角色，特别是在代理搜索（agentic search）系统的评估中。该数据集通过模拟真实用户搜索场景，提供了多源、多角度的查询和长文本回答，使得研究者能够评估模型在复杂信息检索和生成任务中的表现。其经典使用场景包括评估模型在迭代搜索过程中的信息覆盖度、答案的完整性和忠实性，以及工具调用的效率。

衍生相关工作

围绕TREC 2024 RAG Track数据集，已衍生出一系列重要研究工作。RAVine框架提出了创新的可归因评估方法，DeepResearchGym建立了可复现的评估沙盒环境。AutoNuggetizer框架实现了自动化的事实提取和RAG评估流程。此外，该数据集还启发了对模型内部知识依赖问题的研究，如Compin指标的提出，以及搜索工具性能与最终结果关联性的分析，为代理搜索系统的改进提供了新的方向。

数据集最近研究