LongVidSearch

github2026-02-13 更新2026-02-14 收录

下载链接：

https://github.com/yrywill/LongVidSearch

下载链接

链接失效反馈

官方服务：

资源简介：

LongVidSearch是一个用于长视频中多跳证据检索规划的代理基准，包含3,159个QA对，来源于447个长视频（平均时长约26分钟），分为Hop-2/3/4三个层次，每个层次对应必要的证据剪辑。数据集强调检索必要性和证据基础的多跳推理，提供统一的工具接口，并报告准确性和工具调用成本以研究准确性与成本的权衡。

LongVidSearch is an agent benchmark for multi-hop evidence retrieval planning in long videos. It contains 3,159 QA pairs sourced from 447 long videos with an average duration of approximately 26 minutes. The dataset is categorized into three levels: Hop-2, Hop-3 and Hop-4, each corresponding to necessary evidence clips. It emphasizes the necessity of retrieval and multi-hop reasoning grounded in evidence, provides a unified tool interface, and reports both accuracy and tool invocation costs to study the trade-off between accuracy and cost.

创建时间：

2026-02-06

原始信息汇总

LongVidSearch 数据集概述

数据集基本信息

数据集名称: LongVidSearch
核心目标: 评估智能体在长视频中进行检索必需且证据可溯的多跳问答能力，重点关注检索规划。
发布日期: 2026-02-13
许可协议: MIT License

数据集规模与构成

总规模: 包含 3,159 个问答对。
视频来源: 源自 447 个长视频。
视频平均时长: 约 26 分钟。
问题复杂度分层:
- 2-Hop: 1,897 个问题 (60.1%)
- 3-Hop: 801 个问题 (25.4%)
- 4-Hop: 461 个问题 (14.6%)

任务类别与分布

数据集包含四种能力类别的问题：

因果推断 (Causal Inference): 917 个问题 (29.0%)
全局总结 (Global Summary): 889 个问题 (28.1%)
视觉追踪 (Visual Tracking): 850 个问题 (26.9%)
状态突变 (State Mutation): 503 个问题 (15.9%)

核心特性

检索必需的多跳问答: 每个 Hop-k 问题需要 k 个必要的证据片段，移除任一都会使问题无法确定。
标准化工具接口: 为所有智能体提供相同的证据访问方式，以隔离查询构建和多步证据获取能力。
稳定评估: 采用三个强 LLM 评委的多数投票机制，并进行专家审核以确保一致性。
效率感知: 报告工具调用成本，作为证据访问开销的直接度量。

标准化工具

所有智能体通过以下固定接口与数据集交互：

Search_Clips_In_Video(video_id, query, top_k): 根据文本查询在指定视频中检索最相关的 top-K 片段。
Get_Clip_Detail(clip_id): 返回指定片段的高质量描述（作为证据）。
FINAL_ANSWER(answer_text, evidence_clip_ids): 提交答案及查看过的证据片段ID列表。

评估指标

答案准确率: 适用时采用精确匹配，否则采用带严格评分标准的 LLM-as-a-judge 及三评委多数投票。
工具调用成本: 每个问题调用的标准化工具次数，用于衡量证据访问开销。
Oracle (黄金片段): 提供黄金证据片段的设定，用于验证标准设定下的主要瓶颈是检索与检索规划，而非基于正确证据的推理。

数据集文件结构

主要数据文件包括：

full-QA.json: 基准测试的问答文件。
video-caption.parquet: 视频片段的高质量描述文件。
video_embeddings/: 检索嵌入向量。

引用信息

bibtex @inproceedings{longvidsearch2026, title = {LongVidSearch: An Agentic Benchmark for Multi-hop Evidence Retrieval Planning in Long Videos}, author = {Rongyi Yu ,Chenyuan Duan ,Hao Liang ,Ruichuan An ,Wentao Zhang}, booktitle = {SIGIR Submitted}, year = {2026} }

搜集汇总

数据集介绍

构建方式

在长视频理解领域，构建高质量的多跳问答数据集面临证据检索与推理能力分离的挑战。LongVidSearch数据集通过精心设计的代理式构建流程，从447个平均时长约26分钟的长视频中生成3,159个问答对。该流程严格遵循检索必要性原则，将问题分层为二跳、三跳与四跳结构，确保每个证据片段均为回答所必需，并通过生成与过滤相结合的管道保障了数据的严谨性与逻辑完备性。

使用方法

使用LongVidSearch时，研究者需通过其标准化的工具接口与数据集交互，主要包括基于查询的视频片段检索、片段详情获取及最终答案提交三个核心功能。这一设计固定了证据访问的后端，使得性能差异主要反映代理的检索规划策略。基准代理遵循规划、检索、阅读、推理的循环模式，为后续研究提供了可比较的起点。评估时不仅关注答案准确性，还统计工具调用成本，从而全面衡量代理在长视频多跳证据检索中的综合能力。

背景与挑战

背景概述

在长视频理解领域，随着视频内容时长的不断增长，如何高效、精准地从中检索多跳证据以支持复杂问答任务，已成为一个核心研究问题。LongVidSearch数据集由Rongyi Yu等研究人员于2026年创建，旨在为长视频中的智能体检索规划能力提供一个标准化评估基准。该数据集包含来自447个平均时长约26分钟的长视频的3,159个问答对，问题被严格设计为需要二至四跳的必要证据片段才能解答，覆盖因果推理、全局摘要、视觉追踪和状态突变四大能力范畴。通过强制要求检索必要性并提供统一的工具接口，LongVidSearch将性能差异归因于智能体的检索规划能力，而非检索器强度或特权证据访问，从而推动了长视频问答领域向更可控、可解释的智能体评估方向发展。

当前挑战

LongVidSearch致力于解决长视频多跳证据检索规划这一领域挑战，其核心在于评估智能体在标准化工具接口下，如何通过迭代检索与推理来回答必须依赖多个分散证据片段的问题。构建过程中的主要挑战包括：确保每个问题的多跳结构具有严格的检索必要性，即移除任一证据片段都会导致问题无法确定；设计并实施一个稳定的、基于多数投票的强语言模型评判协议，以保障评估的一致性与可靠性；以及从大量长视频中生成高质量、多样化的多跳问答对，同时维持问题在因果推理、视觉追踪等不同能力范畴上的平衡分布。

常用场景

经典使用场景

在长视频理解与智能代理研究领域，LongVidSearch数据集被设计为一个基准测试平台，专门用于评估智能体在长视频中进行多跳证据检索规划的能力。其经典使用场景聚焦于模拟真实世界的信息查询过程：智能体面对长达约26分钟的视频内容，需要依据复杂的多跳问题，通过标准化的工具接口（如Search_Clips_In_Video和Get_Clip_Detail）迭代式地定位、检索并整合多个必要的证据片段，最终完成基于证据的问答。这一过程严格隔离了检索规划与答案生成，使得研究者能够精准衡量智能体在长时序、多模态信息中制定有效检索策略的核心性能。

解决学术问题

LongVidSearch主要解决了长视频问答研究中长期存在的关键学术问题。传统基准往往未能标准化证据获取途径，导致模型失败原因难以界定——究竟是检索规划不足，还是答案推理能力欠缺。该数据集通过强制性的多跳检索必要性（Hop-2/3/4）和证据接地的推理要求，将研究焦点明确导向智能体的检索规划能力。同时，其统一的工具接口固定了证据访问后端，使得性能差异能够直接归因于查询制定与多步证据获取的策略优劣，从而在可控环境下推进对智能体决策效率与精度权衡的深入探索。

实际应用

在实际应用层面，LongVidSearch所针对的多跳证据检索规划能力，对于构建高效、可靠的视频内容分析系统具有显著价值。例如，在安防监控中，系统可能需要跨越多段视频片段追踪特定人物的行为轨迹；在教育或媒体领域，则需从冗长讲座或纪录片中快速定位并串联分散的因果事件以回答复杂提问。该数据集通过模拟这些需要长期依赖、状态突变及全局归纳的真实任务，为开发能够在海量视频数据中自主、精准完成信息深挖的智能代理系统提供了关键的训练与评估基础。

数据集最近研究