RVMS-Bench

github2026-03-13 更新2026-03-15 收录

下载链接：

https://github.com/Tencent/RVMS-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

RVMS-Bench是一个用于评估开放域视频检索的新颖基准数据集，包含1,440个经过严格验证的高质量样本，来源于20个不同的网络视频类别（如动画、科技、综艺节目等）。数据集设计了9种不同的检索任务，围绕4种人类记忆线索：全局印象（G）、关键时刻（K）、时间上下文（T）和听觉记忆（A）。数据集在任务类型、视频主题和时长区间上严格平衡，并通过Gemini 3 Pro生成并经过严格的人工验证，确保语义唯一性和消除模型幻觉。

RVMS-Bench is a novel benchmark dataset for evaluating open-domain video retrieval. It comprises 1,440 rigorously validated high-quality samples sourced from 20 distinct web video categories, including animation, technology, variety shows, and more. The dataset features 9 distinct retrieval tasks centered around four types of human memory cues: global impression (G), critical moments (K), temporal context (T), and auditory memory (A). It is strictly balanced across task types, video themes, and duration ranges, and was generated by Gemini 3 Pro before undergoing rigorous manual validation to ensure semantic uniqueness and eliminate model hallucinations.

创建时间：

2026-03-13

原始信息汇总

RVMS-Bench 数据集概述

数据集基本信息

数据集名称：RVMS-Bench
官方数据仓库地址：https://huggingface.co/datasets/tencent/RVMS-Bench
关联研究论文：https://arxiv.org/abs/2602.10159
关联代码框架：https://github.com/yutao1024/RACLO
发布年份：2026年

数据集目的与背景

该数据集是为评估开放域视频检索而构建的新基准。它旨在突破传统视频检索依赖于预下载候选视频封闭池的假设，针对现实世界中的长视频和特定关键帧进行检索和定位评估。

数据集规模与构成

样本数量：1,440个经过严格验证的高质量样本。
视频来源：涵盖20个多样化的网络视频类别（例如动画、科技、综艺节目等）。
数据内容：数据集仅包含视频URL、文本描述和真实关键帧标注，不包含原始视频文件。
数据平衡：在任务类型、视频主题和视频时长区间（从少于3分钟到1小时）上进行了严格平衡。

核心任务与评估维度

数据集围绕4种人类记忆线索构建了9种不同的检索任务：

全局印象：基于视频整体印象进行检索。
关键时刻：基于视频中的特定关键瞬间进行检索。
时间上下文：基于视频的时间顺序和上下文信息进行检索。
听觉记忆：基于视频中的音频线索进行检索。

数据生成与验证流程

生成方法：使用Gemini 3 Pro模型生成。
验证流程：经过严格的人工验证，以确保语义唯一性并消除模型幻觉。

使用方式与获取

获取地址：数据集需从Hugging Face仓库（https://huggingface.co/datasets/tencent/RVMS-Bench）下载。
项目结构：下载后，需将数据组织到指定目录结构中，核心元数据文件为video_dataset.json。

许可与声明

主要用途：仅用于学术研究。
版权说明：所有视频内容均来源于公开的YouTube视频，版权归原始创作者所有。
数据分发：遵循Kinetics、ActivityNet Captions、QVHighlights等已建立视频基准的标准实践，仅分发视频URL和标注，不分发原始视频文件。
下载责任：视频下载仅在用户本地机器运行时进行，用户需自行遵守相关的服务条款和版权法律。
许可协议：项目基于Apache License 2.0发布。不支持将数据集和代码用于任何商业目的。

搜集汇总

数据集介绍

构建方式

在视频检索领域，传统方法通常依赖于封闭候选池，这限制了查询的维度与真实场景的适应性。RVMS-Bench数据集的构建突破了这一局限，其采用了一种严谨的生成与验证流程。数据集包含1,440个经过严格验证的高质量样本，这些样本源自20个多样化的网络视频类别，如动画、科技与综艺节目等。生成过程借助Gemini 3 Pro模型，并辅以严格的人工验证，以确保语义的独特性，有效消除了模型幻觉的影响。数据分布经过精心平衡，涵盖了不同的任务类型、视频主题以及时长区间，从而为开放域视频检索提供了可靠且无偏见的评估基础。

特点

RVMS-Bench数据集在设计上体现了对真实世界视频搜索复杂性的深刻理解。其核心特点在于围绕人类记忆线索构建了九种不同的检索任务，这些任务基于全局印象、关键时刻、时间上下文与听觉记忆四类认知维度。数据集规模适中且多样性显著，样本均经过严格的质量控制，保证了高度的语义独特性与真实性。此外，数据在任务类型、视频主题和时长分布上均实现了均衡，避免了常见的数据偏差，为评估模型在开放网络环境下的多跳推理与细粒度定位能力提供了全面而严谨的基准。

使用方法

为利用RVMS-Bench数据集进行评估，研究者需遵循一套清晰的流程。首先从指定的数据仓库下载数据集，并按照规定的目录结构组织项目文件，其中核心元数据文件记录了视频URL、文本描述及关键帧标注。随后，通过配置文件设置必要的API密钥与工具参数，以支持智能体框架的推理与网络搜索功能。运行端到端的推理脚本可启动完整的检索与定位流程，该流程模拟了人类的认知步骤。最终，使用专门的评估脚本计算视频匹配准确率与基于不同记忆线索的定位准确率，从而对模型性能进行量化分析。

背景与挑战

背景概述

在计算机视觉与多媒体检索领域，传统视频检索方法通常依赖于封闭候选池，限制了其在开放世界场景下的应用潜力。RVMS-Bench数据集由腾讯等机构的研究团队于2026年提出，旨在构建一个面向真实世界视频搜索与时刻定位的评估基准。该数据集围绕人类记忆线索设计，涵盖全局印象、关键时刻、时序上下文及听觉记忆等多维度认知任务，其核心研究问题在于推动开放域视频检索系统的发展，使其能够模拟人类在复杂、碎片化记忆线索下的视频搜索与定位过程。RVMS-Bench通过提供大规模、高质量且经过严格验证的样本，为相关领域的研究提供了重要的实验基础与评估标准。

当前挑战

RVMS-Bench数据集致力于解决开放域视频检索中的核心挑战，即如何基于多维、模糊的人类记忆线索，在开放网络环境中精准定位长视频中的特定时刻。这一领域问题面临记忆线索的异构性整合、时序关系的精确推理以及跨模态信息的对齐等难点。在数据集构建过程中，研究团队需克服样本多样性平衡、语义唯一性保证以及模型幻觉消除等挑战。通过结合大语言模型生成与严格人工验证的混合流程，确保了数据的高质量与可靠性，但如何持续扩展数据规模并适应动态变化的网络视频环境，仍是未来需要应对的课题。

常用场景

经典使用场景

在开放域视频检索领域，RVMS-Bench数据集为评估模型在真实世界长视频中的搜索与时刻定位能力提供了基准。其经典使用场景聚焦于模拟人类认知过程，通过整合全局印象、关键时刻、时序上下文和听觉记忆等多维度记忆线索，驱动智能体在开放网络环境中执行多跳推理与检索验证。该数据集支持从海量在线视频流中精准定位特定片段，突破了传统封闭池检索的局限，为视频理解与记忆重建任务提供了标准化测试平台。

实际应用

在实际应用层面，RVMS-Bench数据集为智能视频归档、跨平台内容检索及个性化记忆辅助系统提供了核心验证工具。其设计的检索任务可直接服务于多媒体内容管理平台，帮助用户从海量在线视频库中快速定位特定事件或场景，例如在新闻剪辑、教育资料库或娱乐内容中精确查找目标片段。此外，该数据集支撑的智能体框架可集成于视频分析工具，辅助执法机构进行证据检索，或为数字人文研究提供时序媒体内容的自动化索引能力，显著提升大规模视频数据处理的效率与精度。

衍生相关工作

围绕RVMS-Bench数据集，学术界衍生出一系列聚焦开放域视频理解与智能体检索的经典工作。其中，RACLO框架作为核心衍生成果，提出了“召回-搜索-验证”的三阶段架构，为基于记忆线索的视频检索设立了新范式。后续研究在此基础上扩展了多模态融合机制，例如结合视觉语言模型与音频特征进行跨模态对齐，或引入强化学习优化搜索策略。这些工作共同推动了视频检索从静态封闭集合向动态开放环境的转变，并为认知启发的多媒体智能系统提供了可复现的技术路线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集