RIVER
收藏Hugging Face2026-03-06 更新2026-03-07 收录
下载链接:
https://huggingface.co/datasets/OpenGVLab/RIVER
下载链接
链接失效反馈官方服务:
资源简介:
RIVER 是一个专为评估视频大语言模型实时交互能力而设计的基准测试数据集。该数据集通过流式视频感知技术,包含记忆、实时感知和主动响应等新颖任务。数据集包含900个训练样本,每个样本包含视频源信息(视频ID、时长、帧率)、问题信息(问题ID、问题文本、选项、正确答案)、时间参考信息以及问题类型和时间戳。数据集特别适用于视频与文本之间的交互任务,支持对模型在实时视频处理中的表现进行全面评估。根据参考事件、问题和答案的频率和时间,RIVER将在线交互任务进一步分为四个子类,包括回顾记忆(从过去提取线索)、实时感知(从当前提取线索)和主动响应(等待线索出现后尽快响应)等。
提供机构:
OpenGVLab
创建时间:
2026-03-05
原始信息汇总
RIVER 数据集概述
数据集基本信息
- 数据集名称:RIVER: A Real-Time Interaction Benchmark for Video LLMs
- 托管地址:https://huggingface.co/datasets/OpenGVLab/RIVER
- GitHub 项目地址:https://github.com/OpenGVLab/RIVER
- 论文地址:https://arxiv.org/abs/2603.03985
数据集简介
RIVER Bench 旨在通过流式视频感知评估视频大语言模型的实时交互能力,其特点是包含针对记忆、实时感知和主动响应的新颖任务。
数据集结构
特征字段
video_source:字符串,视频来源。video_id:字符串,视频标识符。duration_sec:浮点数,视频持续时间(秒)。fps:浮点数,视频帧率。question_id:字符串,问题标识符。question:字符串,问题文本。choices:字符串序列,选项列表。correct_answer:字符串,正确答案。time_reference:浮点数序列,时间参考信息。question_type:字符串,问题类型。question_time:浮点数,问题时间点。
数据划分
- 训练集:包含 900 个样本,大小为 291,464 字节。
配置信息
- 配置名称:
default - 数据文件:
data/train-*
任务类别
- 视频-文本到文本:该数据集属于视频-文本到文本任务类别。
相关数据集来源
- LongVideoBench: https://github.com/longvideobench/LongVideoBench
- Vript-RR: https://github.com/mutonix/Vript
- LVBench: https://github.com/zai-org/LVBench
- Ego4D: https://github.com/facebookresearch/Ego4d
- QVHighlights: https://github.com/jayleicn/moment_detr
引用信息
如需在研究中引用此项目,请使用以下 BibTeX 条目: BibTeX @misc{shi2026riverrealtimeinteractionbenchmark, title={RIVER: A Real-Time Interaction Benchmark for Video LLMs}, author={Yansong Shi and Qingsong Zhao and Tianxiang Jiang and Xiangyu Zeng and Yi Wang and Limin Wang}, year={2026}, eprint={2603.03985}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2603.03985}, }
搜集汇总
数据集介绍
构建方式
在视频大语言模型评估领域,RIVER数据集的构建过程体现了严谨的学术设计。该数据集从多个权威的现有视频基准中汲取素材,包括LongVideoBench、Vript-RR、LVBench、Ego4D以及QVHighlights,确保了数据来源的多样性与可靠性。其核心构建逻辑在于围绕流式视频感知,精心设计了一系列需要实时交互的任务。具体而言,研究者根据参考事件、问题及回答的发生频率与时间关系,将交互任务系统性地划分为四个子类,从而结构化地组织起包含视频源、问题、选项、正确答案及时间参考等丰富特征的样本。
特点
RIVER数据集的核心特征在于其专注于评估模型的实时交互能力,这为视频理解研究开辟了新的维度。数据集包含900个训练样本,每个样本均配备了精确的时间戳信息(time_reference)和问题发生时刻(question_time),这使得评估能够紧密贴合流式视频输入的动态特性。其问题类型多样,旨在挑战模型在回溯记忆、实时感知以及前瞻性响应等多方面的能力。这种以时间轴为线索的任务设计,迫使模型必须处理时序依赖关系,并做出及时判断,从而深刻揭示了模型在模拟真实人机对话场景中的性能边界。
使用方法
对于研究者而言,使用RIVER数据集旨在系统性地测评视频大语言模型的在线交互性能。典型的使用流程是,模型接收连续的视频流输入,并在特定问题时间点被询问。评估时,需严格依据数据集提供的时序标注,考察模型能否根据过去片段进行记忆回溯,或对当前帧进行即时感知,亦或是等待未来线索出现后主动响应。通过分析模型在这些精心设计的子任务上的表现,研究者能够定量评估其处理时序信息、维持对话上下文以及做出适时决策的综合能力,进而推动更具交互智能的视频模型的发展。
背景与挑战
背景概述
随着视频大语言模型在多媒体理解领域的快速发展,评估模型在动态视频流中的实时交互能力成为一项关键研究课题。RIVER数据集由OpenGVLab团队于2026年创建,旨在系统性地评测视频大语言模型在流式视频感知场景下的表现。该数据集聚焦于实时交互的核心研究问题,通过设计记忆回溯、即时感知与主动响应等新颖任务,推动模型从被动分析向主动交互演进。其构建不仅丰富了视频理解评估的维度,也为推动具身智能与实时人机交互研究提供了重要的基准平台。
当前挑战
在视频大语言模型领域,实时交互要求模型具备对连续视频流的低延迟感知与精准时序推理能力,这构成了该领域的主要挑战。RIVER数据集针对此类挑战,设计了需即时响应的任务,模型必须在有限时间内整合历史信息与当前帧线索以生成准确答案。在构建过程中,挑战体现在高质量实时交互数据的采集与标注上,需精确对齐视频事件、问题与时间戳,并确保问题类型覆盖记忆、感知与响应等多模态认知维度,同时保持数据在时长与内容上的多样性以反映真实交互场景的复杂性。
常用场景
经典使用场景
在视频大语言模型的研究领域中,RIVER数据集作为实时交互评估的基准工具,其经典使用场景聚焦于模型对动态视频流的即时感知与响应能力。该数据集通过设计包含记忆回溯、实时感知及主动响应等新颖任务,模拟真实世界中人机交互的连续性与时效性,为研究者提供了一个系统化评估框架,用以检验模型在流式视频输入下处理时序依赖问题的性能表现。
实际应用
在实际应用层面,RIVER数据集所针对的实时交互能力对于智能监控、自动驾驶辅助系统以及沉浸式人机对话界面等场景具有显著价值。例如,在自动驾驶环境中,模型需即时解析车载摄像头捕捉的连续路况视频,并快速回答关于潜在危险或导航指令的询问;在智能家居系统中,则能实现对用户手势或活动的实时解读与反馈,提升交互的自然度和效率。
衍生相关工作
围绕RIVER数据集衍生的经典研究工作主要集中于扩展其评估范式和提升模型实时性能。例如,后续研究借鉴其任务分类框架,开发了更细粒度的时序对齐算法和记忆增强架构;同时,该数据集也促进了与LongVideoBench、Ego4D等现有长视频或第一视角数据集的融合比较,推动了跨基准的模型泛化能力评估,并催生了专注于低延迟推理和高效视频编码的新兴技术方向。
以上内容由遇见数据集搜集并总结生成



