VideoSeeker

Name: VideoSeeker
Creator: 中国科学技术大学; 小红书公司; 华东师范大学; 西安交通大学
Published: 2026-05-15 23:43:28
License: 暂无描述

arXiv2026-05-15 更新2026-05-19 收录

下载链接：

https://gaotiexinqu.github.io/VideoSeeker/

下载链接

链接失效反馈

官方服务：

资源简介：

VideoSeeker数据集是由中国科学技术大学与小红书公司等机构联合构建的面向实例级视频理解的大规模视觉提示问答数据集。该数据集通过四阶段全自动数据合成管道高效生成，包含高质量的视频-视觉提示-问答三元组，旨在解决现有方法在细粒度时空定位与推理方面的不足。数据集创建过程涉及低成本文本过滤、视频级验证、像素级掩码生成与视觉提示渲染，最终形成多样化的视觉提示类型与自然语言描述对齐的训练数据。其核心应用在于推动智能体化推理与实例级视频理解的深度融合，为模型提供精准的空间与时间参考，显著提升复杂多对象场景下的交互效率与用户体验。

The VideoSeeker dataset is a large-scale visual prompt-based question answering (QA) dataset for instance-level video understanding, jointly constructed by the University of Science and Technology of China (USTC), Xiaohongshu Inc. and other institutions. Generated efficiently via a four-stage fully automated data synthesis pipeline, this dataset contains high-quality video-visual prompt-question answering triplets, aiming to address the shortcomings of existing methods in fine-grained spatiotemporal localization and reasoning. The dataset creation process involves low-cost text filtering, video-level validation, pixel-level mask generation and visual prompt rendering, ultimately producing training data that aligns diverse visual prompt types with natural language descriptions. Its core application lies in promoting the deep integration of agent-based reasoning and instance-level video understanding, providing models with precise spatial and temporal references, and significantly improving interaction efficiency and user experience in complex multi-object scenarios.

提供机构：

中国科学技术大学; 小红书公司; 华东师范大学; 西安交通大学

创建时间：

2026-05-15

原始信息汇总

根据您提供的数据集详情页面内容，以下是对该数据集的详细总结：

数据集概述

该页面介绍的是 VideoSeeker，一个用于推动实例级视频理解的新型范式，其核心是利用视觉提示进行主动感知和推理。

1. 数据集名称与来源

名称：VideoSeeker
论文：arXiv:2605.16079
代码与模型：提供链接可获取（页面标注"Code"、"Model"）

2. 数据集规模与构成

该数据集通过一个四阶段全自动数据合成流水线生成，包含：

SFT样本：34,200 个（用于冷启动监督微调）
RL样本：4,100 个（用于强化学习训练）

3. 数据构建流程

采用 四阶段自动数据合成流水线：

低成本文本过滤 (Low-cost Text Filtering)
视频级验证 (Video-level Verification)
像素级掩码生成 (Pixel-level Mask Generation)
视觉提示渲染 (Visual Prompt Rendering)

4. 训练策略

采用两阶段训练：

冷启动 SFT：使用 34.2k 高质量轨迹，学习基础工具调用行为。
Agentic RL (GRPO)：使用 4.1k 精选样本，采用包含准确性、格式合规性和简洁性的三组件奖励。

5. 核心性能表现

实例级视频理解：平均比基线提升 +13.7%，超越 GPT-4o 和 Gemini-2.5-Pro。
通用视频理解：在通用基准上实现 +3.2% 和 +3.3% 的提升，展示了强大的跨任务泛化能力。

6. 关键发现

跨任务泛化：实例级任务中学习的长期视觉推理和多次推理能力可组合迁移到更广泛的视频理解场景。
异质蒸馏悖论：教师模型的原始能力与蒸馏性能不成正比；同质蒸馏效率高，异质蒸馏中模式差异大导致知识吸收差。
奖励黑客现象：在多选题数据上进行RL训练会导致性能大幅下降（-43.8%），而开放式训练（使用LLM评判）表现更稳健（74.5%）。

7. 引用信息

@article{zhao2026videoseeker, title={VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation}, author={Zhao, Yiming and Zeng, Yu and Huang, Wenxuan and Fang, Zhen and Miao, Qing and Su, Qisheng and Zhao, Jiawei and Cai, Jiayin and Chen, Lin and Chen, Zehui and Qi, Yukun and Hu, Yao and Jiang, Xiaolong and Zhao, Feng}, institution={{ University of Science and Technology of China, Xiaohongshu Inc., East China Normal University, Xian Jiaotong University}}, journal={arXiv preprint arXiv:2605.16079}, year={2026}, url={https://arxiv.org/abs/2605.16079} }

搜集汇总

数据集介绍

构建方式

在视频理解领域，现有的视觉语言模型在处理需要精确时空定位的实例级任务时面临挑战。为突破这一瓶颈，VideoSeeker构建了一套完全自动化的四阶段数据合成流水线。首先，通过低成本文本筛选阶段，利用轻量级语言模型快速过滤不适用于视觉提示的文本问答对；其次，借助强大的视频理解模型进行视频级验证，确保目标实例的唯一性与问答的可解性；然后，集成SAM3模型生成像素级的实例分割掩码；最后，渲染多样化的视觉提示类型并改写问答数据，使问题依赖于视觉提示而非纯文本描述，从而高效生成大规模、高质量的实例级视频问答数据集。

特点

VideoSeeker数据集的核心特色在于其以视觉提示驱动的实例级视频理解范式。与传统仅依赖文本查询的方法不同，该数据集允许用户直接在视频帧上标注目标区域，实现更为精确的空间与时间参考。数据集涵盖矩形、掩码轮廓、椭圆、三角形、涂鸦、点、箭头及集合标记等八种视觉提示类型，提供了丰富的空间与几何多样性。此外，数据经过严格的多阶段筛选与验证，确保每个问答对均针对唯一且可识别的视觉实体，从而赋予模型主动感知与按需检索相关视频片段的能力，显著提升了细粒度时空定位与推理的准确性。

使用方法

使用VideoSeeker数据集时，模型需在给定视频、视觉提示帧及查询的条件下，准确回答关于特定实例的问题。训练采用两阶段策略：首先通过监督微调（SFT）基于34.2k高质量轨迹数据，使模型掌握多轮工具调用的基础能力；随后利用GRPO强化学习（RL）在4.1k精选样本上进阶优化，结合答案准确性、格式合规性与生成效率三重奖励信号，引导模型自主决定何时调用视觉提示查看与视频裁剪工具，在主动感知与局部聚焦的迭代循环中完成推理。评估时需在V2P-Bench等基准上验证实例级理解能力，同时可迁移至通用视频理解任务。

背景与挑战

背景概述

VideoSeeker数据集由中国科学院、小红书、华东师范大学及西安交通大学等机构的研究人员于2026年共同创建，旨在突破现有大视觉语言模型（LVLMs）在实例级视频理解任务中的瓶颈。传统方法依赖于文本提示进行人机交互，却难以提供精确的时空定位，导致用户体验欠佳；同时，视觉感知与语言推理的解耦使得模型无法主动感知细粒度视觉证据。VideoSeeker通过引入视觉提示（visual prompts）实现实例级视频理解，让用户可直接在视频帧上标注目标区域，从而获得更精准的时空参照。该数据集构建了一套四阶段全自动数据合成流水线，高效生成大规模、高质量的实例级视频数据，并利用冷启动监督与强化学习将工具调用与主动感知能力内化于模型中。实验表明，VideoSeeker在实例级视频理解基准上平均提升13.7%，超越GPT-4o和Gemini-2.5-Pro等强封闭源模型，同时在通用视频理解任务中展现出有效的迁移能力，为视频理解领域开辟了以视觉为核心的全新范式。

当前挑战

VideoSeeker所应对的核心挑战之一，是实例级视频理解任务对精确时空定位的严苛要求。现有方法因依赖文本查询而无法捕捉细粒度视觉证据，尤其在多目标复杂场景中常出现幻觉与定位错误，亟需一种以视觉为中心的新推理范式。构建过程中面临的关键挑战包括：数据稀缺——高质量实例级视频标注数据严重不足，为此团队设计了全自动流水线，从任意视频QA数据中转化视觉提示依赖型数据；目标唯一性验证——需确保视频中目标实例可被唯一辨识，借助多步骤推理与语义标签生成实现；像素级掩码生成——利用SAM3实现精准分割，以支持多样化的视觉提示类型（如矩形、箭头、遮罩轮廓等）；以及模型训练与推理效率的平衡——通过冷启动SFT结合Agentic强化学习，在保证准确率的同时优化工具调用轮次与推理链紧凑性，避免传统单遍压缩范式导致的信息丢失与计算开销过高问题。

常用场景

经典使用场景

在视频理解领域，VideoSeeker作为一项开创性的范例，其最经典的应用场景聚焦于实例级别的视频理解任务。相较于传统方法依赖冗长的文本描述来定位特定目标，VideoSeeker通过视觉提示（如边界框、箭头或轮廓）直接在视频帧上标注感兴趣区域，赋予了模型精细的时空定位能力。这一独特范式使模型能够精准识别并用可视化手段回答诸如“画面中第三位穿着红色外套的人正在做什么”或“被黄色圆圈标注的物体在视频中何时出现”等复杂问题，从而突破了传统文本查询在复杂多目标场景下的局限性。

解决学术问题

该数据集有效解决了当前大型视觉语言模型在实例级视频理解研究中面临的几大核心困境。首先，它弥合了视觉感知与语言推理之间的鸿沟，促使模型以视觉证据而非语言描述为中心进行推理，显著降低了长视频场景中的幻觉现象。其次，VideoSeeker引入了主动感知机制，摒弃了传统的被动均匀采样策略，让模型能够按需自适应地检索关键视频片段。此外，通过构建全自动的四阶段数据合成流水线，它为稀缺的实例级视频训练数据问题提供了高效且可扩展的解决方案，推动视频理解从粗粒度的全局语义向细粒度的时空定位迈出了关键一步。

衍生相关工作

VideoSeeker的提出激发了多项衍生性的经典工作，进一步丰富了视频理解的研究生态。其中，LongVT借鉴了其原生工具调用的理念，探索了模型如何在长视频中通过动态选择与重新检查相关片段来进行时序检索与推理。VITAL则在此基础上构建了视觉工具箱，允许模型在推理过程中按需密集采样新帧，以实现精准的长视频推理。此外，Ego-R1将工具链推理思想拓展至第一人称视频领域，而PyVision则发展了动态工具调用的通用框架。这些工作在继承VideoSeeker核心思想的同时，各自在不同维度上进行了深化与创新，共同推动了大模型视频理解能力的全面进化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集