VideoSeeker
收藏根据您提供的数据集详情页面内容,以下是对该数据集的详细总结:
数据集概述
该页面介绍的是 VideoSeeker,一个用于推动实例级视频理解的新型范式,其核心是利用视觉提示进行主动感知和推理。
1. 数据集名称与来源
- 名称:VideoSeeker
- 论文:arXiv:2605.16079
- 代码与模型:提供链接可获取(页面标注"Code"、"Model")
2. 数据集规模与构成
该数据集通过一个四阶段全自动数据合成流水线生成,包含:
- SFT样本:34,200 个(用于冷启动监督微调)
- RL样本:4,100 个(用于强化学习训练)
3. 数据构建流程
采用 四阶段自动数据合成流水线:
- 低成本文本过滤 (Low-cost Text Filtering)
- 视频级验证 (Video-level Verification)
- 像素级掩码生成 (Pixel-level Mask Generation)
- 视觉提示渲染 (Visual Prompt Rendering)
4. 训练策略
采用两阶段训练:
- 冷启动 SFT:使用 34.2k 高质量轨迹,学习基础工具调用行为。
- Agentic RL (GRPO):使用 4.1k 精选样本,采用包含准确性、格式合规性和简洁性的三组件奖励。
5. 核心性能表现
- 实例级视频理解:平均比基线提升 +13.7%,超越 GPT-4o 和 Gemini-2.5-Pro。
- 通用视频理解:在通用基准上实现 +3.2% 和 +3.3% 的提升,展示了强大的跨任务泛化能力。
6. 关键发现
- 跨任务泛化:实例级任务中学习的长期视觉推理和多次推理能力可组合迁移到更广泛的视频理解场景。
- 异质蒸馏悖论:教师模型的原始能力与蒸馏性能不成正比;同质蒸馏效率高,异质蒸馏中模式差异大导致知识吸收差。
- 奖励黑客现象:在多选题数据上进行RL训练会导致性能大幅下降(-43.8%),而开放式训练(使用LLM评判)表现更稳健(74.5%)。
7. 引用信息
@article{zhao2026videoseeker, title={VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation}, author={Zhao, Yiming and Zeng, Yu and Huang, Wenxuan and Fang, Zhen and Miao, Qing and Su, Qisheng and Zhao, Jiawei and Cai, Jiayin and Chen, Lin and Chen, Zehui and Qi, Yukun and Hu, Yao and Jiang, Xiaolong and Zhao, Feng}, institution={{ University of Science and Technology of China, Xiaohongshu Inc., East China Normal University, Xian Jiaotong University}}, journal={arXiv preprint arXiv:2605.16079}, year={2026}, url={https://arxiv.org/abs/2605.16079} }




