STGR-CoT-30k, STGR-RL-36k

Name: STGR-CoT-30k, STGR-RL-36k
Creator: 北京大学1,字节跳动2,中国科学院自动化研究所3,武汉大学4,新加坡国立大学5
Published: 2025-10-23 22:05:56
License: 暂无描述

arXiv2025-10-23 更新2025-11-05 收录

下载链接：

https://hf-mirror.com/datasets/marinero4972/Open-o3-Video

下载链接

链接失效反馈

官方服务：

资源简介：

Open-o3Video是一个非代理框架，它将显式的时空证据整合到视频推理中。为了支持这一功能，我们首先精心策划和构建了两个高质量的数据集，STGR-CoT-30k用于SFT，STGR-RL-36k用于RL。这些数据集集成了现有仅有时空标注的资源，并包含了5900个新标注的高质量时空样本。每个实例都包含一个问题-答案对、时间戳关键帧、本地化边界框以及一个将视觉证据明确链接到推理步骤的思考链。这些设计为SFT提供了同步的时空监督，以获取有根据的推理格式，并为RL提供了可靠、可验证的信号，以在复杂的视频动态下优化对齐。STGR-CoT-30k包含13.7%的时空数据和50.0%的一般问答数据，而STGR-RL-36k包含30.3%的时空数据和41.7%的问答数据。这些数据集旨在帮助模型学习如何在动态场景中进行一致的定位，并为强化学习提供可验证的奖励。Open-o3Video在V-STAR基准测试和其他视频理解任务上取得了最先进的性能，证明了其在长视频推理、感知导向任务和细粒度时空定位方面的优势。

Open-o3Video is a non-agent framework that integrates explicit spatiotemporal evidence into video reasoning. To support this capability, we first carefully curated and constructed two high-quality datasets: STGR-CoT-30k for Supervised Fine-Tuning (SFT) and STGR-RL-36k for Reinforcement Learning (RL). These datasets integrate existing resources with only spatiotemporal annotations, and additionally include 5,900 newly annotated high-quality spatiotemporal samples. Each instance contains a question-answer pair, timestamped keyframes, localization bounding boxes, and a Chain of Thought (CoT) that explicitly links visual evidence to reasoning steps. These designs provide synchronized spatiotemporal supervision for SFT to acquire well-grounded reasoning formats, and provide reliable, verifiable signals to optimize alignment under complex video dynamics for RL. STGR-CoT-30k contains 13.7% spatiotemporal data and 50.0% general question-answering data, while STGR-RL-36k contains 30.3% spatiotemporal data and 41.7% question-answering data. These datasets are designed to help models learn consistent localization in dynamic scenarios, and provide verifiable rewards for reinforcement learning. Open-o3Video achieves state-of-the-art performance on the V-STAR benchmark and other video understanding tasks, demonstrating its advantages in long-form video reasoning, perception-oriented tasks, and fine-grained spatiotemporal localization.

提供机构：

北京大学1,字节跳动2,中国科学院自动化研究所3,武汉大学4,新加坡国立大学5

创建时间：

2025-10-23

搜集汇总

数据集介绍

构建方式

在视频理解领域，构建具备时空联合标注的高质量数据集对推动细粒度推理至关重要。STGR-CoT-30k与STGR-RL-36k通过整合现有时序标注资源与空间定位数据，并新增5.9k人工标注样本，形成了覆盖时序、空间、时空联合及通用问答的混合语料。标注流程采用Gemini 2.5 Pro生成结构化注释，经边界框过滤与自一致性校验，确保每个样本包含对齐的问题-答案对、时间戳关键帧、目标区域框及显式关联视觉证据的思维链。

特点

该数据集的核心特征在于其多维度的监督信号设计。STGR-CoT-30k专用于监督微调，包含13.7%时序标注、16.7%空间标注、19.7%时空联合标注及50%通用问答数据，强调基础推理格式的学习；STGR-RL-36k则面向强化学习，通过30.3%的时空联合样本与41.7%的问答数据，构建了兼顾多样性与任务平衡的训练环境。所有样本均遵循严格的时空对齐规范，其思维链中嵌入的<obj><box><t>结构化标记，为模型提供可验证的时空证据链。

使用方法

该数据集适用于分阶段训练范式。研究者可首先利用STGR-CoT-30k进行监督微调，使模型掌握生成时空证据的基础能力；随后通过STGR-RL-36k开展强化学习，结合自适应时序邻近与时序门控机制优化时空对齐精度。在推理阶段，模型输出的时空证据可进一步支持置信度感知的测试时缩放，通过对多个响应中的边界框区域进行裁剪重评分，实现基于证据一致性的加权投票，提升预测鲁棒性。

背景与挑战

背景概述

STGR-CoT-30k与STGR-RL-36k数据集由字节跳动与北京大学等机构于2025年联合构建，旨在解决视频理解中时空证据联合定位的核心难题。该研究响应了OpenAI-o3等模型在图像证据推理领域的突破，致力于将显式时空定位能力扩展至动态视频场景。通过整合现有时序标注与空间检测数据，并新增5.9k高质量样本，该数据集为视频推理模型提供了同步的时空监督信号与结构化思维链，显著推动了视频时空推理研究的发展。

当前挑战

该数据集主要应对视频时空联合推理的双重挑战：在领域问题层面，需突破传统视频问答仅依赖文本推理的局限，实现时序关键帧定位与空间目标检测的协同优化；在构建过程中，面临标注一致性维护的难题，包括时序片段与空间边界框的精确对齐、思维链与视觉证据的逻辑关联，以及动态场景中遮挡、运动模糊等因素导致的标注噪声控制。

常用场景

经典使用场景

在视频时空推理研究领域，STGR-CoT-30k和STGR-RL-36k数据集为模型训练提供了关键支撑。这些数据集最经典的应用场景在于训练视频大模型进行显式的时空证据推理，通过精心构建的时间戳标注和空间边界框，使模型能够准确定位视频中关键事件发生的时间和位置。在复杂动态场景理解任务中，模型需要同时追踪时间维度的变化和空间维度的对象位置，这两个数据集为此提供了统一的监督信号。

实际应用

在实际应用层面，基于STGR数据集训练的模型展现出广泛的应用前景。在智能视频监控系统中，模型能够精确定位异常行为发生的时间和区域；在自动驾驶领域，可实现对动态交通参与者的时空轨迹追踪；在医疗影像分析中，能够准确标记病变区域在时间序列中的变化过程。这些应用不仅要求模型给出正确答案，更需要提供可验证的视觉证据，STGR数据集为此类需求提供了坚实的技术支撑。

衍生相关工作

STGR数据集的发布催生了一系列重要的衍生研究工作。Open-o3Video框架直接基于该数据集实现了证据中心的视频推理，在V-STAR基准上取得了突破性性能。后续研究如Video-R1和VideoRFT等视频推理方法，虽然仍依赖纯文本输出，但在训练策略和模型架构上都受到了STGR数据集的启发。时空 grounding领域的Time-R1和TVG-R1等方法，也在数据集构建思路上借鉴了STGR的统一时空监督理念，推动了整个视频理解领域向更精细化、可解释化的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集