Grounded Chain-of-Thought (GCoT)

Name: Grounded Chain-of-Thought (GCoT)
Creator: Westlake University, Shanghai Innovation Institute, Zhejiang University, Tsinghua University, Shanghai Jiao Tong University, Eastern Institute of Technology, Fudan University
Published: 2025-10-16 01:58:08
License: 暂无描述

arXiv2025-10-16 更新2025-05-08 收录

下载链接：

Project Page

下载链接

链接失效反馈

官方服务：

资源简介：

Grounded Chain-of-Thought (GCoT) 数据集旨在解决3D视觉接地问题，并促进空间推理。该数据集包括对推理问题中提到的对象的精确3D边界框注释，以及将接地作为问题解决过程核心的逐步推理路径。通过这种方式构建的任务鼓励模型在处理复杂的空间推理之前首先识别相关对象，从而产生更具可解释性和认知对齐的空间学习方法。

The Grounded Chain-of-Thought (GCoT) dataset aims to address 3D visual grounding tasks and facilitate spatial reasoning. This dataset includes precise 3D bounding box annotations for objects mentioned in reasoning questions, as well as step-by-step reasoning paths that take grounding as the core of the problem-solving process. Tasks constructed in this manner encourage models to first identify relevant objects before tackling complex spatial reasoning, thereby yielding more interpretable and cognitively aligned spatial learning approaches.

提供机构：

Westlake University, Shanghai Innovation Institute, Zhejiang University, Tsinghua University, Shanghai Jiao Tong University, Eastern Institute of Technology, Fudan University

创建时间：

2025-10-16

搜集汇总

数据集介绍

构建方式

RT V-Bench的构建过程体现了对多模态大语言模型（MLLMs）实时视频分析能力的系统性评估需求。数据集包含552个总时长167.2小时的多样化视频，覆盖智能驾驶、体育赛事和第一人称视角三大动态场景领域。通过严格的四阶段构建流程：首先从EgoSchema等开源平台筛选高动态性长视频；其次采用LLM生成初始问题模板后，由专业标注团队手工设计4,631组带时间戳答案演变的QA对（MTQA机制）；再通过分层问题结构确保基础感知到高级推理的递进性；最后经多轮人工校验确保时间对齐与敏感信息过滤。这种融合自动生成与人工校验的混合标注策略，显著提升了评估任务对时空连续性的捕捉精度。

特点

该数据集的核心创新在于其三维评估体系：时间维度上首创多时间戳问答机制（MTQA），要求模型跟踪同一概念问题随视频进展的答案演变；结构维度采用基础-进阶的分层问题设计，强制模型建立可靠的因果推理链；评估维度则细化为时间感知、场景理解等8项能力指标。相较于传统静态视频QA数据集，RT V-Bench的独特价值体现在：问题中63%的正确答案会随视频时间戳动态变化，体育类视频平均每个片段包含7.2次关键状态转换，这为评估模型持续更新认知的能力提供了严格测试环境。实验表明，即使是顶级模型GPT-4o在MTQA任务上的准确率也仅44.73%，凸显了该基准的挑战性。

使用方法

使用RT V-Bench需遵循其设计的实时评估协议：对于在线模型（如IXC2.5-OL），直接以视频流输入并记录模型在指定时间戳的响应；离线模型（如VideoLLaMA3）则需截取问题对应时间窗的视频片段进行模拟评估。评估采用双指标体系：基础准确率衡量单题正确率，而进阶分数（Score）要求模型在答对基础问题前提下才能获得高阶问题的分数，以此检测推理可靠性。研究者可通过官方工具包实现帧率控制（1-30fps可调）、记忆重置间隔设置等参数化测试，特别建议关注模型在视频开始后15-20分钟时段的性能衰减情况，这是区分长时记忆能力的关键观察窗口。

背景与挑战

背景概述

RT V-Bench是由哈尔滨工业大学、香港科技大学等机构的研究团队于2025年提出的多模态大语言模型（MLLM）实时视频分析基准测试。该数据集针对动态环境中连续感知、理解与推理的核心研究问题，包含552段总时长167.2小时的视频及4,631组高质量问答对。其创新性体现在多时间戳问答机制（MTQA）、分层问题结构和多维度评估体系，填补了现有基准在实时流媒体场景评估的空白，推动了视频理解从静态分析向动态连续认知的范式转变。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决动态场景中实时状态追踪（如体育赛事动作演化）、瞬时细节捕捉（如交通灯变化）和长时序依赖建模（如跨镜头事件关联）等难题；在构建过程中，涉及多模态时序对齐（视频帧与问题时间戳匹配）、动态答案标注（随场景变化的正确答案标记）以及评估维度量化（8项细粒度能力指标的标准化测量）等技术难点。实验表明当前模型在MTQA任务平均准确率不足50%，且模型规模与输入帧数对性能提升存在边际效应，凸显实时视频架构设计的迫切需求。

常用场景

经典使用场景

RT V-Bench作为多模态大语言模型（MLLM）实时视频分析的基准测试工具，其经典使用场景主要集中在动态环境下的连续感知、理解与推理任务。例如，在体育赛事直播中，模型需要实时追踪球员动作、比分变化及战术调整，并根据多时间戳提问（MTQA）动态更新答案。该数据集通过552个总计167.2小时的视频和4,631组层次化问题对，系统评估模型对场景瞬态细节的捕捉能力和时序逻辑推理能力。

衍生相关工作

基于RT V-Bench的评估范式，衍生出多个标志性研究：VITA-1.5提出分阶段融合架构以增强视频流记忆能力；InternLM-XComposer2.5-OmniLive开发了模块化并行处理技术来优化长时状态维护；Dispider项目则受其启发构建了感知-决策-反应解耦框架。这些工作共同推动了在线视频理解从单纯响应速度向持续认知能力的范式转变。

数据集最近研究