OTA-76k
收藏Hugging Face2026-04-06 更新2026-04-07 收录
下载链接:
https://huggingface.co/datasets/anonymous-submission-221/OTA-76k
下载链接
链接失效反馈官方服务:
资源简介:
OTA-76k是一个大规模、基于边界框定位的多步骤视频推理数据集,旨在训练多模态大语言模型(MLLMs)进行细粒度的时空推理。该数据集解决了现有视频推理模型的常见缺陷,如过度依赖帧级感知和结果导向的稀疏奖励,这些问题常导致视觉噪声干扰和逻辑幻觉。数据集基于创新的观察-思考-行动(O-T-A)分层推理架构,通过构建透明的可视化思维链(V-CoT)痕迹,促进对象级线索发现和实体跟踪,突破了离散帧采样的感知限制。
OTA-76k数据集包含来自20,000个高质量视频片段的76,000条高质量交互轨迹,严格分为两个渐进子集:
* SFT(监督微调):42,000条轨迹,设计用于多阶段微调(格式对齐、基本空间锚定和多轮轨迹调整)。
* RL(强化学习):34,000条轨迹,专为使用空间基础GDPO(SG-GDPO)框架进行策略优化而设计。
创建时间:
2026-04-05
原始信息汇总
OTA-76k 数据集概述
数据集基本信息
- 数据集名称: OTA-76k (POIROT Framework)
- 许可证: CC BY 4.0
- 任务类别: 视觉问答
- 主要语言: 英语
- 标签: Agent
- 数据规模: 10K < n < 100K
数据集简介
OTA-76k 是一个大规模、基于边界框定位的多步骤视频推理数据集,旨在训练多模态大语言模型进行细粒度的时空推理。该数据集解决了现有模型在视频推理中的常见缺陷,例如过度依赖帧级感知和面向结果的稀疏奖励,这些问题通常会导致视觉噪声干扰和逻辑幻觉。该数据集基于创新的**观察-思考-行动(O-T-A)**分层推理架构,通过构建透明的可视化思维链轨迹,促进对象级线索发现和实体跟踪,从而突破离散帧采样的感知限制。
数据构成与划分
该数据集总共包含 76,000 条高质量交互轨迹,源自 20,000 个高质量视频片段。数据集被严格划分为两个递进子集:
- 监督微调子集: 包含 42,000 条轨迹,设计用于多阶段微调(格式对齐、基础空间锚定和多轮轨迹调整)。
- 强化学习子集: 包含 34,000 条轨迹,专为使用空间锚定 GDPO 框架进行策略优化而定制。
搜集汇总
数据集介绍

构建方式
在视频理解与推理领域,传统模型常受限于帧级感知与稀疏奖励机制,导致视觉噪声干扰与逻辑幻觉问题。OTA-76k数据集基于创新的观察-思考-行动(O-T-A)分层推理架构构建,通过从两万段高质量视频片段中提取七万六千条交互轨迹,形成透明可视化的思维链(V-CoT)痕迹。该过程强调对象级线索发现与实体追踪,突破了离散帧采样的感知局限,为多模态大语言模型提供了细粒度时空推理的训练基础。
特点
OTA-76k作为大规模边界框锚定的多步视频推理数据集,其核心特点在于层次化结构设计与严格的数据划分。数据集依托O-T-A架构,将复杂推理任务分解为可追溯的视觉化思维链条,有效支持对象级时空关系建模。数据严格分为监督微调与强化学习两个渐进子集,前者包含四万两千条轨迹,用于多阶段对齐与空间锚定训练;后者涵盖三万四千条轨迹,专为基于空间锚定的GDPO框架策略优化而设计,确保了模型训练的系统性与可扩展性。
使用方法
该数据集主要应用于多模态大语言模型的细粒度时空推理能力培养。使用者可依据监督微调子集进行多阶段训练,逐步实现格式对齐、基础空间锚定与多轮轨迹调优;随后利用强化学习子集,结合空间锚定的GDPO框架开展策略优化,以提升模型在复杂视频场景中的对象追踪与逻辑演绎性能。通过这种分阶段、层次化的训练流程,模型能够有效克服视觉噪声干扰,减少逻辑幻觉,实现更稳健的视频推理应用。
背景与挑战
背景概述
随着多模态大语言模型在视频理解领域的深入应用,传统方法因依赖帧级感知与稀疏奖励机制,常面临视觉噪声干扰与逻辑幻觉的局限。OTA-76k数据集由匿名研究团队于2024年基于POIROT框架构建,旨在通过大规模、边界框锚定的多步视频推理数据,推动模型实现细粒度时空演绎。该数据集以观察-思考-行动分层推理架构为核心,通过可视化思维链轨迹促进对象级线索发现与实体追踪,突破了离散帧采样的感知瓶颈,为视频推理研究提供了关键的数据基础与评估基准。
当前挑战
在视频推理领域,模型需克服从复杂动态场景中提取连贯时空关系的核心难题,避免因帧间信息断裂导致的逻辑推理偏差。OTA-76k针对此问题,通过边界框锚定与多步轨迹设计,要求模型实现精准的空间定位与时间关联推理。数据构建过程中,研究团队需从两万条高质量视频片段中人工标注七万六千条交互轨迹,确保视觉线索与推理步骤的严格对齐,同时划分监督微调与强化学习子集以适配不同训练阶段,这对数据的一致性、多样性与结构复杂性提出了极高要求。
常用场景
经典使用场景
在视频推理领域,OTA-76k数据集为多模态大语言模型提供了精细化的时空演绎训练平台。其经典使用场景聚焦于通过观察-思考-行动的分层推理架构,引导模型从视频序列中挖掘对象级线索并追踪实体轨迹,从而突破传统帧级感知的局限,实现连贯的逻辑推断。
解决学术问题
该数据集有效解决了视频推理中常见的学术难题,如模型对帧级感知的过度依赖与结果导向的稀疏奖励机制所引发的视觉噪声干扰和逻辑幻觉问题。通过构建可视化的思维链轨迹,OTA-76k促进了透明化的推理过程,为多步视频理解提供了可解释的基准,推动了细粒度时空推理研究的发展。
衍生相关工作
围绕OTA-76k数据集,学术界衍生出一系列经典研究工作,包括基于空间锚定的监督微调方法、结合空间接地策略的强化学习框架SG-GDPO,以及多轮轨迹调优技术。这些工作不仅深化了分层推理架构的理论探索,也为多模态智能体的可扩展训练提供了重要范式。
以上内容由遇见数据集搜集并总结生成



