molmo2-track-instruction

Name: molmo2-track-instruction
Creator: Allen Institute for AI
Published: 2026-03-03 09:47:17
License: 暂无描述

Hugging Face2026-03-03 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/allenai/molmo2-track-instruction

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个配置：'ground'、'single_point_track' 和 'track'，每个配置针对不同的视频数据跟踪任务。数据集主要包含视频片段信息（如视频ID、片段、起始帧、结束帧）、轨迹数据（帧轨迹、点坐标、遮挡状态）以及元数据（如视频来源、表达式、帧率）。'ground'配置包含30,021个训练样本，'single_point_track'配置包含139,635个训练样本，'track'配置包含55,900个训练样本。数据集适用于视频分析、目标跟踪等任务。

提供机构：

Allen Institute for AI

创建时间：

2026-03-02

原始信息汇总

数据集概述

基本信息

数据集名称: Molmo2 Track Instruction
托管平台: Hugging Face Datasets
数据集地址: https://huggingface.co/datasets/allenai/molmo2-track-instruction

数据集配置

该数据集包含三个独立的配置，每个配置对应一种特定的任务或数据格式。

配置一：ground

配置名称: ground
训练集样本数量: 30,021
训练集大小: 538,406,364 字节
下载大小: 62,723,441 字节
数据集总大小: 538,406,364 字节
数据文件路径: ground/train-*

配置二：single_point_track

配置名称: single_point_track
训练集样本数量: 139,635
训练集大小: 1,078,389,460 字节
下载大小: 93,025,934 字节
数据集总大小: 1,078,389,460 字节
数据文件路径: single_point_track/train-*

配置三：track

配置名称: track
训练集样本数量: 55,900
训练集大小: 968,536,116 字节
下载大小: 111,610,469 字节
数据集总大小: 968,536,116 字节
数据文件路径: track/train-*

数据特征

所有配置共享相同的特征结构，具体如下：

核心标识与元数据

id: 样本唯一标识符 (字符串类型)
qid: 问题标识符 (字符串类型)
task: 任务类型 (字符串类型)

视频信息

video: 视频标识符 (字符串类型)
clip: 片段标识符 (字符串类型)
video_dataset: 源视频数据集 (字符串类型)
start_frame: 起始帧编号 (64位整数)
end_frame: 结束帧编号 (64位整数)
n_frames: 总帧数 (64位整数)
fps: 视频帧率 (64位整数)
sampling_fps: 采样帧率 (64位整数)
height: 视频高度 (64位整数)
width: 视频宽度 (64位整数)

文本描述

expression: 描述文本 (字符串类型)

轨迹数据

frame_trajectories: 帧级轨迹列表
- frame: 帧编号 (64位整数)
- time: 时间戳 (64位浮点数)
- points: 点列表
  - id: 点标识符 (64位整数)
  - point: 坐标点列表 (64位浮点数列表)
  - occluded: 是否被遮挡 (布尔类型)

掩码标识

mask_id: 掩码标识符列表 (字符串列表)

数据统计

总配置数量: 3
总训练样本数: 225,556 (30,021 + 139,635 + 55,900)
所有配置仅包含训练集

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，视频目标跟踪任务对高质量标注数据的需求日益增长。Molmo2-Track-Instruction数据集的构建过程体现了系统化的数据采集与标注策略。该数据集通过整合多个视频源，提取关键片段，并采用轨迹标注方法，为每个目标点记录其在连续帧中的位置及遮挡状态。标注过程涵盖了从起始帧到结束帧的完整时间序列，确保了时空一致性的表达。数据以结构化格式存储，包含视频元信息、轨迹点坐标及任务类型，为模型训练提供了丰富的时空上下文。

使用方法

针对视频目标跟踪的研究与应用，Molmo2-Track-Instruction数据集提供了灵活的使用途径。用户可通过HuggingFace平台加载数据集，选择相应的配置（如ground、single_point_track或track）以适应特定任务。数据以标准化的特征格式呈现，便于直接用于模型训练或评估。研究人员可以基于轨迹标注信息，开发或验证跟踪算法，分析目标在时间维度上的运动规律。数据集的结构支持批量处理，能够高效地提取视频片段和对应的轨迹数据，加速实验迭代过程。

背景与挑战

背景概述

在计算机视觉领域，视频目标跟踪作为一项核心任务，长期致力于实现动态场景中目标的精准定位与轨迹预测。Molmo2-Track-Instruction数据集应运而生，其构建旨在通过指令引导的跟踪范式，推动视觉语言模型在视频理解与交互任务中的能力边界。该数据集由研究团队精心设计，整合了多源视频数据与结构化标注，涵盖了从基础的单点跟踪到复杂的掩码轨迹生成等多种任务配置。其核心研究问题聚焦于如何将自然语言指令与视频时空信息深度融合，以支持更灵活、更智能的跟踪系统开发，为视频分析、自动驾驶及机器人感知等应用领域提供了重要的数据支撑与研究基础。

当前挑战

Molmo2-Track-Instruction数据集所针对的领域挑战在于视频目标跟踪中指令理解的复杂性与时空一致性的保持。具体而言，模型需准确解析自然语言指令中蕴含的目标语义、空间关系及动态约束，同时在长时间跨度下处理目标外观变化、遮挡、运动模糊等干扰因素。在构建过程中，数据采集面临多源视频格式统一、帧率协调与标注质量控制的难题；标注阶段则需确保轨迹点坐标的精确性、遮挡标签的可靠性以及指令表达与视觉内容的高效对齐，这些因素共同构成了数据集构建的技术壁垒与质量保障挑战。

常用场景

经典使用场景

在计算机视觉领域，视频目标跟踪任务要求模型能够持续定位并跟随动态场景中的特定对象。Molmo2-Track-Instruction数据集通过提供丰富的视频片段、逐帧轨迹标注以及自然语言指令，为视觉语言模型（VLM）的训练与评估奠定了坚实基础。该数据集最经典的使用场景在于支持基于指令的视频单点跟踪与多点跟踪任务，研究者可利用其精确的时空标注数据，开发能够理解复杂语言描述并执行细粒度视觉跟踪的智能系统。

解决学术问题

该数据集有效解决了视频理解与语言引导视觉任务中的若干关键学术问题。其一，它弥合了自然语言指令与像素级跟踪之间的语义鸿沟，为研究开放词汇跟踪与指代表达理解提供了高质量基准。其二，通过提供遮挡标注与长时序轨迹，它助力于探索跟踪任务中的鲁棒性建模与长期依赖关系学习。这些贡献显著推动了视觉语言多模态交互研究向更精细、更实用的方向发展。

实际应用

Molmo2-Track-Instruction数据集的实际应用价值广泛体现在人机交互与自动化系统之中。在智能视频监控领域，系统可依据自然语言指令（如“跟踪穿红色衣服的人”）实时锁定目标。在增强现实与机器人导航中，该数据集支持开发能够理解用户口头命令并精准操控视觉注意力的辅助系统。此外，其在内容创作与视频编辑工具中的应用，可实现基于语言描述的自动化对象追踪与特效添加，极大提升了生产流程的智能化水平。

数据集最近研究