Molmo2-VideoTrack

Name: Molmo2-VideoTrack
Creator: Allen Institute for AI
Published: 2025-12-16 23:37:13
License: 暂无描述

Hugging Face2025-12-16 更新2025-12-17 收录

下载链接：

https://huggingface.co/datasets/allenai/Molmo2-VideoTrack

下载链接

链接失效反馈

官方服务：

资源简介：

Molmo2-VideoTrack是一个视频点跟踪注释数据集，收集了来自16个视频数据集中的人工注释。该数据集可用于通过点轨迹微调视觉语言模型以进行视频对象跟踪。它是Molmo2数据集集合的一部分，并用于训练Molmo2系列模型。数据集包含每个视频剪辑中一个或多个对象的跟踪注释，每个注释行包括唯一标识符、视频文件名、剪辑ID、源数据集名称、文本表达式描述跟踪对象、对象ID列表、点轨迹列表、段注释列表、起始帧索引、结束帧索引、视频宽度、视频高度、剪辑中的帧数和训练中使用的帧率。数据集的结构按视频数据集分类存储，每个数据集文件夹中包含点轨迹的parquet文件。数据集的视频来源包括多个第三方数据集，每个数据集都有其特定的许可证和使用要求。

提供机构：

Allen Institute for AI

创建时间：

2025-12-15

原始信息汇总

Molmo2-VideoTrack 数据集概述

数据集简介

Molmo2-VideoTrack 是一个视频点跟踪标注数据集，其标注由人工标注员在16个视频数据集中收集。该数据集可用于通过点轨迹对视觉语言模型进行视频对象跟踪的微调。Molmo2-VideoTrack 是 Molmo2 数据集集合的一部分，并用于训练 Molmo2 系列模型。

使用方式

可以使用 datasets 库加载数据集。加载整个数据集或按视频数据集进行筛选。 python from datasets import load_dataset ds = load_dataset("allenai/Molmo2-VideoTrack", split="train") dancetrack = ds.filter(lambda x: x == dancetrack, input_columns=video_dataset)

数据格式

每一行包含一个视频片段中一个或多个对象的跟踪标注。

字段	描述
`id`	此标注的唯一标识符
`video`	视频文件名
`clip`	裁剪后的片段ID
`video_dataset`	源数据集名称（例如 dancetrack, mose）
`video_source`	训练中使用的视频目录（可忽略）
`exp`	描述被跟踪对象的文本表达式
`obj_id`	每个视频中的对象ID列表
`mask_id`	从 0 开始的、与被跟踪对象对应的掩码ID列表
`points`	每个对象的点轨迹列表。每个条目包含 `object_id`（对应于 `mask_id` 中的一个ID）和 `points`（每帧的 [x, y] 坐标列表）。示例：`[{object_id: 0, points: [[x1, y1], [x2, y2], ...]}, ...]`
`segments`	每个对象的片段标注列表。每个条目包含 `object_id`（对应于 `mask_id` 中的一个ID）和 `segments`。示例：`[{object_id: 0, segments: [...]}, ...]`
`start_frame`	此片段的起始帧索引（用于裁剪源视频）
`end_frame`	此片段的结束帧索引（用于裁剪源视频）
`w`	视频宽度
`h`	视频高度
`n_frames`	片段中的帧数
`fps`	训练中使用的帧率

重要提示： start_frame 和 end_frame 指示应使用源视频的哪一部分。您需要将视频裁剪到此范围——标注对应于 [start_frame, end_frame] 内的帧，而非整个视频。

文件夹结构

Molmo2-VideoTrack/ ├── README.md └── data/ ├── animaltrack/ │ └── point_tracks.parquet ├── APTv2/ │ └── point_tracks.parquet ├── ... └── {video_dataset}/ └── point_tracks.parquet

视频来源

下表包含了用于构建 Molmo2-VideoTrack 数据的第三方数据集的来源信息。我们不提供视频文件，也不分享原始数据集中受使用和分发限制的原始数据。我们提供原始数据集的链接、许可证信息和下载说明，以确保透明度和可复现性。请在下载前核实适用于每个数据集的许可证和使用要求。

数据集	类别	标注来源	下载链接	数据集许可证	备注
mose	通用	分割	https://huggingface.co/datasets/FudanCVL/MOSE	CC BY-NC-SA 4.0
mosev2	通用	分割	https://huggingface.co/datasets/FudanCVL/MOSEv2	CC BY-NC-SA 4.0
sav	通用	分割	https://ai.meta.com/datasets/segment-anything-video/	CC BY 4.0	从原始24 fps视频以6 fps采样以匹配分割标注
vipseg	通用	分割	https://github.com/VIPSeg-Dataset/VIPSeg-Dataset/	仅限非商业研究使用	转换为720p格式
animaltrack	动物	边界框	https://hengfan2010.github.io/projects/AnimalTrack/	仅限非商业研究使用	由于数据稀缺，使用了训练和验证视频
APTv2	动物	边界框	https://github.com/ViTAE-Transformer/APTv2	Apache 2.0
bft	鸟群	边界框	https://george-zhuang.github.io/nettrack/	Apache 2.0
soccernet	体育	边界框	https://www.soccer-net.org/data	仅限非商业研究使用	填写NDA表格以访问视频
sportsmot	体育	边界框	https://codalab.lisn.upsaclay.fr/competitions/12424#participate	CC BY-NC 4.0
teamtrack	体育	边界框	https://github.com/AtomScott/TeamTrack	MIT
mot2020	行人	边界框	https://motchallenge.net/data/MOT20/	CC BY-NC-SA 3.0
personpath22	行人	边界框	https://amazon-science.github.io/tracking-dataset/personpath22.html	CC BY-NC 4.0
dancetrack	舞者	边界框	https://github.com/DanceTrack/DanceTrack?tab=readme-ov-file#dataset	仅限非商业研究使用
bdd100k	自动驾驶	边界框	http://128.32.162.150/bdd100k/video_parts/	BSD-3	仅下载 bdd100k_videos_train_00.zip
uavdt	无人机	边界框	https://sites.google.com/view/grli-uavdt/%E9%A6%96%E9%A1%B5	仅限研究使用
seadrones	无人机	边界框	https://seadronessee.cs.uni-tuebingen.de/dataset	CC0 / Unknown	使用 Multi-Object Tracking

许可证

本数据集采用 ODC-BY-1.0 许可证授权。根据 Ai2 的负责任使用指南，它旨在用于研究和教育目的。关于提供用于生成本数据集分割和点轨迹的视频的原始数据集，请参阅“视频来源”部分。所有对这些数据集的视频和原始数据的使用均受来源提供的许可证和使用条款约束。请检查来源以确定它们是否适合您的使用场景。

搜集汇总

数据集介绍

构建方式

Molmo2-VideoTrack数据集通过整合16个不同领域的视频数据集构建而成，涵盖通用场景、动物行为、体育赛事、行人跟踪及无人机视角等多个类别。其构建过程依赖于人工标注，从原始视频中提取点轨迹和分割注释，并以Parquet格式存储，确保数据结构化且高效。数据集的创建严格遵循各源数据集的许可协议，仅提供标注信息而非原始视频文件，从而在尊重知识产权的同时促进研究的可复现性。

特点

该数据集的核心特点在于其跨领域的广泛覆盖与精细的标注粒度。每个样本包含视频剪辑的元数据、对象描述文本、点轨迹坐标及分割掩码，支持多对象跟踪任务。点轨迹以逐帧的[x, y]坐标序列呈现，能够精确捕捉对象的运动路径。此外，数据集提供了起始帧与结束帧索引，便于研究者对原始视频进行裁剪，确保标注与视频片段严格对齐。这种结构化的设计使其成为训练视觉语言模型进行视频对象跟踪的理想资源。

使用方法

使用Molmo2-VideoTrack时，研究者可通过Hugging Face的datasets库直接加载数据，并利用过滤功能按视频源数据集进行筛选。数据以行为单位组织，每行对应一个视频剪辑的跟踪注释，包含对象ID、点轨迹列表和分割信息。在实际应用中，需结合start_frame与end_frame参数对源视频进行裁剪，以匹配标注的时间范围。该数据集适用于微调视觉语言模型，特别是在视频对象跟踪与轨迹预测任务中，能够有效提升模型在复杂场景下的泛化能力。

背景与挑战

背景概述

Molmo2-VideoTrack数据集由艾伦人工智能研究所于2024年发布，作为Molmo2系列数据集与模型的关键组成部分，旨在推动视频点轨迹追踪领域的研究。该数据集整合了来自16个不同视频数据集的标注信息，涵盖通用场景、动物行为、体育赛事、行人追踪及无人机视角等多个领域，为视觉语言模型在视频对象追踪任务上的微调提供了丰富且多样化的训练资源。其核心研究问题聚焦于如何通过点轨迹标注来提升模型对视频中动态对象的时空连续性理解，从而增强追踪的准确性与鲁棒性，对计算机视觉中的视频理解与多目标追踪技术发展具有显著影响力。

当前挑战

该数据集致力于解决视频对象追踪领域中的关键挑战，即如何在复杂动态场景中实现精确且鲁棒的点级轨迹预测，尤其是在对象外观变化、遮挡频繁及运动模糊等困难条件下保持追踪一致性。在构建过程中，面临多重挑战：首先，需整合来自不同源数据集且标注格式各异的轨迹信息，涉及大量数据清洗与标准化工作；其次，部分源数据集的使用许可限制严格，仅限非商业研究用途，增加了数据合规性管理的复杂度；此外，为确保标注质量与时空对齐，需对视频帧率、分辨率及裁剪范围进行精细调整，如对SA-V数据集进行降采样处理以匹配分割标注，这一过程对计算资源与人工校验提出了较高要求。

常用场景

经典使用场景

在计算机视觉领域，视频目标跟踪是理解动态场景的核心任务之一。Molmo2-VideoTrack数据集通过整合来自16个不同视频数据集的人工标注点轨迹，为视觉语言模型提供了丰富的训练资源。该数据集最经典的使用场景是微调模型以实现基于点轨迹的视频对象跟踪，特别是在复杂场景如舞蹈、体育或动物行为分析中，模型能够依据文本描述精准追踪多个目标的运动路径，从而提升跟踪的鲁棒性和泛化能力。

衍生相关工作

基于Molmo2-VideoTrack数据集，衍生了一系列经典研究工作，特别是Molmo2模型家族的开发。这些工作扩展了视觉语言模型在视频任务中的能力，如结合点轨迹进行多模态学习，推动了视频对象跟踪与自然语言理解的融合。此外，该数据集还激励了后续研究在跨域跟踪、实时语义分割等方向的探索，为学术界提供了可复现的基准和灵感来源。

数据集最近研究