Molmo2-VideoTrack
收藏Molmo2-VideoTrack 数据集概述
数据集简介
Molmo2-VideoTrack 是一个视频点跟踪标注数据集,其标注由人工标注员在16个视频数据集中收集。该数据集可用于通过点轨迹对视觉语言模型进行视频对象跟踪的微调。Molmo2-VideoTrack 是 Molmo2 数据集集合 的一部分,并用于训练 Molmo2 系列模型。
使用方式
可以使用 datasets 库加载数据集。加载整个数据集或按视频数据集进行筛选。
python
from datasets import load_dataset
ds = load_dataset("allenai/Molmo2-VideoTrack", split="train")
dancetrack = ds.filter(lambda x: x == dancetrack, input_columns=video_dataset)
数据格式
每一行包含一个视频片段中一个或多个对象的跟踪标注。
| 字段 | 描述 |
|---|---|
id |
此标注的唯一标识符 |
video |
视频文件名 |
clip |
裁剪后的片段ID |
video_dataset |
源数据集名称(例如 dancetrack, mose) |
video_source |
训练中使用的视频目录(可忽略) |
exp |
描述被跟踪对象的文本表达式 |
obj_id |
每个视频中的对象ID列表 |
mask_id |
从 0 开始的、与被跟踪对象对应的掩码ID列表 |
points |
每个对象的点轨迹列表。每个条目包含 object_id(对应于 mask_id 中的一个ID)和 points(每帧的 [x, y] 坐标列表)。示例:[{object_id: 0, points: [[x1, y1], [x2, y2], ...]}, ...] |
segments |
每个对象的片段标注列表。每个条目包含 object_id(对应于 mask_id 中的一个ID)和 segments。示例:[{object_id: 0, segments: [...]}, ...] |
start_frame |
此片段的起始帧索引(用于裁剪源视频) |
end_frame |
此片段的结束帧索引(用于裁剪源视频) |
w |
视频宽度 |
h |
视频高度 |
n_frames |
片段中的帧数 |
fps |
训练中使用的帧率 |
重要提示: start_frame 和 end_frame 指示应使用源视频的哪一部分。您需要将视频裁剪到此范围——标注对应于 [start_frame, end_frame] 内的帧,而非整个视频。
文件夹结构
Molmo2-VideoTrack/ ├── README.md └── data/ ├── animaltrack/ │ └── point_tracks.parquet ├── APTv2/ │ └── point_tracks.parquet ├── ... └── {video_dataset}/ └── point_tracks.parquet
视频来源
下表包含了用于构建 Molmo2-VideoTrack 数据的第三方数据集的来源信息。我们不提供视频文件,也不分享原始数据集中受使用和分发限制的原始数据。我们提供原始数据集的链接、许可证信息和下载说明,以确保透明度和可复现性。请在下载前核实适用于每个数据集的许可证和使用要求。
| 数据集 | 类别 | 标注来源 | 下载链接 | 数据集许可证 | 备注 |
|---|---|---|---|---|---|
| mose | 通用 | 分割 | https://huggingface.co/datasets/FudanCVL/MOSE | CC BY-NC-SA 4.0 | |
| mosev2 | 通用 | 分割 | https://huggingface.co/datasets/FudanCVL/MOSEv2 | CC BY-NC-SA 4.0 | |
| sav | 通用 | 分割 | https://ai.meta.com/datasets/segment-anything-video/ | CC BY 4.0 | 从原始24 fps视频以6 fps采样以匹配分割标注 |
| vipseg | 通用 | 分割 | https://github.com/VIPSeg-Dataset/VIPSeg-Dataset/ | 仅限非商业研究使用 | 转换为720p格式 |
| animaltrack | 动物 | 边界框 | https://hengfan2010.github.io/projects/AnimalTrack/ | 仅限非商业研究使用 | 由于数据稀缺,使用了训练和验证视频 |
| APTv2 | 动物 | 边界框 | https://github.com/ViTAE-Transformer/APTv2 | Apache 2.0 | |
| bft | 鸟群 | 边界框 | https://george-zhuang.github.io/nettrack/ | Apache 2.0 | |
| soccernet | 体育 | 边界框 | https://www.soccer-net.org/data | 仅限非商业研究使用 | 填写NDA表格以访问视频 |
| sportsmot | 体育 | 边界框 | https://codalab.lisn.upsaclay.fr/competitions/12424#participate | CC BY-NC 4.0 | |
| teamtrack | 体育 | 边界框 | https://github.com/AtomScott/TeamTrack | MIT | |
| mot2020 | 行人 | 边界框 | https://motchallenge.net/data/MOT20/ | CC BY-NC-SA 3.0 | |
| personpath22 | 行人 | 边界框 | https://amazon-science.github.io/tracking-dataset/personpath22.html | CC BY-NC 4.0 | |
| dancetrack | 舞者 | 边界框 | https://github.com/DanceTrack/DanceTrack?tab=readme-ov-file#dataset | 仅限非商业研究使用 | |
| bdd100k | 自动驾驶 | 边界框 | http://128.32.162.150/bdd100k/video_parts/ | BSD-3 | 仅下载 bdd100k_videos_train_00.zip |
| uavdt | 无人机 | 边界框 | https://sites.google.com/view/grli-uavdt/%E9%A6%96%E9%A1%B5 | 仅限研究使用 | |
| seadrones | 无人机 | 边界框 | https://seadronessee.cs.uni-tuebingen.de/dataset | CC0 / Unknown | 使用 Multi-Object Tracking |
许可证
本数据集采用 ODC-BY-1.0 许可证授权。根据 Ai2 的 负责任使用指南,它旨在用于研究和教育目的。关于提供用于生成本数据集分割和点轨迹的视频的原始数据集,请参阅“视频来源”部分。所有对这些数据集的视频和原始数据的使用均受来源提供的许可证和使用条款约束。请检查来源以确定它们是否适合您的使用场景。




