Molmo2-VideoTrackEval

Name: Molmo2-VideoTrackEval
Creator: Allen Institute for AI
Published: 2025-12-16 23:47:41
License: 暂无描述

Hugging Face2025-12-16 更新2025-12-17 收录

下载链接：

https://huggingface.co/datasets/allenai/Molmo2-VideoTrackEval

下载链接

链接失效反馈

官方服务：

资源简介：

Molmo2-VideoTrackEval是一个用于视频点跟踪的评估基准，包含人工标注的真实表达式。它包括用于评估预测点是否落在正确对象区域的分割掩码。目前有五个评估类别：动物、舞蹈、体育、人物和其他。该基准是[Molmo2数据集集合](https://huggingface.co/collections/allenai/molmo2-data)的一部分，用于通过点轨迹评估[Molmo2系列模型](https://huggingface.co/collections/allenai/molmo2)在视频对象跟踪上的表现。

提供机构：

Allen Institute for AI

创建时间：

2025-12-15

原始信息汇总

Molmo2-VideoTrackEval 数据集概述

数据集简介

Molmo2-VideoTrackEval 是一个用于视频点跟踪的评估基准，包含人工标注的真实表达式。它包含用于评估预测点是否落在正确对象区域内的分割掩码。该基准是 Molmo2 数据集集合的一部分，用于通过点轨迹评估 Molmo2 系列模型在视频对象跟踪上的性能。

数据集详情

许可证: ODC-BY-1.0
配置数量: 6
数据格式: Parquet
数据分割: 仅测试集

配置说明

配置名称	对应数据集	描述
`default`	全部	所有评估数据合并
`animal`	APTv2	动物跟踪基准
`dance`	dancetrack	舞者跟踪基准
`sports`	sportsmot	运动员跟踪基准
`person`	personpath22	人物跟踪基准
`misc`	sav	杂项视频基准

数据字段

每个数据行包含视频片段中一个或多个对象的跟踪标注：

字段	描述
`id`	此标注的唯一标识符
`video`	视频文件名
`clip`	裁剪后的片段ID
`video_dataset`	源数据集名称
`video_source`	视频目录路径（可忽略）
`exp`	描述被跟踪对象的文本表达式
`obj_id`	每个视频的对象ID列表
`mask_id`	对应于被跟踪对象的掩码ID列表（从0开始）
`masks`	每个对象用于评估的分割掩码列表
`points`	每个对象的点轨迹列表
`segments`	每个对象的片段标注列表
`start_frame`	此片段的起始帧索引
`end_frame`	此片段的结束帧索引
`w`	视频宽度
`h`	视频高度
`n_frames`	片段中的帧数
`fps`	每秒帧数

评估方法

masks 字段包含可用于评估跟踪预测的真实分割掩码。如果预测点落在目标对象在该帧的分割掩码内，则认为预测正确。

视频来源

数据集使用第三方数据集作为基准数据来源，不提供视频文件或受使用和分发限制的原始数据。

数据集	类别	下载链接	数据集许可证
APTv2	动物	APTv2	Apache 2.0
dancetrack	舞者	DanceTrack	仅限非商业研究使用
sportsmot	运动	SportsMOT	CC BY-NC 4.0
personpath22	人物	PersonPath22	CC BY-NC 4.0
sav	杂项	SA-V	CC BY 4.0

使用限制

本数据集根据 ODC-BY-1.0 许可授权，旨在根据 Ai2 的负责任使用指南用于研究和教育目的。对这些数据集中视频和原始数据的所有使用均受来源提供的许可证和使用条款约束。

搜集汇总

数据集介绍

构建方式

在视频目标追踪领域，构建高质量的评估基准对推动算法发展至关重要。Molmo2-VideoTrackEval数据集通过整合多个权威视频数据集，包括APTv2、DanceTrack、SportsMOT、PersonPath22及SA-V，并依据其内容特性划分为动物、舞蹈、运动、人物与杂项五大类别。每个类别均以Parquet格式存储，数据经过精心修剪，仅保留标注对应的视频片段范围，确保了评估的精确性与一致性。数据集中每条记录均包含人类标注的真实轨迹点与分割掩码，为追踪算法提供了可靠的性能验证基础。

特点

该数据集的核心特征在于其多层次的结构化设计，不仅提供完整的默认配置，还支持按类别加载特定子集，以适应不同场景的评估需求。每个样本均包含详细的元数据，如视频尺寸、帧率及时间范围，并附有描述追踪目标的文本表达式。尤为关键的是，数据集提供了逐帧的分割掩码，使得评估能够基于像素级精度进行，即通过判断预测点是否落入真实物体区域来量化追踪准确性。这种设计兼顾了灵活性与严谨性，为视频点追踪任务树立了新的评估标准。

使用方法

使用该数据集时，研究人员可通过Hugging Face的datasets库便捷加载，既可选择整体测试集，也可通过指定配置名称加载特定类别子集。数据以行为单位组织，每条记录涵盖视频剪辑的完整追踪注释，包括对象ID、轨迹点列表及分割掩码。评估过程中，需依据起始帧与结束帧信息裁剪视频，确保注释与帧序列对齐。利用掩码字段，可将预测点坐标与真实物体区域进行比对，从而计算出追踪精度。数据集遵循ODC-BY许可，适用于符合责任使用指南的研究与教育目的。

背景与挑战

背景概述

Molmo2-VideoTrackEval数据集由艾伦人工智能研究所于近期发布，作为Molmo2模型系列的重要组成部分，专注于视频点追踪任务的评估基准。该数据集整合了多个现有视频数据集，如APTv2、DanceTrack、SportsMOT等，涵盖动物、舞蹈、体育、人物及杂项五大类别，旨在通过人工标注的真实轨迹与分割掩码，为视频对象追踪提供精确的量化评估标准。其核心研究问题在于解决视频中点级对象追踪的准确性与鲁棒性评估，推动了计算机视觉领域在动态场景理解与长时跟踪方向的发展，为多模态模型性能验证提供了关键支撑。

当前挑战

该数据集所针对的视频点追踪任务面临诸多挑战，包括复杂场景下的目标遮挡、快速运动形变、外观相似干扰以及长时跟踪中的身份保持困难。构建过程中，挑战主要体现在多源数据集的整合与标注一致性维护，需协调不同许可协议与数据格式，并确保跨类别分割掩码与点轨迹标注的精确对齐。此外，视频帧采样与裁剪处理需保持时序连贯性，同时满足评估时对预测点落入正确对象区域的严格验证要求，这些因素共同构成了数据集构建与应用的复杂性。

常用场景

经典使用场景

在计算机视觉领域，视频目标跟踪是理解动态场景的核心任务之一。Molmo2-VideoTrackEval作为一个专门用于视频点跟踪评估的基准数据集，其经典使用场景在于为研究人员提供标准化的测试平台，以评估模型在复杂视频序列中跟踪指定对象轨迹的精确度。该数据集通过包含人类标注的真实表达和分割掩码，使得评估过程能够精确验证预测点是否落在正确的对象区域内，从而在动物、舞蹈、体育、人物及杂项等多个类别中系统衡量跟踪算法的鲁棒性与泛化能力。

衍生相关工作

围绕Molmo2-VideoTrackEval，已衍生出一系列经典的学术工作。这些工作主要集中于改进基于点的视频跟踪模型，例如Molmo2系列模型便是直接利用该数据集进行训练与评估的代表。同时，许多研究借鉴其评估范式，开发了新的跟踪架构，以提升在复杂类别如舞蹈或动物视频上的性能。此外，该数据集也促进了跨数据集基准的建立，激励研究者探索更通用的跟踪解决方案，并在顶级会议如CVPR和ICCV上催生了多篇聚焦于长时跟踪与掩码辅助评估的创新论文。

数据集最近研究