Molmo2-VideoPointEval

Name: Molmo2-VideoPointEval
Creator: Allen Institute for AI
Published: 2025-12-16 16:15:43
License: 暂无描述

Hugging Face2025-12-16 更新2025-12-17 收录

下载链接：

https://huggingface.co/datasets/allenai/Molmo2-VideoPointEval

下载链接

链接失效反馈

官方服务：

资源简介：

Molmo2-VideoPointEval是Molmo2-VideoPoint视频指向数据的验证集，由人类标注者收集。它可用于评估视觉语言模型的视频指向能力。该数据集是Molmo2数据集集合的一部分，并用于评估Molmo2系列模型。数据格式包括视频来源（如youtube、generated和MammalNet）、时间戳（原始时间戳和2FPS时间戳）、点和掩码等信息。数据集授权为ODC-BY，用于研究和教育用途。

提供机构：

Allen Institute for AI

创建时间：

2025-12-08

原始信息汇总

Molmo2-VideoPointEval 数据集概述

数据集基本信息

数据集名称：Molmo2-VideoPointEval
发布者：allenai
许可证：ODC-BY
用途：用于评估视觉语言模型的视频指向能力
关联资源：该数据集是 Molmo2 数据集集合的一部分，用于评估 Molmo2 系列模型。

数据集内容与结构

数据来源：包含来自人类标注者的 Molmo2-VideoPoint 视频指向数据。
数据划分：仅包含验证集（val）。
验证集规模：181 个样本。
数据集大小：下载大小 842,247 字节，总大小 1,320,938 字节。

数据字段说明

video_id：视频标识符（字符串类型）。
label：标签（字符串类型）。
two_fps_timestamps：以 2 帧/秒（FPS）重新编码视频的时间戳序列（浮点数序列）。
points：二维绝对坐标点列表，每个 points[i] 对应 two_fps_timestamps[i] 处标注的真实点。每个点包含 x 和 y 坐标（均为浮点数类型）。
masks：掩码列表。每个 masks[i] 包含一个以标注的真实点 points[i] 为中心的 3 秒窗口内，由 SAM2 生成的掩码列表。每个掩码包含 frame_id（整数类型）和 rle 结构，rle 结构内包含 counts（字符串类型）和 size（整数序列类型）。
width：视频宽度（整数类型）。
height：视频高度（整数类型）。
video_duration：视频持续时间（浮点数类型）。
count：数量（整数类型）。
category：类别（字符串类型）。
video_source：视频来源（字符串类型）。包含三种来源：youtube、generated 和 MammalNet。

关键说明

视频处理：所有原始视频均被重新编码为 2 FPS，标注基于此 2 FPS 视频进行。数据中提供了从原始视频提取的 raw_frames 和 raw_timestamps，以及用于模型评估的 two_fps_timestamps。
评估方法：评估时，首先将预测的（时间, x, y）点与真实点进行二分图匹配（所有三元组归一化到 0-100），然后基于 masks 计算指向召回率、精确率和 F1 分数。具体细节请参考论文。
视频获取：
- 对于 YouTube 视频，需根据 video_id 自行下载。
- 对于 MammalNet 视频，请遵循其 GitHub 仓库中的说明进行下载。

参考文献与链接

论文：Molmo2 论文
博客与视频：Molmo2 博客（含视频）
许可与使用：
- 数据集遵循 Ai2 的负责任使用指南。
- 数据集中包含由 GPT-4.1 和 GPT-5 生成的问题，这些内容受 OpenAI 的使用条款约束。

搜集汇总

数据集介绍

构建方式

在视频理解与视觉语言模型评估领域，Molmo2-VideoPointEval数据集的构建体现了严谨的标注流程。该数据集作为Molmo2-VideoPoint的验证集，其样本来源于人类标注者针对视频内容所标注的指向性数据。具体而言，原始视频被统一重新编码为每秒两帧的格式，标注工作基于此低帧率视频展开，确保了时序标注的一致性。数据来源涵盖YouTube、生成视频以及MammalNet等多个渠道，每条样本均包含视频标识、类别标签、时序戳记、二维坐标点及掩码信息，这些结构化特征共同构成了模型评估的基础。

特点

该数据集的核心特点在于其专为评估视觉语言模型的视频指向能力而设计。样本中不仅提供了以绝对坐标表示的二维地面真值点，还附带了由SAM2模型生成的掩码序列，这些掩码以每个标注点为中心，覆盖三秒时间窗口，为精确计算指向召回率与准确率提供了丰富空间。数据格式上，原始时间戳与二帧率时间戳的并存，兼顾了原始视频信息与标准化评估需求。此外，数据集严格遵循ODC-BY许可协议，强调研究用途，并融合了GPT-4.1与GPT-5生成的问题，体现了多源智能技术的协同应用。

使用方法

使用该数据集时，研究者需首先依据video_source字段获取对应视频资源，YouTube视频可通过video_id下载，MammalNet视频则需遵循其官方仓库指引。评估过程中，预测的时间与坐标点需与地面真值进行二分图匹配，所有三元组数据被归一化至0-100范围。随后，基于掩码信息计算指向召回率、预测准确率及F1分数，掩码序列为每个标注点提供了局部时空上下文，使得评估能更细致地反映模型在视频中的时空定位能力。详细方法论可参考相关学术论文，以确保评估流程的规范性与可复现性。

背景与挑战

背景概述

Molmo2-VideoPointEval数据集由艾伦人工智能研究所（Allen Institute for AI）于2024年发布，作为Molmo2系列模型评估的核心基准。该数据集专注于视频指向任务，旨在评估视觉语言模型在动态视频中精准定位时空信息的能力。其构建源于对多模态理解深化的需求，通过整合YouTube、生成视频及MammalNet等多源视频，并采用人工标注的二维坐标点与掩码数据，为模型提供了细粒度的时空标注。这一工作推动了视频理解领域从粗粒度分类向细粒度指向分析的范式转变，为后续研究奠定了实证基础。

当前挑战

在视频指向任务中，核心挑战在于模型需同时处理时间动态性与空间精确性，即在视频帧序列中准确匹配语言描述与时空坐标，这对模型的跨模态对齐能力提出了极高要求。数据构建过程中，挑战主要体现于多源视频的异构性整合，例如YouTube视频的下载合规性、生成视频的质量控制，以及MammalNet数据的标准化处理。此外，标注过程涉及将原始视频统一重编码为2FPS格式，并基于SAM2生成掩码以定义评估窗口，这一流程对标注一致性及计算资源提出了显著需求。

常用场景

经典使用场景

在视频理解与视觉语言模型评估领域，Molmo2-VideoPointEval数据集作为验证集，专门用于评估模型在视频指向任务中的性能。该数据集通过人工标注的视频点坐标与掩码信息，为研究者提供了一个标准化的基准，以测试模型在时空定位方面的精确度与鲁棒性。其经典应用场景包括模型在动态视频中识别并定位特定对象或动作的能力验证，尤其在多帧时间序列分析中展现出重要价值。

解决学术问题

该数据集有效解决了视觉语言模型在视频指向任务中缺乏统一评估标准的问题。通过提供精确的时空标注数据，它支持学术界对模型在复杂视频场景中的定位准确性进行量化分析，从而推动视频理解技术的理论发展。其意义在于为多模态交互研究提供了可靠的数据支撑，促进了模型在时间维度上的细粒度理解能力的提升，对计算机视觉与自然语言处理的交叉领域产生了深远影响。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作，特别是与Molmo2模型家族的评估紧密相关。这些工作深入探索了视频指向任务的算法优化，例如基于SAM2生成的掩码进行匹配与召回率计算，推动了时空定位模型的创新。此外，该数据集作为Molmo2数据集合的一部分，激发了更多关于视频语言模型基准测试的研究，为后续多模态评估框架的构建提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集