Molmo2 Data

Name: Molmo2 Data
Creator: 艾伦人工智能研究所; 华盛顿大学
Published: 2026-01-16 01:27:44
License: 暂无描述

arXiv2026-01-16 更新2026-01-17 收录

下载链接：

https://github.com/allenai/molmo2

下载链接

链接失效反馈

官方服务：

资源简介：

Molmo2数据集是由艾伦人工智能研究所和华盛顿大学联合创建的大规模开放视频-语言多模态数据集，旨在推动视频理解和多图像任务的研究。该数据集包含7个视频数据集和2个多图像数据集，总计约520k个实例，涵盖密集视频描述、长视频问答、对象跟踪和视频指向等任务。数据来源包括人工标注和合成生成，通过创新的多阶段标注流程确保数据的多样性和细节丰富性。该数据集主要应用于视频搜索、机器人技术、辅助技术等领域，旨在解决当前开放视频-语言模型在细粒度理解和时空定位能力上的不足。

提供机构：

艾伦人工智能研究所; 华盛顿大学

创建时间：

2026-01-16

原始信息汇总

Molmo2 数据集概述

数据集基本信息

数据集名称：Molmo2 (Multimodal Open Language Model)
发布机构：Allen Institute for AI (AI2)
许可证：项目遵循 GitHub 许可证（具体条款见项目 LICENSE 文件）
相关资源：
- 官方博客文章：https://allenai.org/blog/molmo2
- 技术报告/论文：https://allenai.org/papers/molmo2
- Hugging Face 模型仓库：https://huggingface.co/collections/allenai/molmo2
- Hugging Face 数据集仓库：https://huggingface.co/collections/allenai/molmo2-data

数据集核心描述

Molmo2 是一个用于训练和使用 AI2 最先进的多模态开放语言模型的代码仓库。该模型支持单图像、多图像和视频输入。

当前状态

代码即将发布。

搜集汇总

数据集介绍

构建方式

在视频-语言模型领域，数据集的构建往往依赖于闭源模型的蒸馏，这限制了开源社区的创新潜力。Molmo2 Data通过创新的数据收集流程，构建了九个全新的视频与多图像数据集，旨在填补开放数据在视频理解与时空定位方面的空白。该数据集的构建采用了多阶段人工标注与合成生成相结合的策略。对于密集视频描述任务，设计了两阶段流程：标注者首先对视频片段进行详细的口述描述，随后转录并通过大型语言模型进行润色，再结合帧级视觉细节生成最终的长篇描述。在视频问答数据方面，开发了人机协作的标注流程，由标注者提出细粒度问题，并基于早期模型生成的描述与大型语言模型迭代生成高质量答案。时空定位数据的构建则扩展了图像指向范式至视频领域，通过人工标注与现有跟踪数据转换，生成了涵盖多样化对象与动作的大规模视频指向与跟踪实例。

使用方法

Molmo2 Data适用于训练支持单图像、多图像及视频输入的视觉-语言模型，尤其侧重于提升模型的时空定位与开放词汇理解能力。在使用时，数据需经过三阶段训练流程进行整合：首先进行图像描述与指向的预训练，随后在混合的多模态数据集上进行监督微调，最后进行短期的长上下文训练以增强对长视频的处理能力。训练过程中采用了创新的序列打包与消息树编码方案，显著提升了训练效率；同时引入双向注意力机制与令牌加权策略，以平衡不同长度输出任务的学习。对于时空定位任务，模型输出采用压缩的文本格式表示点坐标与对象轨迹，支持跨帧的对象跟踪与计数。该数据集的使用不仅能够提升模型在传统视频理解基准上的性能，更使其在视频指向、跟踪等细粒度定位任务上达到或超越现有开放模型。

背景与挑战

背景概述

Molmo2 Data是由艾伦人工智能研究所与华盛顿大学的研究团队于2026年发布的一个大规模、完全开放的视觉-语言多模态数据集。该数据集的核心研究目标是解决当前视频-语言模型领域存在的两大瓶颈：一是顶尖模型多为闭源，开源社区缺乏高质量的训练基础；二是现有模型普遍缺乏细粒度的时空定位能力。Molmo2 Data通过构建九个新颖的子数据集，涵盖了密集视频描述、长视频问答、开放词汇视频指向与跟踪等关键任务，旨在推动开放、透明的视频理解与接地研究，为开发具备高级时空推理能力的多模态模型提供坚实的数据支撑。

当前挑战

Molmo2 Data旨在解决的领域挑战在于实现开放词汇的、细粒度的视频时空定位与理解，这超越了传统的视频分类或高层描述任务。具体挑战包括：1) 在复杂动态场景中，对任意用户查询（如“追踪从左向右移动的所有舞者”）进行精确的像素级时空指向或对象跟踪；2) 生成远超现有数据密度的长篇幅、细节丰富的视频描述。在构建过程中，团队面临的主要挑战包括：如何在不依赖任何闭源视觉-语言模型进行数据蒸馏的前提下，构建大规模、高质量的训练数据；如何设计高效的人机协作流程来收集密集的视频描述和复杂的时空定位标注；以及如何将图像中的二维指向范式有效地扩展到包含时间维度的视频领域，并确保标注在时空上的一致性与准确性。

常用场景

经典使用场景

在视频语言模型研究领域，Molmo2 Data作为一套全面开放的、未经私有模型蒸馏的视觉-语言数据集，其最经典的使用场景在于训练具备时空定位能力的多模态大模型。该数据集通过精心构建的视频密集描述、长视频问答、开放词汇视频指向与跟踪等多样化任务，为模型提供了从高层次语义理解到细粒度像素级定位的统一学习框架。研究者可依托该数据集，系统性地探索视频内容中对象、动作与事件的时空演化规律，推动模型在复杂动态场景下的深度理解与交互能力。

解决学术问题

Molmo2 Data有效解决了开放研究社区在视频语言模型领域面临的若干关键学术问题。首先，它打破了以往高质量视频数据依赖私有模型蒸馏的局限，提供了一套完全开源、透明且覆盖广泛的数据构建方案，从根本上保障了研究的可复现性与可扩展性。其次，数据集针对视频时空定位这一长期存在的技术短板，通过大规模、多样化的指向与跟踪标注，系统性地提升了模型在开放词汇条件下的细粒度视觉定位能力。此外，其包含的长视频问答与密集描述数据，显著缓解了现有模型在长时序依赖与细节捕捉方面的不足，为探索更鲁棒、更精准的视频理解模型奠定了坚实的数据基础。

实际应用

Molmo2 Data的实际应用价值体现在多个需要精细视频理解的现实场景中。在智能视频监控领域，基于该数据集训练的模型能够精确追踪特定人员或物体的运动轨迹，并理解其行为意图。在内容创作与媒体分析中，模型可自动生成详尽的视频描述，辅助进行高效的素材检索与内容摘要。在家庭服务或工业机器人场景下，模型能够理解并执行“指向红色方块被机器人抓取的时刻”这类需要时空定位的复杂指令，实现更自然的人机交互。此外，在教育与体育分析中，模型可对教学视频或比赛录像进行细粒度的动作分解与事件标注，提供深度的洞察与分析。

数据集最近研究