Molmo2-CapEval

Name: Molmo2-CapEval
Creator: Allen Institute for AI
Published: 2025-12-16 15:49:56
License: 暂无描述

Hugging Face2025-12-16 更新2025-12-17 收录

下载链接：

https://huggingface.co/datasets/allenai/Molmo2-CapEval

下载链接

链接失效反馈

官方服务：

资源简介：

Molmo2-CapEval是一个包含多个标注者为每个视频提供的非常详细的长视频字幕的数据集，可用于测试视觉语言模型生成字幕的能力。视频来自Vimeo、Ego4D和BDD100K，以视频ID形式存储，需单独下载。数据集包含视频ID、来源、视频开始和结束时间、持续时间、原子语句、语句类别和聚合字幕等特征。测试集包含693个示例。数据集遵循ODC-BY许可，并包含基于GPT-4.1和GPT-5生成的文本字幕。

提供机构：

Allen Institute for AI

创建时间：

2025-12-16

原始信息汇总

Molmo2-CapEval 数据集概述

数据集基本信息

数据集名称：Molmo2-CapEval
发布者：allenai
许可证：ODC-BY
下载大小：5,091,174 字节
数据集大小：10,651,923 字节
数据拆分：仅包含一个“test”拆分，包含693个样本

数据集描述

Molmo2-CapEval 是一个包含非常长、详细视频描述的数据集，每个视频有多个标注者提供的描述。该数据集可用于测试视觉-语言模型的描述生成能力。它是 Molmo2 数据集集合的一部分，并用于测试 Molmo2 系列模型。

数据来源

视频来源于 Vimeo、Ego4D 和 BDD100K。数据集中仅存储视频ID，需要用户自行下载对应的视频文件。

数据格式与特征

数据集包含以下字段：

video_id (字符串)：视频标识符。
source (字符串)：视频来源。
video_start (浮点数)：视频片段的起始时间。
video_end (浮点数)：视频片段的结束时间。
duration (浮点数)：视频片段的持续时间。
atomic_statements (字符串列表)：原子化描述语句。
statement_categories (字符串列表)：描述语句对应的类别。
aggregated_caption (字符串)：聚合后的视频描述。

使用许可与注意事项

本数据集遵循 ODC-BY 许可证，旨在用于符合 Ai2 负责任使用指南的研究和教育目的。
数据集中的文本描述由 GPT-4.1 和 GPT-5 生成，受 OpenAI 使用条款约束。
部分数据内容基于仅限学术和非商业研究使用的第三方数据集创建。更多信息请参阅源归属文件。

搜集汇总

数据集介绍

构建方式

Molmo2-CapEval数据集的构建依托于多源视频素材，涵盖Vimeo、Ego4D及BDD100K等平台，通过提取视频ID并独立存储原始视频内容。每个视频片段由多位标注者生成详尽的原子化语句描述，并辅以类别标签，最终整合为聚合式长文本字幕。这一过程融合了人工标注与基于GPT-4.1和GPT-5的自动化文本生成技术，确保了字幕在细节深度与语义丰富性上的高标准。

特点

该数据集以极长且精细的视频字幕为核心特征，每条记录均包含多标注者提供的原子化语句及其分类信息，形成多层次语义结构。视频片段覆盖多样场景与视角，时长与起止时间信息完整，支持对视觉语言模型在长序列理解和细粒度描述能力上的评估。数据集作为Molmo2系列的一部分，专为测试先进多模态模型而设计，兼具学术严谨性与实用扩展性。

使用方法

使用者需依据视频ID从原始平台独立下载对应视频文件，随后将数据集中的时间戳、原子语句与聚合字幕与视频内容对齐。该数据集主要应用于评估视觉语言模型生成或理解长文本字幕的性能，可通过对比多标注者输出与模型预测结果进行定量分析。研究过程中应遵循ODC-BY许可及关联的负责任使用准则，并注意第三方数据源的学术使用限制。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，视觉语言模型在视频理解与描述生成任务中展现出巨大潜力。Molmo2-CapEval数据集由艾伦人工智能研究所于近期创建，作为Molmo2数据集集合的重要组成部分，旨在评估模型在生成长篇、细节化视频描述方面的能力。该数据集整合了来自Vimeo、Ego4D和BDD100K等多个来源的视频片段，每条视频均配备由多位标注者提供的精细描述，为核心研究问题——即提升模型对复杂视觉内容的语义捕捉与连贯叙述能力——提供了基准测试平台。其推出不仅推动了视频描述生成领域的标准化评估，也为后续模型如Molmo2系列的优化与验证奠定了数据基础。

当前挑战

Molmo2-CapEval数据集所针对的领域挑战在于解决视觉语言模型在生成长篇、多细节视频描述时面临的语义准确性与叙事连贯性问题。传统视频描述任务多集中于简短摘要，而该数据集要求模型深入解析视频中的时序事件、对象交互及场景上下文，这对模型的视觉感知与语言生成整合能力提出了更高要求。在构建过程中，挑战主要源于数据采集与标注的复杂性：视频来源多样且涉及第三方许可限制，需协调不同数据集的授权协议；同时，生成高质量、一致性的详细描述依赖于GPT-4.1与GPT-5等大语言模型的辅助，但此类生成内容受限于OpenAI的使用条款，且需确保标注在跨视频与跨标注者间保持语义一致性与客观性，这增加了数据质量控制与合规管理的难度。

常用场景

经典使用场景

在视频理解与多模态人工智能领域，Molmo2-CapEval数据集以其详尽的标注和多元注释者视角，为评估视觉语言模型的字幕生成能力提供了基准测试平台。该数据集通过整合来自Vimeo、Ego4D和BDD100K等来源的长视频片段，并配以精细的原子化语句和聚合字幕，使得研究者能够系统性地检验模型在复杂场景下捕捉时序动态、理解视觉细节并生成连贯描述的效能。

衍生相关工作

该数据集衍生了多项经典研究工作，尤其是与Molmo2模型家族的协同发展。研究者利用其评估框架，推动了长视频理解、细粒度字幕生成等方向的创新，例如在时序动作识别与自然语言描述的融合模型中，Molmo2-CapEval作为关键评测集，促进了多模态预训练技术的演进，并为后续大规模视频语言数据集的构建提供了方法论借鉴。

数据集最近研究