VIDEOMOLMO
收藏arXiv2025-06-06 更新2025-06-07 收录
下载链接:
https://mbzuai-oryx.github.io/VideoMolmo
下载链接
链接失效反馈官方服务:
资源简介:
VIDEOMOLMO数据集是一套包含72,000个视频-字幕对和100,000个物体点的综合数据集,旨在支持基于文本描述的精细时空指向。该数据集由多个来源的视频数据构建而成,如Refer-YTVOS、Refer-DAVIS、MeViS等,通过半自动化的标注流程确保了高质量和可扩展性。数据集用于训练VIDEOMOLMO模型,该模型能够根据自然语言查询生成整个视频序列中目标物体的点级预测,并保持时间一致性。VIDEOMOLMO数据集的发布填补了当前时空指向数据集的空白,为视觉定位和推理任务提供了宝贵资源。
提供机构:
Mohamed Bin Zayed University of Artificial Intelligence, University of Washington, Allen Institute for Artificial Intelligence, Linköping University, Australian National University
创建时间:
2025-06-06
搜集汇总
数据集介绍

构建方式
VIDEOMOLMO数据集的构建采用了半自动化的标注流程,通过从多个视频数据源(如Refer-YTVOS、Refer-DAVIS、MeViS等)中提取视频-掩码-表达三元组(V, M, T)。对于每个对象,从掩码中采样k个候选点,并利用SAM2模型生成候选掩码,选择与真实掩码IoU最高的点作为标注点。这一流程确保了高质量且可扩展的标注,最终形成了包含72k视频-字幕对和100k对象点的数据集。
特点
VIDEOMOLMO数据集以其细粒度的时空指向能力为特点,特别强调在动态视频环境中对文本查询的精确响应。数据集涵盖了多样化的真实场景,包括细胞追踪、自主驾驶、机器人操作等,并引入了VPoS-Bench作为评估基准,进一步验证模型的泛化能力。其独特的点级标注方式为模型训练提供了高效的监督信号,同时避免了密集像素级标注的计算开销。
使用方法
使用VIDEOMOLMO数据集时,研究者可通过输入自然语言查询,获取视频中目标对象的时空坐标点。数据集支持多种任务评估,包括点定位、对象计数、指代分割和推理视频对象分割。对于掩码输出任务,可借助SAM2模型将预测点转换为分割掩码。数据集的模块化设计使其易于集成到现有视频理解流程中,特别适合需要细粒度时空推理的研究和应用场景。
背景与挑战
背景概述
VIDEOMOLMO数据集由Mohamed Bin Zayed人工智能大学等机构的研究团队于2025年提出,旨在解决视频时空定位中的细粒度推理问题。该数据集包含72,000个视频-文本对和100,000个物体标注点,覆盖细胞追踪、自主驾驶等多个现实场景。作为首个专注于视频中点级定位的大规模多模态数据集,VIDEOMOLMO通过引入时序注意力机制和双向掩码融合技术,显著提升了模型在复杂自然语言描述下的时空推理能力,为计算机视觉领域的视频理解任务设立了新基准。
当前挑战
VIDEOMOLMO面临的核心挑战包括两方面:在领域问题层面,现有视频定位方法难以处理自然语言描述的复杂时空推理,特别是在多目标跟踪和微小物体定位场景;在构建过程中,缺乏合适的点级标注规范,研究者开发了半自动标注流程,通过SAM2模型优化掩码到点的转换质量。此外,数据集的多样性要求平衡不同场景的样本分布,而时序一致性维护需要设计专门的跨帧注意力机制。评估基准VPoS-Bench还需解决跨领域泛化性验证的难题。
常用场景
经典使用场景
VIDEOMOLMO数据集在时空视觉定位领域具有广泛的应用价值,尤其在处理复杂自然语言描述的视觉场景时表现出色。该数据集通过将视觉定位任务分解为指向和生成掩码两个步骤,显著提升了分割掩码的准确性和连贯性。其经典使用场景包括生物研究中的细胞核追踪、自动驾驶中的行人及车辆跟踪、以及第一人称视角视频中的物体交互分析。这些场景要求模型具备精细的时空推理能力,而VIDEOMOLMO通过其独特的架构设计,能够有效应对这些挑战。
实际应用
在实际应用层面,VIDEOMOLMO数据集在多个领域展现出重要价值。在生物医学领域,它可用于精确追踪细胞运动,辅助疾病研究;在自动驾驶系统中,能够实现对交通参与者的持续监控;在机器人操作场景下,则可精确定位接触点以避免碰撞。此外,该数据集还适用于监控视频分析、人机交互界面开发等场景。其提供的VPoS-Bench基准测试覆盖了细胞追踪、自主驾驶等五大现实场景,为实际应用中的性能评估提供了全面标准。
衍生相关工作
围绕VIDEOMOLMO数据集,已衍生出多项重要研究工作。基于其架构设计的改进模型在Refer-VOS和Reasoning VOS任务中取得了显著进展;其提出的双向时序掩码融合技术被广泛应用于视频分割领域;而VPoS-Bench基准则成为评估时空定位模型的新标准。相关工作还包括将点传播机制与SAM2结合的改进方法,以及在多目标跟踪任务中的应用扩展。这些衍生工作不仅验证了数据集的实用价值,也进一步推动了计算机视觉领域的发展。
以上内容由遇见数据集搜集并总结生成



