DaMO

Name: DaMO
Creator: 国立阳明交通大学人工智能学院, 国家卫生研究院人口健康科学研究所
Published: 2025-06-13 16:13:05
License: 暂无描述

arXiv2025-06-13 更新2025-06-17 收录

下载链接：

https://github.com/yue-723/DaMO

下载链接

链接失效反馈

官方服务：

资源简介：

DaMO 是一个针对视频领域的大型语言模型，专门设计用于精确的时间推理和多模态理解。该模型的核心是 Temporal-aware Fuseformer，它采用分层双流架构，逐步捕捉每个模态中的时间动态，并有效地融合互补的视觉和音频信息。DaMO 还集成了一个全局残差，减少了空间冗余，同时保留了重要的语义细节。为了进一步增强计算效率，DaMO 还采用了一个分阶段的训练模式，逐步为模型配备多模态对齐、语义接地和时间推理能力。这项工作还通过 GPT 生成的具有时间定位的 QA 对，丰富了现有的数据集，为需要时间监督的任务提供了一个有价值的资产。

提供机构：

国立阳明交通大学人工智能学院, 国家卫生研究院人口健康科学研究所

创建时间：

2025-06-13

搜集汇总

数据集介绍

构建方式

DaMO数据集的构建采用了多阶段渐进式训练范式，通过四个训练阶段系统性地增强模型的跨模态对齐和时间推理能力。在数据层面，研究团队创新性地利用GPT生成技术对现有视频数据集（如QVHighlight、Charades-STA等）进行增强，通过自动生成带有时间标注的问答对，构建了包含15万样本的时间推理专用数据集。数据处理流程包含视觉和音频模态的分离编码，采用ViT-L/14和Whisper-small预训练模型分别提取特征，并通过创新的时空双通路架构进行特征压缩和融合。

特点

该数据集的核心特征体现在三个方面：跨模态时间对齐方面，通过T-Fuseformer层次化双流架构实现视觉与音频信号的渐进式时间建模；计算效率方面，采用全局残差连接策略在降低空间冗余的同时保留关键语义信息；标注质量方面，通过GPT生成的时序问答对实现了细粒度时间标注的自动化扩展。特别值得注意的是，数据集包含39K对话样本，支持多轮时间推理任务，且在时间定位任务中实现了40.3%的mIoU指标。

使用方法

使用该数据集需遵循其四阶段训练范式：首先进行视频-文本对齐预训练，随后通过表征桥接阶段将多模态特征映射到LLM语义空间，再通过时间感知学习阶段专门强化时间定位能力，最终在对话调优阶段适配多轮对话任务。评估时可采用标准化指令模板，要求模型以'[[start1,end1],[start2,end2]]'格式输出时间预测，便于自动化指标计算。数据集已开源发布，包含详细的预处理脚本和基准测试代码，支持零样本检索、时间定位和视频对话三类任务的评估。

背景与挑战

背景概述

DaMO（Data-Efficient Multimodal Orchestrator）是由台湾阳明交通大学与台湾卫生研究院的研究团队于2025年提出的创新性视频语言模型。该模型针对当前视频大型语言模型（Video LLMs）在细粒度时序推理和多模态整合方面的局限性，提出了基于层次化双流架构的时序感知融合机制。作为计算机视觉与自然语言处理交叉领域的前沿研究，DaMO通过引入全局残差连接和四阶段渐进式训练范式，在视频检索、时序定位和视频对话等任务中实现了数据高效的高性能表现，显著降低了模型训练对大规模标注数据的依赖。其核心技术T-Fuseformer通过显式建模视觉与音频模态的时序关联，为视频时序推理任务建立了新的技术基准。

当前挑战

视频时序推理领域面临的核心挑战在于跨模态时序对齐的精确性和计算效率的平衡。现有Video LLMs普遍存在三个关键问题：多模态信息（如视觉与音频）的孤立处理导致时序关联断裂；传统空间降维方法造成全局语义信息丢失；大规模训练数据需求推高研究门槛。在数据集构建层面，时序标注数据的稀缺性制约模型性能，现有视频问答数据集缺乏细粒度时间锚点标注，而人工标注成本极高。DaMO通过GPT增强的时序QA数据集构建方法，将Charades-STA等数据集的原始标注转化为15万条时序问答对，但如何保证生成数据的语义准确性和时序一致性仍是待解难题。模型架构方面，双流Transformer在长视频序列处理中面临显存占用与计算复杂度激增的挑战，需通过分组卷积等创新设计实现效率优化。

常用场景

经典使用场景

DaMO数据集在视频语言理解领域具有重要价值，尤其在需要精细时间推理的任务中表现突出。该数据集通过增强现有视频数据集，生成了大量带有时间标注的问答对，为视频时间推理任务提供了丰富的监督信号。典型应用场景包括视频时刻定位、视频问答和多轮对话等任务，其中模型需要准确理解视频内容并回答与特定时间点或时间段相关的问题。

实际应用

在实际应用中，DaMO数据集可用于构建智能视频分析系统，如视频监控、教育视频自动标注和视频内容检索等。例如，在视频监控中，系统可以准确识别特定事件发生的时间点；在教育领域，系统可以自动生成与视频内容相关的时间标注问答，辅助学习。这些应用场景展示了数据集在提升视频理解系统性能方面的实际价值。

衍生相关工作

DaMO数据集衍生了一系列相关研究工作，特别是在视频时间推理和多模态融合领域。例如，基于该数据集的研究提出了T-Fuseformer架构，通过层次化双流Transformer有效捕获时间动态并融合多模态信息。此外，数据集还促进了低秩适应（LoRA）技术在视频语言模型中的应用，进一步推动了数据高效训练方法的发展。这些工作共同推动了视频语言理解技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集