Qualcomm Interactive Video Dataset (IVD)

Name: Qualcomm Interactive Video Dataset (IVD)
Creator: 高通AI研究
Published: 2025-03-25 13:13:12
License: 暂无描述

arXiv2025-03-25 更新2025-03-28 收录

下载链接：

http://arxiv.org/abs/2503.19356v1

下载链接

链接失效反馈

官方服务：

资源简介：

高通交互式视频数据集（IVD）是一个专门为评估AI模型在实时情境下视觉理解能力而设计的多模态数据集。该数据集由2900个视频剪辑组成，每个视频都配有与视频内容同步的问题和答案对。这些问题和答案经过人工标注，并且包含了回答问题的时间戳。数据集的视频展示了各种不同的场景、行为和对象，旨在训练和评估AI系统在理解视觉场景方面的能力。IVD数据集能够为在线大型多模态模型的情境音频-视觉推理研究提供支持，并可用于构建能够实时与用户互动的对话系统。

提供机构：

高通AI研究

创建时间：

2025-03-25

搜集汇总

数据集介绍

构建方式

Qualcomm Interactive Video Dataset (IVD) 的构建采用了一种创新的在线问答模式，通过众包方式收集用户使用摄像头和麦克风录制的开放式问题视频。数据收集过程中，参与者被鼓励提出与视频内容相关的创意性问题，同时确保问题与所记录的动作或场景相关联。每个视频均经过严格的质量检查，包括音频和视频质量评估，以确保数据的适用性。此外，每个视频均标注了问题的文本转录、人工生成的答案以及指示最佳回答时机的精确时间戳。这种构建方式不仅确保了数据的多样性和真实性，还为模型提供了丰富的实时交互情境。

特点

Qualcomm IVD 数据集的核心特点在于其多模态性和实时交互性。数据集包含带有原始音频的视频、问题的文本转录以及带有时间戳的文本答案，时间戳标注了在视频上下文中可以合理回答问题的具体时刻。此外，数据集涵盖了广泛的视觉推理任务，包括动作属性、对象检测、场景理解等13种语义类别。视频内容在光照条件、背景设置、问题类型和用户行为等方面表现出显著的多样性，为模型提供了极具挑战性的实时交互测试环境。

使用方法

Qualcomm IVD 数据集主要用于训练和评估多模态大模型在实时交互中的表现。研究人员可以通过该数据集测试模型在实时视频和音频输入下的问答能力，特别是模型在动态情境中的视觉推理和时序理解能力。数据集中的时间戳标注为研究‘何时回答’提供了重要依据，有助于开发能够自然流畅地与用户交互的AI系统。此外，数据集支持对模型在音频-视觉整合、动作计数和空间推理等任务中的性能进行细粒度分析，为改进实时交互模型提供了宝贵资源。

背景与挑战

背景概述

Qualcomm Interactive Video Dataset (IVD)由Qualcomm AI Research与多伦多大学的研究团队于2025年共同发布，旨在推动多模态大模型在实时交互场景中的发展。该数据集聚焦于真实世界中基于视频和音频的实时问答任务，包含2900段带有时间戳标注的交互视频，涵盖动作识别、物体属性、场景理解等13类语义任务。作为首个面向“面对面”交互场景的基准数据集，IVD突破了传统视觉语言数据集离线处理的局限，为构建具备实时情境感知能力的AI助手提供了关键研究平台，其创新性的在线问答范式对机器人交互、智能客服等领域具有重要启示意义。

当前挑战

IVD数据集面临的核心挑战体现在两个方面：在领域问题层面，现有模型难以处理实时视听整合（如同时解析手势与语音指代）、时序推理（如动作计数）和情境常识推理（如判断工具使用方式）等任务，人类基线准确率（89%）显著优于最佳模型（66.38%）；在构建层面，数据收集需解决动态场景下的时间对齐难题（标注回答时机与问题结束时间中位差达1.02秒），同时确保音频转录质量（Whisper-Streaming的BLEU得分仅74.57）和跨模态标注一致性，且需通过多阶段质量检查排除29%的原始视频以维护数据可靠性。

常用场景

经典使用场景

Qualcomm Interactive Video Dataset (IVD) 作为多模态交互视频数据集的典范，其经典使用场景集中在实时视觉-语言-音频的联合推理任务中。该数据集通过模拟真实场景中用户通过摄像头和麦克风提出开放式问题的交互情境，为研究者提供了评估模型在动态视频流中理解手势、物体属性、动作计数等复杂语义的能力。其带有时序标注的问答对尤其适合研究模型在何时应答的决策机制，填补了传统离线视频理解与实时交互系统之间的技术鸿沟。

解决学术问题

IVD数据集有效解决了多模态大模型在实时交互中的三大核心学术问题：一是突破了传统视觉问答数据集静态推理的局限，通过流式输入模拟真实对话的时间敏感性；二是建立了音频-视觉信号对齐的评估基准，针对指代表达、动作时序等跨模态理解难题提供量化标准；三是首次系统性地建模了应答时机预测问题，通过标注最佳应答时间戳，为对话系统的时序决策研究提供了数据基础。这些创新推动了对具身智能体实时交互能力的科学评估。

衍生相关工作

该数据集催生了多个标志性研究工作：VideoLLaMA系列模型通过引入音频编码器扩展了IVD的跨模态处理能力；StreamVLM框架借鉴其时序标注开发了流式视频理解架构；NeurIPS 2024提出的实时健身教练系统直接采用IVD评估动作指导的响应延迟。后续研究如Video-MMMU等跨学科视频理解基准，均在数据集设计和任务定义上受到IVD交互范式的深刻启发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集