UVQA

Name: UVQA
Creator: 韩国科学技术院（KAIST）和伊利诺伊大学香槟分校（UIUC）
Published: 2025-07-07 21:19:43
License: 暂无描述

arXiv2025-07-07 更新2025-07-10 收录

下载链接：

https://github.com/EsYoon7/UVQA

下载链接

链接失效反馈

官方服务：

资源简介：

UVQA是一个专门为视频大语言模型（Video-LLMs）的答案可回答性对齐创建的数据集。它通过利用现有的视频描述配对数据集，并生成超出视频内容的问题来构建。这个数据集旨在解决Video-LLMs在面对超出视频信息范围的提问时，不能正确拒绝回答的问题。

提供机构：

韩国科学技术院（KAIST）和伊利诺伊大学香槟分校（UIUC）

创建时间：

2025-07-07

原始信息汇总

UVQA数据集概述

数据集来源

Relation & Object相关类别：MOMA-LRG数据集
- 视频获取：MOMA-LRG GitHub
- 标注下载：Google Drive
Attributed相关类别：DiDeMo数据集
- 当前无法直接使用，需寻找YFCC100M视频下载方式
可回答问题数据集：Video-ChatGPT数据集
- 视频获取：Video-ChatGPT/data GitHub
- 标注下载：SharePoint链接

数据处理

帧提取：为提高处理速度，预先从视频中提取帧，并将帧文件夹路径添加至training_code/data_utils/data_constant.py文件中

搜集汇总

数据集介绍

构建方式

UVQA数据集的构建基于现有视频-描述配对数据集，通过修改原始描述生成不可回答的问题。具体流程包括：首先对视频描述进行对象、属性或关系层面的修改，生成错误的场景描述；随后利用大型语言模型（如GPT-4）基于修改后的描述生成不可回答的问题及其对应的不可回答理由。该流程确保了问题的不可回答性，同时保留了自然语言的自然性和多样性。

特点

UVQA数据集的主要特点包括：1) 专注于视频内容之外的不可回答问题，填补了现有视频问答数据集的空白；2) 问题涵盖对象、属性和关系三个维度，全面覆盖视频内容理解的各个方面；3) 每个问题都配有详细的不可回答理由，为模型训练提供了丰富的监督信号；4) 数据集经过严格的人工筛选，确保问题质量。

使用方法

UVQA数据集主要用于训练和评估视频大语言模型处理不可回答问题的能力。使用方法包括：1) 用于监督微调，通过问题-答案对训练模型识别不可回答性；2) 用于直接偏好优化，通过对比学习提升模型拒绝回答的能力；3) 用于评估模型在不可回答问题上的表现，包括准确率、过度拒绝率等指标。使用时需注意平衡可回答和不可回答问题的比例，以避免模型过度保守。

背景与挑战

背景概述

UVQA数据集由韩国科学技术院（KAIST）和伊利诺伊大学厄巴纳-香槟分校（UIUC）的研究团队于2025年发布，旨在解决视频大语言模型（Video-LLMs）在处理超出视频信息范围的问题时的局限性。该数据集通过构建包含不可回答问题的新型评估框架，推动了多模态大语言模型在视频理解领域的可信度研究。其核心创新在于提出“可回答性对齐”方法，使模型能够识别并拒绝与视频内容无关的提问，填补了传统视频问答数据集仅关注可回答问题的空白。

当前挑战

UVQA面临的主要挑战体现在两个方面：领域问题层面，当前Video-LLMs在遭遇超出视频语义边界的问题时普遍存在幻觉生成现象，无法有效区分可回答与不可回答的提问；数据构建层面，需克服现有视频描述数据集中对象、属性和关系三元组的结构化改造难题，确保生成的不可回答问题既符合自然语言逻辑又严格超出视频内容边界。此外，评估指标设计需平衡模型拒绝过度与回答准确性之间的复杂博弈关系。

常用场景

经典使用场景

在视频理解与问答任务中，UVQA数据集通过构建超越视频信息边界的问题，为视频大语言模型（Video-LLMs）提供了识别和拒绝无法回答问题的能力。该数据集通过修改现有视频描述生成不可回答问题，并结合场景图框架（如对象、属性和关系）分类问题类型，从而为模型训练和评估提供了标准化基准。

衍生相关工作

UVQA数据集推动了Video-LLMs领域多项衍生研究，如基于强化学习的对齐方法（如DPO）、长视频理解模型（如LLaMA-VID）以及多模态联合训练框架（如VideoLlama2）。此外，其提出的评估指标被后续工作广泛采用，用于分析模型在复杂场景下的行为一致性。

数据集最近研究