VistaDPO-7k

Name: VistaDPO-7k
Creator: 香港大学, 香港科技大学, 新加坡国立大学, 德克萨斯大学达拉斯分校, 南洋理工大学
Published: 2025-04-18 01:39:41
License: 暂无描述

arXiv2025-04-18 更新2025-04-22 收录

下载链接：

https://github.com/HaroldChen19/VistaDPO

下载链接

链接失效反馈

官方服务：

资源简介：

VistaDPO-7k是一个大规模的空间-时间标注视频数据集，由新加坡国立大学构建，包含7.2K个问答对，每个问答对都包含选定的和拒绝的回答，以及时间戳、关键帧和边界框等空间-时间定位信息。该数据集旨在通过细粒度的视频-语言偏好对齐，减少视频语言失配和幻觉问题，支持多层次偏好优化，包括实例级、时间级和感知级，以增强大型视频模型的空间-时间推理能力。

VistaDPO-7k is a large-scale spatio-temporal annotated video dataset constructed by the National University of Singapore, which contains 7.2K question-answer pairs. Each pair includes both selected and rejected responses, as well as spatio-temporal localization information such as timestamps, keyframes and bounding boxes. This dataset aims to mitigate video-language misalignment and hallucination issues via fine-grained video-language preference alignment, supports multi-level preference optimization covering instance-level, temporal-level and perceptual-level, so as to enhance the spatio-temporal reasoning capabilities of large video models.

提供机构：

香港大学, 香港科技大学, 新加坡国立大学, 德克萨斯大学达拉斯分校, 南洋理工大学

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

VistaDPO-7k数据集的构建基于14个主流视频数据集，通过系统设计问答对来评估和缓解视频理解中的幻觉问题。研究团队将幻觉分为感知（如物体、静态/动态属性、静态关系、OCR）和时间（如动作、动态关系、序列）两个主要维度，覆盖视频理解的静态和动态方面。数据集提供了优选和拒绝的响应，以及包括关键时间戳、帧和边界框在内的细粒度时间依赖信息，使模型能够更好地捕捉时空交互。

特点

VistaDPO-7k数据集的特点在于其多层次偏好优化能力，涵盖时间、感知和实例三个层级。数据集包含7.2K高质量标注的问答对，每个问答对都配有空间-时间基础信息，如时间戳、关键帧和边界框。这种多层次、细粒度的标注方式使VistaDPO-7k成为减少幻觉和增强时空推理能力的强大基准。

使用方法

VistaDPO-7k数据集的使用方法包括将其应用于视频幻觉、视频问答和字幕生成等任务中。研究人员可以通过后训练现有的流行大型视频模型（LVMs）来利用该数据集，显著提升模型性能。具体使用时，数据集的空间-时间基础信息可用于优化模型对视频内容的细粒度理解，从而有效缓解视频-语言不对齐和幻觉问题。

背景与挑战

背景概述

VistaDPO-7k是由香港大学、香港科技大学、新加坡国立大学等机构的研究团队于2025年提出的视频层次时空直接偏好优化数据集，旨在解决大型视频模型（LVMs）在视频理解任务中存在的与人类直觉错位及视频幻觉问题。该数据集包含7.2K个带有选择与拒绝响应的问答对，并标注了时间戳、关键帧和边界框等时空基础信息，以支持实例级、时间级和感知级的多层次文本-视频偏好对齐。VistaDPO-7k的构建填补了细粒度视频-语言偏好对齐数据集的空白，显著提升了现有LVMs在视频幻觉检测、视频问答和字幕生成等任务中的性能。

当前挑战

VistaDPO-7k面临的挑战主要包括两方面：1) 领域问题挑战：视频-语言错位和幻觉问题具有复杂的时空依赖性，需同时建模空间语义理解和动态时间推理，而现有方法多忽略时间特性或仅关注粗粒度对齐；2) 构建过程挑战：数据标注需精确匹配视频内容与多层次语言描述（如对象-短语对齐、事件-时间戳关联），且需区分相关/无关的拒绝响应以增强模型鲁棒性，这对标注质量和成本提出了极高要求。此外，长视频中时序关系的建模及对抗性场景下的时空一致性保持仍是未完全解决的难题。

常用场景

经典使用场景

VistaDPO-7k数据集在视频理解领域具有广泛的应用价值，尤其在大型视频模型（LVMs）的训练和优化中表现突出。该数据集通过层次化的时空直接偏好优化（VistaDPO）框架，显著提升了模型在视频问答（Video QA）、视频字幕生成（Video Captioning）以及视频幻觉（Video Hallucination）任务中的性能。其经典使用场景包括对视频内容的细粒度语义对齐，例如在实例级别、时间级别和感知级别上优化模型对视频与文本的匹配能力。

衍生相关工作

VistaDPO-7k数据集的推出催生了一系列相关研究工作，尤其是在视频语言模型的优化领域。例如，基于该数据集的研究进一步探索了多模态偏好对齐（Multimodal Preference Alignment）和时空推理（Spatial-Temporal Reasoning）的新方法。此外，数据集还被用于开发更高效的视频幻觉检测工具和评估基准，如VideoHallucer和EventHallusion，为后续研究提供了重要的数据和实验基础。

数据集最近研究