VUDG
收藏arXiv2025-05-30 更新2025-06-03 收录
下载链接:
https://VUDG-Video.github.io
下载链接
链接失效反馈官方服务:
资源简介:
VUDG数据集是一个专为评估视频理解中的领域泛化性能而设计的创新数据集。它包含了来自11个不同领域的视频数据,涵盖了三种类型的领域转移,并在不同领域之间保持了语义相似性,以确保公平和有意义的评估。数据集的创建过程包括视频收集、开放式问答对生成、多项选择问答对生成以及问答对筛选和审查等四个关键阶段。该数据集旨在解决视频理解模型在数据分布转移下的泛化能力问题,为领域泛化视频理解的未来研究提供有价值的资源。
The VUDG dataset is an innovative dataset specifically designed for evaluating domain generalization performance in video understanding. It contains video data from 11 distinct domains, covers three types of domain shifts, and maintains semantic similarity across different domains to ensure fair and meaningful evaluation. The creation of the dataset involves four key stages: video collection, generation of open-ended question-answer pairs, generation of multiple-choice question-answer pairs, and screening and review of question-answer pairs. This dataset aims to address the generalization capability issue of video understanding models under data distribution shifts, providing a valuable resource for future research on domain generalization in video understanding.
提供机构:
北京理工大学计算机科学与技术学院,北京智能信息技术重点实验室,深圳MSU-BIT大学广东省机器感知与智能计算实验室
创建时间:
2025-05-30
原始信息汇总
VUDG: Video Understanding Dataset Generation
作者信息
- Ziyi Wang 1
- Zhi Gao 1
- Boxuan Yu 1
- Zirui Dai 1
- Yuxiang Song 1
- Qingyuan Lu 1
- Jin Chen 1
- Xinxiao Wu 1,2
所属机构
- Beijing Key Laboratory of Intelligent Information Technology, School of Computer Science & Technology, Beijing Institute of Technology
- Guangdong Laboratory of Machine Perception and Intelligent Computing, Shenzhen MSU-BIT University
摘要
- 视频理解领域近年取得显著进展,主要得益于深度模型和大规模标注数据集的发展。
- 现有研究通常忽略现实世界视频应用中的固有领域偏移,导致视频理解中的领域泛化(DG)研究不足。
- 提出VUDG数据集,专门用于评估视频理解中的领域泛化性能。
- 包含11个不同领域的视频,涵盖三种类型的领域偏移,并保持不同领域间的语义相似性以确保公平评估。
- 采用多专家渐进标注框架,为每个视频标注多项选择和开放式问答对。
- 在9个代表性大型视频语言模型(LVLMs)和传统视频问答方法上的实验表明,大多数模型(包括最先进的LVLMs)在领域偏移下性能下降。
数据集介绍
- 训练集:6,337个视频片段和31,685个问答对。
- 测试集:1,532个视频片段和4,703个问答对。
数据集示例
示例问答对
- Q: What is the main characters name?
A: The main character is named Jerry. - Q: What is the setting of the video?
A: The setting is a small house in the countryside. - Q: What is the main conflict?
A: The main conflict is between Jerry and a cat. - Q: What is the resolution?
A: Jerry outsmarts the cat and escapes. - Q: What is the moral of the story?
A: The moral is that intelligence can overcome brute strength.
引用
bibtex @misc{2025VUDG, title={VUDG: Video Understanding Dataset Generation}, author={AAA and BBB and CCC and DDD}, year={2025}, eprint={1111.222222}, archivePrefix={arXiv} }
使用条款
- 数据集仅用于学术研究,禁止商业用途。
搜集汇总
数据集介绍

构建方式
VUDG数据集通过精心设计的流程构建,涵盖了11个不同领域的视频数据,包括视觉风格、视角和环境条件的变化。数据收集阶段,研究者从多个开源数据集和在线平台获取视频,确保训练集和测试集来源分离以避免数据泄露。采用渐进式多专家标注框架,结合多个大型模型(如Gemini-2.5-Flash和DeepSeek-v3)生成开放性和多项选择题对,并通过人工专家审核确保标注质量。
特点
VUDG数据集的特点在于其多样化的领域覆盖和严格的语义一致性。视频数据涵盖了卡通、游戏、电影、虚拟环境等多种视觉风格,以及第一人称视角、监控视角等不同拍摄角度,同时包含雾天、夜晚、雨天等复杂环境条件。数据集通过统一的语义空间设计,确保不同领域的视频在语义上具有可比性,从而能够准确评估模型在领域泛化中的表现。
使用方法
VUDG数据集支持多种评估协议,包括多领域泛化(Leave-One-Domain-Out)和单领域泛化(Leave-But-One-Domain-Out)。用户可以通过训练集对模型进行微调,并在测试集上评估其泛化能力。此外,数据集还支持零样本评估,直接测试预训练模型在未见领域上的表现。对于多项选择题,直接计算准确率;对于开放性问题,使用DeepSeek-v3等模型进行自动评分,从事实准确性和问题相关性两个维度进行评估。
背景与挑战
背景概述
VUDG(Video Understanding Domain Generalization)数据集由北京理工大学智能信息技术北京重点实验室的研究团队于2025年提出,旨在解决视频理解领域中的域泛化问题。该数据集包含来自11个不同领域的视频数据,涵盖视觉风格、视角和环境条件三种类型的域偏移,同时保持跨领域的语义相似性,以确保评估的公平性和有效性。VUDG通过多专家渐进标注框架,为每个视频标注了多项选择和开放式问答对,为视频理解模型的域泛化能力提供了全面的评估基准。该数据集的推出填补了视频理解领域在域泛化研究上的空白,并为大规模视频语言模型(LVLMs)的鲁棒性研究提供了重要资源。
当前挑战
VUDG数据集面临的挑战主要体现在两个方面:首先,在解决领域问题方面,视频理解中的域泛化问题尚未得到充分探索,现有模型在跨域场景下的性能下降显著,尤其是在视觉风格、视角和环境条件变化较大的情况下。其次,在构建过程中,数据集的标注面临高质量问答对生成的难题,包括开放式问题的多样性、多项选择选项的合理性以及标注过程中的模型幻觉和偏差问题。此外,确保跨领域语义相似性同时引入足够的域偏移,也是数据集构建中的关键挑战。
常用场景
经典使用场景
VUDG数据集专为视频理解领域的域泛化研究而设计,其经典使用场景包括评估模型在11种不同域(如卡通、游戏、监控等)下的泛化能力。通过覆盖视觉风格、视角和环境条件三大类域偏移,该数据集能够全面测试模型在跨域场景中的表现。研究者在多域泛化和单域泛化设置下,利用VUDG验证模型在未见域上的适应性,为提升视频理解模型的鲁棒性提供基准支持。
解决学术问题
VUDG解决了视频理解中域泛化研究长期缺乏合适评估基准的问题。传统数据集往往忽略训练与测试数据分布不一致的现实场景,导致模型在跨域应用中性能下降。该数据集通过保持跨域语义一致性,并引入多样化的视觉域偏移,使研究者能够准确衡量模型对分布变化的鲁棒性。其实验结果揭示了现有大型视频语言模型(LVLMs)在域泛化任务中的局限性,推动了针对分布偏移的模型优化研究。
衍生相关工作
围绕VUDG衍生的研究工作主要集中于域泛化算法改进和视频语言模型增强。例如,基于其实验发现的LVLMs跨域性能缺陷,后续研究提出了对抗训练、元学习等泛化策略。数据集设计启发了VideoDG、Ani-GIFs等同类基准的构建,而多专家标注流程被应用于EgoSchema等数据集的标注优化。这些工作共同推动了视频理解领域对分布偏移问题的系统性探索。
以上内容由遇见数据集搜集并总结生成



