VUDG
收藏Hugging Face2025-05-27 更新2025-05-28 收录
下载链接:
https://huggingface.co/datasets/QLGalaxy/VUDG
下载链接
链接失效反馈官方服务:
资源简介:
VUDG是一个用于评估视频理解中域泛化能力的基准数据集,包含7899个视频片段和36388个高质量的问题答案对,覆盖了11个不同的视觉域,如卡通、第一视角、监控、雨天、雪天等。每个视频都通过多专家逐步注释管道同时标注了多项选择题和开放式问题答案对,使用大型多模态模型和人工验证。数据集在不同域之间保持语义一致性,以确保模型的性能反映域泛化能力而非语义变化。
创建时间:
2025-05-13
原始信息汇总
数据集概述:VUDG (Video Understanding Dataset Generation)
基本信息
- 许可证:cc-by-nc-sa-4.0
- 数据规模:1K<n<10K
- 语言:英语 (en)
- 标签:video, domain-generalization, video-understanding
- 任务类别:question-answering
数据集结构
配置
- 默认配置 (
default)- 训练集 (
train):train_multi.json - 测试集 (
test):test_mul.json - 开放测试集 (
test_open):test_open.json
- 训练集 (
特征
- video: 字符串类型 (string)
- domain: 字符串类型 (string)
- question: 字符串类型 (string)
- answer: 字符串类型 (string)
- question_type: 整型 (int32)
数据量
- 训练集 (
train): 6,337 个样本 - 测试集 (
test): 1,532 个样本 - 开放测试集 (
test_open): 1,532 个样本
数据集内容
- 视频数量: 7,899 个视频片段
- 问答对数量: 36,388 个高质量问答对
- 覆盖领域: 11 个多样化视觉领域 (如卡通、自我中心视角、监控、雨天、雪天等)
- 标注类型: 多选题和开放式问答对
- 标注流程: 通过多专家渐进式标注流程,结合大型多模态模型和人工验证
评估方式
零样本评估
- 测试视频:
test文件夹 - 标注文件:
- 多选题:
test_mul.json - 开放式问答:
test_open.json
- 多选题:
微调评估
- 训练数据:
- 视频:
trainset文件夹 - 标注:
train_multi.json
- 视频:
- 测试数据:
- 视频:
test文件夹 - 标注:
test_mul.json
- 视频:
应用场景
- 多源域泛化 (MultiDG): 在多个源域上训练,在一个保留域上测试
- 单源域泛化 (SingleDG): 在一个域上训练,在所有剩余域上测试
搜集汇总
数据集介绍

构建方式
在视频理解领域,VUDG数据集通过多专家渐进式标注流程构建,该流程融合了大型多模态模型与人工验证的双重优势。数据集涵盖11个多样化视觉领域,包括动画、自我中心视角和监控场景等,每个视频均配有高质量的多选题与开放式问答对。标注过程中严格保持跨领域语义一致性,确保模型性能评估聚焦于域泛化能力而非语义差异,最终形成包含7,899个视频片段和36,388组问答对的基准数据。
特点
VUDG的突出特点在于其领域多样性与任务设计的双重深度。数据集覆盖雨雪天气、监控等11个真实场景的视觉领域,模拟现实世界中的分布偏移挑战。其问答对兼具多选题与开放式两类形式,既能评估模型的结构化推理能力,又能检验自由文本生成水平。通过划分训练集与严格隔离的测试集,该基准为单源及多源域泛化研究提供了标准化评估框架。
使用方法
使用VUDG时需遵循其严谨的评估协议。零样本评估直接调用测试集视频及对应的多选题或开放式标注文件,检验模型在未知领域的泛化能力。微调场景下仅允许使用训练集数据,通过多源或单源域设置构建泛化任务,训练后需在隔离的测试集上验证性能。这种设计确保了评估结果真实反映模型应对分布偏移的鲁棒性。
背景与挑战
背景概述
视频理解作为计算机视觉与人工智能交叉领域的重要研究方向,旨在赋予机器解析动态视觉内容的能力。VUDG数据集由研究团队于2024年提出,聚焦于视频理解中的领域泛化问题,其核心在于评估模型在未知视觉域中的适应能力。该数据集涵盖动画、自我中心视角、监控场景等11个异构视觉域,通过多专家渐进式标注流程构建了高质量的问答对,为跨域视频理解提供了标准化评估基准,推动了领域泛化理论在动态视觉任务中的应用。
当前挑战
视频理解领域泛化的核心挑战在于模型如何克服分布偏移问题,即在训练域与测试域存在显著视觉差异时保持性能稳定性。VUDG构建过程中需解决多域语义一致性控制难题,确保问答对不受域间内容偏差干扰;同时,标注流程需平衡自动化生成与人工校验的精度,避免大模型引入的幻觉答案。此外,数据采集需覆盖极端天气、抽象风格等复杂场景,这对域间差异的量化与可控性提出了更高要求。
常用场景
经典使用场景
在视频理解领域,VUDG数据集被广泛用于评估模型在未见过的视觉域上的泛化能力。其经典使用场景包括多源域泛化和单源域泛化实验,通过训练集覆盖的11个多样化视觉域(如卡通、监控、雨雪天气等),模型能够在保持语义一致性的前提下,应对真实世界中的分布偏移挑战。
实际应用
在实际应用中,VUDG支持构建鲁棒的视频分析系统,例如智能监控中的异常检测、自动驾驶的环境感知、以及跨风格视频内容的理解。其多域特性有助于提升模型在复杂现实场景(如天气变化、视角差异)下的稳定性,为工业级视频处理技术提供验证基础。
衍生相关工作
基于VUDG的基准设定,已衍生出多项经典研究,包括结合元学习的域泛化框架、多模态融合的零样本推理方法,以及针对视频时序建模的对抗训练策略。这些工作进一步拓展了域泛化在动态视觉任务中的边界,并为跨域视频问答、开放域理解等方向提供了新范式。
以上内容由遇见数据集搜集并总结生成



