Q-Bench-Video
收藏arXiv2024-09-30 更新2024-10-02 收录
下载链接:
https://github.com/Q-Future/Q-Bench-Video
下载链接
链接失效反馈官方服务:
资源简介:
Q-Bench-Video是由上海交通大学和南洋理工大学联合创建的一个用于评估大型多模态模型(LMMs)视频质量理解能力的基准数据集。该数据集包含2378个问题-答案对,涵盖了自然场景、AI生成内容(AIGC)和计算机图形(CG)视频,确保了视频来源的多样性。数据集的创建过程采用了均匀采样方法,确保了视频质量分布的平衡性。Q-Bench-Video主要用于解决当前LMMs在视频质量理解方面的不足,特别是在技术、美学、时间和AIGC失真方面的评估,旨在推动视频质量理解领域的研究进展。
Q-Bench-Video is a benchmark dataset jointly developed by Shanghai Jiao Tong University and Nanyang Technological University for evaluating the video quality understanding capabilities of Large Multimodal Models (LMMs). This dataset comprises 2,378 question-answer pairs, covering videos from natural scenes, AI-generated content (AIGC), and computer graphics (CG), which ensures the diversity of video sources. A uniform sampling method was adopted during the dataset construction process to guarantee the balance of video quality distribution. Q-Bench-Video is primarily designed to address the current limitations of LMMs in video quality understanding, particularly for the assessment of technical, aesthetic, temporal, and AIGC distortion-related aspects, aiming to advance research in the field of video quality understanding.
提供机构:
上海交通大学
创建时间:
2024-09-30
原始信息汇总
Q-Bench-Video 数据集概述
数据集简介
Q-Bench-Video 是一个专门用于评估大型多模态模型(LMMs)在视频质量理解方面能力的基准数据集。该数据集旨在测试模型在不同视频质量问题上的表现,涵盖自然场景、计算机图形(CG)和AI生成内容(AIGC)等多种视频来源。
数据集结构
数据集的元结构由以下几个部分组成:
- 视频对象 (V):可以是单个视频或一对视频。
- 视频质量查询 (Q):关于视频质量的问题。
- 可能答案集 (A):问题的可能答案。
- 正确答案 (C):问题的正确答案。
子类别
-
问题类型:
- Yes-or-No 问题
- What-How 问题
- Open-ended 问题
-
质量关注点:
- 技术性 (Technical)
- 美学性 (Aesthetic)
- 时间性 (Temporal)
- AI生成内容 (AIGC)
-
视频类型:
- 单个全局视频 (Single-Global)
- 单个引用视频 (Single-referring)
- 粗略比较视频对 (Pair-Compare-Coarse)
- 精细比较视频对 (Pair-Compare-Fine)
数据集统计
数据集包含2,378个问题-答案对,用于测试12个开源和5个专有LMMs。
数据集性能
- 开源模型:mPLUG-Owl3 表现最佳。
- 专有模型:GPT-4o 表现最佳。
性能概览
| 模型 | Yes-or-No | What-How | Open-ended | Technical | Aesthetic | Temporal | AIGC | Overall |
|---|---|---|---|---|---|---|---|---|
| Random guess w/o Open-ended | 50.00% | 25.00% | / | 37.10% | 37.31% | 37.25% | 37.22% | 37.79% |
| Human | 86.57% | 81.00% | 77.11% | 79.22% | 80.23% | 82.72% | 86.21% | 81.56% |
| Open-source Image LMMs | ||||||||
| LLaVA-Next (Mistral-7B) | 62.83% | 45.14% | 33.69% | 46.38% | 57.86% | 47.84% | 48.46% | 47.52% |
| LLaVA-v1.5 (Vicuna-v1.5-13B) | 52.98% | 46.44% | 37.01% | 45.77% | 58.12% | 45.30% | 46.48% | 45.64% |
| mPLUG-Owl2 (LLaMA2-7B) | 59.19% | 39.07% | 31.19% | 42.07% | 52.38% | 41.71% | 39.37% | 43.43% |
| Open-source Video LMMs | ||||||||
| mPLUG-Owl3 (Qwen2-7B) | 60.48% | 56.39% | 39.48% | 52.68% | 58.31% | 52.05% | 43.49% | 52.39% |
| LLaVA-OneVision (Qwen2-7B) | 61.34% | 53.88% | 39.15% | 49.35% | 64.15% | 50.68% | 44.30% | 51.70% |
| InternVL-Chat (Vicuna-7B) | 66.02% | 52.13% | 33.93% | 48.42% | 52.73% | 50.59% | 53.12% | 51.11% |
| VILA1.5 (LLaMA3-8B) | 61.95% | 46.00% | 39.60% | 47.85% | 57.85% | 45.65% | 42.57% | 49.41% |
| PLLaVA (Mistral-7B) | 65.63% | 52.33% | 32.23% | 49.69% | 61.32% | 50.96% | 53.64% | 50.39% |
| LLaVA-Next-Video (Mistral-7B) | 61.34% | 45.95% | 38.10% | 49.03% | 60.94% | 46.97% | 49.40% | 48.69% |
| ST-LLM (Vicuna-v1.1-7B) | 44.63% | 28.50% | 32.78% | 34.99% | 46.11% | 34.28% | 34.02% | 35.42% |
| Video-LLaVA (Vicuna-v1.5-7B) | 64.67% | 40.79% | 29.11% | 43.25% | 54.04% | 42.38% | 42.76% | 43.49% |
| VideoChat2 (Mistral-7B) | 56.09% | 29.98% | 34.99% | 39.26% | 50.02% | 38.25% | 35.88% | 40.56% |
| Proprietary LMMs | ||||||||
| Gemini 1.5 Flash | 65.48% | 56.79% | 47.51% | 54.11% | 66.58% | 53.51% | 50.22% | 56.78% |
| Gemini 1.5 Pro | 65.42% | 62.35% | 47.57% | 56.80% | 69.61% | 53.38% | 53.26% | 58.63% |
| GPT-4o mini | 62.95% | 50.93% | 42.10% | 49.38% | 60.90% | 48.43% | 41.71% | 52.20% |
| GPT-4o | 67.48% | 58.79% | 49.25% | 56.01% | 58.57% | 65.39% | 52.22% | 58.70% |
| GPT-4 Turbo | 66.93% | 58.33% | 40.15% | 54.23% | 66.23% | 54.00% | 52.04% | 56.36% |
数据集发布
- 技术报告:即将发布。
- 样本脚本:已于2024年9月24日发布。
- Github仓库:已于2024年9月20日上线。
数据集下载
数据集可通过以下链接下载: Q-Bench-Video 数据集下载
联系信息
如有任何疑问,请联系以下作者之一:
- Zicheng Zhang,
zzc1998@sjtu.edu.cn, @zzc-1998
搜集汇总
数据集介绍

构建方式
Q-Bench-Video数据集的构建旨在评估大型多模态模型(LMMs)在视频质量理解方面的能力。该数据集通过从自然场景、AI生成内容(AIGC)和计算机图形(CG)中收集视频,确保了视频源的多样性。构建过程中采用了均匀采样方法,以确保视频质量分布的平衡。此外,数据集设计了多种类型的问题,包括Yes-or-No、What-How和Open-ended问题,以及视频对质量比较问题,以全面评估LMMs在不同场景下的视频质量理解能力。
特点
Q-Bench-Video数据集的特点在于其广泛的覆盖范围和多样性。它不仅包含了自然场景、AIGC和CG视频,还引入了AIGC失真维度,以应对视频生成领域日益增长的需求。此外,数据集通过引入开放式问题和视频对比较任务,增强了其全面性和复杂性,使得评估更加细致和深入。
使用方法
Q-Bench-Video数据集主要用于评估和提升LMMs在视频质量理解方面的能力。研究者可以通过该数据集测试模型在不同类型问题上的表现,包括Yes-or-No、What-How和Open-ended问题,以及视频对质量比较任务。通过这些测试,研究者可以识别模型在视频质量理解上的不足,并针对性地进行改进和优化。
背景与挑战
背景概述
随着大型多模态模型(LMMs)在视频理解领域的研究兴趣日益增长,许多研究强调了通用视频理解能力,却忽视了对视频质量理解的系统探索。为了填补这一空白,我们引入了Q-Bench-Video,这是一个专门设计用于评估LMMs在辨别视频质量方面的新基准。该基准涵盖了来自自然场景、AI生成内容(AIGC)和计算机图形(CG)的视频,确保了视频来源的多样性。通过引入开放式问题和视频对质量比较问题,Q-Bench-Video旨在更全面地评估LMMs在复杂场景中的视频质量理解能力。此外,该基准还扩展了评估维度,包括AIGC失真,以应对视频生成领域日益增长的需求。
当前挑战
Q-Bench-Video面临的挑战包括:1) 确保视频来源的多样性和质量分布的合理性,这需要在构建过程中进行细致的采样和质量控制;2) 设计多样化的评估问题类型,包括开放式问题和视频对比较,以全面评估LMMs在不同场景下的视频质量理解能力;3) 引入AIGC失真评估维度,这需要对AI生成视频的独特失真进行专门的评估方法设计。此外,LMMs在视频质量理解方面的表现仍显著落后于人类水平,尤其是在处理开放式问题和AIGC特定失真时,这表明该领域仍需进一步的研究和改进。
常用场景
经典使用场景
Q-Bench-Video数据集的经典使用场景在于评估大型多模态模型(LMMs)对视频质量的理解能力。通过包含自然场景、AI生成内容(AIGC)和计算机图形(CG)视频的多样性,以及采用多选题、开放式问题和视频对质量比较等多种评估方式,该数据集能够全面测试LMMs在不同视频质量维度上的表现,包括技术、美学、时间和AIGC失真。
解决学术问题
Q-Bench-Video数据集解决了当前学术研究中对视频质量理解评估的缺失问题。传统的视频理解基准主要关注语义理解,而忽略了视频质量这一重要维度。该数据集通过系统性地评估LMMs对视频质量的理解能力,填补了这一研究空白,推动了视频质量评估领域的发展,并为未来研究提供了新的方向和挑战。
衍生相关工作
Q-Bench-Video数据集的引入催生了多项相关研究工作。例如,基于该数据集的研究揭示了LMMs在视频质量理解上的不足,推动了模型改进和优化;同时,该数据集也激发了对AIGC失真评估的深入研究,促进了AI生成视频质量评估方法的创新。此外,Q-Bench-Video的成功应用还为其他多模态数据集的开发提供了宝贵的经验和参考。
以上内容由遇见数据集搜集并总结生成



