MVQA-68K

Name: MVQA-68K
Creator: 华为技术有限公司
Published: 2025-09-15 13:16:54
License: 暂无描述

arXiv2025-09-15 更新2025-09-17 收录

下载链接：

https://arxiv.org/abs/2509.11589

下载链接

链接失效反馈

官方服务：

资源简介：

MVQA-68K是一个包含超过68,000个精心标注的视频的多维视频质量评估数据集，涵盖了七个关键质量维度：整体美学、相机运动、动态程度、纹理细节、视频构图、视觉质量和事实一致性。该数据集的每个标注都包括详细的推理过程，以促进可解释性和全面理解。实验表明，MVQA-68K显著提高了各种多模态大型语言模型在视频质量评估任务上的性能，不仅在内部测试集上取得了最先进的成果，而且在包括LSVQ-test、LSVQ-1080p和LIVE-VQC在内的公共基准测试上也取得了最先进的成果。

MVQA-68K is a multi-dimensional video quality assessment dataset containing over 68,000 meticulously annotated videos, covering seven critical quality dimensions: overall aesthetics, camera motion, dynamic degree, texture details, video composition, visual quality, and factual consistency. Each annotation in this dataset includes detailed reasoning processes to facilitate interpretability and comprehensive understanding. Experimental results demonstrate that MVQA-68K significantly enhances the performance of various multimodal large language models on video quality assessment tasks, achieving state-of-the-art results not only on the internal test set but also on public benchmark tests including LSVQ-test, LSVQ-1080p, and LIVE-VQC.

提供机构：

华为技术有限公司

创建时间：

2025-09-15

原始信息汇总

MVQA-68K 数据集概述

基本信息

标题: MVQA-68K: A Multi-dimensional and Causally-annotated Dataset with Quality Interpretability for Video Assessment
arXiv标识符: 2509.11589
提交日期: 2025年9月15日
学科分类: 计算机视觉与模式识别 (cs.CV)
作者: Yanyun Pu, Kehan Li, Zeyi Huang, Zhijie Zhong, Kaixiang Yang

数据集描述

MVQA-68K是一个新颖的多维视频质量评估数据集，包含超过68,000个经过精心标注的视频。该数据集覆盖七个关键质量维度：整体美学、摄像机运动、动态程度、纹理细节、构图、视觉质量和事实一致性。每个标注均包含详细的思维链推理过程，以促进可解释性和全面理解。

实验与结果

广泛实验表明，MVQA-68K显著提升了多种多模态大语言模型在视频质量评估任务上的性能，不仅在内部测试集上取得了最先进的结果，还在公共基准测试（包括LSVQ-test、LSVQ-1080p和LIVE-VQC）上表现出色。同时，在视频质量评估训练过程中融入显式推理过程大幅增强了零样本泛化能力。

资源获取

代码和数据集将在GitHub上提供：https://github.com/this

搜集汇总

数据集介绍

构建方式

MVQA-68K数据集的构建基于Panda-70M和Koala-36M等高质量公开视频资源，通过TransNetV2和PySceneDetect技术过滤静态或低动态片段，确保视频内容的多样性与代表性。标注流程由14名训练有素的标注员独立完成，覆盖七个核心质量维度，采用二进制或五级评分系统，并通过剔除极端值后取平均的方式保证标注一致性。每个维度均配备详细的质量说明与因果推理注释，最终形成超过68,000条专家验证的多维度标注数据。

使用方法

MVQA-68K专为训练和评估多模态大语言模型的视频质量理解能力而设计。使用者可基于其多维标注数据训练模型进行端到端的质量预测，或利用因果推理注释提升模型的可解释性。该数据集支持零样本泛化测试，已在LSVQ-test、LIVE-VQC等公开基准上验证其有效性。通过语义对数多提示集成策略，模型可聚合多组语义相关表达的概率输出，实现更稳定且符合人类感知的质量评估。

背景与挑战

背景概述

MVQA-68K数据集由华为技术有限公司与华南理工大学联合研发，于2025年正式发布，旨在应对视频生成模型快速发展背景下的质量评估挑战。该数据集包含超过68,000条经过精细标注的视频样本，涵盖美学整体性、摄像机运动、动态程度、纹理细节、构图质量、视觉品质及事实一致性等七个核心维度。其创新性地引入思维链推理标注机制，为多模态大语言模型提供了可解释性评估框架，显著提升了视频质量评估的维度完整性与推理透明度，对计算机视觉与多媒体分析领域产生了深远影响。

当前挑战

该数据集致力于解决多维视频质量评估中存在的语义鸿沟问题，传统方法仅输出单一数值分数，难以捕捉复杂时空维度间的相互作用。构建过程中面临多重挑战：需平衡主观美学评价与客观技术指标的一致性，解决不同标注者间的评分偏差，以及处理大规模视频数据中动态内容与静态帧的质量关联性。同时，针对多提示词集成策略的语义泛化要求，需确保标注体系既能覆盖多样化的质量表述，又能维持评估标准的统一性，这对标注协议的制定与验证提出了极高要求。

常用场景

经典使用场景

在视频质量评估领域，MVQA-68K数据集通过其多维度的标注框架，为多模态大语言模型提供了精细化的训练基础。该数据集覆盖了美学、动态程度、纹理细节等七个关键维度，并辅以因果推理注释，使得模型能够从整体到局部全面解析视频质量。其经典应用场景包括训练模型进行端到端的质量评分，同时生成可解释的质量分析报告，为视频生成模型的预训练数据筛选提供可靠依据。

解决学术问题

MVQA-68K有效解决了传统视频质量评估中单一数值评分缺乏可解释性与多维度感知不足的问题。通过引入链式思维推理注释，该数据集推动了模型在感知质量建模方面的突破，显著提升了多模态大语言模型在零样本泛化、跨数据集评估以及复杂用户生成内容质量分析中的性能。其多维标注体系为视频质量评估的因果推理与可解释人工智能研究提供了重要基础。

实际应用

在实际应用中，MVQA-68K被广泛用于视频内容平台的质量控制、生成式视频模型的优化以及自动化视频增强系统。例如，在短视频推荐场景中，基于该数据集训练的模型能够识别镜头运动稳定性、构图合理性等维度问题，从而提升内容分发质量。此外，其在影视后期制作与流媒体服务中也被用于实时质量监测与自适应码率调整。

数据集最近研究