Pairwise-Labeled Video Dataset (PLVD)

Name: Pairwise-Labeled Video Dataset (PLVD)
Creator: 上海交通大学
Published: 2025-05-06 23:29:32
License: 暂无描述

arXiv2025-05-06 更新2025-05-09 收录

下载链接：

https://arxiv.org/pdf/2505.03631v1

下载链接

链接失效反馈

官方服务：

资源简介：

PLVD是一个包含700,000个视频对的大型视频质量评估数据集，由上海交通大学的研究团队构建。该数据集从多个社交媒体平台中采样，覆盖了超过20种内容类别，包括真实和合成的视频扭曲，每个视频对都自动生成了质量标签。数据集的构建过程包括从流行社交媒体平台上收集3百万个视频，然后使用混合整数规划方法采样438,000个视频，以确保数据集的多样性和代表性。数据集的创建旨在解决视频质量评估模型在未见过的视频内容上的泛化问题，并通过自动标注技术减少了人工标注的需求。

PLVD is a large-scale video quality assessment dataset consisting of 700,000 video pairs, constructed by a research team from Shanghai Jiao Tong University. This dataset is sampled from multiple social media platforms, covering over 20 content categories and including both authentic and synthetic video distortions, with each video pair automatically assigned quality labels. The dataset construction process starts with collecting 3 million videos from popular social media platforms, followed by sampling 438,000 videos using mixed integer programming to ensure the diversity and representativeness of the dataset. This dataset is developed to address the generalization issue of video quality assessment models on unseen video content, and it reduces the demand for manual annotation via automatic annotation techniques.

提供机构：

上海交通大学

创建时间：

2025-05-06

搜集汇总

数据集介绍

构建方式

在视频质量评估领域，构建高质量的数据集是推动算法发展的关键。PLVD数据集通过创新的自监督学习框架构建，从多个社交媒体平台收集了300万原始视频，并采用混合整数规划方法从中精选出43.8万视频样本，确保内容多样性与主流UGC数据集分布一致。该数据集的核心创新在于提出了两种自动化标注策略：一是集成五种前沿VQA模型作为评审团生成质量伪标签，二是通过合成失真模拟建立相对质量排序。通过三阶段迭代训练机制，模型不断优化自身标注能力，最终构建了包含70万视频对的超大规模数据集。

特点

PLVD数据集展现出三大核心特征：规模上，其70万视频对的体量远超现有基准数据集；多样性方面，覆盖抖音、优酷等四大平台的20余种内容类别，包含自然失真与合成失真两大类型；标注创新性体现在首创的五级软排序体系（优/良/相似/差/劣），相比传统二元标注能更精细地刻画质量差异。特别值得注意的是，数据集通过合成失真模拟涵盖了空间模糊、时间抖动、H.264/H.265压缩等典型失真类型，为模型提供全面的质量学习素材。这种多维度、多层次的特性使其成为视频质量评估领域的新标杆。

使用方法

该数据集支持端到端的视频质量评估模型训练，特别适用于基于排序学习的范式。研究人员可采用三阶段渐进式训练策略：首先在50万视频对（PLVD-Part1）上训练基础模型；随后将训练好的模型作为增强评审员，与原有评审团共同标注10万新视频对（PLVD-Part2）进行二次训练；最后迭代优化至70万规模。推理阶段通过五锚点对比法将相对排序转化为绝对质量分：从五个质量区间的代表视频中选取评分方差最小的作为锚点，基于Thurstone案例V模型进行最大后验估计。这种使用方法既保留了排序学习的可靠性，又满足了实际应用中对单视频评分的需求。

背景与挑战

背景概述

Pairwise-Labeled Video Dataset (PLVD) 是由上海交通大学的研究团队于2025年提出的一个大规模视频质量评估（VQA）数据集，旨在解决传统视频质量评估方法对人工标注数据的依赖问题。该数据集通过自监督学习框架，利用现有的VQA模型和合成失真模拟自动标注了70万对视频的相对质量，涵盖了来自YouTube、TikTok、Youku和Bilibili等多个社交媒体平台的多样化视频内容。PLVD的提出显著提升了视频质量评估模型的泛化能力，特别是在面对未知视频内容和失真类型时的表现。

当前挑战

PLVD数据集面临的挑战主要包括两个方面：1) 领域问题的挑战：视频质量评估本身是一个高度主观的任务，如何在没有人工标注的情况下准确评估视频质量是一个核心难题。现有VQA模型在分布外数据上的表现较差，难以适应新兴媒体格式和复杂失真类型。2) 构建过程的挑战：自动标注视频对的质量依赖于现有VQA模型的性能，而这些模型可能存在评估偏差；同时，合成失真模拟需要覆盖真实世界中的复杂非线性退化过程，这对数据集的多样性和代表性提出了较高要求。此外，如何设计有效的迭代自改进训练策略以持续提升标注质量也是一个技术难点。

常用场景

经典使用场景

Pairwise-Labeled Video Dataset (PLVD) 在视频质量评估（VQA）领域被广泛应用于训练和验证自监督学习模型。通过构建大规模的视频对数据集，PLVD 使模型能够通过成对比较学习感知质量评估能力，从而在无需人工标注的情况下实现高质量的零样本性能。该数据集特别适用于处理用户生成内容（UGC）和合成失真视频的质量评估任务。

衍生相关工作

PLVD 的提出推动了多篇经典工作的诞生，包括基于学习排序（Learning-to-Rank）的自监督VQA框架、迭代自改进训练策略以及合成失真模拟标注方法。这些工作不仅扩展了PLVD的应用范围，还为视频质量评估领域提供了新的技术路线，例如在高效运动编码和多模态融合方面的创新。

数据集最近研究