YouTube UGC 数据集

Name: YouTube UGC 数据集
Creator: 谷歌公司
Published: 2020-02-28 01:34:34
License: 暂无描述

arXiv2020-02-28 更新2024-06-21 收录

下载链接：

https://media.withyoutube.com/ugc-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

YouTube UGC 数据集是由谷歌公司创建的大规模用户生成内容（UGC）视频数据集，包含1500个20秒的视频片段，覆盖15个类别和多种分辨率。数据集通过众包平台收集主观质量评分，旨在解决视频压缩中的核心问题——比特率和视觉质量的平衡。该数据集特别适用于研究非原始视频的质量评估，如处理、压缩等操作后的视频质量。

The YouTube UGC Dataset is a large-scale user-generated content (UGC) video dataset created by Google. It contains 1500 20-second video clips, covering 15 categories and multiple resolutions. Subjective quality ratings are collected via crowdsourcing platforms, aiming to address the core challenge in video compression: the trade-off between bitrate and visual quality. This dataset is particularly suitable for research on quality assessment of non-original videos, such as video quality after processing, compression and other manipulations.

提供机构：

谷歌公司

创建时间：

2020-02-28

搜集汇总

数据集介绍

构建方式

在视频压缩与质量评估领域，用户生成内容（UGC）的兴起对传统研究范式提出了新挑战。YouTube UGC数据集的构建始于从150万YouTube视频中采样出1500段20秒视频片段，涵盖15个内容类别和多种分辨率。为弥补原始数据缺乏主观质量标注的不足，研究团队通过亚马逊众包平台收集了数十万条主观评分。视频经过H.264编码以确保跨平台播放，并进一步分割为三个重叠的10秒片段以探究局部与整体质量关联。数据清洗采用保留评分中位数80%的策略，有效降低了噪声，最终每段视频获得超过100位评分者的平均意见分数（MOS），为UGC质量研究奠定了坚实基础。

使用方法

该数据集主要应用于视频压缩与质量评估的前沿研究。研究者可利用完整的MOS数据训练或验证无参考质量评估模型，尤其针对UGC中常见的非原始失真问题。通过分析片段级评分与整体视频评分的关联，可以探索质量聚合算法，例如使用平均片段MOS预测整体质量，这在片段质量方差较低时表现出较高可靠性。此外，数据集支持跨内容类别、分辨率及观看设备（如不同显示器）的对比分析，有助于揭示影响主观质量的多维因素。对于开放挑战，如高质量变异片段的整体质量估计，数据集提供了具体案例以推动结合内容分析的高级方法研究。

背景与挑战

背景概述

随着社交视频分享规模的扩大，用户生成内容（UGC）日益受到学术界与工业界的关注。为促进UGC压缩相关研究，YouTube于2019年发布了大规模UGC数据集，涵盖1500段20秒视频片段，涉及游戏、体育、音乐视频等15个类别，分辨率从360P至4K不等。该数据集由Google研究团队主导构建，旨在解决非原始视频（即本身存在瑕疵的UGC）在压缩与质量评估中的核心难题。传统视频质量评估方法通常假设原始视频为无损状态，但UGC普遍存在固有伪影，使得编码器需在忠实还原瑕疵与优化比特分配之间权衡。此数据集的发布填补了UGC领域公开数据稀缺的空白，为视频压缩算法优化与质量评估研究提供了关键基础。

当前挑战

该数据集主要应对两大挑战：在领域问题层面，UGC视频质量评估需解决非原始视频的感知质量量化难题，即如何准确评估本身存在伪影或美学缺陷的视频内容，而非仅针对压缩失真。现有无参考质量评估指标（如BRISQUE、NIQE）在此类场景下表现不佳，其设计多针对压缩失真，难以捕捉UGC的复杂质量维度。在构建过程中，挑战集中于主观质量分数的采集与清理：通过众包平台收集数十万条主观评分时，需设计高效的数据清洗策略以剔除低质量评分，同时确保跨设备、年龄等用户群体的评分一致性。此外，视频常包含多场景切换，需探究片段质量与整体视频质量的关系，尤其在片段质量方差较高时，如何聚合片段评分以准确预测整体质量成为开放性问题。

常用场景

经典使用场景

在视频质量评估领域，YouTube UGC 数据集为研究非原始视频的质量感知提供了重要基础。该数据集包含1500个用户生成内容视频，覆盖多种内容类别与分辨率，并附有通过众包收集的主观质量评分。其经典使用场景在于支持压缩算法研究，特别是在处理带有固有失真的原始视频时，帮助学者探索如何在保持视觉质量的同时优化比特率分配。通过分析视频片段与整体质量的关系，该数据集为理解多场景视频的质量聚合机制提供了实证依据。

解决学术问题

该数据集解决了用户生成内容视频质量评估中的关键学术问题。传统质量评估方法通常假设原始视频无瑕疵，但UGC视频常包含拍摄或处理引入的失真，使得经典全参考方法失效。YouTube UGC数据集通过提供大规模主观评分，使研究者能够开发针对非原始视频的无参考质量评估模型。此外，数据集揭示了内容类别与分辨率对质量感知的影响，为自适应压缩策略提供了数据支持，推动了视频编码领域对真实世界场景的适应性研究。

实际应用

在实际应用中，YouTube UGC数据集被广泛用于优化在线视频平台的压缩与传输系统。基于该数据集的质量分析，工程师可以设计更高效的编码参数选择算法，根据不同内容类别动态调整压缩强度，以提升用户体验并降低带宽消耗。此外，数据集中揭示的显示设备与观看者年龄对质量感知的影响，为个性化视频流媒体服务提供了依据，帮助平台针对不同用户群体实施差异化的质量优化策略。

数据集最近研究