YouTube UGC 数据集
收藏arXiv2020-02-28 更新2024-06-21 收录
下载链接:
https://media.withyoutube.com/ugc-dataset
下载链接
链接失效反馈官方服务:
资源简介:
YouTube UGC 数据集是由谷歌公司创建的大规模用户生成内容(UGC)视频数据集,包含1500个20秒的视频片段,覆盖15个类别和多种分辨率。数据集通过众包平台收集主观质量评分,旨在解决视频压缩中的核心问题——比特率和视觉质量的平衡。该数据集特别适用于研究非原始视频的质量评估,如处理、压缩等操作后的视频质量。
The YouTube UGC Dataset is a large-scale user-generated content (UGC) video dataset created by Google. It contains 1500 20-second video clips, covering 15 categories and multiple resolutions. Subjective quality ratings are collected via crowdsourcing platforms, aiming to address the core challenge in video compression: the trade-off between bitrate and visual quality. This dataset is particularly suitable for research on quality assessment of non-original videos, such as video quality after processing, compression and other manipulations.
提供机构:
谷歌公司
创建时间:
2020-02-28
搜集汇总
数据集介绍

构建方式
在视频压缩与质量评估领域,用户生成内容(UGC)的兴起对传统研究范式提出了新挑战。YouTube UGC数据集的构建始于从150万YouTube视频中采样出1500段20秒视频片段,涵盖15个内容类别和多种分辨率。为弥补原始数据缺乏主观质量标注的不足,研究团队通过亚马逊众包平台收集了数十万条主观评分。视频经过H.264编码以确保跨平台播放,并进一步分割为三个重叠的10秒片段以探究局部与整体质量关联。数据清洗采用保留评分中位数80%的策略,有效降低了噪声,最终每段视频获得超过100位评分者的平均意见分数(MOS),为UGC质量研究奠定了坚实基础。
使用方法
该数据集主要应用于视频压缩与质量评估的前沿研究。研究者可利用完整的MOS数据训练或验证无参考质量评估模型,尤其针对UGC中常见的非原始失真问题。通过分析片段级评分与整体视频评分的关联,可以探索质量聚合算法,例如使用平均片段MOS预测整体质量,这在片段质量方差较低时表现出较高可靠性。此外,数据集支持跨内容类别、分辨率及观看设备(如不同显示器)的对比分析,有助于揭示影响主观质量的多维因素。对于开放挑战,如高质量变异片段的整体质量估计,数据集提供了具体案例以推动结合内容分析的高级方法研究。
背景与挑战
背景概述
随着社交视频分享规模的扩大,用户生成内容(UGC)日益受到学术界与工业界的关注。为促进UGC压缩相关研究,YouTube于2019年发布了大规模UGC数据集,涵盖1500段20秒视频片段,涉及游戏、体育、音乐视频等15个类别,分辨率从360P至4K不等。该数据集由Google研究团队主导构建,旨在解决非原始视频(即本身存在瑕疵的UGC)在压缩与质量评估中的核心难题。传统视频质量评估方法通常假设原始视频为无损状态,但UGC普遍存在固有伪影,使得编码器需在忠实还原瑕疵与优化比特分配之间权衡。此数据集的发布填补了UGC领域公开数据稀缺的空白,为视频压缩算法优化与质量评估研究提供了关键基础。
当前挑战
该数据集主要应对两大挑战:在领域问题层面,UGC视频质量评估需解决非原始视频的感知质量量化难题,即如何准确评估本身存在伪影或美学缺陷的视频内容,而非仅针对压缩失真。现有无参考质量评估指标(如BRISQUE、NIQE)在此类场景下表现不佳,其设计多针对压缩失真,难以捕捉UGC的复杂质量维度。在构建过程中,挑战集中于主观质量分数的采集与清理:通过众包平台收集数十万条主观评分时,需设计高效的数据清洗策略以剔除低质量评分,同时确保跨设备、年龄等用户群体的评分一致性。此外,视频常包含多场景切换,需探究片段质量与整体视频质量的关系,尤其在片段质量方差较高时,如何聚合片段评分以准确预测整体质量成为开放性问题。
常用场景
经典使用场景
在视频质量评估领域,YouTube UGC 数据集为研究非原始视频的质量感知提供了重要基础。该数据集包含1500个用户生成内容视频,覆盖多种内容类别与分辨率,并附有通过众包收集的主观质量评分。其经典使用场景在于支持压缩算法研究,特别是在处理带有固有失真的原始视频时,帮助学者探索如何在保持视觉质量的同时优化比特率分配。通过分析视频片段与整体质量的关系,该数据集为理解多场景视频的质量聚合机制提供了实证依据。
解决学术问题
该数据集解决了用户生成内容视频质量评估中的关键学术问题。传统质量评估方法通常假设原始视频无瑕疵,但UGC视频常包含拍摄或处理引入的失真,使得经典全参考方法失效。YouTube UGC数据集通过提供大规模主观评分,使研究者能够开发针对非原始视频的无参考质量评估模型。此外,数据集揭示了内容类别与分辨率对质量感知的影响,为自适应压缩策略提供了数据支持,推动了视频编码领域对真实世界场景的适应性研究。
实际应用
在实际应用中,YouTube UGC数据集被广泛用于优化在线视频平台的压缩与传输系统。基于该数据集的质量分析,工程师可以设计更高效的编码参数选择算法,根据不同内容类别动态调整压缩强度,以提升用户体验并降低带宽消耗。此外,数据集中揭示的显示设备与观看者年龄对质量感知的影响,为个性化视频流媒体服务提供了依据,帮助平台针对不同用户群体实施差异化的质量优化策略。
数据集最近研究
最新研究方向
在视频质量评估领域,YouTube UGC数据集正推动着对非原始用户生成内容的前沿探索。该数据集通过众包方式收集了大规模主观质量评分,为研究视频压缩与感知质量之间的复杂关系提供了宝贵资源。当前研究聚焦于多场景视频中分块质量与整体质量的相关性分析,揭示了分块质量方差对整体评分预测的影响机制。同时,该数据集凸显了现有无参考质量评估模型在UGC内容上的局限性,促使学界开发更适应真实场景的评估算法。这些进展不仅深化了对视频感知质量的理解,也为社交媒体平台优化视频编码策略提供了实证依据。
相关研究论文
- 1Subjective Quality Assessment for YouTube UGC Dataset谷歌公司 · 2020年
以上内容由遇见数据集搜集并总结生成



