five

FineVD|视频质量评估数据集|用户生成内容数据集

收藏
arXiv2024-12-26 更新2024-12-31 收录
视频质量评估
用户生成内容
下载链接:
http://arxiv.org/abs/2412.19238v1
下载链接
链接失效反馈
资源简介:
FineVD是由上海交通大学和哔哩哔哩公司联合创建的大规模细粒度视频质量评估数据集,包含6104条用户生成内容(UGC)视频。该数据集涵盖了广泛的UGC场景,包括点播和直播视频,内容涉及知识、音乐、日常生活、动画等多个领域。数据集通过专业团队在实验室环境下进行质量标注,包含36624个平均意见分数(MOS)和超过80万次质量评分,提供了多维度的细粒度质量标签。FineVD旨在解决UGC视频质量评估中的细粒度标注问题,为视频处理和推荐系统提供更精确的质量评估依据。
提供机构:
上海交通大学, 哔哩哔哩公司
创建时间:
2024-12-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
FineVD数据集的构建过程基于对用户生成内容(UGC)视频的广泛收集与精细标注。首先,从Bilibili等主流UGC平台收集了6104个视频,涵盖多种场景和内容类型,包括点播视频和直播视频。随后,由专业的图像处理研究团队在实验室环境中对这些视频进行质量标注,标注维度包括颜色、噪声、伪影、模糊、时间特性和整体质量。每个视频均通过六名标注者进行主观评分,最终生成了36624个平均意见分数(MOS),并进一步标注了退化类型和质量描述。
特点
FineVD数据集的特点在于其多维度的精细质量标注和广泛的视频内容覆盖。数据集不仅提供了整体质量评分,还针对颜色、噪声、伪影、模糊和时间特性等五个维度进行了详细的评分和描述。此外,FineVD涵盖了多种UGC视频类型,包括知识、音乐、日常生活、动画、时尚、动物、体育、游戏等,确保了数据集的多样性和代表性。这种多维度的标注方式为视频质量评估提供了更全面的视角,尤其适用于视频处理和推荐系统的开发。
使用方法
FineVD数据集的使用方法主要包括视频质量评估模型的训练与验证。研究人员可以利用该数据集的多维度标注,开发能够预测视频质量的新算法。具体而言,FineVD可用于训练深度学习模型,使其能够从颜色、噪声、伪影、模糊和时间特性等多个维度进行视频质量评分。此外,数据集中的质量描述标注还可用于生成视频质量的文本描述,进一步提升模型的可解释性。FineVD的广泛应用将推动UGC视频质量评估领域的研究进展。
背景与挑战
背景概述
FineVD数据集是由上海交通大学与哔哩哔哩公司合作创建的大规模细粒度用户生成内容(UGC)视频质量评估数据库,旨在解决UGC视频质量评估中的多维细粒度标注问题。随着UGC视频的快速增长,现有的视频质量评估模型通常仅提供整体评分,无法满足视频处理和推荐等多样化应用的需求。FineVD数据集包含6104个UGC视频,涵盖了广泛的视频场景和退化类型,并提供了从颜色、噪声、伪影、模糊、时间等多个维度的细粒度质量评分和描述。该数据集的创建为UGC视频质量评估领域提供了重要的基准,推动了相关算法的发展。
当前挑战
FineVD数据集在构建和应用过程中面临多重挑战。首先,UGC视频的多样性和复杂性使得质量评估任务变得极为困难,视频内容、拍摄条件和退化类型各异,导致单一的整体评分无法准确反映视频的实际质量。其次,数据集的构建过程中,如何确保视频样本的多样性和代表性,以及如何高效地进行多维度的细粒度标注,都是极具挑战的任务。此外,FineVD数据集的应用还面临着如何设计能够同时处理多维度质量评估的模型,以及如何提升模型在复杂UGC场景下的泛化能力等挑战。
常用场景
经典使用场景
FineVD数据集在视频质量评估领域中被广泛用于细粒度的用户生成内容(UGC)视频质量分析。其经典使用场景包括对视频的颜色、噪声、伪影、模糊和时间维度进行多维度的质量评分和描述。通过FineVD,研究人员能够深入分析UGC视频中各种失真类型对整体质量的影响,从而为视频处理、优化和推荐系统提供精确的质量反馈。
解决学术问题
FineVD数据集解决了当前视频质量评估(VQA)模型仅提供整体质量评分而缺乏细粒度标签的问题。通过提供多维度的质量评分和描述,FineVD使得研究人员能够更全面地理解UGC视频的质量特征,推动了细粒度视频质量评估模型的发展。该数据集的建立为视频处理、压缩、推荐等应用提供了更精确的质量评估工具,填补了学术研究中的空白。
衍生相关工作
基于FineVD数据集,研究人员提出了FineVQ模型,该模型通过指令调优和低秩适应技术,实现了多维度细粒度视频质量评估。FineVQ不仅在FineVD数据集上表现出色,还在其他常用的UGC-VQA数据集上取得了领先的性能。此外,FineVD还推动了其他相关研究,如基于大语言模型的视频质量描述生成、视频失真类型识别等,进一步拓展了视频质量评估的研究边界。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。

huggingface 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录