five

VBench++|视频生成数据集|模型评估数据集

收藏
arXiv2024-11-21 更新2024-11-22 收录
视频生成
模型评估
下载链接:
https://github.com/Vchitect/VBench
下载链接
链接失效反馈
资源简介:
VBench++是由南洋理工大学和上海人工智能实验室联合创建的综合视频生成模型评估基准。该数据集包含16个维度,每个维度有约100个文本提示,用于评估视频生成模型的性能。数据集内容涵盖视频质量、视频条件一致性等多个方面,旨在通过细粒度的评估方法揭示模型的优缺点。创建过程中,研究团队设计了多层次的评估维度,并通过人类偏好注释验证了评估结果与人类感知的一致性。VBench++的应用领域广泛,旨在解决视频生成模型评估中的关键问题,如技术质量评估和模型可信度评估。
提供机构:
南洋理工大学和上海人工智能实验室
创建时间:
2024-11-21
原始信息汇总

VBench 数据集概述

数据集简介

VBench 是一个用于视频生成模型的综合基准测试套件。它设计了一个全面且分层的评估维度套件,将“视频生成质量”分解为多个明确定义的维度,以促进细粒度和客观的评估。每个维度和每个内容类别,都精心设计了一个提示套件作为测试用例,并从一组视频生成模型中采样生成的视频。

数据集内容

  • 评估维度:包括 subject_consistency, background_consistency, temporal_flickering, motion_smoothness, dynamic_degree, aesthetic_quality, imaging_quality, object_class, multiple_objects, human_action, color, spatial_relationship, scene, temporal_style, appearance_style, overall_consistency 等16个维度。
  • 提示套件:为每个维度和内容类别设计了测试用例。
  • 生成的视频:从一组视频生成模型中采样生成的视频。
  • 评估方法套件:为每个评估维度设计了特定的评估方法或指定的流水线,用于自动客观评估。

数据集下载

  • 视频数据:所有用于VBench评估的视频均可从Google Drive下载。

数据集更新

  • VBench++:于2024年11月发布,支持更广泛的视频生成任务,包括文本到视频和图像到视频,并评估生成模型的可信度。
  • VBench-Long Leaderboard:于2024年9月发布,包含10个长视频生成模型。
  • VBench Leaderboard:于2024年8月更新,包含28个T2V模型和12个I2V模型。

数据集使用

  • 安装:通过pip安装vbench,并根据需要安装detectron2
  • 评估:支持自定义视频评估和标准提示套件评估。

引用

如果使用该数据集,请引用以下论文: bibtex @InProceedings{huang2023vbench, title={{VBench}: Comprehensive Benchmark Suite for Video Generative Models}, author={Huang, Ziqi and He, Yinan and Yu, Jiashuo and Zhang, Fan and Si, Chenyang and Jiang, Yuming and Zhang, Yuanhan and Wu, Tianxing and Jin, Qingyang and Chanpaisit, Nattapol and Wang, Yaohui and Chen, Xinyuan and Wang, Limin and Lin, Dahua and Qiao, Yu and Liu, Ziwei}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2024} }

@article{huang2024vbench++, title={VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models}, author={Huang, Ziqi and He, Yinan and Yu, Jiashuo and Zhang, Fan and Si, Chenyang and Jiang, Yuming and Zhang, Yuanhan and Wu, Tianxing and Jin, Qingyang and Chanpaisit, Nattapol and Wang, Yaohui and Chen, Xinyuan and Wang, Limin and Lin, Dahua and Qiao, Yu and Liu, Ziwei}, journal={arXiv preprint arXiv:2411.13503}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
VBench++数据集的构建方式体现了对视频生成模型评估的全面性和细致性。该数据集通过将‘视频生成质量’分解为16个具体、层次分明且相互独立的维度,每个维度都配备了专门的提示和评估方法。这些维度涵盖了从主体身份一致性、运动平滑度到时间闪烁和空间关系等多个方面。此外,VBench++还提供了人类偏好注释数据集,以验证其评估方法与人类感知的一致性。数据集的构建过程还包括对当前模型在各个评估维度上的能力进行深入分析,以及对视频生成与图像生成模型之间差异的研究。
特点
VBench++数据集的主要特点在于其全面性和多维度评估能力。它不仅涵盖了视频生成的技术质量,还评估了生成模型的可信度,包括文化公平性、人类偏见和内容安全性。数据集的另一个显著特点是其与人类感知的高度一致性,通过大规模的人类偏好注释验证了其评估结果的可靠性。此外,VBench++支持多种视频生成任务,包括文本到视频和图像到视频的生成,并提供了高质量的图像套件,以确保在不同设置下的公平评估。
使用方法
VBench++数据集的使用方法包括对视频生成模型在各个评估维度上的性能进行量化评估。用户可以通过数据集提供的提示套件和生成视频,利用评估方法套件进行自动目标评估。此外,数据集还提供了人类偏好注释,用户可以利用这些注释来微调生成或评估模型,以增强其与人类感知的一致性。VBench++还持续更新其排行榜,鼓励更多的视频生成模型参与挑战,推动视频生成领域的发展。
背景与挑战
背景概述
VBench++,由Ziqi Huang、Fan Zhang等研究人员于2015年提出,是一个综合且多功能的视频生成模型基准测试套件。该数据集的创建旨在解决视频生成模型评估中的关键挑战,特别是现有评估指标与人类感知不一致的问题。VBench++通过将‘视频生成质量’分解为具体的、分层的和解耦的维度,每个维度都有特定的提示和评估方法,从而提供了一个全面的评估框架。该数据集不仅涵盖了视频生成的技术质量,还包括了生成模型的可信度评估,为视频生成领域的未来发展提供了宝贵的见解。
当前挑战
VBench++面临的挑战主要集中在两个方面:一是解决视频生成领域中现有评估指标与人类判断不一致的问题;二是构建过程中需要设计详细的提示和评估方法,以确保每个维度的评估都能准确反映模型的强项和弱项。此外,数据集还需要处理不同内容类型和生成任务的多样性,确保评估的全面性和公平性。通过引入高质量的图像套件和适应性分辨率,VBench++旨在为不同设置下的图像到视频生成模型提供公平的评估。
常用场景
经典使用场景
VBench++ 数据集在视频生成模型的评估中展现了其经典应用场景。该数据集通过将视频生成质量分解为具体的、分层的和解耦的维度,为每个维度提供了定制的提示和评估方法。例如,在评估视频质量时,VBench++ 涵盖了主体身份一致性、运动平滑度、时间闪烁和空间关系等多个维度。这些维度的细粒度评估揭示了各个模型在视频生成中的优势和劣势,从而为模型的改进提供了宝贵的见解。
实际应用
VBench++ 数据集在实际应用中具有广泛的应用场景。例如,在社交媒体和教育领域,视频生成模型的可信度至关重要。VBench++ 通过评估模型的安全性、文化公平性和人类偏见,确保生成的内容在这些应用中是公平和无害的。此外,该数据集的高质量图像套件支持自适应分辨率和宽高比,使得在不同设置下的图像到视频生成模型的评估更加公平和准确。
衍生相关工作
VBench++ 数据集的发布催生了一系列相关的经典工作。例如,基于 VBench++ 的评估方法,研究者们开发了新的视频生成模型,如 LaVie 和 ModelScope,这些模型在多个评估维度上表现出色。此外,VBench++ 还启发了对视频和图像生成模型之间差异的研究,以及对视频生成模型在不同内容类别中表现的深入分析。这些研究不仅提升了视频生成技术的水平,也为未来的研究方向提供了新的视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

EdNet

圣诞老人收集的各种学生活动的大规模分层数据集,一个配备人工智能辅导系统的多平台自学解决方案。 EdNet 包含 2 年多来收集的 784,309 名学生的 131,441,538 次互动,这是迄今为止向公众发布的 ITS 数据集中最大的。资料来源:EdNet:教育中的大规模分层数据集

OpenDataLab 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录