VBench++|视频生成数据集|模型评估数据集
收藏VBench 数据集概述
数据集简介
VBench 是一个用于视频生成模型的综合基准测试套件。它设计了一个全面且分层的评估维度套件,将“视频生成质量”分解为多个明确定义的维度,以促进细粒度和客观的评估。每个维度和每个内容类别,都精心设计了一个提示套件作为测试用例,并从一组视频生成模型中采样生成的视频。
数据集内容
- 评估维度:包括
subject_consistency
,background_consistency
,temporal_flickering
,motion_smoothness
,dynamic_degree
,aesthetic_quality
,imaging_quality
,object_class
,multiple_objects
,human_action
,color
,spatial_relationship
,scene
,temporal_style
,appearance_style
,overall_consistency
等16个维度。 - 提示套件:为每个维度和内容类别设计了测试用例。
- 生成的视频:从一组视频生成模型中采样生成的视频。
- 评估方法套件:为每个评估维度设计了特定的评估方法或指定的流水线,用于自动客观评估。
数据集下载
- 视频数据:所有用于VBench评估的视频均可从Google Drive下载。
数据集更新
- VBench++:于2024年11月发布,支持更广泛的视频生成任务,包括文本到视频和图像到视频,并评估生成模型的可信度。
- VBench-Long Leaderboard:于2024年9月发布,包含10个长视频生成模型。
- VBench Leaderboard:于2024年8月更新,包含28个T2V模型和12个I2V模型。
数据集使用
- 安装:通过pip安装
vbench
,并根据需要安装detectron2
。 - 评估:支持自定义视频评估和标准提示套件评估。
引用
如果使用该数据集,请引用以下论文: bibtex @InProceedings{huang2023vbench, title={{VBench}: Comprehensive Benchmark Suite for Video Generative Models}, author={Huang, Ziqi and He, Yinan and Yu, Jiashuo and Zhang, Fan and Si, Chenyang and Jiang, Yuming and Zhang, Yuanhan and Wu, Tianxing and Jin, Qingyang and Chanpaisit, Nattapol and Wang, Yaohui and Chen, Xinyuan and Wang, Limin and Lin, Dahua and Qiao, Yu and Liu, Ziwei}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2024} }
@article{huang2024vbench++, title={VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models}, author={Huang, Ziqi and He, Yinan and Yu, Jiashuo and Zhang, Fan and Si, Chenyang and Jiang, Yuming and Zhang, Yuanhan and Wu, Tianxing and Jin, Qingyang and Chanpaisit, Nattapol and Wang, Yaohui and Chen, Xinyuan and Wang, Limin and Lin, Dahua and Qiao, Yu and Liu, Ziwei}, journal={arXiv preprint arXiv:2411.13503}, year={2024} }

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
EdNet
圣诞老人收集的各种学生活动的大规模分层数据集,一个配备人工智能辅导系统的多平台自学解决方案。 EdNet 包含 2 年多来收集的 784,309 名学生的 131,441,538 次互动,这是迄今为止向公众发布的 ITS 数据集中最大的。资料来源:EdNet:教育中的大规模分层数据集
OpenDataLab 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录