VideoScore-Bench

Hugging Face2024-06-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/TIGER-Lab/VideoScore-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VideoFeedback-Bench数据集由四个子集组成：VideoFeedback、EvalCrafter、GenAI-Bench和VBench。每个子集包含不同的特征，如ID、图像序列、对话、评分列表等，并针对测试集提供了详细的数据大小和示例数量。该数据集用于构建自动指标，模拟细粒度的人类反馈，以评估视频生成质量。

创建时间：

2024-06-18

原始信息汇总

数据集概述

数据集配置

eval_crafter

特征:
- id: 字符串类型
- images: 字符串序列
- conversations: 列表，包含 from（字符串类型）和 value（字符串类型）
- score_list: 浮点数序列
分割:
- test: 包含 2541 个样本，7275877 字节
下载大小: 1153703 字节
数据集大小: 7275877 字节

genaibench

特征:
- id: 字符串类型
- images: 字符串序列
- score_list: 整数序列
- conversations: 列表，包含 from（字符串类型）和 value（字符串类型）
- preference: 浮点数类型
分割:
- test: 包含 2138 个样本，3847467 字节
下载大小: 312979 字节
数据集大小: 3847467 字节

vbench

特征:
- id: 字符串类型
- images: 字符串序列
- score_list: 整数序列
- conversations: 列表，包含 from（字符串类型）和 value（字符串类型）
- preference: 结构体，包含 cogvideo（浮点数类型）、lavie（浮点数类型）、modelscope（浮点数类型）和 videocraft（浮点数类型）
分割:
- test: 包含 2000 个样本，4743330 字节
下载大小: 340207 字节
数据集大小: 4743330 字节

video_feedback

特征:
- id: 字符串类型
- images: 字符串序列
- text prompt: 字符串类型
- video link: 字符串类型
- visual quality: 整数类型
- temporal consistency: 整数类型
- dynamic degree: 整数类型
- text-to-video alignment: 整数类型
- factual consistency: 整数类型
- conversations: 列表，包含 from（字符串类型）和 value（字符串类型）
分割:
- test: 包含 760 个样本，1481750 字节
下载大小: 264137 字节
数据集大小: 1481750 字节

数据文件配置

eval_crafter:
- test: 路径为 eval_crafter/test-*
genaibench:
- test: 路径为 genaibench/test-*
vbench:
- test: 路径为 vbench/test-*
video_feedback:
- test: 路径为 video_feedback/test-*

搜集汇总

数据集介绍

构建方式

VideoScore-Bench数据集整合了四个基准数据集：VideoFeedback、EvalCrafter、GenAI-Bench和VBench。每个子数据集均通过特定的配置进行构建，涵盖了视频生成领域的多个维度。数据集的构建过程包括从不同来源收集视频数据、生成对话内容以及标注评分列表，确保数据的多样性和代表性。通过这种方式，数据集能够全面反映视频生成任务中的复杂性和多样性。

特点

VideoScore-Bench数据集的特点在于其多维度的评分体系和丰富的对话内容。每个样本包含视频图像序列、对话列表以及详细的评分列表，评分涵盖了视觉质量、时间一致性、动态程度、文本-视频对齐等多个维度。此外，数据集还提供了对不同生成模型的偏好评分，使得研究者能够深入分析不同模型的性能差异。这种多层次的标注方式为视频生成任务提供了全面的评估基准。

使用方法

VideoScore-Bench数据集的使用方法主要包括加载数据、分析评分和对话内容以及进行模型评估。用户可以通过HuggingFace平台下载数据集，并根据不同的配置选择特定的子数据集进行实验。数据集中提供的评分列表和对话内容可用于训练自动评分模型或进行生成模型的性能对比。此外，研究者还可以利用数据集中的偏好评分，进一步探索不同生成模型在视频生成任务中的表现差异。

背景与挑战

背景概述

VideoScore-Bench数据集由VideoFeedback、EvalCrafter、GenAI-Bench和VBench四个基准数据集整合而成，旨在为视频生成领域提供细粒度的人类反馈模拟。该数据集由Xuan He等研究人员于2024年发布，主要研究问题集中在如何通过自动化的度量标准来模拟人类对视频生成的多维度评价。这一研究不仅推动了视频生成技术的进步，还为相关领域的模型评估提供了新的视角和方法。

当前挑战

VideoScore-Bench数据集面临的挑战主要体现在两个方面。首先，视频生成领域本身具有高度的复杂性，涉及视觉质量、时间一致性、动态程度、文本-视频对齐以及事实一致性等多个维度的评价，如何准确模拟人类对这些维度的反馈是一个巨大的挑战。其次，在数据集的构建过程中，研究人员需要整合来自不同基准的数据，确保数据的一致性和完整性，同时还要处理大规模视频数据的存储和标注问题，这些都对数据集的构建提出了较高的技术要求。

常用场景

经典使用场景

VideoScore-Bench数据集在视频生成领域中被广泛用于评估和优化生成视频的质量。通过提供丰富的图像序列和对话数据，该数据集能够帮助研究人员深入分析视频生成模型在视觉质量、时间一致性、动态程度以及与文本对齐等方面的表现。特别是在自动生成视频的反馈机制中，VideoScore-Bench为模型提供了细粒度的人类反馈模拟，极大地提升了模型的训练效果和生成视频的真实感。

实际应用

在实际应用中，VideoScore-Bench被广泛应用于视频生成模型的开发与优化。例如，在电影特效制作、虚拟现实内容生成以及广告视频创作等领域，该数据集帮助开发者快速评估生成视频的质量，并根据反馈进行调整。此外，该数据集还为教育、医疗等领域的视频内容生成提供了技术支持，推动了相关行业的智能化发展。

衍生相关工作

VideoScore-Bench的推出催生了一系列相关研究工作。例如，基于该数据集的自动评分模型VideoScore，能够模拟人类对生成视频的细粒度反馈，显著提升了视频生成模型的训练效率。此外，该数据集还启发了多个视频生成领域的基准测试工具，如EvalCrafter和GenAI-Bench，进一步推动了视频生成技术的标准化和普及化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集