TIGER-Lab/VideoFeedback
收藏Hugging Face2024-08-10 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/TIGER-Lab/VideoFeedback
下载链接
链接失效反馈官方服务:
资源简介:
VideoFeedback数据集包含37.6K个文本到视频的配对,这些视频来自11个流行的视频生成模型,并且包含一些真实世界的视频作为数据增强。视频由评分者根据五个评估维度进行标注:视觉质量、时间一致性、动态程度、文本到视频对齐和事实一致性,评分范围为1-4。数据集用于训练VideoScore模型。
VideoFeedback数据集包含37.6K个文本到视频的配对,这些视频来自11个流行的视频生成模型,并且包含一些真实世界的视频作为数据增强。视频由评分者根据五个评估维度进行标注:视觉质量、时间一致性、动态程度、文本到视频对齐和事实一致性,评分范围为1-4。数据集用于训练VideoScore模型。
提供机构:
TIGER-Lab
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: Apache 2.0
- 数据集大小: 10K<n<100K
- 任务类别: 视频分类
- 数据集名称: VideoFeedback
- 标签: 视频
数据集配置
配置: annotated
- 特征:
- id: 字符串
- images: 字符串序列
- text prompt: 字符串
- video link: 字符串
- visual quality: 64位整数
- temporal consistency: 64位整数
- dynamic degree: 64位整数
- text-to-video alignment: 64位整数
- factual consistency: 64位整数
- conversations: 列表
- from: 字符串
- value: 字符串
- 分割:
- train:
- 字节数: 64011269
- 样本数: 32901
- test:
- 字节数: 1322027
- 样本数: 680
- train:
- 下载大小: 33780924
- 数据集大小: 65333296
配置: real
- 特征:
- id: 字符串
- images: 字符串序列
- text prompt: 字符串
- video link: 字符串
- visual quality: 64位整数
- temporal consistency: 64位整数
- dynamic degree: 64位整数
- text-to-video alignment: 64位整数
- factual consistency: 64位整数
- conversations: 列表
- from: 字符串
- value: 字符串
- 分割:
- train:
- 字节数: 7946600
- 样本数: 4000
- test:
- 字节数: 159723
- 样本数: 80
- train:
- 下载大小: 2622539
- 数据集大小: 8106323
数据文件
配置: annotated
- 数据文件:
- train: annotated/train-*
- test: annotated/test-*
配置: real
- 数据文件:
- train: real/train-*
- test: real/test-*
搜集汇总
数据集介绍

构建方式
在视频生成模型评估领域,VideoFeedback数据集通过系统化方法构建而成。该数据集整合了来自11种主流视频生成模型产生的文本-视频对,并引入真实世界视频作为数据增强。构建过程中,专业标注人员依据五个核心评估维度——视觉质量、时序一致性、动态程度、文本-视频对齐度以及事实一致性,对每个视频进行1至4分的精细化评分,从而形成了一套结构化的多维度标注体系。
特点
VideoFeedback数据集展现出鲜明的多维度评估特性,其标注体系覆盖了视频生成质量的核心方面。数据集包含两个配置:'annotated'配置提供了大规模的人工标注样本,而'real'配置则补充了真实场景视频,增强了数据的多样性与泛化能力。每个样本不仅包含视频序列与文本提示,还附带了多轮对话记录,为深入分析模型行为与人类反馈的交互提供了丰富语境。
使用方法
该数据集主要服务于视频生成模型的自动化评估指标训练,特别是为VideoScore模型的开发提供支持。研究人员可通过Hugging Face的datasets库便捷加载,支持按特定配置或分割灵活选取数据。典型应用流程包括加载数据集、访问多维评分标签以及分析对话内容,从而构建能够模拟细粒度人类反馈的评估模型,推动视频生成技术的客观量化与持续优化。
背景与挑战
背景概述
随着生成式人工智能技术的迅猛发展,文本到视频生成模型已成为计算机视觉与多媒体领域的前沿研究方向。由TIGER-AI-Lab于2024年发布的VideoFeedback数据集,旨在构建一个大规模、多维度的人工标注视频质量评估基准。该数据集汇集了来自11种主流视频生成模型的37.6K个文本-视频对,并辅以真实世界视频作为数据增强,其核心研究问题聚焦于模拟人类对生成视频的细粒度反馈,以推动自动评估指标的发展。通过标注视觉质量、时序一致性、动态程度、文本-视频对齐及事实一致性五个维度的评分,VideoFeedback为训练如VideoScore等自动评估模型提供了关键数据支撑,显著提升了视频生成系统的可解释性与优化效率。
当前挑战
VideoFeedback数据集致力于解决文本到视频生成领域的综合评估挑战,其核心在于建立能够全面反映人类感知偏好的多维评价体系。具体而言,该领域面临生成视频在视觉逼真度、运动连贯性、内容动态性以及与文本描述的语义对齐等方面的复杂权衡,而现有评估指标往往难以捕捉这些细微差异。在数据集构建过程中,挑战主要源于大规模高质量人工标注的获取,包括确保不同标注者在五个维度上评分的一致性,以及处理来自多样化生成模型的视频在风格与质量上的巨大差异。此外,整合真实视频以增强数据代表性,同时保持与生成视频在评估标准上的可比性,亦是一项艰巨任务。
常用场景
经典使用场景
在视频生成模型评估领域,VideoFeedback数据集为研究者提供了标准化的基准测试平台。该数据集汇集了来自11种主流视频生成模型的数万条文本-视频对,并辅以真实世界视频作为数据增强。其核心应用场景在于训练自动化评估模型,如VideoScore,通过模拟人类在视觉质量、时序一致性、动态程度、文本-视频对齐及事实一致性五个维度的细粒度反馈,实现对生成视频质量的量化评估。这一过程显著提升了模型评估的效率和可重复性,为视频生成技术的迭代优化奠定了数据基础。
解决学术问题
VideoFeedback数据集有效应对了视频生成领域长期存在的评估难题。传统人工评估方法成本高昂且难以规模化,而自动化评估又缺乏可靠的人类反馈数据作为监督信号。该数据集通过系统化收集多维度人工标注,构建了覆盖视觉、时序、语义等多层次质量的评价体系,使得研究者能够基于统一标准比较不同模型的性能差异。这不仅解决了评估标准不一致的学术痛点,还为开发可解释的自动化评估指标提供了数据支撑,推动了视频生成技术向更可控、更可靠的方向发展。
衍生相关工作
围绕VideoFeedback数据集已衍生出系列重要研究工作。其直接催生的VideoScore模型开创了基于人类反馈的自动化视频评估范式,后续研究在此基础上扩展了跨文化语义对齐评估、动态物理合理性检测等新维度。部分团队利用该数据集的标注架构,开发了针对特定领域(如教育解说视频、医疗操作演示)的专项评估数据集。更有学者将视频质量评估框架迁移至3D场景生成评估任务,形成了多模态生成质量评估的技术谱系,持续推动着生成式人工智能评估方法论的发展。
以上内容由遇见数据集搜集并总结生成



