GRADEO-Instruct
收藏arXiv2025-03-04 更新2025-03-06 收录
下载链接:
http://arxiv.org/abs/2503.02341v1
下载链接
链接失效反馈官方服务:
资源简介:
GRADEO-Instruct是一个多维度T2V评估指令调优数据集,由人类标注者提供的3.3k个视频、标注理由和评分构成。该数据集旨在教会多模态大型语言模型(MLLMs)如何根据视频语义理解进行合理的评估。数据集涵盖了从低级视觉感知到高级视觉理解和推理的多个维度,包括质量、美学、一致性、对齐性、逻辑性、安全性和创造性等关键方面。
GRADEO-Instruct is a multi-dimensional instruction-tuning dataset for Text-to-Video (T2V) evaluation, comprising 3.3k videos, annotation rationales and scores provided by human annotators. This dataset is designed to teach multimodal large language models (MLLMs) how to conduct reasonable evaluations based on video semantic understanding. The dataset covers multiple dimensions ranging from low-level visual perception to high-level visual understanding and reasoning, including key aspects such as quality, aesthetics, coherence, alignment, logicality, safety and creativity.
提供机构:
清华大学深圳国际研究生院
创建时间:
2025-03-04
搜集汇总
数据集介绍

构建方式
GRADEO-Instruct数据集的构建是通过从多个现有的视频生成模型中收集了3.3k个视频,并由16k个人工注释转化为多步推理评估。数据集包括从低级视觉质量感知到高级语义理解和视觉推理的七个维度,并针对每个维度精心设计了更细粒度的关键方面和评估标准。通过让人类评估者根据每个维度的评估标准对视频进行评分,并注释其理由,然后使用GPT-4o将这些理由和评分转换为格式化的响应,最终得到了GRADEO-Instruct数据集。
特点
GRADEO-Instruct数据集的特点在于其多维度的评估和人类似的多步推理评估。数据集涵盖了从低级视觉质量感知到高级语义理解和视觉推理的七个维度,并针对每个维度精心设计了更细粒度的关键方面和评估标准。此外,数据集还包括人类评估者提供的评分和理由,以及使用GPT-4o转换的格式化响应,使得数据集更加全面和有用。
使用方法
GRADEO-Instruct数据集的使用方法是通过训练一个多模态大型语言模型(MLLM)来评估AI生成的视频。在数据集上训练的MLLM将学习如何通过多步推理评估视频,从而生成可解释的评分和评估。用户可以提供视频和评估维度,MLLM将根据评估标准生成详细的评估报告,包括概述、描述、分析和评估。最后,MLLM将根据之前的推理过程生成最终评估分数。
背景与挑战
背景概述
在视频生成模型领域,随着近年来技术的飞速发展,视频生成模型已经展现出能够生成高质量视频的潜力,这为有效评估带来了新的挑战。现有的自动评估指标缺乏对视频高级语义理解和推理能力,这使得它们在评估视频时不可行且不可解释。为了填补这一空白,研究人员构建了GRADEO-Instruct数据集,这是一个多维度的文本到视频(T2V)评估指令调整数据集,包括来自10多个现有视频生成模型的3.3k个视频和多步骤推理评估,这些评估是通过16k个人工注释转换而来的。该数据集为开发GRADEO模型提供了基础,GRADEO是第一个专门设计的视频评估模型,它通过多步骤推理为AI生成的视频提供可解释的评分和评估。实验表明,我们的方法与人类评估的一致性比现有方法更好。此外,我们的基准测试揭示了当前视频生成模型在生成与人类推理和复杂现实世界场景相符的内容方面的困难。
当前挑战
GRADEO-Instruct数据集和相关模型的研究面临着多个挑战。首先,在多维评估框架中,度量标准通常依赖于在大规模真实世界图像和视频数据集上训练的预训练模型,这些模型难以准确表示生成视频的分布,限制了它们评估生成内容的能力。其次,传统的非大型语言模型(LLMs)评估方法由于数据集和模型参数的限制,缺乏准确理解视频内容的能力,主要关注低级感知方面,如视觉质量,而忽略了高级语义维度,如毒性、与现实世界场景的一致性和创造力。第三,现有的度量标准,包括SOTA方法VideoScore,只提供分数而没有提供评分背后的解释,导致可解释性差。第四,尽管多模态大型语言模型(MLLMs)具有理解视频内容并根据给定指令评估视频的潜力,但它们并未专门为视频评估任务而训练,与人类偏好缺乏一致性,难以提供准确和全面的生成视频评估。
常用场景
经典使用场景
GRADEO-Instruct数据集主要用于文本到视频生成模型的多维评估,包括视频质量、美学、一致性、对齐、合理性、安全性和创造力等方面。该数据集包含由16k人类注释转换的3.3k个视频,以及由10个现有视频生成模型生成的视频。数据集的构建过程涉及从人类评估者收集三元组(视频、理由、分数),并使用GPT-4o将这些数据转换为格式化的CoT指令调优数据集。该数据集可用于训练机器学习模型,以便它们能够模拟人类评估AI生成的视频。
实际应用
GRADEO-Instruct数据集在实际应用中可用于评估文本到视频生成模型的质量和性能。例如,视频内容创作者可以使用该数据集来评估他们生成的视频是否具有高质量、符合人类评估标准,并且具有创造性。此外,该数据集还可以用于视频生成模型的开发和研究,以改进模型的性能和可解释性。
衍生相关工作
GRADEO-Instruct数据集衍生了相关的工作,例如GRADEO评估模型,它是一个基于GRADEO-Instruct数据集的视频评估模型,能够通过多步推理评估AI生成的视频。此外,该数据集还促进了视频生成模型的基准测试,为研究和开发更高质量的模型提供了重要的参考和指导。
以上内容由遇见数据集搜集并总结生成



