MJ-BENCH-VIDEO

github2025-02-07 更新2025-02-10 收录

下载链接：

https://github.com/aiming-lab/MJ-Video

下载链接

链接失效反馈

官方服务：

资源简介：

一个大规模的视频偏好基准，旨在从五个关键方面评估视频生成：对齐、安全性、细致度、连贯性与一致性以及偏见与公平性。该基准包含了28个细粒度标准，用于全面评估视频偏好。

A large-scale video preference benchmark designed to evaluate video generation from five critical dimensions: alignment, safety, granularity, coherence and consistency, as well as bias and fairness. This benchmark encompasses 28 fine-grained criteria for comprehensive assessment of video preferences.

创建时间：

2025-02-03

原始信息汇总

MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation

数据集概述

数据集名称：MJ-BENCH-VIDEO
数据集类型：视频偏好细粒度评估数据集
数据集描述：MJ-BENCH-VIDEO是一个用于评估视频生成偏好的大规模视频偏好基准，包含28个细粒度评估标准，用于全面评估视频偏好。
数据集构成：包含多个视频片段和对应的偏好标注。
数据集来源：由aiming-lab创建和维护。
数据集用途：用于评估和改进视频生成模型在偏好评估方面的性能。
模型名称：MJ-VIDEO
模型类型：基于Mixture-of-Experts (MoE)结构的视频奖励模型
模型描述：MJ-VIDEO是一个设计用于提供细粒度奖励的视频奖励模型，能够动态选择相关专家来准确判断基于输入文本-视频对的偏好。

使用说明

安装依赖：提供了针对不同模型的安装命令，包括conda环境创建和pip安装依赖。
数据加载：数据集可以从Hugging Face下载，并使用scripts/data/dataset.py中的代码加载用于训练和评估。
模型训练：使用scripts/train中的代码进行训练，支持自定义数据集。
模型推理：提供了scripts/model/moe-playground.ipynb和相应的Python代码示例进行模型推理。

性能指标

偏好对齐：在MJ-BENCH-VIDEO数据集上的对齐准确性达到78.41%，在严格模式下达到79.05%。
整体视频偏好评估：在MJ-BENCH-VIDEO数据集上的严格模式下整体偏好评估得分达到68.75%。

引用信息

请使用以下bibtex信息引用本数据集：

bibtex @misc{tong2025mjvideofinegrainedbenchmarkingrewarding, title={MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation}, author={Haibo Tong and Zhaoyang Wang and Zhaorun Chen and Haonian Ji and Shi Qiu and Siwei Han and Kexin Geng and Zhongkai Xue and Yiyang Zhou and Peng Xia and Mingyu Ding and Rafael Rafailov and Chelsea Finn and Huaxiu Yao}, year={2025}, eprint={2502.01719}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2502.01719}, }

搜集汇总

数据集介绍

构建方式

MJ-BENCH-VIDEO数据集的构建是基于精细化的视频偏好评价，整合了28项细粒度评价指标，旨在全面评估视频生成模型的性能。该数据集通过收集大量视频和对应的用户偏好标注，采用多维度评价标准，构建了一个大规模的视频偏好基准。

特点

该数据集的特点在于其细粒度的评价标准，涵盖了视频生成的对齐性、安全性、细腻度、连贯性与一致性以及偏见与公平性等多个方面。此外，MJ-BENCH-VIDEO数据集还提供了与之配套的MoE结构的视频奖励模型MJ-VIDEO，该模型能够根据输入的文字-视频对动态选择相关专家，以实现更精确和适应性的偏好判断。

使用方法

用户可以通过Hugging Face下载MJ-BENCH-VIDEO数据集，并使用提供的代码加载数据集进行训练和评估。同时，用户可以参照官方提供的安装指南来配置所需的依赖环境，并根据需要使用预训练的模型或自定义数据集进行训练。对于模型的推理，用户可以参考示例代码进行偏好评分和方面评分的计算。

背景与挑战

背景概述

MJ-BENCH-VIDEO数据集，由Haibo Tong等研究人员于2025年创建，旨在细粒度地评估和奖励视频生成中的用户偏好。该数据集的核心研究问题是提升视频生成模型在指令对齐、安全性、细节精确度、连贯性与一致性以及偏见与公平性五个关键方面的性能。MJ-BENCH-VIDEO集成了28个细粒度的评估标准，为全面评价视频偏好提供了坚实基础。在此基础上，研究人员提出了MJ-VIDEO，一种基于混合专家（MoE）结构的视频奖励模型，能够动态选择相关专家，准确判断输入文本-视频对的偏好。

当前挑战

构建MJ-BENCH-VIDEO数据集的挑战在于，首先，需要设计能够涵盖多个维度的细粒度评估标准，确保能够全面评价视频生成的各个方面；其次，构建奖励模型时，如何实现动态选择专家以适应不同的输入，是技术上的一个挑战；此外，数据集的构建过程中还必须考虑到数据的安全性、公平性以及避免偏见，这些都是数据集构建过程中需要克服的重要问题。

常用场景

经典使用场景

MJ-BENCH-VIDEO作为细粒度视频偏好评估的基准数据集，其经典使用场景在于为视频生成模型提供精确的偏好评分。通过28个细粒度评价指标，该数据集能够全面评估视频内容与用户偏好的契合度，从而指导视频生成模型在alignment、safety、fineness、coherence & consistency以及bias & fairness五个关键方面的优化。

实际应用

在实际应用中，MJ-BENCH-VIDEO可用于视频内容审核、个性化推荐系统以及智能创作工具。例如，它可以辅助内容创作者根据用户偏好生成更受欢迎的视频，也可以帮助视频平台提供更符合用户喜好的推荐内容，从而增强用户体验。

衍生相关工作

基于MJ-BENCH-VIDEO，衍生出了一系列相关研究工作，如MJ-VIDEO模型，该模型通过Mixture-of-Experts结构提供细粒度的视频偏好评分，进一步推动了视频生成领域的研究进展。此外，还有研究者利用该数据集开展视频质量评估、人类行为识别等方向的研究，拓宽了数据集的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集