ChronoMagic-Bench
收藏arXiv2024-06-27 更新2024-06-28 收录
下载链接:
https://github.com/PKU-YuanGroup/ChronoMagic-Bench
下载链接
链接失效反馈官方服务:
资源简介:
ChronoMagic-Bench是由北京大学深圳研究生院开发的一个新型文本到时间流逝视频生成评估基准。该数据集包含1,649个提示和真实世界视频作为参考,分为生物、人类创造、气象和物理现象四大类,进一步细分为75个子类别。数据集的创建过程涉及手动构建搜索词数据库,并通过视频平台爬取高质量视频。ChronoMagic-Bench旨在通过评估视频的变形属性和时间一致性,解决现有视频生成研究中的评估缺口,特别适用于需要高度物理内容和时间变化的视频生成研究。
ChronoMagic-Bench is a novel text-to-video generation evaluation benchmark developed by the Shenzhen Graduate School of Peking University. The dataset contains 1,649 prompts and real-world videos for reference, categorized into four major types: biological, human creation, meteorological, and physical phenomena, further subdivided into 75 subcategories. The creation process of the dataset involved manually constructing a search term database and crawling high-quality videos from video platforms. ChronoMagic-Bench aims to address the evaluation gap in existing video generation research by assessing the deformation properties and temporal consistency of videos, particularly suitable for video generation research that requires high physical content and temporal variation.
提供机构:
北京大学深圳研究生院
创建时间:
2024-06-27
原始信息汇总
ChronoMagic-Bench 数据集概述
基本信息
- 论文标题: [NeurIPS D&B 2024 Spotlight] ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation
- 论文链接: https://arxiv.org/abs/2406.18522
- 项目主页: https://pku-yuangroup.github.io/ChronoMagic-Bench/
- GitHub仓库: https://github.com/PKU-YuanGroup/ChronoMagic-Bench
- 许可证: Apache 2.0
数据集资源
- ChronoMagic-Bench: 1649个延时视频-文本对 (GPT-4o标注)
- ChronoMagic-Bench-150: 150个延时视频-文本对 (GPT-4o标注)
- ChronoMagic: 2265个延时视频-文本对 (GPT-4V标注)
- ChronoMagic-Pro: 460K个延时视频-文本对 (ShareGPT4Video标注)
- ChronoMagic-ProH: 150K个延时视频-文本对 (ShareGPT4Video标注)
数据集特点
- 主要目标: 评估文本到视频生成模型在物理、生物和化学领域的先验知识能力
- 核心特点:
- 强调生成具有高持久性和强变化的视频(变形延时视频)
- 包含丰富的物理先验内容
分类体系
- 四大类别:
- 生物类
- 人造类
- 气象类
- 物理类
- 子类别: 75个
评估指标
- 视觉质量
- 文本相关性
- 变形幅度
- 时间连贯性
对比其他基准
| 基准名称 | 类型 | 视觉质量 | 文本相关性 | 变形幅度 | 时间连贯性 |
|---|---|---|---|---|---|
| UCF-101 | 通用 | ✔️ | ✔️ | ❌ | ❌ |
| Make-a-Video-Eval | 通用 | ✔️ | ✔️ | ❌ | ❌ |
| MSR-VTT | 通用 | ✔️ | ✔️ | ❌ | ❌ |
| FETV | 通用 | ✔️ | ✔️ | ❌ | ✔️ |
| VBench | 通用 | ✔️ | ✔️ | ❌ | ✔️ |
| T2VScore | 通用 | ✔️ | ✔️ | ❌ | ❌ |
| ChronoMagic-Bench | 延时 | ✔️ | ✔️ | ✔️ | ✔️ |
使用方法
- 准备评估视频: 按特定命名规范组织视频文件
- 运行评估: 计算MTScore、CHScore和GPT4o-MTScore
- 查看结果: 可在本地运行或查看在线排行榜
相关项目
- Open-Sora Plan: 开源大型视频生成模型
- MagicTime: 作为变形模拟器的延时视频生成模型
- ConsisID: 通过频率分解实现身份保持的文本到视频生成
搜集汇总
数据集介绍

构建方式
ChronoMagic-Bench数据集的构建,旨在评估文本到视频生成模型在时间流逝视频生成方面的能力。数据集包含了1,649个提示和相应的参考视频,这些视频被分为四大类:生物、人类创造、气象和物理现象,并进一步细分为75个子类别。为了构建这个数据集,研究团队首先创建了一个适合各种广泛适用的延时视频的搜索词数据库,然后根据频率对这些搜索词进行筛选。最后,使用GPT-4o为这些视频生成准确的字幕,并将这些字幕作为基准的文本提示。
特点
ChronoMagic-Bench数据集的特点在于其全面性和多样性。数据集包含了涵盖广泛物理现象的延时视频,这些视频具有显著的形态变化幅度和时间连贯性。此外,ChronoMagic-Bench还引入了两个新的自动指标MTScore和CHScore,分别用于评估视频的形态变化幅度和时间连贯性。MTScore衡量形态变化幅度,反映了随时间变化的程度,而CHScore评估时间连贯性,确保生成的视频保持逻辑上的连续性和连贯性。
使用方法
ChronoMagic-Bench数据集的使用方法包括评估文本到视频生成模型的能力。研究人员可以输入文本提示,并使用数据集中的参考视频来评估模型生成的延时视频的质量。此外,MTScore和CHScore等自动指标可以用于量化评估视频的形态变化幅度和时间连贯性。这些指标可以与现有的视觉质量和文本相关性指标相结合,以全面评估模型的表现。
背景与挑战
背景概述
ChronoMagic-Bench是一个专门用于评估文本到时间流逝视频生成模型的新颖基准。该数据集由北京大学的元组、深圳研究生院、兔比特智能、罗切斯特大学、上海交通大学、新加坡国立大学和加州大学圣克鲁兹分校的研究人员于2024年6月共同创建。ChronoMagic-Bench旨在评估T2V模型(如Sora和Lumiere)在时间流逝视频生成中的时间和形态变化能力。与现有主要关注生成视频的视觉质量和文本相关性的基准不同,ChronoMagic-Bench专注于模型生成具有显著形态变化幅度和时空一致性的时间流逝视频的能力。ChronoMagic-Bench通过自由文本查询来测试T2V模型在物理、生物和化学方面的能力。为了实现这一目标,ChronoMagic-Bench引入了1649个提示和真实世界视频作为参考,这些视频被分为四大类时间流逝视频:生物、人为创造、气象和物理现象,进一步细分为75个子类别。这种分类确保了对模型处理多样性和复杂变换能力的全面评估。为了准确地将人类偏好与基准对齐,ChronoMagic-Bench引入了两个新的自动指标,MTScore和CHScore,以评估视频的形态变化属性和时空一致性。MTScore衡量形态变化幅度,反映随时间变化的程度,而CHScore评估时空一致性,确保生成的视频保持逻辑进展和连续性。基于ChronoMagic-Bench,我们对十个具有代表性的T2V模型进行了全面的手动评估,揭示了它们在不同提示类别中的优势和劣势,并提供了一个全面评估框架,以解决视频生成研究中的当前差距。此外,我们还创建了一个大规模的ChronoMagic-Pro数据集,包含460k对高质量720p时间流逝视频和详细字幕。每个字幕确保具有高物理相关性和大的形态变化幅度,这对T2V生成社区产生了深远的影响。
当前挑战
ChronoMagic-Bench面临的主要挑战包括:1) 现有T2V模型在生成具有大变化的视频方面普遍失败;2) 对提示的遵循性差(因此需要多次推理才能达到满意的结果);3) 即使单帧的视觉质量可能很高,但序列播放时闪烁,表明时空一致性差。此外,ChronoMagic-Bench提出的MTScore和CHScore指标旨在评估视频的形态变化幅度和时空一致性,但这些指标只能相对反映不同T2V模型的质量,并不能确定视频是否遵循物理定律。例如,MCM的MTScore相对较高,但视频变化异常。此外,尽管我们使用最佳现有的UMT-FVD和UMTScore来评估视觉质量和文本相关性,但由于特征空间的适用性,不同领域(开源/闭源)的模型无法进行比较。
常用场景
经典使用场景
ChronoMagic-Bench数据集被广泛应用于评估文本到时间跨度视频生成模型的能力,特别是其在处理时间变化和形态变化方面的性能。该数据集包含了1,649个提示和相应的参考视频,涵盖了生物学、人为创造、气象和物理现象四大类别,以及75个子类别。通过使用ChronoMagic-Bench,研究人员可以评估模型在生成具有显著形态幅度和时序一致性的时间跨度视频方面的能力,这对于模型在现实世界中的应用至关重要。
实际应用
ChronoMagic-Bench数据集在实际应用中具有广泛的前景。它可以用于教育领域,帮助学生更好地理解生物学、气象学、物理学等领域的知识。此外,该数据集还可以用于媒体制作,帮助制作人员生成高质量的时间跨度视频,从而提升媒体内容的吸引力。同时,ChronoMagic-Bench还可以用于科学研究,帮助研究人员更好地理解时间变化和形态变化的过程。
衍生相关工作
ChronoMagic-Bench数据集的推出,衍生了许多相关的研究工作。例如,一些研究人员使用该数据集对现有的文本到视频生成模型进行了评估,并提出了改进模型性能的方法。此外,一些研究人员还基于ChronoMagic-Bench数据集,提出了新的自动评估指标,以更准确地评估模型在生成时间跨度视频方面的能力。这些相关的研究工作,进一步推动了文本到视频生成领域的发展。
以上内容由遇见数据集搜集并总结生成



