TI2V Bench
收藏arXiv2024-12-21 更新2024-12-24 收录
下载链接:
https://wang-sj16.github.io/motif/
下载链接
链接失效反馈官方服务:
资源简介:
TI2V Bench是由布朗大学和Meta的GenAI团队创建的一个用于评估文本引导图像动画生成的数据集。该数据集包含320个图像-文本对,涵盖22种不同的场景,每个场景包含3到5个不同风格的图像和相应的文本提示,旨在生成不同的动画效果。数据集的创建过程包括使用Emu模型生成初始图像,并通过人工评估协议进行验证。TI2V Bench主要用于解决文本引导图像动画生成中的文本对齐和运动生成问题,特别是在复杂场景和细粒度对象参考中的应用。
提供机构:
布朗大学, GenAI, Meta
创建时间:
2024-12-21
搜集汇总
数据集介绍

构建方式
TI2V Bench数据集的构建旨在为文本引导的图像动画生成任务提供一个多样化的评估基准。该数据集包含了320个图像-文本对,涵盖了22种不同的场景,每个场景包含3到5个不同风格的图像以及3到5个用于动画生成的文本提示。为了确保数据集的多样性和挑战性,研究团队设计了多种复杂的场景,如新物体的引入和细粒度的物体参考。图像生成使用了公开的meta.ai工具,并通过人工筛选确保图像质量符合预定义的动作要求。
特点
TI2V Bench数据集的主要特点在于其多样性和复杂性。数据集包含了88个独特的图像和133个独特的文本提示,涵盖了多种场景和动作。每个图像都与多个文本提示配对,以生成不同的动画效果。此外,数据集还特别设计了具有挑战性的场景,如多物体场景和引入新物体的场景,以测试模型在复杂环境下的表现。
使用方法
TI2V Bench数据集主要用于评估文本引导的图像动画生成模型的性能。研究者可以使用该数据集进行模型训练和测试,通过生成的视频与文本提示的对齐程度、图像与视频的一致性、物体运动的自然性等多个维度进行评估。数据集还提供了一个基于人类评估的协议,通过A/B测试让标注者选择最优视频并给出选择理由,从而生成一个综合的TI2V评分,帮助研究者更全面地评估模型的表现。
背景与挑战
背景概述
TI2V Bench是由Brown University和Meta的研究团队于2024年提出的一个用于评估文本引导图像动画生成(Text-Image-to-Video, TI2V)的数据集。该数据集包含320个图像-文本对,涵盖22种不同的场景,旨在通过多样化的图像和文本组合来评估模型在生成与文本描述一致的视频时的表现。TI2V Bench的提出填补了该领域缺乏多样化评估基准的空白,尤其关注于生成与文本描述一致且具有动态效果的视频。该数据集的发布为TI2V生成任务提供了更为全面和严格的评估标准,推动了该领域的研究进展。
当前挑战
TI2V Bench的构建面临多个挑战。首先,文本引导的图像动画生成任务要求模型不仅能够生成与文本描述一致的视频,还需确保视频中的动态效果与文本描述的动词或动作相匹配。这一任务的难点在于模型需要从静态图像中推断出动态信息,并生成符合文本描述的连续帧。其次,构建TI2V Bench时,研究团队需要设计多样化的场景和文本描述,以确保数据集的广泛性和挑战性。此外,评估TI2V生成效果的自动化指标往往难以准确反映人类感知,因此研究团队采用了基于人类评估的A-B测试方法,要求评估者不仅选择更优的视频,还需解释其选择依据,从而确保评估的准确性和可靠性。
常用场景
经典使用场景
TI2V Bench 数据集的经典使用场景主要集中在文本引导的图像动画生成任务中。该数据集通过提供320个图像-文本对,涵盖了22种不同的复杂场景,旨在评估模型在生成与文本描述一致的视频时的表现。通过这些数据,研究者可以测试模型在处理复杂文本指令和生成动态视频内容方面的能力,尤其是在涉及多个对象或新对象引入的场景中。
解决学术问题
TI2V Bench 数据集解决了文本引导图像动画生成中的关键学术问题,特别是如何使生成的视频与文本描述保持一致。现有方法往往难以处理复杂的文本指令,尤其是在涉及动态变化的场景中。TI2V Bench 通过提供多样化的图像-文本对,帮助研究者开发和评估能够更好地理解文本指令并生成高质量动态视频的模型。
衍生相关工作
TI2V Bench 数据集的提出催生了一系列相关研究工作,特别是在文本引导的图像动画生成领域。例如,基于该数据集的研究者开发了多种改进的模型,如 Motion Focal Loss (MotiF),通过引入运动热图重新加权损失,显著提升了模型在处理动态场景中的表现。此外,该数据集还推动了更多关于视频生成评估方法的研究,特别是在人类评估协议的设计和实施方面。
以上内容由遇见数据集搜集并总结生成



