TIP-I2V

Name: TIP-I2V
Creator: 悉尼科技大学
Published: 2024-11-06 02:52:43
License: 暂无描述

arXiv2024-11-06 更新2024-11-11 收录

下载链接：

https://tip-i2v.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

TIP-I2V是由悉尼科技大学和浙江大学联合创建的，包含超过170万条独特的用户提供的文本和图像提示，专门用于图像到视频生成研究。该数据集不仅包含用户提示，还包括由五种最先进的图像到视频扩散模型生成的视频。数据集的创建过程涉及从Pika的Discord频道收集聊天信息，并通过正则表达式提取文本和图像提示。TIP-I2V的应用领域主要集中在提高图像到视频生成模型的质量和安全性，旨在解决模型生成视频中的误导信息问题。

TIP-I2V was jointly created by the University of Technology Sydney and Zhejiang University. It encompasses over 1.7 million unique user-provided text and image prompts, which are specifically dedicated to image-to-video generation research. Besides user prompts, this dataset also contains videos generated by five state-of-the-art image-to-video diffusion models. The dataset creation workflow involves collecting chat logs from Pika's Discord channel and extracting text and image prompts via regular expressions. The primary application areas of TIP-I2V focus on improving the quality and safety of image-to-video generation models, aiming to address the issue of misleading information in model-generated videos.

提供机构：

悉尼科技大学

创建时间：

2024-11-06

原始信息汇总

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

基本信息

标题: TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation
发表: Arxiv 2024
作者:
- Wenhao Wang (University of Technology Sydney)
- Yi Yang (Zhejiang University)
链接:
- Paper
- Data
- Github

数据集概述

规模: 包含超过170万个独特的用户提供的文本和图像提示。
内容: 除了提示外，还包括由五个最先进的图像到视频模型（Pika, Stable Video Diffusion, Open-Sora, I2VGen-XL, 和 CogVideoX-5B）生成的视频。
目的: 促进更好的图像到视频模型的开发，并增强模型的安全性。

数据集特点

排名: 在2024年11月10日，TIP-I2V在Hugging Face数据集趋势列表中排名第一，适用于视觉生成社区（图像到视频、文本到视频、文本到图像和图像到图像）。
特色: 在2024年11月9日，TIP-I2V被Hugging Face的Daily Papers推荐。

数据集详情

摘要:
- 视频生成模型正在革新内容创作，图像到视频模型因其增强的可控性、视觉一致性和实际应用而受到越来越多的关注。
- 当前缺乏专门用于研究这些提示的数据集。TIP-I2V是第一个大规模的图像到视频生成提示数据集，包含超过170万个独特的用户提供的文本和图像提示。
- 数据集还包括由五个最先进的图像到视频模型生成的相应视频。
数据点: 展示了数据集中的一个数据点示例。
统计: 展示了数据集的统计信息。
示例: 展示了数据集中的示例。
比较: 与VidProM和DiffusionDB数据集进行了比较，展示了TIP-I2V的独特性。

联系信息

联系人: Wenhao Wang (wangwenhao0716@gmail.com)

致谢

感谢: 感谢OpenAI通过Researcher Access Program的支持。

搜集汇总

数据集介绍

构建方式

TIP-I2V数据集的构建过程涉及从Pika的官方Discord频道收集用户提供的文本和图像提示，这些提示用于生成视频。通过使用DiscordChatExporter工具，从2023年7月至2024年10月的聊天记录中提取了超过170万条独特的文本和图像提示。此外，数据集还包括由五种最先进的图像到视频扩散模型生成的视频，这些模型包括Pika、Stable Video Diffusion、Open-Sora、I2VGen-XL和CogVideoX-5B。为了确保数据集的多样性和实用性，研究人员可以选择使用这些模型或未来的先进模型来生成更多视频。

特点

TIP-I2V数据集的主要特点在于其规模庞大，包含超过170万条独特的用户提供的文本和图像提示，以及相应的生成视频。这些提示不仅涵盖了广泛的视觉内容，还特别关注如何通过运动将静态图像中的元素带入生活。此外，数据集还包括UUID、时间戳、嵌入向量和NSFW评分等元数据，这些信息有助于后续研究中的数据管理和分析。

使用方法

TIP-I2V数据集的使用方法多样，主要用于图像到视频生成模型的研究和开发。研究人员可以利用这些提示来分析用户偏好，评估模型的多维度性能，并开发更符合实际用户需求的模型。此外，数据集还可用于增强模型的安全性，例如通过训练模型来区分生成的视频与真实视频，或追踪生成视频的源图像，从而减少因图像到视频模型产生的错误信息。

背景与挑战

背景概述

TIP-I2V数据集由悉尼科技大学和浙江大学的研究人员共同创建，旨在为图像到视频生成模型提供大规模的真实文本和图像提示。该数据集包含了超过170万个独特的用户提供的文本和图像提示，以及由五个最先进的图像到视频扩散模型生成的相应视频。TIP-I2V的创建填补了图像到视频生成领域缺乏专门数据集的空白，为研究人员提供了宝贵的资源，以分析用户偏好、评估模型性能，并推动图像到视频生成技术的发展。

当前挑战

TIP-I2V数据集在构建过程中面临多个挑战。首先，收集和整理如此大规模的用户提示数据是一项耗时且成本高昂的任务。其次，数据集中包含的文本和图像提示需要与生成的视频进行精确匹配，以确保数据集的实用性和可靠性。此外，图像到视频生成模型的多样性和复杂性使得生成高质量视频的过程充满挑战。最后，数据集中包含的NSFW内容和潜在的版权问题也需要妥善处理，以确保数据集的合法性和社会责任感。

常用场景

经典使用场景

TIP-I2V数据集的经典使用场景主要集中在图像到视频生成模型的研究与开发。通过提供超过170万条独特的用户提供的文本和图像提示，该数据集为研究人员提供了丰富的资源，以分析用户偏好、评估模型性能，并开发更符合实际需求的图像到视频生成模型。例如，研究人员可以利用这些提示来训练和测试模型，以确保生成的视频在视觉一致性、动作逻辑性和用户控制方面达到高标准。

衍生相关工作

TIP-I2V数据集的发布激发了大量相关研究工作。例如，基于该数据集，研究人员开发了新的图像到视频生成算法，这些算法在保持高视觉质量的同时，显著提高了生成视频的动态性和一致性。此外，还有研究专注于提高模型的安全性，通过训练模型识别和避免生成可能包含虚假信息的内容。其他相关工作还包括开发新的评估基准，以更全面地衡量图像到视频生成模型的性能，以及探索如何通过用户反馈来持续改进模型。

数据集最近研究