InstanceVid

Hugging Face2024-12-16 更新2024-12-17 收录

下载链接：

https://huggingface.co/datasets/AnonMegumi/InstanceVid

下载链接

链接失效反馈

官方服务：

资源简介：

InstanceVid是一个用于文本到视频生成模型训练的子集，属于OpenVid-1M。它包含了视频文件及其相关的文本描述，以及视频的详细信息如帧数、高度、宽度、宽高比、帧率和分辨率。数据集的发布遵循CC-BY-4.0许可，视频样本来自公开的数据集，用户在使用这些视频样本时必须遵守相关的许可协议。

创建时间：

2024-12-05

原始信息汇总

InstanceVid

概述

InstanceVid 是一个用于文本到视频生成任务的数据集，属于 OpenVid-1M 的子集。该数据集主要用于视频生成模型的训练，特别是文本到视频扩散模型的训练。

数据集信息

任务类别: 文本到视频生成
语言: 英语
标签: 文本到视频生成, 视频生成模型训练, 文本到视频扩散模型训练, 提示
数据集大小: 10K<n<100K
许可证: CC-BY-4.0

使用方法

用户需要从 OpenVid-1M 获取相应的视频文件，并提供给仓库索引。数据集中包含三个文件：

原始 InstanceCap (Instancecap.jsonl)
压缩的 Dense 形式 (InstanceCap_Dense.csv/jsonl)

除了 Caption 外，数据集还记录了视频的帧数、高度、宽度、宽高比、帧率和分辨率等信息。

许可证

InstanceVid 数据集以 CC-BY-4.0 许可证发布。视频样本来自公开可用的数据集，用户在使用这些视频样本时必须遵循相关的许可证，包括 Panda, ChronoMagic, Open-Sora-plan, CelebvHQ(未知)。

引用

@misc{fan2024instancecapimprovingtexttovideogeneration, title={InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption}, author={Tiehan Fan and Kepan Nan and Rui Xie and Penghao Zhou and Zhenheng Yang and Chaoyou Fu and Xiang Li and Jian Yang and Ying Tai}, year={2024}, eprint={2412.09283}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2412.09283}, }

@article{nan2024openvid, title={OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation}, author={Nan, Kepan and Xie, Rui and Zhou, Penghao and Fan, Tiehan and Yang, Zhenheng and Chen, Zhijie and Li, Xiang and Yang, Jian and Tai, Ying}, journal={arXiv preprint arXiv:2407.02371}, year={2024} }

搜集汇总

数据集介绍

构建方式

InstanceVid数据集的构建基于OpenVid-1M，这是一个大规模的高质量文本到视频生成数据集。为了构建InstanceVid，研究团队从OpenVid-1M中提取了部分视频数据，并生成了三种不同格式的文件：原始的InstanceCap（Instancecap.jsonl）、压缩后的Dense形式（InstanceCap_Dense.csv/jsonl）。这些文件不仅包含视频的描述信息，还记录了视频的帧数、高度、宽度、宽高比、帧率以及分辨率等详细信息。通过这种方式，InstanceVid为文本到视频生成任务提供了丰富的实例级结构化描述。

特点

InstanceVid数据集的主要特点在于其结构化的实例级描述，这种描述方式能够为文本到视频生成任务提供更为精确的指导。此外，数据集提供了多种格式的文件，包括原始的JSONL格式和压缩后的CSV/JSONL格式，便于用户根据需求选择合适的文件进行处理。数据集还包含了视频的详细元数据，如帧数、分辨率等，这些信息对于视频生成模型的训练和评估具有重要意义。

使用方法

使用InstanceVid数据集时，用户首先需要从OpenVid-1M中获取相应的视频文件，并根据需求选择合适的文件格式进行处理。数据集提供了三种文件格式：原始的InstanceCap（Instancecap.jsonl）、压缩后的Dense形式（InstanceCap_Dense.csv/jsonl）。用户可以根据任务需求选择合适的文件格式，并结合视频的详细元数据进行模型训练或评估。此外，用户在使用数据集时需遵循相关的许可证要求，确保合法使用。

背景与挑战

背景概述

InstanceVid数据集是由南京大学PCALab团队于2024年推出的一个专注于文本到视频生成任务的高质量数据集。该数据集作为OpenVid-1M的子集，旨在通过提供结构化的实例感知字幕，推动文本到视频生成模型的训练与研究。主要研究人员包括Tiehan Fan、Kepan Nan等，他们的研究成果发表在arXiv上，题为《InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption》。InstanceVid的推出不仅丰富了文本到视频生成领域的数据资源，还为相关研究提供了新的实验平台，进一步推动了视频生成技术的发展。

当前挑战

InstanceVid数据集在构建过程中面临多项挑战。首先，如何从大规模的OpenVid-1M数据集中筛选出高质量的视频片段，并确保这些片段能够有效支持文本到视频生成模型的训练，是一个复杂的问题。其次，数据集的结构化字幕生成需要精确的实例感知技术，以确保字幕与视频内容的高度匹配，这对算法提出了较高的要求。此外，数据集的版权问题也是一个重要挑战，研究人员需要确保所有视频样本的合法使用，并遵循相关数据集的许可协议。

常用场景

经典使用场景

InstanceVid数据集在文本到视频生成领域中具有广泛的应用，尤其适用于训练和评估文本到视频扩散模型。该数据集通过提供丰富的视频片段及其对应的文本描述，使得模型能够学习如何从文本生成高质量的视频内容。其经典使用场景包括但不限于：基于文本提示生成视频、视频生成模型的预训练以及视频内容与文本描述的对齐研究。

实际应用

在实际应用中，InstanceVid数据集为多个领域提供了强大的支持。例如，在影视制作中，它可以帮助生成动态的场景预览或特效片段；在教育领域，可用于生成动态的教学视频；在广告和营销中，能够根据文本描述快速生成创意视频内容。此外，该数据集还为虚拟现实和增强现实中的动态内容生成提供了基础支持。

衍生相关工作

基于InstanceVid数据集，研究者们开展了一系列相关工作。例如，有研究利用该数据集训练了更高效的文本到视频扩散模型，提升了生成视频的流畅度和真实感。此外，还有工作探索了如何通过实例感知的结构化描述来增强生成视频的细节表达和语义一致性。这些衍生工作不仅推动了文本到视频生成技术的发展，也为相关领域的应用提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集