MV-Video

Hugging Face2024-10-22 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/yanqinJiang/MV-Video

下载链接

链接失效反馈

官方服务：

资源简介：

MV-Video数据集是一个大规模的多视角视频数据集，由53K个动画3D对象渲染而成。该数据集用于训练Animate3D模型，该模型能够通过多视角视频扩散技术动画化任何3D模型。每个对象渲染16个均匀分布的视角，视角的仰角在0-30度之间随机采样，起始方位角有±11.25度的随机偏移。提供的视频长度为2秒（24帧每秒），对于2-4秒的动画，渲染前2秒；对于超过4秒的动画，渲染前2秒和后2秒。对于有超过6个动画的对象，随机采样6个动画以避免过拟合。数据集包含多个压缩文件，解压后包含视频文件和元信息文件。数据集的部分数据被过滤，提供的数量略少于论文中报告的数量。约7.7K个对象被标记为最高质量。文本提示可能不准确，鼓励用户使用高级视频字幕模型重新标注。数据集的使用遵循ODC-By v1.0许可证，渲染对象的许可证包括CC-BY 4.0、CC-BY-NC 4.0、CC-BY-SA 4.0、CC-BY-NC-SA 4.0和CC0 1.0。

The MV-Video Dataset is a large-scale multi-view video dataset rendered from 53K animated 3D objects. It is used to train the Animate3D model, which can animate any 3D model via multi-view video diffusion technology. For each object, 16 uniformly distributed views are rendered; the elevation angles of the views are randomly sampled within 0–30 degrees, and the initial azimuth angles have random offsets of ±11.25 degrees. The provided videos have a duration of 2 seconds (24 frames per second). For animations lasting 2–4 seconds, only the first 2 seconds are rendered; for animations longer than 4 seconds, both the first 2 seconds and the last 2 seconds are rendered. For objects with more than 6 animations, 6 animations are randomly sampled to avoid overfitting. The dataset consists of multiple compressed files, which contain video files and metadata files after decompression. Portions of the dataset have been filtered, so the actual available quantity is slightly less than that reported in the paper. Approximately 7.7K objects are labeled as having the highest quality. The text prompts may be inaccurate, and users are encouraged to use advanced video captioning models for re-annotation. The use of the dataset is governed by the ODC-By v1.0 license, and the licenses for the rendered objects include CC-BY 4.0, CC-BY-NC 4.0, CC-BY-SA 4.0, CC-BY-NC-SA 4.0 and CC0 1.0.

创建时间：

2024-10-21

原始信息汇总

MV-Video 数据集

概述

MV-Video 是一个大规模的多视角视频数据集，由 53K 个动画 3D 对象渲染而成。该数据集用于训练 Animate3D: Animating Any 3D Model with Multi-view Video Diffusion。

渲染细节

每个对象渲染 16 个视图，均匀分布在方位角上。
仰角（elv）在 0-30 度之间随机采样，起始方位角（azi_start）应用 ±11.25 度的随机偏移。
每个视频时长为 2 秒（24 fps）。对于 2-4 秒的动画，渲染前 2 秒；对于超过 4 秒的动画，渲染前 2 秒和后 2 秒。
对于超过 6 个动画的对象，随机采样 6 个动画以避免过拟合。

数据结构

数据集包含多个 multi_view_video_*.tar.gz 文件，提取后结构如下：

videos/ ├── [UID1]/ │ ├── 00/ │ │ ├── view_0.mp4 │ │ ├── view_1.mp4 │ │ └── ... │ ├── 01/ │ │ ├── view_0.mp4 │ │ ├── view_1.mp4 │ │ └── ... │ └── ... ├── [UID2]/ │ ├── 00/ │ │ ├── view_0.mp4 │ │ ├── view_1.mp4 │ │ └── ... │ └── ... └── ...

提供 uid_info_dict.json 文件，包含 3D 对象的元信息。

注意事项

数据集中约有 500 个动画模型在数据检查过程中被过滤，因此提供的数据略少于论文中报告的数量。
标记了约 7.7K 个对象为 最高质量，列在 high_quality_uid.txt 文件中。
使用 Minigpt4-video 为多视角视频添加文本提示，部分动画的文本提示可能不准确，建议用户使用高级视频字幕模型重新标注。

许可证

数据集使用 ODC-By v1.0 许可证。渲染对象的许可证如下：

CC-BY 4.0 - 50,000
CC-BY-NC 4.0 ~ 1,500
CC-BY-SA 4.0 ~ 400
CC-BY-NC-SA 4.0 ~ 400
CC0 1.0 ~ 100

引用

@article{ jiang2024animate3d, title={Animate3D: Animating Any 3D Model with Multi-view Video Diffusion}, author={Yanqin Jiang and Chaohui Yu and Chenjie Cao and Fan Wang and Weiming Hu and Jin Gao}, booktitle={arXiv}, year={2024}, }

搜集汇总

数据集介绍

构建方式

MV-Video数据集通过从53,000个动画3D对象中渲染生成，构建了一个大规模的多视角视频数据集。每个对象在方位角上均匀渲染16个视角，俯仰角在0至30度之间随机采样，并在起始方位角上应用±11.25度的随机偏移。视频长度为2秒（24帧/秒），对于2至4秒的动画，仅渲染前2秒；超过4秒的动画则渲染前2秒和后2秒。为避免过拟合，每个对象最多随机采样6个动画。

特点

MV-Video数据集以其大规模和多视角渲染为显著特点，涵盖了丰富的3D动画对象。数据集中的每个对象均包含多个视角的视频，且每个视角的视频均配有详细的元信息，如俯仰角、方位角偏移以及动画描述。此外，数据集还提供了约7,700个高质量对象的标记，并通过Minigpt4-video模型对多视角视频进行了标注，尽管部分标注可能存在不准确性，但为用户提供了重新标注的基础。

使用方法

用户可以通过下载并解压`multi_view_video_*.tar.gz`文件来获取数据集，解压后的视频文件将存储在`videos`文件夹中，文件夹结构按对象唯一标识符（UID）和动画编号进行组织。数据集还提供了`uid_info_dict.json`文件，包含每个3D对象的元信息，如模型URL、动画角度和文本提示。用户可根据需要重新标注视频，或利用高质量对象的标记进行进一步研究。数据集的使用遵循ODC-By v1.0许可，确保数据的合法性和开放性。

背景与挑战

背景概述

MV-Video数据集由Yanqin Jiang等研究人员于2024年发布，旨在为3D模型动画生成提供大规模的多视角视频数据。该数据集包含从53,000个动画3D对象中渲染的多视角视频，主要用于支持Animate3D项目的研究。Animate3D项目致力于通过多视角视频扩散技术实现任意3D模型的动画生成。MV-Video的发布为3D动画生成领域提供了丰富的数据资源，推动了基于扩散模型的3D动画生成技术的发展。数据集中的每个对象均以16个均匀分布的视角进行渲染，并结合随机采样和偏移技术，确保了数据的多样性和广泛适用性。

当前挑战

MV-Video数据集在构建过程中面临多重挑战。首先，数据集的渲染过程需要处理大量3D模型，确保每个模型的多视角视频在时间和空间上的一致性，这对计算资源和算法效率提出了较高要求。其次，数据集中部分动画的描述文本由MiniGPT4-video生成，可能存在不准确的情况，用户需依赖更先进的视频标注模型进行重新标注。此外，数据集中约有500个动画模型在数据检查过程中被过滤，导致实际提供的数据量略低于论文中报告的数量。这些挑战不仅影响了数据集的质量，也对后续研究的准确性和可靠性提出了更高的要求。

常用场景

经典使用场景

MV-Video数据集在计算机视觉和三维动画领域具有广泛的应用，特别是在多视角视频生成和三维模型动画化研究中。该数据集通过提供53K个动画三维对象的多视角视频渲染，为研究者提供了一个丰富的训练资源。经典的使用场景包括利用这些多视角视频进行深度学习模型的训练，以生成逼真的三维动画效果。

实际应用

在实际应用中，MV-Video数据集被广泛用于影视制作、游戏开发和虚拟现实等领域。通过利用该数据集训练的多视角视频生成模型，开发者可以快速生成高质量的三维动画，提升内容制作的效率和质量。此外，该数据集还可用于教育和培训，帮助学习者更好地理解三维动画的制作过程。

衍生相关工作

MV-Video数据集衍生了一系列经典研究工作，其中最著名的是Animate3D项目。该项目利用该数据集训练了多视角视频扩散模型，实现了对任意三维模型的动画化。此外，基于该数据集的研究还推动了多视角视频生成、三维模型重建和动画生成等领域的发展，产生了许多创新性的算法和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集