OpenVid-1M

Name: OpenVid-1M
Creator: maas
Published: 2026-05-23 03:53:41
License: 暂无描述

魔搭社区2026-05-23 更新2024-06-25 收录

下载链接：

https://modelscope.cn/datasets/AI-ModelScope/OpenVid-1M

下载链接

链接失效反馈

官方服务：

资源简介：

<p align="center"> <img src="https://huggingface.co/datasets/nkp37/OpenVid-1M/resolve/main/OpenVid-1M.png"> </p> # Summary This is the dataset proposed in our paper [**[ICLR 2025] OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation**](https://arxiv.org/abs/2407.02371). OpenVid-1M is a high-quality text-to-video dataset designed for research institutions to enhance video quality, featuring high aesthetics, clarity, and resolution. It can be used for direct training or as a quality tuning complement to other video datasets. All videos in the OpenVid-1M dataset have resolutions of at least 512×512. Furthermore, we curate 433K 1080p videos from OpenVid-1M to create OpenVidHD, advancing high-definition video generation. **Project**: [https://nju-pcalab.github.io/projects/openvid](https://nju-pcalab.github.io/projects/openvid) **Code**: [https://github.com/NJU-PCALab/OpenVid](https://github.com/NJU-PCALab/OpenVid)   # Directory ``` DATA_PATH └─ README.md └─ data └─ train └─ OpenVid-1M.csv └─ OpenVidHD.csv └─ OpenVidHD └─ README.md └─ OpenVidHD.json └─ OpenVidHD_part_1.zip └─ OpenVidHD_part_2.zip └─ OpenVidHD_part_3.zip └─ ... └─ OpenVid_part0.zip └─ OpenVid_part1.zip └─ OpenVid_part2.zip └─ ... ``` Note: The zip files in the `nkp37/OpenVid-1M` directory contain the complete 1M dataset, which already includes all data from `openVidHD-0.4M`. Previously, users who only wanted to access `openVidHD-0.4M` had to download the entire 1M dataset and filter it themselves. To make this process easier, we now provide the standalone `openVidHD-0.4M` dataset under `nkp37/OpenVid-1M/openVidHD`. If you only wish to use `openVidHD-0.4M`, you can now download this subset directly. # Download Please refer to [**download script**](https://github.com/NJU-PCALab/OpenVid-1M/blob/main/download_scripts/download_OpenVid.py) to download OpenVid-1M. You can also download each file by ```wget```, for instance: ``` wget https://huggingface.co/datasets/nkp37/OpenVid-1M/resolve/main/OpenVid_part0.zip wget https://huggingface.co/datasets/nkp37/OpenVid-1M/resolve/main/OpenVid_part1.zip wget https://huggingface.co/datasets/nkp37/OpenVid-1M/resolve/main/OpenVid_part2.zip ... ``` We have uploaded a separate [**OpenVidHD-0.4M**](https://huggingface.co/datasets/nkp37/OpenVid-1M/tree/main/OpenVidHD) for convenient download. This will be helpful if you only want to use OpenVidHD-0.4M, and it requires about 4.5TB of storage space. You can open [**OpenVidHD.json**](https://huggingface.co/datasets/nkp37/OpenVid-1M/blob/main/OpenVidHD/OpenVidHD.json) to view the list of video names included in each ZIP file. # Usage You can unzip each OpenVid_part*.zip file by ```unzip```, for instance: ``` unzip -j OpenVid_part0.zip -d video_folder unzip -j OpenVid_part1.zip -d video_folder unzip -j OpenVid_part2.zip -d video_folder ... ``` We split some large files (> 50G) into multiple small files, you can recover these files by ```cat```, for instance: ``` cat OpenVid_part73_part* > OpenVid_part73.zip unzip -j OpenVid_part73.zip -d video_folder ``` ``OpenVid-1M.csv`` and ``OpenVidHD.csv`` contains the text-video pairs. They can easily be read by ```python import pandas as pd df = pd.read_csv("OpenVid-1M.csv") ``` # Model Weights We also provide pre-trained model weights on our OpenVid-1M in model_weights. Please refer to [**here**](https://huggingface.co/nkp37/OpenVid-1M). # License Our OpenVid-1M dataset is released under the CC-BY-4.0 license and is intended for research and non-commercial purposes. The video samples are collected from publicly available datasets. Users must follow the related licenses [Panda](https://github.com/snap-research/Panda-70M/tree/main?tab=readme-ov-file#license-of-panda-70m), [ChronoMagic](https://github.com/PKU-YuanGroup/MagicTime?tab=readme-ov-file#-license), [Open-Sora-plan](https://github.com/PKU-YuanGroup/Open-Sora-Plan?tab=readme-ov-file#-license), CelebvHQ(Unknow)) to use these video samples. # Citation ``` @article{nan2024openvid, title={OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation}, author={Nan, Kepan and Xie, Rui and Zhou, Penghao and Fan, Tiehan and Yang, Zhenheng and Chen, Zhijie and Li, Xiang and Yang, Jian and Tai, Ying}, journal={arXiv preprint arXiv:2407.02371}, year={2024} } ```

<p align="center"> <img src="https://huggingface.co/datasets/nkp37/OpenVid-1M/resolve/main/OpenVid-1M.png"> </p> # 摘要本数据集出自我们发表于[**[ICLR 2025] OpenVid-1M：面向文本到视频生成（Text-to-video Generation）的大规模高质量数据集**](https://arxiv.org/abs/2407.02371)的论文。 OpenVid-1M是一款专为科研机构优化视频质量打造的高质量文本到视频数据集，具备高美学质感、清晰画质与高分辨率特性。其既可直接用于模型训练，也可作为其他视频数据集的质量微调补充集。 OpenVid-1M数据集中所有视频的分辨率均不低于512×512。此外，我们从OpenVid-1M中精选出43.3万条1080p视频，构建了OpenVidHD，以推进高清视频生成领域的研究。 **项目主页**：[https://nju-pcalab.github.io/projects/openvid](https://nju-pcalab.github.io/projects/openvid) **代码仓库**：[https://github.com/NJU-PCALab/OpenVid](https://github.com/NJU-PCALab/OpenVid) # 目录结构 DATA_PATH └─ README.md └─ data └─ train └─ OpenVid-1M.csv └─ OpenVidHD.csv └─ OpenVidHD └─ README.md └─ OpenVidHD.json └─ OpenVidHD_part_1.zip └─ OpenVidHD_part_2.zip └─ OpenVidHD_part_3.zip └─ ... └─ OpenVid_part0.zip └─ OpenVid_part1.zip └─ OpenVid_part2.zip └─ ... ## 注意事项 `nkp37/OpenVid-1M` 目录下的压缩包包含完整的100万条数据集，其本身已涵盖 `OpenVidHD-0.4M` 的全部数据。此前，仅需使用 `OpenVidHD-0.4M` 的用户需下载完整的100万条数据集后自行筛选。为简化这一流程，我们现已在 `nkp37/OpenVid-1M/OpenVidHD` 路径下提供独立的 `OpenVidHD-0.4M` 数据集。若您仅需使用 `OpenVidHD-0.4M`，可直接下载该子集。 # 下载方式请参照[**下载脚本**](https://github.com/NJU-PCALab/OpenVid-1M/blob/main/download_scripts/download_OpenVid.py)获取OpenVid-1M数据集。您也可通过`wget`命令单独下载各文件，示例如下： wget https://huggingface.co/datasets/nkp37/OpenVid-1M/resolve/main/OpenVid_part0.zip wget https://huggingface.co/datasets/nkp37/OpenVid-1M/resolve/main/OpenVid_part1.zip wget https://huggingface.co/datasets/nkp37/OpenVid-1M/resolve/main/OpenVid_part2.zip ... 我们已单独上传[**OpenVidHD-0.4M**](https://huggingface.co/datasets/nkp37/OpenVid-1M/tree/main/OpenVidHD)以方便下载。若您仅需使用OpenVidHD-0.4M，该子集将为您提供便利，其占用存储空间约为4.5TB。您可打开[**OpenVidHD.json**](https://huggingface.co/datasets/nkp37/OpenVid-1M/blob/main/OpenVidHD/OpenVidHD.json)查看每个压缩包包含的视频名称列表。 # 使用方法您可通过`unzip`命令解压各`OpenVid_part*.zip`文件，示例如下： unzip -j OpenVid_part0.zip -d video_folder unzip -j OpenVid_part1.zip -d video_folder unzip -j OpenVid_part2.zip -d video_folder ... 我们将部分大于50GB的大文件拆分为多个小文件，您可通过`cat`命令合并还原，示例如下： cat OpenVid_part73_part* > OpenVid_part73.zip unzip -j OpenVid_part73.zip -d video_folder `OpenVid-1M.csv`与`OpenVidHD.csv`包含了文本-视频配对数据，可通过以下代码轻松读取： python import pandas as pd df = pd.read_csv("OpenVid-1M.csv") # 模型权重我们还在model_weights中提供了基于OpenVid-1M预训练的模型权重。详情请参阅[**此处**](https://huggingface.co/nkp37/OpenVid-1M)。 # 许可协议 OpenVid-1M数据集采用CC-BY-4.0协议发布。本数据集的视频样本均从公开数据集收集而来，用户使用这些视频样本时需遵守相关数据集的许可协议：[Panda](https://github.com/snap-research/Panda-70M/tree/main?tab=readme-ov-file#license-of-panda-70m)、[ChronoMagic](https://github.com/PKU-YuanGroup/MagicTime?tab=readme-ov-file#license)、[Open-Sora-plan](https://github.com/PKU-YuanGroup/Open-Sora-Plan?tab=readme-ov-file#license) 以及CelebvHQ（未知许可）。 # 引用 @article{nan2024openvid, title={OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation}, author={Nan, Kepan and Xie, Rui and Zhou, Penghao and Fan, Tiehan and Yang, Zhenheng and Chen, Zhijie and Li, Xiang and Yang, Jian and Tai, Ying}, journal={arXiv preprint arXiv:2407.02371}, year={2024} }

提供机构：

maas

创建时间：

2024-06-21

5,000+

优质数据集

54 个

任务类型

进入经典数据集