OpenVid-1M-wds

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/Dev-Jahn/OpenVid-1M-wds

下载链接

链接失效反馈

官方服务：

资源简介：

OpenVid-1M是一个大规模高质量的视频数据集，专为文本到视频生成和视频分类任务设计。该数据集是原始`nkp37/OpenVid-1M`的WebDataset重新打包版本，优化了顺序读取性能，便于通过单个HTTP/NFS连接高效流式传输。数据集包含1,019,957个样本，其中训练集1,018,957个样本，验证集1,000个样本。每个样本由原始mp4视频文件和包含元数据的JSON文件组成，元数据包括视频标题、美学评分、运动评分、时间一致性评分、相机运动类型、帧数、fps和时长等信息。数据集适用于研究和非商业用途，遵循CC-BY-4.0许可证。使用示例包括通过Hugging Face的`datasets`库进行流式访问、使用torchcodec解码视频帧等。

创建时间：

2026-04-17

原始信息汇总

数据集概述：OpenVid-1M (WebDataset 封裝)

基本信息

数据集名称: OpenVid-1M (WebDataset repackaging)
许可协议: CC-BY-4.0
任务类别: 文本到视频生成、视频分类
语言: 英语
数据规模: 1,019,957 个样本（1M < n < 10M）
标签: video, webdataset, openvid, text-to-video

数据格式与访问优化

该仓库是原始数据集 nkp37/OpenVid-1M 的 WebDataset 重新封装版本，主要优化点：

对比维度	原始版本	本仓库版本
格式	每个视频为独立 mp4 文件并打包成 zip 压缩包	WebDataset `.tar` 分片（每片约 2 GB）
访问模式	随机逐个文件打开	顺序 tar 流读取
Hugging Face 加载器	需要自定义解包	原生支持 `load_dataset(..., streaming=True)`
混洗方式	在数据加载时进行	写入时全局混洗 + 流式缓冲区混洗
元数据	单独的 `OpenVid-1M.csv`	每个样本附带 JSON 侧边文件（保留原列名及空格）
完整性校验	无	提供 `manifest.json`，含每个分片的 SHA-256 哈希

注意: 本版本未对原始 mp4 视频进行重新编码或帧预处理，视频内容与原始数据集完全一致。

数据统计

训练集: 3,484 个分片 × 约 2 GB ≈ 1,018,957 个样本
验证集: 4 个分片 ≈ 1,000 个样本（从混洗池中固定 seed 42 抽取）
总计: 1,019,957 个样本

样本模式

每个样本在 tar 文件中以 (mp4, json) 对形式存在，共享一个 9 位数字键：

openvid-train-001234.tar ├── 000012345.mp4 ← 原始 mp4 字节，未经修改 ├── 000012345.json ← 元数据侧边文件 ├── 000012346.mp4 ├── 000012346.json └── ...

JSON 元数据字段（包含原 CSV 所有列及四个溯源字段）：

json { "video": "0-00IMseNDw_10_0to161.mp4", "caption": "In the video, a man is seen in a living room setting ...", "aesthetic score": 5.43, "motion score": 1.57, "temporal consistency score": 0.997, "camera motion": "static", "frame": 161, "fps": 29.97, "seconds": 5.37, "source": "openvid-1m", "video_id": "0-00IMseNDw_10_0to161", "global_index": 12345, "shard": "openvid-train-001234.tar" }

使用方式

流式加载（推荐）： python from datasets import load_dataset ds = load_dataset("Dev-Jahn/OpenVid-1M-wds", split="train", streaming=True) for sample in ds: mp4_bytes = sample["mp4"] meta = sample["json"] key = sample["key"] break

帧解码示例（torchcodec）： python from torchcodec.decoders import VideoDecoder dec = VideoDecoder(sample["mp4"]) nfrm = dec.metadata.num_frames idx = torch.linspace(0, nfrm - 1, 16).long().tolist() frames = dec.get_frames_at(indices=idx).data

批量下载（不推荐，约 7 TB）： bash hf download Dev-Jahn/OpenVid-1M-wds --type dataset --local-dir ./wds

建议使用流式加载或 hf-mount 以避免本地存储 7 TB。

完整性清单

根目录的 manifest.json 记录每个分片的 SHA-256、样本数量、文件大小及全局索引范围，可用于完整性校验和断点续读。

构建参数

随机种子: 42
分片大小: 2 GiB（目标值）
验证集样本数: 1,000

原数据集引用

该封装版本继承原始数据集的所有内容，原始数据集作者信息：

Nan, K., Xie, R., Zhou, P., Fan, T., Yang, Z., Chen, Z., Li, X., Yang, J., & Tai, Y. (2024). OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation. arXiv:2407.02371.

原始数据集: https://huggingface.co/datasets/nkp37/OpenVid-1M
论文: https://arxiv.org/abs/2407.02371
项目页面: https://nju-pcalab.github.io/projects/openvid
官方 GitHub: https://github.com/NJU-PCALab/OpenVid

许可与用途

本封装版本采用 CC-BY-4.0 许可，与上游数据集一致。
上游许可声明：视频样本来源于公开数据集（Panda、ChronoMagic、Open-Sora-plan、CelebvHQ），需遵循各数据集的许可协议。
数据集仅用于研究和非商业目的。

更新日志

2026-04-16: 初始上传。基于 nkp37/OpenVid-1M CSV 构建 WebDataset，参数为 shuffle_seed=42、shard_size_bytes=2 GiB、val_samples=1000。构建状态：完成。总样本数：1,019,957。

搜集汇总

数据集介绍

构建方式

OpenVid-1M-wds数据集是基于nkp37/OpenVid-1M原始数据集的WebDataset重打包版本，由Nan等人于ICLR 2025提出。在构建过程中，所有视频内容均保持原始mp4字节不变，未经任何重编码或帧预提取处理。其核心改进在于将原始分散的逐视频mp4文件重新组织为约2 GB大小的WebDataset tar分片，每个分片内部包含视频文件与对应的JSON元数据副文件，并以全局打乱的写入顺序和流式缓冲区洗牌策略优化数据访问模式。训练集包含3,484个分片，对应1,018,957个样本；验证集包含4个分片，约1,000个样本，总计1,019,957个样本。此外，仓库还提供了manifest.json文件记录每个分片的SHA-256哈希值、样本数量及全局索引范围，确保数据完整性并支持可恢复读取。

使用方法

使用OpenVid-1M-wds数据集极为便捷。用户可通过Hugging Face datasets库的load_dataset函数以流式模式直接加载，例如ds = load_dataset("Dev-Jahn/OpenVid-1M-wds", split="train", streaming=True)，随后遍历数据集即可获取原始mp4字节和解析后的元数据字典。对于视频帧的解码，推荐使用torchcodec库的VideoDecoder，可直接接收mp4字节流并提取指定索引的帧数据。数据集也支持通过hf download命令进行批量下载，但鉴于其总大小约7 TB，官方更建议优先采用流式读取或hf-mount挂载方式以避免本地存储压力。此外，用户可通过manifest.json文件获取分片完整性校验信息，确保数据读取的可靠性。

背景与挑战

背景概述

文本到视频生成是计算机视觉与自然语言处理交叉领域的前沿方向，其核心挑战在于构建能够理解复杂语义并生成高保真动态内容的模型。OpenVid-1M数据集由南京大学PCALab团队于2024年创建（相关论文发表于ICLR 2025），旨在突破现有数据集在规模与质量上的瓶颈。该数据集汇聚了超过100万段视频片段及其对应的文本描述，涵盖丰富的运动模式、美学质量与镜头运动类型，为视频生成与分类任务提供了大规模、多维度标注的训练资源。通过整合Panda-70M、ChronoMagic等公开数据源，OpenVid-1M显著推动了文本到视频生成领域的基准测试与模型训练，成为该领域影响力广泛的基础数据集之一。

当前挑战

当前文本到视频生成领域面临的核心挑战在于视频数据的非结构化特性与高效利用之间的矛盾。首先，原始视频文件具有极大的存储开销与随机访问延迟，传统按文件存储的模式难以支持大规模分布式训练中的流式读取需求。其次，多源数据集整合过程中面临格式异构、元数据不统一以及版权合规性问题。针对这些挑战，OpenVid-1M的WebDataset重打包版本通过将视频与JSON元数据封装为顺序读取优化的TAR分片（每片约2GB），实现了从单一HTTP连接的流式加载，同时引入全局洗牌与SHA-256完整性校验机制，在7TB级数据量下保障了训练的可重复性与鲁棒性。

常用场景

经典使用场景

OpenVid-1M-wds作为一个大规模、高质量的视频-文本配对数据集，在文本到视频生成领域扮演着基石角色。该数据集汇聚了超过百万条精心配对的视频片段与自然语言描述，为训练和评估条件视频生成模型提供了标准化数据支撑。研究者和开发者可借助其丰富的视频多样性与语义对齐的文本注释，开展从简单动作序列到复杂场景叙事的视频合成实验。该数据集以WebDataset格式重新打包，支持高效流式读取，极大降低了大规模训练场景下的存储和I/O瓶颈，使得基于海量视频数据的学术探索与工业级应用更加便捷。

解决学术问题

在视频生成研究中，长期困扰学术界的两大核心难题分别是高质量视频-文本对齐数据的匮乏以及大规模训练数据的管理效率。OpenVid-1M-wds的发布系统性地应对了这些挑战：它提供了来源广泛、标注详实的百万级视频样本，使研究者能够突破小规模数据下的过拟合与泛化局限，深入探索视频帧间一致性、运动连贯性与语义保真度等关键学术问题。该数据集的出现推动了条件生成模型从简单域（如人脸或固定场景）向开放域视频合成的跨越，为模型架构创新、损失函数设计以及评估基准的建立提供了坚实的实证基础。

实际应用

在实际应用层面，OpenVid-1M-wds所支撑的视频生成技术已渗透至内容创作、影视前期预览、虚拟现实和社交媒体的动态内容生产等多个领域。基于该数据集训练的模型可以根据脚本或创意文案自动生成短视频片段，助力广告制作、教育培训材料的动态化呈现以及游戏场景的快速原型设计。其流式数据处理特性还使得实时视频生成服务成为可能，可在用户交互过程中动态生成符合语义要求的视觉内容。该数据集的高效存取设计进一步降低了企业部署大规模视频生成系统的门槛，推动相关技术从实验室走向产品化落地。

数据集最近研究