OpenVid-1M-wds
收藏数据集概述:OpenVid-1M (WebDataset 封裝)
基本信息
- 数据集名称: OpenVid-1M (WebDataset repackaging)
- 许可协议: CC-BY-4.0
- 任务类别: 文本到视频生成、视频分类
- 语言: 英语
- 数据规模: 1,019,957 个样本(1M < n < 10M)
- 标签: video, webdataset, openvid, text-to-video
数据格式与访问优化
该仓库是原始数据集 nkp37/OpenVid-1M 的 WebDataset 重新封装版本,主要优化点:
| 对比维度 | 原始版本 | 本仓库版本 |
|---|---|---|
| 格式 | 每个视频为独立 mp4 文件并打包成 zip 压缩包 | WebDataset .tar 分片(每片约 2 GB) |
| 访问模式 | 随机逐个文件打开 | 顺序 tar 流读取 |
| Hugging Face 加载器 | 需要自定义解包 | 原生支持 load_dataset(..., streaming=True) |
| 混洗方式 | 在数据加载时进行 | 写入时全局混洗 + 流式缓冲区混洗 |
| 元数据 | 单独的 OpenVid-1M.csv |
每个样本附带 JSON 侧边文件(保留原列名及空格) |
| 完整性校验 | 无 | 提供 manifest.json,含每个分片的 SHA-256 哈希 |
注意: 本版本未对原始 mp4 视频进行重新编码或帧预处理,视频内容与原始数据集完全一致。
数据统计
- 训练集: 3,484 个分片 × 约 2 GB ≈ 1,018,957 个样本
- 验证集: 4 个分片 ≈ 1,000 个样本(从混洗池中固定 seed 42 抽取)
- 总计: 1,019,957 个样本
样本模式
每个样本在 tar 文件中以 (mp4, json) 对形式存在,共享一个 9 位数字键:
openvid-train-001234.tar ├── 000012345.mp4 ← 原始 mp4 字节,未经修改 ├── 000012345.json ← 元数据侧边文件 ├── 000012346.mp4 ├── 000012346.json └── ...
JSON 元数据字段(包含原 CSV 所有列及四个溯源字段):
json { "video": "0-00IMseNDw_10_0to161.mp4", "caption": "In the video, a man is seen in a living room setting ...", "aesthetic score": 5.43, "motion score": 1.57, "temporal consistency score": 0.997, "camera motion": "static", "frame": 161, "fps": 29.97, "seconds": 5.37, "source": "openvid-1m", "video_id": "0-00IMseNDw_10_0to161", "global_index": 12345, "shard": "openvid-train-001234.tar" }
使用方式
流式加载(推荐): python from datasets import load_dataset ds = load_dataset("Dev-Jahn/OpenVid-1M-wds", split="train", streaming=True) for sample in ds: mp4_bytes = sample["mp4"] meta = sample["json"] key = sample["key"] break
帧解码示例(torchcodec): python from torchcodec.decoders import VideoDecoder dec = VideoDecoder(sample["mp4"]) nfrm = dec.metadata.num_frames idx = torch.linspace(0, nfrm - 1, 16).long().tolist() frames = dec.get_frames_at(indices=idx).data
批量下载(不推荐,约 7 TB): bash hf download Dev-Jahn/OpenVid-1M-wds --type dataset --local-dir ./wds
建议使用流式加载或 hf-mount 以避免本地存储 7 TB。
完整性清单
根目录的 manifest.json 记录每个分片的 SHA-256、样本数量、文件大小及全局索引范围,可用于完整性校验和断点续读。
构建参数
- 随机种子: 42
- 分片大小: 2 GiB(目标值)
- 验证集样本数: 1,000
原数据集引用
该封装版本继承原始数据集的所有内容,原始数据集作者信息:
Nan, K., Xie, R., Zhou, P., Fan, T., Yang, Z., Chen, Z., Li, X., Yang, J., & Tai, Y. (2024). OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation. arXiv:2407.02371.
- 原始数据集: https://huggingface.co/datasets/nkp37/OpenVid-1M
- 论文: https://arxiv.org/abs/2407.02371
- 项目页面: https://nju-pcalab.github.io/projects/openvid
- 官方 GitHub: https://github.com/NJU-PCALab/OpenVid
许可与用途
- 本封装版本采用 CC-BY-4.0 许可,与上游数据集一致。
- 上游许可声明:视频样本来源于公开数据集(Panda、ChronoMagic、Open-Sora-plan、CelebvHQ),需遵循各数据集的许可协议。
- 数据集仅用于研究和非商业目的。
更新日志
- 2026-04-16: 初始上传。基于
nkp37/OpenVid-1MCSV 构建 WebDataset,参数为shuffle_seed=42、shard_size_bytes=2 GiB、val_samples=1000。构建状态:完成。总样本数:1,019,957。




