five

Dev-Jahn/OpenVid-1M-wds

收藏
Hugging Face2026-04-29 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Dev-Jahn/OpenVid-1M-wds
下载链接
链接失效反馈
官方服务:
资源简介:
OpenVid-1M是一个经过重新包装的视频数据集,原始数据集由Nan等人(ICLR 2025)创建,优化了顺序读取性能。数据集包含视频样本及其相关元数据,如字幕、美学评分、运动评分等。重新包装仅改变了磁盘布局以支持高效流式传输。数据集适用于研究和非商业用途,采用CC-BY-4.0许可。README详细介绍了数据集的格式、访问模式、统计信息、样本结构、使用示例和引用信息。

OpenVid-1M is a repackaged version of the original dataset by Nan et al. (ICLR 2025), optimized for sequential reading. The dataset contains video samples with associated metadata, including captions, aesthetic scores, motion scores, and more. The repackaging changes the on-disk layout to facilitate efficient streaming. The dataset is intended for research and non-commercial purposes and is distributed under the CC-BY-4.0 license. The README provides detailed information about the datasets format, access patterns, statistics, sample schema, usage examples, and attribution.
提供机构:
Dev-Jahn
搜集汇总
数据集介绍
main_image_url
构建方式
OpenVid-1M-wds 数据集是原始 OpenVid-1M 数据集的 WebDataset 重新封装版本,核心变革在于将原本分散的逐视频 mp4 文件整合为约 2 GB 大小的统一 tar 分片。构建过程中未进行任何视频重编码或帧预提取操作,原始 mp4 字节内容被原封不动保留,仅通过全局随机打乱与写入时混洗策略重新组织存储布局。训练集包含 3,484 个分片,共计 1,018,957 个样本,验证集则从打乱池中固定种子(42)抽出 4 个分片约 1,000 个样本。每个样本由共享 9 位数字键的 mp4 与 JSON 文件配对组成,JSON 侧车文件完整保留原始 CSV 全部列信息,并额外添加 source、video_id、global_index 与 shard 四个溯源字段。同时,仓库根目录下提供 manifest.json 清单文件,记录每个分片的 SHA-256 校验和、样本数及文件大小,确保数据完整性与可恢复读取。
特点
该数据集最显著的特点在于支持高效的顺序流式读取,彻底摒弃传统随机逐文件打开的低效模式。借助 WebDataset 格式,用户能够通过单条 HTTP 或 NFS 连接连续获取数据,极大提升大规模视频数据加载速度。与原生 Hugging Face load_dataset(streaming=True) 无缝兼容,无需定制解包逻辑,显著降低使用门槛。全局写入时打乱与流式缓冲区混洗双层机制协同工作,既保证训练数据分布的随机性,又避免全量数据本地化存储(总计约 7 TB)的沉重负担。每个分片搭配独立的 JSON 元数据文件,完整记录美学评分、运动评分、时间一致性评分、相机运动类型、帧率、时长等多维质量指标,为视频生成模型训练提供丰富的数据筛选依据。此外,每份 JSON 还嵌入了全局索引和分片归属信息,便于数据溯源与分片级完整性校验。
使用方法
首选使用方式是借助 Hugging Face datasets 库直接流式加载:通过 load_dataset('Dev-Jahn/OpenVid-1M-wds', split='train', streaming=True) 即可获取迭代器,每个样本返回原始 mp4 字节、已解析的 JSON 元数据字典以及唯一键值。视频解码可结合 torchcodec 高效完成,例如利用 VideoDecoder(sample['mp4']) 接受原始字节流,再通过 get_frames_at 方法均匀抽取指定帧至张量。若需批量下载(不推荐),可使用 hf download 命令将数据同步至本地目录,但更优方案是采用 hf-mount 挂载工具实现按需访问,避免全量 7 TB 数据的本地化占用。manifest.json 中的 SHA-256 与全局索引范围可配合校验脚本实现可恢复读取,确保长周期训练任务的可靠性。
背景与挑战
背景概述
OpenVid-1M-wds 数据集由南京大学 PCALab 的 Nan 等人创建,于 2024 年发布,并在 ICLR 2025 上发表。该数据集旨在解决文本到视频生成领域大规模高质量视频-文本配对数据匮乏的核心问题,包含超过 100 万个来自公开数据集(如 Panda-70M、ChronoMagic、Open-Sora-Plan)的多样化视频片段及其精细人工标注描述,通过提供丰富的运动、美学和时序一致性评分,显著推动了视频生成与理解任务的发展。其 WebDataset 重封装版本进一步优化了数据流的顺序读取效率,为大规模分布式训练提供了基础设施支持,已成为该领域的重要基准资源。
当前挑战
该数据集面临的挑战包括:1) 视频生成领域的根本难题——如何从文本描述中精准还原动态场景的时序连贯性与物理合理性,现有模型常在处理复杂运动或长时间跨度时出现闪烁或语义漂移;2) 构建过程中,需从分散的公开资源中筛选并统一标注格式,确保视频质量、文本匹配度与版权合规性,同时处理不同来源的帧率、分辨率和运动强度差异,以避免模型偏向特定分布;3) 数据集的持续扩展与维护面临存储成本与传输效率的平衡,原始版本以单文件存储,流式读取受限,而本重封装虽优化了访问模式,但 7TB 的总体量仍对本地部署构成挑战。
常用场景
经典使用场景
OpenVid-1M-wds作为大规模高质量文本-视频配对数据集,其最经典的使用场景在于驱动文本到视频生成模型的训练与评估。研究者可直接利用该数据集中逾百万条视频-描述对,结合扩散模型、自回归模型等先进架构,学习从自然语言描述到动态视觉内容的映射关系。该数据集以WebDataset格式重新打包,支持高效流式加载,尤其适合大规模分布式训练场景,极大降低了数据预处理与存储开销,成为视频生成领域基准测试与模型性能提升的核心数据支撑。
解决学术问题
该数据集有效解决了视频生成研究中长期存在的两大瓶颈:一是高质量文本-视频配对数据的匮乏,二是大规模视频数据的高效访问难题。OpenVid-1M-wds提供了百万级带有丰富元数据(如美学评分、运动评分、时间一致性评分)的视频样本,为研究视频内容质量评估、运动动态建模、跨模态语义对齐等学术问题提供了标准化测试平台。其流式加载特性使研究者能够在不依赖本地存储的情况下,便捷地复现实验并推动视频生成理论的系统化发展。
衍生相关工作
OpenVid-1M-wds衍生了一系列重要的学术与工程工作,包括对原始OpenVid-1M数据集的改进版本如质量过滤子集、多分辨率版本,以及基于该数据集训练的开源文本到视频模型。同时,该数据集的WebDataset格式版本促进了视频数据加载范式的研究,催生了诸如高效数据预处理流水线、分布式训练加速工具等周边工作,并启发了后续大规模视频数据集在存储格式与访问模式上的标准化设计。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作