Open-Sora-Plan-v1.0.0

Hugging Face2025-10-27 更新2025-10-28 收录

下载链接：

https://huggingface.co/datasets/Hemgg/Open-Sora-Plan-v1.0.0

下载链接

链接失效反馈

官方服务：

资源简介：

Open Sora计划从开源网站收集了40,258个无水印高质量视频，遵循CC0协议。数据集中大约60%的视频为横屏格式，总时长约为274小时5分钟13秒。数据集分为三个主要来源：Mixkit、Pexels和Pixabay，每个来源都提供了视频数量、总时长和总帧数。

The Open Sora Plan collected 40,258 watermark-free high-quality videos from open-source websites under the CC0 license. Approximately 60% of the videos in this dataset are in landscape format, with a total duration of approximately 274 hours, 5 minutes and 13 seconds. The dataset is sourced from three primary platforms: Mixkit, Pexels and Pixabay, and specific metrics including video count, total duration and total frame count are provided for each source.

创建时间：

2025-10-26

原始信息汇总

Open-Sora-Plan-v1.0.0 数据集概述

数据集简介

数据集收集了40,258个高质量、无水印视频
所有视频均来自开源网站，采用CC0许可协议
约60%的视频为横屏格式
总时长约274小时5分钟13秒

数据来源分布

Mixkit

视频数量：1,234个
总时长：6小时19分钟32秒
总帧数：570,815帧
包含分辨率和宽高比分布（未列出少于1%的类别）

Pexels

视频数量：7,408个
总时长：48小时49分钟24秒
总帧数：5,038,641帧
包含分辨率和宽高比分布（未列出少于1%的类别）

Pixabay

视频数量：31,616个
总时长：218小时56分钟17秒
总帧数：23,508,970帧
包含分辨率和宽高比分布（未列出少于1%的类别）

搜集汇总

数据集介绍

构建方式

在视频生成模型研究领域，Open-Sora-Plan-v1.0.0数据集通过系统化采集策略构建而成。该数据集从遵循CC0许可的开源平台精选了40,258个无版权水印的高质量视频，总时长约274小时。视频素材主要来源于三大公开资源库：Mixkit贡献了1,234个视频，Pexels提供了7,408段影像，而Pixabay则收录了规模最大的31,616个视频样本。所有素材均经过严格的版权合规性筛选，确保其适用于学术研究与商业开发。

使用方法

针对生成式视频模型开发需求，该数据集支持端到端的训练流程。研究人员可直接调用预处理后的视频帧序列，其中包含超过2900万帧高质量图像数据。建议按照原始分辨率分布进行批次采样，横屏素材尤其适用于16:9比例的视频生成任务。数据已按来源平台完成分类整理，开发者可根据不同场景需求选择特定子集，或通过混合采样策略提升模型泛化能力。

背景与挑战

背景概述

随着生成式人工智能在视频合成领域的快速发展，高质量训练数据的需求日益凸显。Open-Sora-Plan-v1.0.0数据集由开源社区于2024年构建，汇集了来自Mixkit、Pexels和Pixabay三大平台的40258个遵循CC0许可的无水印视频，总时长约274小时。该数据集以横屏视频为主（占比60%），覆盖多样化的分辨率与宽高比分布，旨在为视频生成模型提供标准化、可扩展的训练基础，推动开放视频合成技术的创新与应用。

当前挑战

视频生成领域长期面临高质量训练数据稀缺的挑战，尤其需要解决内容多样性不足与版权限制问题。本数据集构建过程中，团队需从海量开源视频中筛选符合CC0许可且无视觉水印的样本，同时平衡横竖屏比例与分辨率分布。此外，跨平台数据整合涉及异构格式的统一处理与元数据标注，确保帧序列连贯性与视觉质量的一致性成为关键难点。

常用场景

经典使用场景

在生成式人工智能领域，高质量视频数据是训练先进模型的核心基础。Open-Sora-Plan-v1.0.0数据集凭借其精心筛选的无水印视频资源，成为视频生成模型训练与评估的基准平台。研究者们广泛利用该数据集开发文本到视频的生成系统，探索从语义描述到动态视觉内容的映射机制，推动生成内容在时序一致性与视觉保真度方面的突破。

解决学术问题

该数据集有效缓解了视频生成研究领域高质量训练样本匮乏的困境。通过提供规模可观且版权清晰的视频素材，支持学者们深入探究动态场景建模、跨模态对齐等关键问题。其丰富的场景构成与分辨率分布为量化评估生成模型的泛化能力提供了标准化基准，显著提升了视频合成技术在运动规律学习与长序列生成方面的研究可靠性。

实际应用

基于该数据集训练的模型已在多个产业场景展现价值。在数字内容创作领域，支撑自动视频广告生成与社交媒体素材生产；教育科技行业借助其实现交互式课件可视化；影视工业则将其用于预可视化脚本与特效原型开发。这些应用显著降低了专业级视频制作的技术门槛与时间成本，加速了视觉内容生产的民主化进程。

数据集最近研究