Open-Sora-Dataset

github2024-04-09 更新2024-05-31 收录

下载链接：

https://github.com/PKU-YuanGroup/Open-Sora-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

We crawled 40258 videos from open-source websites under the CC0 license. All videos are of high quality without watermarks and All videos are of high quality without watermarks, and about 60% of them are landscape data. The total duration is about 274h 05m 13sThe main sources of data are divided into three parts.

本数据集从遵循CC0许可协议（CC0 License）的开源网站中爬取了40258条视频。所有视频均为无水印的高质量内容，其中约60%为风景类数据，总时长约274小时05分13秒。数据的主要来源分为三个部分。

创建时间：

2024-03-18

原始信息汇总

Open-Sora-Dataset 数据集概述

数据集构成

视频数量与来源：数据集共收集了40,258个视频，均来自开放源网站并遵循CC0许可。主要数据来源包括：
1. mixkit：收集视频1,234个，总时长约6小时19分钟32秒，总帧数570,815帧。
2. pexels：收集视频7,408个，总时长约48小时49分钟24秒，总帧数5,038,641帧。
3. pixabay：收集视频31,616个，总时长约218小时56分钟17秒，总帧数23,508,970帧。
视频质量：所有视频均为高质量，无水印，约60%为风景视频。
总时长：数据集总时长约为274小时5分钟13秒。

密集字幕生成

挑战与解决方案：由于直接从互联网爬取大量高质量密集字幕存在挑战，本项目采用成熟的Image-captioner模型生成高质量密集字幕。
模型选择与性能：进行了两种多模态大型模型的消融实验，分别是ShareGPT4V-Captioner-7B和LLaVA-1.6-34B。两者性能相当，但在A800 GPU上的推理速度有显著差异。
字幕统计：字幕最大长度设置为300，覆盖了几乎99%的样本。

模型名称	平均长度	最大长度	标准差
ShareGPT4V-Captioner-7B	170.0827524529121	467	53.689967539537776
LLaVA-1.6-34B	141.75851073472666	472	48.52492072346965

视频分割

有转场视频：使用panda-70m进行分割。
无转场视频：通过脚本进行分割，需要克隆仓库并安装相应包。

视频处理

移除含文字视频：通过OCR处理脚本移除含有文字的视频。

搜集汇总

数据集介绍

构建方式

在构建Open-Sora-Dataset时，研究团队从多个开源网站如Mixkit、Pexels和Pixabay中爬取了总计40258个视频，这些视频均遵循CC0许可，确保了数据的高质量和无水印。其中约60%的视频为风景数据，总时长约为274小时。为确保数据集的丰富性和多样性，团队还利用成熟的图像描述模型生成了高质量的密集字幕，并通过对比实验选择了性能相当的模型进行标注。

特点

Open-Sora-Dataset的显著特点在于其大规模、高质量的视频数据和密集字幕的结合。数据集不仅包含了丰富的视频内容，还通过先进的模型生成了详细的字幕信息，极大地增强了数据的多模态特性。此外，数据集的构建过程严格遵循开源原则，确保了数据的透明性和可访问性。

使用方法

使用Open-Sora-Dataset时，用户可以通过克隆项目仓库并安装必要的依赖包来开始。对于包含过渡的视频，可以使用Panda-70M工具进行分割；对于无过渡的视频，则可以通过提供的脚本进行处理。此外，用户还可以使用OCR处理脚本移除包含文本的视频，以满足特定需求。详细的安装和使用指南可在项目页面中找到。

背景与挑战

背景概述

Open-Sora-Dataset是由北京大学元组（PKU-YuanGroup）发起的一个高质量视频数据集项目，隶属于Open-Sora-Plan的一部分。该项目旨在为开源社区提供一个丰富且多样化的视频数据资源，以支持视频处理和分析的研究与应用。数据集的构建始于对开源网站上高质量视频的爬取，涵盖了来自Mixkit、Pexels和Pixabay等平台的40,258个视频，总时长约为274小时。这些视频不仅质量高，且无水印，其中约60%为风景数据。此外，项目还通过使用成熟的图像描述模型生成了密集的描述文本，进一步增强了数据集的多模态特性。

当前挑战

Open-Sora-Dataset在构建过程中面临多项挑战。首先，从互联网上直接爬取大量高质量的密集描述文本是一项艰巨任务，因此项目采用了多模态大模型进行文本生成，并通过实验比较了不同模型的性能。其次，视频的分割和处理也是一个复杂的过程，特别是对于包含过渡效果的视频，需要专门的工具进行处理。此外，数据集中可能包含带有文字的视频，这些视频需要通过光学字符识别（OCR）技术进行过滤，以确保数据集的纯净性。这些挑战不仅涉及技术层面的复杂性，还包括数据质量和多样性的维护，以及如何高效地处理和标注大规模视频数据。

常用场景

经典使用场景

在视频分析与处理领域，Open-Sora-Dataset 以其高质量的视频数据和丰富的密集字幕标注，成为研究者们进行视频内容理解、场景识别和多模态学习的理想选择。该数据集特别适用于训练和验证视频分类、目标检测、行为识别等任务的模型，尤其是在需要大量高质量视频数据的场景中，其价值尤为凸显。

解决学术问题

Open-Sora-Dataset 通过提供大规模、高质量的视频数据和密集字幕标注，有效解决了视频分析领域中数据稀缺和标注不足的问题。这不仅推动了视频内容理解技术的进步，还为多模态学习提供了丰富的资源，促进了跨模态信息融合的研究。其对学术界的贡献在于提升了视频分析模型的性能和泛化能力。

衍生相关工作

基于 Open-Sora-Dataset，许多研究工作得以展开，包括但不限于视频内容理解、多模态学习、视频字幕生成等方向。例如，有研究者利用该数据集训练了高性能的视频分类模型，并在多个公开数据集上取得了优异的成绩。此外，还有工作探索了如何利用密集字幕信息提升视频检索和推荐系统的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集