shinonomelab/cleanvid-15m_map

Name: shinonomelab/cleanvid-15m_map
Creator: shinonomelab
Published: 2023-07-02 04:22:55
License: 暂无描述

Hugging Face2023-07-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/shinonomelab/cleanvid-15m_map

下载链接

链接失效反馈

官方服务：

资源简介：

CleanVid Map (15M)是一个大规模的视频数据集，包含多个元数据条目，如文本描述、录制设备、类别、帧率和宽高比。该数据集旨在通过添加更多数据和去除视频中的水印来提高WebVid-10M数据集的质量。数据集仅包含URL和元数据的映射，比原始的WebVid-10M数据集多出3,694,510个条目。视频分辨率较低，范围从240p到480p，但这对于文本到视频模型的分辨率缩放来说不是问题。数据集是TempoFunk视频生成项目的基础数据集，构建于2023年6月25日从Shutterstock抓取的数据。

提供机构：

shinonomelab

原始信息汇总

数据集概述

数据集名称

CleanVid Map (15M)

数据集特征

id: 整数 (int64)
description: 字符串
duration: 浮点数 (float64)
aspectratio: 字符串
videourl: 字符串
author: 字符串（JSON格式）
categories: 字符串（JSON格式）
framerate: 浮点数 (float64)
r18: 整数 (int64)

数据集大小

下载大小: 5410262648 字节
数据集大小: 16755833083 字节
训练集大小: 16755833083 字节
训练集样本数: 14394510

任务类别

text-to-video
video-classification

语言

数据集描述

CleanVid Map (15M) 是一个大规模视频数据集，包含多种元数据，如文本描述、录制设备、类别、帧率、宽高比等。该数据集旨在通过增加数据和去除水印来提高WebVid-10M数据集的质量。数据集包含的视频分辨率较低，范围从240p到480p。

数据集用途

CleanVid 是TempoFunk视频生成项目的基础数据集。

数据来源

数据集构建自2023年6月25日从Shutterstock爬取的数据。

数据格式

id: Shutterstock视频ID
description: 视频描述
duration: 视频时长（秒）
aspectratio: 视频宽高比，以冒号分隔
videourl: 视频URL，MP4格式，WEBM格式也可通过更改URL扩展名获得
author: 作者信息，包括录制设备、风格、国籍等
categories: 视频类别，来自Shutterstock
framerate: 视频帧率
r18: 是否标记为成人内容（0 = 安全工作环境，1 = 成人内容）

搜集汇总

数据集介绍

背景与挑战

背景概述

CleanVid-15M是一个包含视频和丰富元数据的大规模数据集，旨在提升视频生成模型的质量。它基于Shutterstock的视频内容，提供了包括描述、设备信息、类别等在内的多种元数据，适用于文本到视频生成等任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集