Bingsu/laion2b_multi_korean_subset_with_image

Name: Bingsu/laion2b_multi_korean_subset_with_image
Creator: Bingsu
Published: 2022-11-03 05:10:40
License: 暂无描述

Hugging Face2022-11-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Bingsu/laion2b_multi_korean_subset_with_image

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过img2dataset成功下载的[Bingsu/laion2B-multi-korean-subset](https://huggingface.co/datasets/Bingsu/laion2B-multi-korean-subset)图像的整理版本。数据集包含9,800,137张图像，这些图像的短边长度被调整为256像素，并以质量100的webp文件格式下载。数据集可用于特征提取任务，并支持通过datasets和webdataset库进行加载和使用。

提供机构：

Bingsu

原始信息汇总

laion2b_multi_korean_subset_with_image 数据集概述

基本信息

名称: laion2b_multi_korean_subset_with_image
语言: 韩语（ko）
许可证: CC-BY-4.0
多语言性: 单语种
大小: 1M<n<10M
来源: 扩展自 laion/laion2B-multi
任务类别: 特征提取

数据集描述

下载大小: 342 GB
图像数量: 9,800,137 张
图像处理: 短边长度调整为256像素，以质量100的webp格式下载

数据集结构

特征:
- image: 图像数据，格式为webp，支持解码
- text: 文本数据，数据类型为字符串
- width: 图像宽度，数据类型为int32
- height: 图像高度，数据类型为int32

使用方法

通过datasets库: python from datasets import load_dataset dataset = load_dataset("Bingsu/laion2b_multi_korean_subset_with_image", streaming=True, split="train")
通过webdataset库: python import webdataset as wds url = "https://huggingface.co/datasets/Bingsu/laion2b_multi_korean_subset_with_image/resolve/main/data/{00000..02122}.tar" dataset = wds.WebDataset(url).shuffle(1000).decode("pil").to_tuple("webp", "json").map(preprocess)

注意事项

数据集中的tar文件结构如示例图所示，每个tar文件包含图像和对应的json描述文件。
由于下载失败的图像被跳过，文件名可能不是完全连续的。
json文件包含图像的详细描述，包括标题、URL、尺寸等信息。

5,000+

优质数据集

54 个

任务类型

进入经典数据集