Bingsu/laion2B-multi-korean-subset

Name: Bingsu/laion2B-multi-korean-subset
Creator: Bingsu
Published: 2022-10-14 05:23:17
License: 暂无描述

Hugging Face2022-10-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Bingsu/laion2B-multi-korean-subset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是laion2B-multi的一个子集，仅包含韩语内容。数据集通过众包方式创建，语言为韩语，许可证为CC-BY-4.0。数据集的大小在10M到100M之间，主要用于特征提取任务。数据集中包含了11,376,263条训练数据，每条数据包含SAMPLE_ID, URL, TEXT, HEIGHT, WIDTH, LICENSE, LANGUAGE, NSFW, similarity等字段。数据集的生成过程涉及过滤和清洗步骤，生成过程耗时约8小时。

提供机构：

Bingsu

原始信息汇总

数据集概述

基本信息

名称: laion2B-multi-korean-subset
语言: 韩语 (ko)
许可证: CC-BY-4.0
多语言性: 单语种
大小: 10M<n<100M
任务类别: 特征提取

数据结构

数据实例特征:
- SAMPLE_ID: int
- URL: string
- TEXT: string
- HEIGHT: int
- WIDTH: int
- LICENSE: string
- LANGUAGE: string
- NSFW: string
- similarity: float
数据大小:
- 下载: 1.56 GiB
- 生成: 2.37 GiB
- 总计: 3.93 GiB
数据分割:

分割数据量

train 11376263

数据集生成

生成代码: 使用Python脚本从原始数据集中筛选出韩语数据，并保存为CSV格式。
生成时间: 约8小时
后续处理: 移除HEIGHT和WIDTH为None的数据后上传。

数据集使用

加载数据集: 使用Hugging Face的load_dataset函数加载数据集。
数据集文件: 可通过Hugging Face Hub下载CSV文件。

图像处理

图像转换: 使用img2dataset工具将URL中的图像转换为数据集格式。

5,000+

优质数据集

54 个

任务类型

进入经典数据集