Bingsu/laion2B-multi-korean-subset
收藏Hugging Face2022-10-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Bingsu/laion2B-multi-korean-subset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是laion2B-multi的一个子集,仅包含韩语内容。数据集通过众包方式创建,语言为韩语,许可证为CC-BY-4.0。数据集的大小在10M到100M之间,主要用于特征提取任务。数据集中包含了11,376,263条训练数据,每条数据包含SAMPLE_ID, URL, TEXT, HEIGHT, WIDTH, LICENSE, LANGUAGE, NSFW, similarity等字段。数据集的生成过程涉及过滤和清洗步骤,生成过程耗时约8小时。
提供机构:
Bingsu
原始信息汇总
数据集概述
基本信息
- 名称: laion2B-multi-korean-subset
- 语言: 韩语 (ko)
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 大小: 10M<n<100M
- 任务类别: 特征提取
数据结构
-
数据实例特征:
- SAMPLE_ID:
int - URL:
string - TEXT:
string - HEIGHT:
int - WIDTH:
int - LICENSE:
string - LANGUAGE:
string - NSFW:
string - similarity:
float
- SAMPLE_ID:
-
数据大小:
- 下载: 1.56 GiB
- 生成: 2.37 GiB
- 总计: 3.93 GiB
-
数据分割:
分割 数据量 train 11376263
数据集生成
- 生成代码: 使用Python脚本从原始数据集中筛选出韩语数据,并保存为CSV格式。
- 生成时间: 约8小时
- 后续处理: 移除
HEIGHT和WIDTH为None的数据后上传。
数据集使用
- 加载数据集: 使用Hugging Face的
load_dataset函数加载数据集。 - 数据集文件: 可通过Hugging Face Hub下载CSV文件。
图像处理
- 图像转换: 使用img2dataset工具将URL中的图像转换为数据集格式。



