five

Bingsu/laion2B-multi-korean-subset

收藏
Hugging Face2022-10-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Bingsu/laion2B-multi-korean-subset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是laion2B-multi的一个子集,仅包含韩语内容。数据集通过众包方式创建,语言为韩语,许可证为CC-BY-4.0。数据集的大小在10M到100M之间,主要用于特征提取任务。数据集中包含了11,376,263条训练数据,每条数据包含SAMPLE_ID, URL, TEXT, HEIGHT, WIDTH, LICENSE, LANGUAGE, NSFW, similarity等字段。数据集的生成过程涉及过滤和清洗步骤,生成过程耗时约8小时。
提供机构:
Bingsu
原始信息汇总

数据集概述

基本信息

  • 名称: laion2B-multi-korean-subset
  • 语言: 韩语 (ko)
  • 许可证: CC-BY-4.0
  • 多语言性: 单语种
  • 大小: 10M<n<100M
  • 任务类别: 特征提取

数据结构

  • 数据实例特征:

    • SAMPLE_ID: int
    • URL: string
    • TEXT: string
    • HEIGHT: int
    • WIDTH: int
    • LICENSE: string
    • LANGUAGE: string
    • NSFW: string
    • similarity: float
  • 数据大小:

    • 下载: 1.56 GiB
    • 生成: 2.37 GiB
    • 总计: 3.93 GiB
  • 数据分割:

    分割 数据量
    train 11376263

数据集生成

  • 生成代码: 使用Python脚本从原始数据集中筛选出韩语数据,并保存为CSV格式。
  • 生成时间: 约8小时
  • 后续处理: 移除HEIGHTWIDTH为None的数据后上传。

数据集使用

  • 加载数据集: 使用Hugging Face的load_dataset函数加载数据集。
  • 数据集文件: 可通过Hugging Face Hub下载CSV文件。

图像处理

  • 图像转换: 使用img2dataset工具将URL中的图像转换为数据集格式。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作