five

Bingsu/laion-translated-to-en-korean-subset

收藏
Hugging Face2023-02-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Bingsu/laion-translated-to-en-korean-subset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是laion/laion2B-multi-joined-translated-to-en和laion/laion1B-nolang-joined-translated-to-en的子集,仅包含韩语内容。数据集包括哈希值、URL、文本、英文文本、宽度、高度、语言、相似度、水印概率、不安全内容概率和美学评分等字段。数据集的总大小为4.89 GiB,其中下载大小为1.40 GiB,生成大小为3.49 GiB。数据集的许可证为CC-BY-4.0。
提供机构:
Bingsu
原始信息汇总

laion-translated-to-en-korean-subset 数据集概述

基本信息

  • 名称: laion-translated-to-en-korean-subset
  • 语言: 韩语(ko)、英语(en)
  • 许可证: CC-BY-4.0
  • 多语言性: 多语言
  • 大小: 10M<n<100M 数据实例
  • 任务类别: 特征提取

数据集描述

  • 下载大小: 1.40 GiB
  • 生成大小: 3.49 GiB
  • 总大小: 4.89 GiB

数据结构

数据实例

  • 特征:
    • hash: int64
    • URL: large_string
    • TEXT: large_string
    • ENG TEXT: large_string
    • WIDTH: int32
    • HEIGHT: int32
    • LANGUAGE: large_string
    • similarity: float32
    • pwatermark: float32
    • punsafe: float32
    • AESTHETIC_SCORE: float32

数据大小

  • 下载: 1.40 GiB
  • 生成: 3.49 GiB
  • 总计: 4.89 GiB

数据字段

  • hash: int
  • URL: string
  • TEXT: string
  • ENG TEXT: string
  • WIDTH: int
  • HEIGHT: int
  • LANGUAGE: string
  • similarity: float32
  • pwatermark: float32
  • punsafe: float32
  • AESTHETIC_SCORE: float32

数据分割

  • 训练集: 12769693 数据实例
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作