five

mcemilg/laion2B-multi-turkish-subset

收藏
Hugging Face2022-11-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mcemilg/laion2B-multi-turkish-subset
下载链接
链接失效反馈
官方服务:
资源简介:
LAION-5B是一个大规模公开可访问的图像-文本数据集,包含多种语言的文本。这是LAION-5B的土耳其语子集,适用于与image2dataset一起使用以大规模获取图像。数据集经过处理,去除了非土耳其语和不相关的文本,使用了FastText和langdetect库进行语言识别。数据清理过程包括替换特定字符、移除文本中的URL、删除非土耳其语文本和空文本字段。
提供机构:
mcemilg
原始信息汇总

数据集概述

基本信息

  • 名称: laion2B-multi-turkish-subset
  • 语言: 土耳其语
  • 许可证: CC-BY-4.0
  • 多语言性: 单语种
  • 大小: 10M<n<100M

任务类别

  • 文本到图像
  • 图像到文本

数据结构

  • 特征: SAMPLE_ID, URL, TEXT, HEIGHT, WIDTH, LICENSE, LANGUAGE, NSFW, similarity
  • 数据集类型: DatasetDict
  • 训练集行数: 34638627

数据处理

  • 数据预处理包括去除非土耳其语和无关文本,使用FastText和langdetect库进行语言识别。
  • 清洗步骤包括替换特定字符、移除文本中的URL、删除非土耳其语文本及空文本字段。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作