mcemilg/laion2B-multi-turkish-subset

Name: mcemilg/laion2B-multi-turkish-subset
Creator: mcemilg
Published: 2022-11-08 05:47:01
License: 暂无描述

Hugging Face2022-11-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mcemilg/laion2B-multi-turkish-subset

下载链接

链接失效反馈

官方服务：

资源简介：

LAION-5B是一个大规模公开可访问的图像-文本数据集，包含多种语言的文本。这是LAION-5B的土耳其语子集，适用于与image2dataset一起使用以大规模获取图像。数据集经过处理，去除了非土耳其语和不相关的文本，使用了FastText和langdetect库进行语言识别。数据清理过程包括替换特定字符、移除文本中的URL、删除非土耳其语文本和空文本字段。

提供机构：

mcemilg

原始信息汇总

数据集概述

基本信息

名称: laion2B-multi-turkish-subset
语言: 土耳其语
许可证: CC-BY-4.0
多语言性: 单语种
大小: 10M<n<100M

任务类别

文本到图像
图像到文本

数据结构

特征: SAMPLE_ID, URL, TEXT, HEIGHT, WIDTH, LICENSE, LANGUAGE, NSFW, similarity
数据集类型: DatasetDict
训练集行数: 34638627

数据处理

数据预处理包括去除非土耳其语和无关文本，使用FastText和langdetect库进行语言识别。
清洗步骤包括替换特定字符、移除文本中的URL、删除非土耳其语文本及空文本字段。

5,000+

优质数据集

54 个

任务类型

进入经典数据集