mcemilg/laion2B-multi-turkish-subset
收藏Hugging Face2022-11-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mcemilg/laion2B-multi-turkish-subset
下载链接
链接失效反馈官方服务:
资源简介:
LAION-5B是一个大规模公开可访问的图像-文本数据集,包含多种语言的文本。这是LAION-5B的土耳其语子集,适用于与image2dataset一起使用以大规模获取图像。数据集经过处理,去除了非土耳其语和不相关的文本,使用了FastText和langdetect库进行语言识别。数据清理过程包括替换特定字符、移除文本中的URL、删除非土耳其语文本和空文本字段。
提供机构:
mcemilg
原始信息汇总
数据集概述
基本信息
- 名称: laion2B-multi-turkish-subset
- 语言: 土耳其语
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 大小: 10M<n<100M
任务类别
- 文本到图像
- 图像到文本
数据结构
- 特征: SAMPLE_ID, URL, TEXT, HEIGHT, WIDTH, LICENSE, LANGUAGE, NSFW, similarity
- 数据集类型: DatasetDict
- 训练集行数: 34638627
数据处理
- 数据预处理包括去除非土耳其语和无关文本,使用FastText和langdetect库进行语言识别。
- 清洗步骤包括替换特定字符、移除文本中的URL、删除非土耳其语文本及空文本字段。



