linyq/laion_text_debiased_100M
收藏Hugging Face2024-03-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/linyq/laion_text_debiased_100M
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从LAION-2B数据集中筛选出的一个较少偏见的100M子集,包含107,166,507个图像-文本对。筛选条件包括Empty OCR结果、CLIP分数大于0.3、美学分数大于4.5。每个图像-文本对都包含ase_scores和K-means标签(共4000个)。该数据集的目的是减少LAION-2B数据集中对视觉文本内容的偏见,并提供更平衡的图像-文本对数据。
该数据集是从LAION-2B数据集中筛选出的一个较少偏见的100M子集,包含107,166,507个图像-文本对。筛选条件包括Empty OCR结果、CLIP分数大于0.3、美学分数大于4.5。每个图像-文本对都包含ase_scores和K-means标签(共4000个)。该数据集的目的是减少LAION-2B数据集中对视觉文本内容的偏见,并提供更平衡的图像-文本对数据。
提供机构:
linyq
原始信息汇总
数据集概述
数据集名称
100M Text Debiased Subset from LAION 2B
数据集特征
- SAMPLE_ID: int64
- URL: string
- TEXT: string
- HEIGHT: float64
- WIDTH: float64
- LICENSE: string
- NSFW: string
- similarity: float64
- ase_scores: float64
- kmeans: int64
- index_level_0: int64
数据集大小
- 下载大小: 16353125308 bytes
- 数据集大小: 28506248899 bytes
- 训练集样本数: 107166507
数据集配置
- 配置名称: default
- 数据文件路径: data/train-*
过滤细节
- 从LAION-2B中构建了一个100M的子集,包含Empty OCR结果、CLIP score > 0.3和Aesthetics score > 4.5的样本。
- 为每个图像-文本对添加了ase_scores和K-means标签(共4000个)。
许可证
cc-by-4.0
搜集汇总
数据集介绍

构建方式
linyq/laion_text_debiased_100M数据集是从LAION-2B数据集中筛选出的一个去偏见的子集,旨在减少视觉文本内容对图像描述的过度依赖。构建过程中,采用了OCR结果为空、CLIP得分大于0.3以及美学评分高于4.5的筛选标准,确保了数据集的多样性和质量。此外,每个图像-文本对还添加了美学评分(ase_scores)和K-means聚类标签(共4000类),以增强数据的可分析性。
特点
该数据集的特点在于其去偏见的特性,通过严格的筛选标准,减少了CLIP模型在视觉文本识别上的偏见,使得数据集更适用于需要平衡视觉与语言语义的研究。数据集包含107,166,507个样本,每个样本包含图像URL、文本描述、图像尺寸、许可证信息、NSFW标签、相似度评分、美学评分和K-means标签等多个特征,为多模态学习提供了丰富的信息。
使用方法
linyq/laion_text_debiased_100M数据集适用于多模态学习、图像-文本匹配、视觉语言模型训练等领域。研究人员可以通过HuggingFace或OpenDataLab平台下载数据集,利用其丰富的特征进行模型训练和评估。数据集中的美学评分和K-means标签可用于进一步的数据分析和模型优化,帮助提升模型在视觉与语言语义连接上的表现。
背景与挑战
背景概述
linyq/laion_text_debiased_100M数据集是由Yiqi Lin等研究人员于2023年发布的一个大规模文本去偏数据集,旨在解决LAION-2B数据集中存在的视觉文本描述偏差问题。该数据集基于LAION-2B子集构建,通过筛选空OCR结果、CLIP评分大于0.3以及美学评分高于4.5的样本,形成了一个包含1亿余条图像-文本对的去偏子集。该研究揭示了CLIP模型在视觉文本识别上的偏差,并提出了改进方案,对视觉-语言语义理解领域具有重要影响。
当前挑战
linyq/laion_text_debiased_100M数据集的主要挑战在于如何有效减少视觉文本描述偏差对模型训练的影响。CLIP模型在训练过程中容易过度依赖图像中的视觉文本信息,导致其在视觉-语言语义理解任务中表现不佳。此外,数据集的构建过程中需要处理海量数据,并设计合理的筛选标准以确保数据的多样性和质量。如何平衡去偏效果与数据规模,以及如何进一步提升模型对非文本视觉信息的理解能力,是该领域未来研究的重要方向。
常用场景
经典使用场景
在视觉语言模型的研究中,linyq/laion_text_debiased_100M数据集被广泛用于训练和评估模型,特别是在减少文本描述偏见方面。该数据集通过筛选LAION-2B中的图像-文本对,提供了一个较少偏见的子集,使得模型能够更准确地理解和生成与图像内容相关的文本描述。
实际应用
在实际应用中,linyq/laion_text_debiased_100M数据集可以用于改进搜索引擎的图像检索功能,使得检索结果更加准确和多样化。此外,它还可以用于开发更智能的辅助技术,如自动生成图像描述,帮助视觉障碍者更好地理解图像内容。
衍生相关工作
基于linyq/laion_text_debiased_100M数据集,研究者们已经开发了多种改进的视觉语言模型。这些模型在图像识别、文本生成和跨模态检索等任务中表现出色,推动了视觉语言理解领域的发展。此外,该数据集还激发了关于如何进一步减少数据集偏见的研究,促进了该领域的深入探讨。
以上内容由遇见数据集搜集并总结生成



