drhead/laion_hd_21M_deduped
收藏Hugging Face2023-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/drhead/laion_hd_21M_deduped
下载链接
链接失效反馈官方服务:
资源简介:
A subset of LAION Aesthetics v2 5+, filtered to include only high resolution (1024x1024+) images, then processed to remove dead links (as of October 2023), and with embeddings recalculated using CLIP-ViT-L-patch14 which were used to both remove poor-quality image-caption matches (CLIP similarity <0.2) and to deduplicate the dataset. Roughly one third of the dataset was dropped by these operations after filtering high resolution images.
提供机构:
drhead
原始信息汇总
数据集概述
数据来源
- 该数据集是LAION Aesthetics v2 5+的一个子集。
数据处理
- 过滤条件:仅包含分辨率在1024x1024及以上的高分辨率图像。
- 数据清洗:移除无效链接(截至2023年10月)。
- 特征计算:使用CLIP-ViT-L-patch14重新计算图像嵌入。
- 质量控制:移除图像与标题匹配度低的样本(CLIP相似度小于0.2)。
- 去重处理:通过图像嵌入进行数据集去重。
数据规模
- 经过上述处理后,数据集规模减少了约三分之一。
搜集汇总
数据集介绍

构建方式
在视觉与语言多模态研究领域,高质量图文数据对模型性能至关重要。本数据集源自LAION Aesthetics v2 5+,通过严格的筛选流程构建而成。首先,仅保留分辨率不低于1024×1024像素的高清图像,确保视觉信息的精细度。随后,于2023年10月进行死链剔除,保证链接有效性。在此基础上,采用CLIP-ViT-L-patch14模型重新计算图文嵌入,移除CLIP相似度低于0.2的低质量匹配对,并实施去重操作。经过上述过滤,约三分之一的数据被剔除,最终形成包含2100万样本的精炼子集。
特点
该数据集的核心特点在于其高分辨率与高质量的双重保障。所有图像均达到1024×1024像素以上,为细粒度视觉分析提供坚实基础。通过CLIP相似度阈值筛选,图文对齐质量显著提升,有效减少了噪声干扰。去重处理则消除了冗余样本,增强了数据的多样性与代表性。此外,死链剔除确保了链接的长期可用性,使数据集在时间维度上保持稳定。整体而言,该子集在规模与纯净度之间实现了良好平衡,适用于训练鲁棒的视觉语言模型。
使用方法
本数据集可直接用于多模态模型的预训练或微调任务。使用时,可通过HuggingFace的datasets库加载,或从原始链接下载图像与对应的元数据。推荐结合CLIP-ViT-L-patch14等模型进行图文匹配评估,以适配下游应用。由于数据已去重并过滤低质量样本,可直接作为训练集,无需额外清洗。研究者亦可将其作为基准,对比不同分辨率或相似度阈值对模型性能的影响。需注意,数据集仅包含图像URL与文本描述,实际使用前需确保网络连接以获取图像文件。
背景与挑战
背景概述
大规模图文数据集LAION Aesthetics v2 5+在视觉语言模型训练中扮演着基石角色,但其原始版本受限于图像分辨率和噪声干扰。为应对高分辨率图像需求日益增长的挑战,研究人员于2023年10月从该数据集中筛选出分辨率不低于1024×1024像素的子集,并由drhead团队主导构建了laion_hd_21M_deduped数据集。该数据集核心研究问题在于如何通过严格的质量控制流程,获得高清晰度、高图文匹配度的训练样本,以提升生成式模型与多模态理解系统的性能。通过移除死链、重新计算CLIP-ViT-L-patch14嵌入并剔除相似度低于0.2的低质量匹配,以及去重操作,该数据集在原始高分辨率过滤基础上进一步缩减了约三分之一规模,显著增强了数据纯净度与实用性,对推动高保真图文生成与跨模态检索研究具有重要影响力。
当前挑战
该数据集所解决的领域问题聚焦于高分辨率图像-文本对的低质量与冗余性困境。原始LAION Aesthetics数据虽经美学筛选,但仍包含大量低分辨率图像、图文匹配度差的样本及重复内容,严重制约了模型在高清场景下的泛化能力。构建过程中,研究人员面临多重挑战:首先,海量链接失效需通过自动化脚本在百万级规模下逐条验证,确保数据可访问性;其次,使用CLIP-ViT-L-patch14重新计算嵌入以量化图文相似度,计算成本高昂且需平衡阈值选择以避免误删有效样本;最后,去重操作需在嵌入空间中进行高效聚类,处理约三分之一数据被剔除后的剩余样本分布偏移问题,确保最终数据集在规模与质量间取得最优权衡。
常用场景
经典使用场景
在视觉与语言多模态研究领域,高分辨率图像与文本的精准对齐是提升模型生成能力的关键瓶颈。drhead/laion_hd_21M_deduped数据集从LAION Aesthetics v2 5+中筛选出分辨率不低于1024×1024像素的图像,并剔除了失效链接与低质量图文匹配对,构建了一个纯净且高清晰度的图文数据集。其经典使用场景在于训练和评估文本到图像生成模型,例如Stable Diffusion等扩散模型的微调,通过提供海量高分辨率样本,显著增强了模型对复杂视觉细节的捕捉能力,推动了生成图像在逼真度与美学质量上的飞跃。
实际应用
在实际应用中,该数据集广泛服务于内容创作、广告设计和虚拟现实等对视觉品质要求严苛的领域。例如,电商平台可利用其微调图像生成模型,自动产出高清且与商品描述匹配的展示图;游戏开发者能借助它训练角色和场景生成器,实现快速原型设计。此外,在医疗影像分析中,高分辨率图文对可用于生成详细的诊断辅助图像,提升临床决策效率。其去重与高质量特性使得模型训练成本降低,部署更加稳定,从而加速了AI技术在创意产业与工业界的落地进程。
衍生相关工作
围绕drhead/laion_hd_21M_deduped数据集,衍生了一系列影响深远的研究工作。例如,基于其高分辨率特性,研究者提出了针对超分辨率任务的专用增强版数据集,推动了图像修复技术的进步。在文本到图像生成领域,该数据集被用于改进CLIP引导的生成框架,催生了如DALL-E 2和Imagen等模型的优化变体。此外,其去重策略启发了大规模数据清洗工具的开发,如DataComp竞赛中的高效筛选方案。这些衍生工作不仅验证了数据质量对模型性能的决定性作用,也促进了多模态学习从学术探索向工程化应用的转型。
以上内容由遇见数据集搜集并总结生成



