drhead/laion_hd_21M_deduped

Name: drhead/laion_hd_21M_deduped
Creator: drhead
Published: 2023-10-04 15:59:02
License: 暂无描述

Hugging Face2023-10-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/drhead/laion_hd_21M_deduped

下载链接

链接失效反馈

官方服务：

资源简介：

A subset of LAION Aesthetics v2 5+, filtered to include only high resolution (1024x1024+) images, then processed to remove dead links (as of October 2023), and with embeddings recalculated using CLIP-ViT-L-patch14 which were used to both remove poor-quality image-caption matches (CLIP similarity <0.2) and to deduplicate the dataset. Roughly one third of the dataset was dropped by these operations after filtering high resolution images.

提供机构：

drhead

原始信息汇总

数据集概述

数据来源

该数据集是LAION Aesthetics v2 5+的一个子集。

数据处理

过滤条件：仅包含分辨率在1024x1024及以上的高分辨率图像。
数据清洗：移除无效链接（截至2023年10月）。
特征计算：使用CLIP-ViT-L-patch14重新计算图像嵌入。
质量控制：移除图像与标题匹配度低的样本（CLIP相似度小于0.2）。
去重处理：通过图像嵌入进行数据集去重。

数据规模

经过上述处理后，数据集规模减少了约三分之一。

搜集汇总

数据集介绍

构建方式

在视觉与语言多模态研究领域，高质量图文数据对模型性能至关重要。本数据集源自LAION Aesthetics v2 5+，通过严格的筛选流程构建而成。首先，仅保留分辨率不低于1024×1024像素的高清图像，确保视觉信息的精细度。随后，于2023年10月进行死链剔除，保证链接有效性。在此基础上，采用CLIP-ViT-L-patch14模型重新计算图文嵌入，移除CLIP相似度低于0.2的低质量匹配对，并实施去重操作。经过上述过滤，约三分之一的数据被剔除，最终形成包含2100万样本的精炼子集。

特点

该数据集的核心特点在于其高分辨率与高质量的双重保障。所有图像均达到1024×1024像素以上，为细粒度视觉分析提供坚实基础。通过CLIP相似度阈值筛选，图文对齐质量显著提升，有效减少了噪声干扰。去重处理则消除了冗余样本，增强了数据的多样性与代表性。此外，死链剔除确保了链接的长期可用性，使数据集在时间维度上保持稳定。整体而言，该子集在规模与纯净度之间实现了良好平衡，适用于训练鲁棒的视觉语言模型。

使用方法

本数据集可直接用于多模态模型的预训练或微调任务。使用时，可通过HuggingFace的datasets库加载，或从原始链接下载图像与对应的元数据。推荐结合CLIP-ViT-L-patch14等模型进行图文匹配评估，以适配下游应用。由于数据已去重并过滤低质量样本，可直接作为训练集，无需额外清洗。研究者亦可将其作为基准，对比不同分辨率或相似度阈值对模型性能的影响。需注意，数据集仅包含图像URL与文本描述，实际使用前需确保网络连接以获取图像文件。

背景与挑战

背景概述

大规模图文数据集LAION Aesthetics v2 5+在视觉语言模型训练中扮演着基石角色，但其原始版本受限于图像分辨率和噪声干扰。为应对高分辨率图像需求日益增长的挑战，研究人员于2023年10月从该数据集中筛选出分辨率不低于1024×1024像素的子集，并由drhead团队主导构建了laion_hd_21M_deduped数据集。该数据集核心研究问题在于如何通过严格的质量控制流程，获得高清晰度、高图文匹配度的训练样本，以提升生成式模型与多模态理解系统的性能。通过移除死链、重新计算CLIP-ViT-L-patch14嵌入并剔除相似度低于0.2的低质量匹配，以及去重操作，该数据集在原始高分辨率过滤基础上进一步缩减了约三分之一规模，显著增强了数据纯净度与实用性，对推动高保真图文生成与跨模态检索研究具有重要影响力。

当前挑战

该数据集所解决的领域问题聚焦于高分辨率图像-文本对的低质量与冗余性困境。原始LAION Aesthetics数据虽经美学筛选，但仍包含大量低分辨率图像、图文匹配度差的样本及重复内容，严重制约了模型在高清场景下的泛化能力。构建过程中，研究人员面临多重挑战：首先，海量链接失效需通过自动化脚本在百万级规模下逐条验证，确保数据可访问性；其次，使用CLIP-ViT-L-patch14重新计算嵌入以量化图文相似度，计算成本高昂且需平衡阈值选择以避免误删有效样本；最后，去重操作需在嵌入空间中进行高效聚类，处理约三分之一数据被剔除后的剩余样本分布偏移问题，确保最终数据集在规模与质量间取得最优权衡。

常用场景

经典使用场景

在视觉与语言多模态研究领域，高分辨率图像与文本的精准对齐是提升模型生成能力的关键瓶颈。drhead/laion_hd_21M_deduped数据集从LAION Aesthetics v2 5+中筛选出分辨率不低于1024×1024像素的图像，并剔除了失效链接与低质量图文匹配对，构建了一个纯净且高清晰度的图文数据集。其经典使用场景在于训练和评估文本到图像生成模型，例如Stable Diffusion等扩散模型的微调，通过提供海量高分辨率样本，显著增强了模型对复杂视觉细节的捕捉能力，推动了生成图像在逼真度与美学质量上的飞跃。

实际应用

在实际应用中，该数据集广泛服务于内容创作、广告设计和虚拟现实等对视觉品质要求严苛的领域。例如，电商平台可利用其微调图像生成模型，自动产出高清且与商品描述匹配的展示图；游戏开发者能借助它训练角色和场景生成器，实现快速原型设计。此外，在医疗影像分析中，高分辨率图文对可用于生成详细的诊断辅助图像，提升临床决策效率。其去重与高质量特性使得模型训练成本降低，部署更加稳定，从而加速了AI技术在创意产业与工业界的落地进程。

衍生相关工作

围绕drhead/laion_hd_21M_deduped数据集，衍生了一系列影响深远的研究工作。例如，基于其高分辨率特性，研究者提出了针对超分辨率任务的专用增强版数据集，推动了图像修复技术的进步。在文本到图像生成领域，该数据集被用于改进CLIP引导的生成框架，催生了如DALL-E 2和Imagen等模型的优化变体。此外，其去重策略启发了大规模数据清洗工具的开发，如DataComp竞赛中的高效筛选方案。这些衍生工作不仅验证了数据质量对模型性能的决定性作用，也促进了多模态学习从学术探索向工程化应用的转型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集