laion2b-45ish-1120px

Hugging Face2025-03-02 更新2025-03-03 收录

下载链接：

https://huggingface.co/datasets/opendiffusionai/laion2b-45ish-1120px

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从LAION2B-en-aesthetic数据集中选取的子集，基于长宽比进行了筛选，并且具有更好的标题注释。这是一个通用型数据集，其中大约只有30%的图片包含人类。所有非现实风格的图片都被过滤掉了，旨在创建一个“现实世界”的数据集。这个数据集大约有80,000张图片，磁盘占用大约为45G。这个数据集没有经过人工单独筛选，只是批量剔除。图片的长宽比为4:5的肖像画风格，或者稍微宽一些（因为稍微太宽的图片可以被安全地裁剪得更窄）。作者对于选择1120像素的最低高度可能有所偏差，建议可能需要选择1152像素（因为64的倍数）。数据集中包含了两种自动生成的标题风格：“moondream”和“wd14”，并使用这些风格来过滤掉带水印的图片。使用“moondream”模型为每张图片添加了AI生成的标题，并使用该模型过滤掉带水印的图片。

This is a subset selected from the LAION2B-en-aesthetic dataset, filtered based on aspect ratio and featuring improved caption annotations. It is a general-purpose dataset, with only approximately 30% of its images containing human subjects. All non-photorealistic images have been filtered out, with the goal of creating a "real-world" dataset. This dataset contains roughly 80,000 images and occupies approximately 45 GB of disk space. This dataset has not undergone individual manual screening, only batch filtering. The images have an aspect ratio of 4:5 (portrait orientation), or slightly wider, as excessively wide images can be safely cropped to a narrower aspect ratio. The authors may have a bias in choosing a minimum height of 1120 pixels, and it is recommended that 1152 pixels (a multiple of 64) be selected instead. The dataset includes two automatically generated caption styles: "moondream" and "wd14", which are used to filter out watermarked images. AI-generated captions were added to each image using the "moondream" model, and this model was also used to filter out watermarked images.

创建时间：

2025-03-01

搜集汇总

数据集介绍

构建方式

该数据集名为laion2b-45ish-1120px，其构建基于LAION2B-en-aesthetic的一个子集。该子集通过筛选宽高比为4:5或略宽的图像，并确保图像至少具有1120像素的高度，以适应特定的视觉需求。构建过程中，通过批量筛选而非逐个筛选的方式，排除了非真实图像，保留了大约80k的图像，旨在形成一个反映现实世界的图像集合。

特点

此数据集的特点在于，它包含的图像具有较高比例的宽高比为4:5，或略宽的竖直格式，这使其在视觉呈现上具有一致性。数据集大约30%的图像包含人类，且已经过滤掉了所有非真实图像，确保了图像的真实性和多样性。此外，每个图像都包含两种自动生成的风格化标题，分别为'moondream'和'wd14'，这些标题还用于过滤带水印的图像。

使用方法

在使用该数据集时，用户可以根据需要调整下载脚本中的最小尺寸设置，以获取不同尺寸偏好的图像。此外，数据集的JSONL文件可以运行脚本以排除高度不符合用户偏好的图像。由于数据集不包含个人筛选的图像，用户在使用时可能需要进行进一步的筛选以满足特定需求。

背景与挑战

背景概述

laion2b-45ish-1120px数据集，作为LAION项目的一个子集，旨在为视觉研究提供一份经过精心筛选的图像资源。该数据集的创建，源自于对原始LAION2B-en-aesthetic数据集的进一步优化，挑选出长宽比为4:5的图像，并确保图像质量更贴近现实世界的标准。该数据集的构建时间为近年，由LAION团队维护，其核心研究问题聚焦于如何通过图像的审美和现实性筛选，来提高机器学习模型在图像识别任务中的表现。数据集包含约80,000张图像，非现实图像已被过滤，且其中大约70%的图像不包含人类，这一特性使其在图像研究领域具有一定的独特性，对相关领域产生了显著影响。

当前挑战

该数据集面临的挑战主要体现在两个方面：首先，数据集构建过程中，如何精确筛选出符合特定长宽比的图像，以及如何有效过滤掉带有水印的图像，是技术上的两大难点。其次，数据集所解决的领域问题是图像识别与分类，面临的挑战包括如何提升模型对现实世界图像的理解能力，以及如何减少非现实图像对模型训练的干扰。此外，选择1120像素作为图像最小高度的标准可能存在偏差，这需要后续的研究者根据实际需求进行调整和优化。

常用场景

经典使用场景

在计算机视觉与自然语言处理领域，laion2b-45ish-1120px数据集因其筛选的图片比例及高质量的标注，成为训练图像识别与描述生成模型的经典资源。该数据集专注于人像比例接近4:5的图片，并确保图像尺寸符合特定标准，便于模型在保持图片美观的同时，进行高效的训练与学习。

衍生相关工作

基于laion2b-45ish-1120px数据集，研究者们已经开展了一系列相关工作，如图像风格转换、图像质量评估以及多模态内容理解等。这些衍生工作进一步拓展了数据集的应用范围，促进了相关技术的进步与创新发展。

数据集最近研究