FacePerceiver/laion-face

Name: FacePerceiver/laion-face
Creator: FacePerceiver
Published: 2022-11-18 04:04:56
License: 暂无描述

Hugging Face2022-11-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/FacePerceiver/laion-face

下载链接

链接失效反馈

官方服务：

资源简介：

# Laion-Face [LAION-Face](https://github.com/FacePerceiver/LAION-Face) is the human face subset of [LAION-400M](https://laion.ai/laion-400-open-dataset/), it consists of 50 million image-text pairs. Face detection is conducted to find images with faces. Apart from the 50 million full-set(LAION-Face 50M), there is a 20 million sub-set(LAION-Face 20M) for fast evaluation. LAION-Face is first used as the training set of [FaRL](https://github.com/FacePerceiver/FaRL), which provides powerful pre-training transformer backbones for face analysis tasks. For more details, please check the offical repo at https://github.com/FacePerceiver/LAION-Face . ## Download and convert metadata ```bash wget -l1 -r --no-parent https://the-eye.eu/public/AI/cah/laion400m-met-release/laion400m-meta/ mv the-eye.eu/public/AI/cah/laion400m-met-release/laion400m-meta/ . wget https://huggingface.co/datasets/FacePerceiver/laion-face/resolve/main/laion_face_ids.pth wget https://raw.githubusercontent.com/FacePerceiver/LAION-Face/master/convert_parquet.py python convert_parquet.py ./laion_face_ids.pth ./laion400m-meta ./laion_face_meta ``` ## Download the images with img2dataset When metadata is ready, you can start download the images. ```bash wget https://raw.githubusercontent.com/FacePerceiver/LAION-Face/master/download.sh bash download.sh ./laion_face_meta ./laion_face_data ``` Please be patient, this command might run over days, and cost about 2T disk space, and it will download 50 million image-text pairs as 32 parts. - To use the **LAION-Face 50M**, you should use all the 32 parts. - To use the **LAION-Face 20M**, you should use these parts. ``` 0,2,5,8,13,15,17,18,21,22,24,25,28 ``` checkout `download.sh` and [img2dataset](https://github.com/rom1504/img2dataset) for more details and parameter setting.

# LAION-Face [LAION-Face](https://github.com/FacePerceiver/LAION-Face) 是 [LAION-400M](https://laion.ai/laion-400-open-dataset/) 的人脸子集，包含5000万组图像-文本对。通过人脸检测技术筛选出含有人脸的图像。除完整的5000万版本（LAION-Face 50M）外，还设有2000万的子集版本（LAION-Face 20M），用于快速评估。 LAION-Face 首次被用作 [FaRL](https://github.com/FacePerceiver/FaRL) 的训练集，该项目为人脸分析任务提供了性能优异的预训练Transformer骨干网络。如需了解更多细节，请访问官方仓库：https://github.com/FacePerceiver/LAION-Face。 ## 下载并转换元数据 bash wget -l1 -r --no-parent https://the-eye.eu/public/AI/cah/laion400m-met-release/laion400m-meta/ mv the-eye.eu/public/AI/cah/laion400m-met-release/laion400m-meta/ . wget https://huggingface.co/datasets/FacePerceiver/laion-face/resolve/main/laion_face_ids.pth wget https://raw.githubusercontent.com/FacePerceiver/LAION-Face/master/convert_parquet.py python convert_parquet.py ./laion_face_ids.pth ./laion400m-meta ./laion_face_meta ## 使用img2dataset下载图像元数据准备就绪后，即可启动图像下载流程。 bash wget https://raw.githubusercontent.com/FacePerceiver/LAION-Face/master/download.sh bash download.sh ./laion_face_meta ./laion_face_data 请耐心等待，该任务可能耗时数日，需占用约2TB磁盘空间，最终会将5000万组图像-文本对拆分为32个分片。 - 若需使用 **LAION-Face 50M**，需使用全部32个分片。 - 若需使用 **LAION-Face 20M**，需使用以下分片： 0,2,5,8,13,15,17,18,21,22,24,25,28 可查看`download.sh`与[img2dataset](https://github.com/rom1504/img2dataset)了解更多细节与参数设置。

提供机构：

FacePerceiver

原始信息汇总

LAION-Face 数据集概述

数据集组成

LAION-Face 50M: 包含5000万张图像-文本对，是LAION-400M的人脸子集。
LAION-Face 20M: 包含2000万张图像-文本对，用于快速评估的子集。

数据集特点

通过人脸检测筛选出包含人脸的图像。
首次用于训练FaRL模型，提供强大的预训练Transformer骨干网络，用于人脸分析任务。

数据集下载与处理

元数据下载与转换:
- 下载LAION-400M元数据和LAION-Face标识文件。
- 使用convert_parquet.py脚本将标识文件与元数据结合，生成LAION-Face元数据。
图像下载:
- 使用download.sh脚本和img2dataset工具下载图像。
- 下载过程可能持续数天，需要约2TB的存储空间。
- LAION-Face 50M需下载所有32个部分。
- LAION-Face 20M需下载指定的部分（0,2,5,8,13,15,17,18,21,22,24,25,28）。

搜集汇总

数据集介绍

构建方式

LAION-Face数据集的构建是基于LAION-400M的子集，通过精确的人脸检测算法，从LAION-400M中筛选出含有 faces 的图像，并与之配对相应的文本信息，从而形成了包含5000万图像-文本对的数据集。此外，为了便于快速评估，还从中提取了含2000万对的子集LAION-Face 20M。

特点

该数据集显著的特征在于其规模宏大，覆盖了广泛的人脸图像，为深度学习模型提供了丰富的训练素材。其图像-文本对的配对特性，使得数据集不仅适用于人脸识别，也适用于多模态的机器学习任务。另外，LAION-Face 20M子集的设定，便于研究者在资源有限的情况下进行快速验证。

使用方法

使用LAION-Face数据集时，首先需要下载并转换元数据，通过提供的脚本来完成这一步骤。随后，利用img2dataset工具下载图像数据，这一过程可能需要数天时间和大约2T的磁盘空间。针对不同的需求，可以选择使用完整的LAION-Face 50M数据集或仅使用LAION-Face 20M子集，后者通过特定的部分来实现。

背景与挑战

背景概述

LAION-Face数据集，作为LAION-400M子集，由FacePerceiver团队构建，旨在为面部分析任务提供强大的预训练transformer骨架。该数据集包含了5000万张人像图像-文本对，通过面部检测技术筛选出含有人脸的图像。LAION-Face首次被用作FaRL模型的训练集，显著推动了人脸识别与分析领域的研究进展，对相关领域的学术研究和技术发展产生了深远影响。

当前挑战

LAION-Face数据集在构建过程中面临了两大挑战：一是如何在海量数据中准确快速地检测并筛选出人脸图像，二是如何高效地存储与下载这些大规模图像数据集。在解决领域问题方面，LAION-Face需应对面部识别中的多样性和复杂性，包括不同人种、表情、光照和姿态的识别挑战。此外，数据集的构建还需考虑数据隐私和伦理问题，确保图像使用的合法性和合规性。

常用场景

经典使用场景

在人工智能研究领域，尤其是人脸分析任务中，LAION-Face数据集以其庞大的规模和精细的标注成为了一项不可或缺的资源。该数据集被广泛用于训练深度学习模型，以实现人脸识别、人脸验证等任务，其经典的使用场景在于为模型提供充足的训练样本，从而提升模型的准确性和泛化能力。

衍生相关工作

基于LAION-Face数据集的研究成果，衍生出了一系列相关的工作，如FaRL模型等。这些工作进一步拓展了人脸分析技术的边界，不仅在学术研究中产生了深远的影响，也为工业界提供了强大的技术支持，推动了人工智能领域的整体发展。

数据集最近研究