FacePerceiver/laion-face
收藏Hugging Face2022-11-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FacePerceiver/laion-face
下载链接
链接失效反馈官方服务:
资源简介:
# Laion-Face
[LAION-Face](https://github.com/FacePerceiver/LAION-Face) is the human face subset of [LAION-400M](https://laion.ai/laion-400-open-dataset/), it consists of 50 million image-text pairs. Face detection is conducted to find images with faces. Apart from the 50 million full-set(LAION-Face 50M), there is a 20 million sub-set(LAION-Face 20M) for fast evaluation.
LAION-Face is first used as the training set of [FaRL](https://github.com/FacePerceiver/FaRL), which provides powerful pre-training transformer backbones for face analysis tasks.
For more details, please check the offical repo at https://github.com/FacePerceiver/LAION-Face .
## Download and convert metadata
```bash
wget -l1 -r --no-parent https://the-eye.eu/public/AI/cah/laion400m-met-release/laion400m-meta/
mv the-eye.eu/public/AI/cah/laion400m-met-release/laion400m-meta/ .
wget https://huggingface.co/datasets/FacePerceiver/laion-face/resolve/main/laion_face_ids.pth
wget https://raw.githubusercontent.com/FacePerceiver/LAION-Face/master/convert_parquet.py
python convert_parquet.py ./laion_face_ids.pth ./laion400m-meta ./laion_face_meta
```
## Download the images with img2dataset
When metadata is ready, you can start download the images.
```bash
wget https://raw.githubusercontent.com/FacePerceiver/LAION-Face/master/download.sh
bash download.sh ./laion_face_meta ./laion_face_data
```
Please be patient, this command might run over days, and cost about 2T disk space, and it will download 50 million image-text pairs as 32 parts.
- To use the **LAION-Face 50M**, you should use all the 32 parts.
- To use the **LAION-Face 20M**, you should use these parts.
```
0,2,5,8,13,15,17,18,21,22,24,25,28
```
checkout `download.sh` and [img2dataset](https://github.com/rom1504/img2dataset) for more details and parameter setting.
# LAION-Face
[LAION-Face](https://github.com/FacePerceiver/LAION-Face) 是 [LAION-400M](https://laion.ai/laion-400-open-dataset/) 的人脸子集,包含5000万组图像-文本对。通过人脸检测技术筛选出含有人脸的图像。除完整的5000万版本(LAION-Face 50M)外,还设有2000万的子集版本(LAION-Face 20M),用于快速评估。
LAION-Face 首次被用作 [FaRL](https://github.com/FacePerceiver/FaRL) 的训练集,该项目为人脸分析任务提供了性能优异的预训练Transformer骨干网络。
如需了解更多细节,请访问官方仓库:https://github.com/FacePerceiver/LAION-Face。
## 下载并转换元数据
bash
wget -l1 -r --no-parent https://the-eye.eu/public/AI/cah/laion400m-met-release/laion400m-meta/
mv the-eye.eu/public/AI/cah/laion400m-met-release/laion400m-meta/ .
wget https://huggingface.co/datasets/FacePerceiver/laion-face/resolve/main/laion_face_ids.pth
wget https://raw.githubusercontent.com/FacePerceiver/LAION-Face/master/convert_parquet.py
python convert_parquet.py ./laion_face_ids.pth ./laion400m-meta ./laion_face_meta
## 使用img2dataset下载图像
元数据准备就绪后,即可启动图像下载流程。
bash
wget https://raw.githubusercontent.com/FacePerceiver/LAION-Face/master/download.sh
bash download.sh ./laion_face_meta ./laion_face_data
请耐心等待,该任务可能耗时数日,需占用约2TB磁盘空间,最终会将5000万组图像-文本对拆分为32个分片。
- 若需使用 **LAION-Face 50M**,需使用全部32个分片。
- 若需使用 **LAION-Face 20M**,需使用以下分片:
0,2,5,8,13,15,17,18,21,22,24,25,28
可查看`download.sh`与[img2dataset](https://github.com/rom1504/img2dataset)了解更多细节与参数设置。
提供机构:
FacePerceiver
原始信息汇总
LAION-Face 数据集概述
数据集组成
- LAION-Face 50M: 包含5000万张图像-文本对,是LAION-400M的人脸子集。
- LAION-Face 20M: 包含2000万张图像-文本对,用于快速评估的子集。
数据集特点
- 通过人脸检测筛选出包含人脸的图像。
- 首次用于训练FaRL模型,提供强大的预训练Transformer骨干网络,用于人脸分析任务。
数据集下载与处理
- 元数据下载与转换:
- 下载LAION-400M元数据和LAION-Face标识文件。
- 使用
convert_parquet.py脚本将标识文件与元数据结合,生成LAION-Face元数据。
- 图像下载:
- 使用
download.sh脚本和img2dataset工具下载图像。 - 下载过程可能持续数天,需要约2TB的存储空间。
- LAION-Face 50M需下载所有32个部分。
- LAION-Face 20M需下载指定的部分(0,2,5,8,13,15,17,18,21,22,24,25,28)。
- 使用
搜集汇总
数据集介绍

构建方式
LAION-Face数据集的构建是基于LAION-400M的子集,通过精确的人脸检测算法,从LAION-400M中筛选出含有 faces 的图像,并与之配对相应的文本信息,从而形成了包含5000万图像-文本对的数据集。此外,为了便于快速评估,还从中提取了含2000万对的子集LAION-Face 20M。
特点
该数据集显著的特征在于其规模宏大,覆盖了广泛的人脸图像,为深度学习模型提供了丰富的训练素材。其图像-文本对的配对特性,使得数据集不仅适用于人脸识别,也适用于多模态的机器学习任务。另外,LAION-Face 20M子集的设定,便于研究者在资源有限的情况下进行快速验证。
使用方法
使用LAION-Face数据集时,首先需要下载并转换元数据,通过提供的脚本来完成这一步骤。随后,利用img2dataset工具下载图像数据,这一过程可能需要数天时间和大约2T的磁盘空间。针对不同的需求,可以选择使用完整的LAION-Face 50M数据集或仅使用LAION-Face 20M子集,后者通过特定的部分来实现。
背景与挑战
背景概述
LAION-Face数据集,作为LAION-400M子集,由FacePerceiver团队构建,旨在为面部分析任务提供强大的预训练transformer骨架。该数据集包含了5000万张人像图像-文本对,通过面部检测技术筛选出含有人脸的图像。LAION-Face首次被用作FaRL模型的训练集,显著推动了人脸识别与分析领域的研究进展,对相关领域的学术研究和技术发展产生了深远影响。
当前挑战
LAION-Face数据集在构建过程中面临了两大挑战:一是如何在海量数据中准确快速地检测并筛选出人脸图像,二是如何高效地存储与下载这些大规模图像数据集。在解决领域问题方面,LAION-Face需应对面部识别中的多样性和复杂性,包括不同人种、表情、光照和姿态的识别挑战。此外,数据集的构建还需考虑数据隐私和伦理问题,确保图像使用的合法性和合规性。
常用场景
经典使用场景
在人工智能研究领域,尤其是人脸分析任务中,LAION-Face数据集以其庞大的规模和精细的标注成为了一项不可或缺的资源。该数据集被广泛用于训练深度学习模型,以实现人脸识别、人脸验证等任务,其经典的使用场景在于为模型提供充足的训练样本,从而提升模型的准确性和泛化能力。
衍生相关工作
基于LAION-Face数据集的研究成果,衍生出了一系列相关的工作,如FaRL模型等。这些工作进一步拓展了人脸分析技术的边界,不仅在学术研究中产生了深远的影响,也为工业界提供了强大的技术支持,推动了人工智能领域的整体发展。
数据集最近研究
最新研究方向
在人脸识别与分析领域,LAION-Face数据集的问世标志着大规模图像-文本对资源的进一步拓展。该数据集作为LAION-400M的子集,包含五千万图像-文本对,旨在为面部识别任务提供强大的预训练变换器骨架。近期研究聚焦于利用LAION-Face数据集对FaRL模型进行训练,此模型在面部分析任务中表现出显著优势,推动了该领域在细粒度识别、面部属性识别以及情感分析等前沿方向的研究进展,对提升人工智能在社交互动、安全监控等方面的应用具有深远影响。
以上内容由遇见数据集搜集并总结生成



