E621 Faces Dataset

github2024-04-25 更新2024-05-31 收录

下载链接：

https://github.com/arfafax/E621-Face-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从e621网站提取的大约186,000个面部图像的边界框信息，以及用于下载和根据这些边界框裁剪图像的脚本。CSV文件中还包含了一部分标签，可用作条件GAN的训练标签。

This dataset comprises approximately 186,000 facial image bounding box information extracted from the e621 website, along with scripts for downloading and cropping images based on these bounding boxes. The CSV file also includes a portion of labels that can be used as training labels for conditional GANs.

创建时间：

2020-02-19

原始信息汇总

E621 Faces Dataset 概述

数据集描述

目的: 用于从e621获取裁剪的面部数据集。通过训练YOLOv3网络在约1500个面部特征的标注上创建。
数据集大小: 包含约186k面部数据。
数据格式: 提供CSV文件，包含检测到的特征的边界框，以及一个脚本用于根据这些CSV从e621下载和裁剪图像。
标签: CSV文件中包含部分标签，可用作条件GAN的训练标签。

文件列表

文件名	描述
get_faces.py	用于下载e621基础文件并根据CSV中的坐标进行裁剪的脚本。
faces_s.csv	包含90k安全评级的裁剪面部URL、边界框和部分标签的CSV。
features_s.csv	包含389k安全评级的面部特征边界框的CSV。
faces_q.csv	包含96k有疑问评级的裁剪面部URL、边界框和部分标签的CSV。
features_q.csv	包含400k有疑问评级的面部特征边界框的CSV。

CSV文件头信息

faces_(s|q).csv:

e621id,feature,index,confidence,xmin,ymin,xmax,ymax,file_url,rating,score,file_size,tags,artist,copyrights,characters,species
features_(s|q).csv:

e621id,feature,index,confidence,xmin,ymin,xmax,ymax

数据集使用

测试: 建议先在子集上测试设置。例如，使用get_faces.py下载和裁剪特定物种的图像。
全数据集下载: 从faces_s.csv下载全数据集需要约106GB空间。
GAN训练: 建议仅使用置信度大于等于0.99的图像进行GAN训练。
自定义过滤: 可通过修改代码来过滤faces DataFrame，以根据其他属性筛选图像。

其他用途

StyleGAN2: 裁剪的图像格式正确，可直接用于StyleGAN的dataset_tool.py。
自定义网络训练: 使用裁剪坐标训练面部检测网络，如使用darknet框架。

搜集汇总

数据集介绍

构建方式

E621 Faces Dataset的构建基于对e621网站上约1500张标注面部特征的图像进行YOLOv3网络训练。该数据集包含了约18.6万张面部图像的边界框信息，这些信息存储在CSV文件中。通过这些CSV文件，用户可以下载原始图像并根据边界框坐标进行裁剪。此外，CSV文件还包含了部分标签信息，这些标签可用于条件生成对抗网络（GAN）的训练。

特点

E621 Faces Dataset的显著特点在于其大规模的面部图像数据和详细的边界框信息。数据集不仅提供了图像的URL和裁剪坐标，还包含了图像的评分、标签、艺术家信息等元数据。这些元数据为图像分类、生成对抗网络训练等任务提供了丰富的上下文信息。此外，数据集的多样性体现在其涵盖了不同评分（如安全、有疑问等）的图像，满足了不同研究需求。

使用方法

使用E621 Faces Dataset时，用户可以通过提供的Python脚本下载原始图像并根据CSV文件中的边界框信息进行裁剪。数据集的CSV文件包含了图像的URL、边界框坐标、评分、标签等信息，用户可以根据这些信息筛选和处理数据。此外，数据集还支持StyleGAN2的训练，用户可以直接使用裁剪后的图像进行生成对抗网络的训练。对于希望训练自己的面部检测网络的用户，数据集提供了裁剪坐标，便于生成训练所需的标注文件。

背景与挑战

背景概述

E621 Faces Dataset 是一个专门用于从e621网站提取并裁剪人脸图像的数据集，由研究人员通过训练YOLOv3网络在约1500张标注人脸特征的图像上创建。该数据集包含约186,000张人脸图像，并提供了CSV文件记录了检测到的特征边界框及部分标签信息。这些标签可用于训练条件生成对抗网络（GAN）。数据集的构建旨在为计算机视觉领域的研究人员提供一个大规模、多样化的面部图像资源，以支持面部识别、图像生成等研究。

当前挑战

E621 Faces Dataset 的构建过程中面临了多个挑战。首先，从e621网站获取并裁剪大量图像需要处理复杂的网络请求和数据处理问题。其次，确保检测到的面部特征的准确性和一致性是一个技术难题，尤其是在处理不同质量的图像时。此外，数据集的标签信息虽然丰富，但如何有效利用这些标签进行模型训练仍需进一步研究。最后，数据集的规模庞大，存储和处理这些数据对计算资源提出了较高要求。

常用场景

经典使用场景

E621 Faces Dataset 的经典使用场景主要集中在人脸检测与识别领域。该数据集通过提供约186,000张经过YOLOv3网络训练的面部特征标注图像，为研究人员和开发者提供了丰富的资源，用于训练和验证人脸检测算法。通过CSV文件中提供的边界框信息，用户可以轻松下载并裁剪图像，从而为各种计算机视觉任务提供高质量的输入数据。

解决学术问题

E621 Faces Dataset 解决了人脸检测与识别领域中数据稀缺和标注不准确的问题。通过提供大规模、高质量的面部特征标注数据，该数据集显著提升了人脸检测算法的性能和鲁棒性。此外，数据集中的标签信息还为条件生成对抗网络（GAN）的训练提供了可能，进一步推动了计算机视觉领域的研究进展。

衍生相关工作

E621 Faces Dataset 的发布催生了一系列相关的经典工作，特别是在人脸检测和生成对抗网络（GAN）领域。研究人员利用该数据集训练了多种人脸检测模型，如基于Darknet的YOLOv3改进版本，显著提升了检测精度。此外，数据集还为StyleGAN2等生成模型的训练提供了支持，推动了高质量人脸图像生成的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集