gofixyourself/EasyPortrait

Name: gofixyourself/EasyPortrait
Creator: gofixyourself
Published: 2023-05-12 12:41:47
License: 暂无描述

Hugging Face2023-05-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gofixyourself/EasyPortrait

下载链接

链接失效反馈

官方服务：

资源简介：

EasyPortrait是一个大规模图像数据集，专为肖像分割和面部解析任务设计。该数据集包含约26GB的20,000张RGB图像，分为训练集（14,000张）、验证集（2,000张）和测试集（4,000张）。每张图像都有高质量的分割掩码，注释信息包括背景、人物、皮肤、眉毛、眼睛、嘴唇和牙齿等多个类别。此外，数据集还提供了图像的元信息，如宽度、高度、亮度和用户ID等。该数据集可用于会议应用中的背景去除、牙齿美白、面部皮肤增强、红眼去除或眼睛着色等任务。

提供机构：

gofixyourself

原始信息汇总

EasyPortrait - Face Parsing and Portrait Segmentation Dataset

概述

数据集名称: EasyPortrait
主要用途: 人像分割和面部解析
数据集大小: 约26GB
图像数量: 20,000张RGB图像
图像分辨率: 约17,500张为FullHD分辨率
分割掩码: 高质量，平均每张图像254个多边形点
数据集划分: 训练集14,000张，验证集2,000张，测试集4,000张
用户分布: 训练集来自5,947个用户，验证集来自860个用户，测试集来自1,570个用户

数据集结构

图像文件: 分为train, val, test三个子文件夹，分别包含14k, 2k, 4k张图像
注释文件: 同样分为train, val, test三个子文件夹，包含元信息文件meta.zip

注释细节

注释格式: 2D数组，*.png格式
类别: 共9个类别，包括背景、人物、皮肤、左眉、右眉、左眼、右眼、嘴唇、牙齿
元信息: 包含attachment_id, user_id, data_hash, width, height, brightness等详细信息

许可证

许可证: Creative Commons Attribution-ShareAlike 4.0 International License

搜集汇总

数据集介绍

构建方式

在肖像分割与面部解析研究领域，数据集的构建质量直接影响模型的泛化能力。EasyPortrait数据集通过众包方式收集了约两万张RGB图像，其中约一万七千五百张为全高清分辨率。这些图像源自八千余位独立用户，确保了数据来源的多样性。标注过程采用高质量的多边形标注，平均每张图像包含254个多边形点，并据此生成精细的语义分割掩码。数据集依据用户ID划分为训练集、验证集和测试集，有效避免了同一用户数据在不同集合中的泄漏，提升了评估的可靠性。

特点

该数据集的核心特征在于其规模与标注精度。EasyPortrait包含九类语义标签，涵盖背景、人物整体及面部细节如皮肤、眉毛、眼睛、嘴唇与牙齿，为多层次的面部分析提供了结构化基础。数据集中近百分之九十的图像为高清格式，且附有丰富的元信息，包括图像尺寸、亮度及感知哈希值，便于进行数据质量分析与预处理。其按用户划分的数据分割策略，模拟了真实场景中的分布差异，对模型跨域泛化能力的检验尤为关键。

使用方法

在计算机视觉应用中，EasyPortrait数据集适用于训练肖像分割与面部解析模型。研究人员可下载图像与对应的PNG格式标注掩码，利用提供的元数据文件进行数据集的加载与划分。该数据集支持多种下游任务，如视频会议中的背景替换、面部皮肤增强、牙齿美白及眼部特效处理。典型工作流程包括使用训练集进行模型训练，在验证集上调整超参数，并在独立用户构成的测试集上评估模型性能，以确保其在未见用户数据上的有效性。

背景与挑战

背景概述

在计算机视觉领域，人像分割与面部解析是支撑诸多应用的核心技术，涵盖视频会议背景替换、美颜滤镜及虚拟化妆等场景。2023年，由Alexander Kapitanov、Karina Kvanchiani与Sofia Kirillova等研究人员共同构建的EasyPortrait数据集应运而生，其规模达26GB，包含20,000张高分辨率RGB图像及精细标注的分割掩码。该数据集旨在为人像分割与面部解析任务提供大规模、高质量的基准数据，通过按用户ID划分训练、验证与测试集，确保了数据分布的独立性与评估的严谨性，对推动相关算法的实用化与泛化能力具有显著影响力。

当前挑战

EasyPortrait数据集致力于解决人像分割与面部解析中的复杂挑战，包括在多变光照、姿态及遮挡条件下实现像素级精确分割，并区分皮肤、眉毛、眼睛、嘴唇与牙齿等细粒度面部部件。在构建过程中，团队面临高质量标注的难题，需通过众包方式处理大量高分辨率图像，确保平均每张图像254个多边形点的标注精度，同时维护用户隐私与数据匿名化。此外，数据集的划分需依据用户ID以避免信息泄漏，这对保证模型在未知用户肖像上的泛化性能提出了额外要求。

常用场景

经典使用场景

在计算机视觉领域，人像分割与面部解析任务对高精度标注数据的需求日益增长。EasyPortrait数据集以其包含20,000张RGB图像及高质量分割掩码的规模，成为该领域经典基准。该数据集通过按用户ID划分训练、验证和测试集，确保了数据分布的独立性，常用于训练和评估语义分割模型，特别是在人像背景分离、面部组件精细解析等任务中，为算法性能提供了可靠验证平台。

衍生相关工作

围绕EasyPortrait数据集，已衍生出多项经典研究工作。例如，基于该数据集的模型在跨域测试中展示了卓越泛化性能，相关论文被广泛引用。此外，社区利用其多类别标注特性，开发了结合面部解析与属性编辑的端到端系统，进一步拓展了人像增强技术的边界。这些工作不仅巩固了数据集在学术界的地位，也为工业界创新提供了坚实技术基础。

数据集最近研究