gofixyourself/EasyPortrait
收藏Hugging Face2023-05-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gofixyourself/EasyPortrait
下载链接
链接失效反馈官方服务:
资源简介:
EasyPortrait是一个大规模图像数据集,专为肖像分割和面部解析任务设计。该数据集包含约26GB的20,000张RGB图像,分为训练集(14,000张)、验证集(2,000张)和测试集(4,000张)。每张图像都有高质量的分割掩码,注释信息包括背景、人物、皮肤、眉毛、眼睛、嘴唇和牙齿等多个类别。此外,数据集还提供了图像的元信息,如宽度、高度、亮度和用户ID等。该数据集可用于会议应用中的背景去除、牙齿美白、面部皮肤增强、红眼去除或眼睛着色等任务。
EasyPortrait是一个大规模图像数据集,专为肖像分割和面部解析任务设计。该数据集包含约26GB的20,000张RGB图像,分为训练集(14,000张)、验证集(2,000张)和测试集(4,000张)。每张图像都有高质量的分割掩码,注释信息包括背景、人物、皮肤、眉毛、眼睛、嘴唇和牙齿等多个类别。此外,数据集还提供了图像的元信息,如宽度、高度、亮度和用户ID等。该数据集可用于会议应用中的背景去除、牙齿美白、面部皮肤增强、红眼去除或眼睛着色等任务。
提供机构:
gofixyourself
原始信息汇总
EasyPortrait - Face Parsing and Portrait Segmentation Dataset
概述
- 数据集名称: EasyPortrait
- 主要用途: 人像分割和面部解析
- 数据集大小: 约26GB
- 图像数量: 20,000张RGB图像
- 图像分辨率: 约17,500张为FullHD分辨率
- 分割掩码: 高质量,平均每张图像254个多边形点
- 数据集划分: 训练集14,000张,验证集2,000张,测试集4,000张
- 用户分布: 训练集来自5,947个用户,验证集来自860个用户,测试集来自1,570个用户
数据集结构
- 图像文件: 分为train, val, test三个子文件夹,分别包含14k, 2k, 4k张图像
- 注释文件: 同样分为train, val, test三个子文件夹,包含元信息文件meta.zip
注释细节
- 注释格式: 2D数组,*.png格式
- 类别: 共9个类别,包括背景、人物、皮肤、左眉、右眉、左眼、右眼、嘴唇、牙齿
- 元信息: 包含attachment_id, user_id, data_hash, width, height, brightness等详细信息
许可证
- 许可证: Creative Commons Attribution-ShareAlike 4.0 International License
搜集汇总
数据集介绍

构建方式
在肖像分割与面部解析研究领域,数据集的构建质量直接影响模型的泛化能力。EasyPortrait数据集通过众包方式收集了约两万张RGB图像,其中约一万七千五百张为全高清分辨率。这些图像源自八千余位独立用户,确保了数据来源的多样性。标注过程采用高质量的多边形标注,平均每张图像包含254个多边形点,并据此生成精细的语义分割掩码。数据集依据用户ID划分为训练集、验证集和测试集,有效避免了同一用户数据在不同集合中的泄漏,提升了评估的可靠性。
特点
该数据集的核心特征在于其规模与标注精度。EasyPortrait包含九类语义标签,涵盖背景、人物整体及面部细节如皮肤、眉毛、眼睛、嘴唇与牙齿,为多层次的面部分析提供了结构化基础。数据集中近百分之九十的图像为高清格式,且附有丰富的元信息,包括图像尺寸、亮度及感知哈希值,便于进行数据质量分析与预处理。其按用户划分的数据分割策略,模拟了真实场景中的分布差异,对模型跨域泛化能力的检验尤为关键。
使用方法
在计算机视觉应用中,EasyPortrait数据集适用于训练肖像分割与面部解析模型。研究人员可下载图像与对应的PNG格式标注掩码,利用提供的元数据文件进行数据集的加载与划分。该数据集支持多种下游任务,如视频会议中的背景替换、面部皮肤增强、牙齿美白及眼部特效处理。典型工作流程包括使用训练集进行模型训练,在验证集上调整超参数,并在独立用户构成的测试集上评估模型性能,以确保其在未见用户数据上的有效性。
背景与挑战
背景概述
在计算机视觉领域,人像分割与面部解析是支撑诸多应用的核心技术,涵盖视频会议背景替换、美颜滤镜及虚拟化妆等场景。2023年,由Alexander Kapitanov、Karina Kvanchiani与Sofia Kirillova等研究人员共同构建的EasyPortrait数据集应运而生,其规模达26GB,包含20,000张高分辨率RGB图像及精细标注的分割掩码。该数据集旨在为人像分割与面部解析任务提供大规模、高质量的基准数据,通过按用户ID划分训练、验证与测试集,确保了数据分布的独立性与评估的严谨性,对推动相关算法的实用化与泛化能力具有显著影响力。
当前挑战
EasyPortrait数据集致力于解决人像分割与面部解析中的复杂挑战,包括在多变光照、姿态及遮挡条件下实现像素级精确分割,并区分皮肤、眉毛、眼睛、嘴唇与牙齿等细粒度面部部件。在构建过程中,团队面临高质量标注的难题,需通过众包方式处理大量高分辨率图像,确保平均每张图像254个多边形点的标注精度,同时维护用户隐私与数据匿名化。此外,数据集的划分需依据用户ID以避免信息泄漏,这对保证模型在未知用户肖像上的泛化性能提出了额外要求。
常用场景
经典使用场景
在计算机视觉领域,人像分割与面部解析任务对高精度标注数据的需求日益增长。EasyPortrait数据集以其包含20,000张RGB图像及高质量分割掩码的规模,成为该领域经典基准。该数据集通过按用户ID划分训练、验证和测试集,确保了数据分布的独立性,常用于训练和评估语义分割模型,特别是在人像背景分离、面部组件精细解析等任务中,为算法性能提供了可靠验证平台。
衍生相关工作
围绕EasyPortrait数据集,已衍生出多项经典研究工作。例如,基于该数据集的模型在跨域测试中展示了卓越泛化性能,相关论文被广泛引用。此外,社区利用其多类别标注特性,开发了结合面部解析与属性编辑的端到端系统,进一步拓展了人像增强技术的边界。这些工作不仅巩固了数据集在学术界的地位,也为工业界创新提供了坚实技术基础。
数据集最近研究
最新研究方向
在计算机视觉领域,人像分割与面部解析技术正逐步向精细化与实用化演进。EasyPortrait数据集凭借其大规模高质量标注,为相关研究提供了坚实基础。当前前沿方向聚焦于跨域泛化能力的提升,旨在使模型在会议应用背景移除、牙齿美白等实际场景中表现稳健。该数据集与面部美化、虚拟化妆等热点应用紧密关联,推动了人脸增强技术的商业化进程。其影响在于促进了语义分割模型在复杂光照与姿态下的适应性研究,为个性化人机交互系统的发展注入了新动力。
以上内容由遇见数据集搜集并总结生成



