PP-HumanSeg

Name: PP-HumanSeg
Creator: 百度公司
Published: 2021-12-14 11:58:00
License: 暂无描述

arXiv2021-12-14 更新2024-06-21 收录

下载链接：

https://github.com/PaddlePaddle/PaddleSeg

下载链接

链接失效反馈

官方服务：

资源简介：

PP-HumanSeg是由百度公司创建的大规模视频人像分割数据集，包含291个视频，来自23个不同的会议场景，总计14,117个精细标注的帧。该数据集通过在真实世界的视频会议场景中收集视频，并由专业标注人员进行像素级和视频级的标注，确保了数据的高质量和多样性。数据集的创建旨在解决视频会议中人像分割的挑战，特别是在后疫情时代，当视频会议环境更加多样化和复杂化时。PP-HumanSeg的应用领域包括但不限于视频会议背景替换、虚拟现实和增强现实等，旨在提供高质量的人像分割解决方案，以增强视频会议的交互体验。

PP-HumanSeg is a large-scale video human segmentation dataset created by Baidu. It consists of 291 videos sourced from 23 distinct conference scenarios, with a total of 14,117 finely annotated frames. This dataset is collected from real-world video conferencing scenarios, and annotated at both pixel-level and video-level by professional annotators, which ensures high data quality and diversity. The dataset is developed to address the challenges of human segmentation in video conferencing, especially in the post-pandemic era when video conferencing environments have become more diverse and complex. Its application fields include but are not limited to video conferencing background replacement, virtual reality (VR) and augmented reality (AR), aiming to provide high-quality human segmentation solutions to enhance the interactive experience of video conferencing.

提供机构：

百度公司

创建时间：

2021-12-14

搜集汇总

数据集介绍

构建方式

在视频会议场景中，肖像分割技术对于背景替换功能至关重要。PP-HumanSeg数据集的构建过程体现了对现实应用需求的精准把握。研究团队从23个常见会议场景中采集了291段真实视频，涵盖办公室、会议室及家庭环境等多种背景。通过以2.5帧/秒的低帧率抽取视频帧，获得了14,117张高清图像，有效减少了数据冗余。专业标注人员对这些图像进行了像素级精细标注，特别将手持物品纳入前景标注范畴，而将无关行人视为背景，这一标注策略充分契合视频会议场景的实际需求。此外，团队还通过视频合成技术，将高质量肖像掩码与90种纯背景图像结合，生成了约百万张扩展图像，极大丰富了数据多样性。

特点

该数据集在视频会议领域的肖像分割研究中展现出显著特色。其核心优势在于覆盖了真实场景下的多样化会议环境，包含不同光照条件、参与者动作变化以及佩戴口罩等现实因素。与现有数据集相比，该数据集避免了软件界面干扰和合成图像失真问题，所有标注均基于真实视频帧完成。数据集中特别包含了大量佩戴口罩的人物图像，这反映了后疫情时代的实际应用需求。视频级标注进一步提供了场景、参与者数量、活动类型等多维度属性信息，为多任务学习和人类行为分析研究奠定了坚实基础。

使用方法

该数据集为肖像分割算法的开发与评估提供了系统化框架。研究人员可按场景划分标准将数据集分为训练集、验证集和测试集，确保各集合间场景不重叠，避免数据泄漏。在模型训练过程中，可采用数据增强技术如尺度变换、随机裁剪和颜色扰动来提升模型泛化能力。数据集支持像素精度和平均交并比等标准指标进行评估，同时其视频级标注可用于多任务学习场景。基于该数据集提出的语义连通性感知学习框架，可通过结合交叉熵损失与连通性损失来优化模型，特别适用于提升肖像分割的完整性表现。

背景与挑战

背景概述

在计算机视觉领域，人像分割技术因其在虚拟背景、美化滤镜等娱乐应用中的成功而备受关注。随着COVID-19疫情的全球蔓延，视频会议需求激增，实时人像分割成为替换会议参与者背景的热门功能。然而，现有数据集如EG1800、FVS等虽涵盖丰富的生活场景，却未充分覆盖视频会议这一特定语境。为此，百度研究团队于2021年12月推出了PP-HumanSeg数据集，该数据集包含291个视频、23种会议场景及1.4万帧精细标注图像，首次构建了大规模视频会议人像数据集，旨在推动视频会议场景下人像分割技术的研究与应用。

当前挑战

PP-HumanSeg数据集致力于解决视频会议场景下人像分割的领域挑战，包括参与者在多样化环境、光照条件下的姿态变化、佩戴口罩等干扰因素，以及在资源受限平台（如网页、移动设备）上实现实时分割的性能需求。在构建过程中，团队面临数据采集与标注的复杂性：需在真实会议场景中收集高质量视频，并精细标注像素级人像掩码，同时处理手持物品、远处行人等模糊实例的标注决策。此外，现有数据集存在图像质量低、冗余度高或合成图像等问题，促使团队必须确保数据集的真实性、多样性与标注精度，以支撑模型在连通性感知学习等方面的创新。

常用场景

经典使用场景

在视频会议领域，PP-HumanSeg数据集为肖像分割任务提供了大规模、高质量的真实场景数据支撑。该数据集包含来自23种会议场景的291个视频及1.4万帧精细标注图像，覆盖了多样化光照、参与者姿态及口罩佩戴等情况，成为评估和开发肖像分割算法的基准资源。其经典使用场景集中于训练和验证轻量化分割模型，以实现在移动设备或网页端实时替换虚拟背景，提升视频会议的用户体验。

衍生相关工作

基于PP-HumanSeg数据集，研究者们衍生出多项经典工作，主要集中在轻量化网络架构和损失函数优化方面。例如，语义连通性感知学习框架被扩展应用于其他分割任务，以改善实例完整性；ConnectNet等超轻量模型的设计思路启发了后续移动端分割网络的开发。此外，该数据集还促进了多任务学习研究，如结合人体活动分析与视频描述生成，为视频会议场景下的智能感知提供了新的研究方向。

数据集最近研究