five

Portrait250K

收藏
arXiv2022-07-27 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2207.13315v1
下载链接
链接失效反馈
官方服务:
资源简介:
Portrait250K是由清华大学构建的一个大规模人脸图像数据集,包含250,000张来自51部电影和电视剧的图像,每张图像都标注了身份、性别、年龄、体型、身高、表情和全身及手臂姿势等八种标签。数据集旨在从外观、姿势和情感三个方面全面描述静态属性和动态状态,支持多任务学习框架下的研究。该数据集覆盖了广泛的真实世界多样性,包括长尾分布、不平衡样本分布、遮挡、截断、光照变化以及服装、化妆和背景环境的变化。Portrait250K不仅为研究人脸解释任务提供了一个基准,还通过其丰富和多样的标注,推动了相关领域的技术发展。

Portrait250K is a large-scale facial image dataset developed by Tsinghua University. It contains 250,000 images collected from 51 films and television dramas, with each image annotated with eight attributes including identity, gender, age, body type, height, facial expression, full-body and arm postures. The dataset aims to comprehensively depict static attributes and dynamic states from three dimensions: appearance, posture and emotion, to support research under the multi-task learning framework. It covers extensive real-world diversities, including long-tailed distribution, imbalanced sample distribution, occlusion, truncation, illumination variations, as well as variations in clothing, makeup and background environments. Portrait250K not only serves as a benchmark for research on facial interpretation tasks, but also promotes technological advancements in relevant fields through its rich and diverse annotations.
提供机构:
清华大学
创建时间:
2022-07-27
搜集汇总
数据集介绍
main_image_url
构建方式
Portrait250K数据集源自51部电影及电视剧的视频素材,借助多目标追踪模型JDE提取人物边界框,每若干帧采集一次,最终获得25万张分辨率为256×128的图像。招募十余位专业标注员对图像进行八项标签的人工标注,每位标注员仅负责单一属性以减少主观偏差。数据集按训练集、查询集和图库集划分,确保身份不交叉,查询集身份为图库集子集。
特点
该数据集涵盖外观、姿态与情感三大维度,包含性别、年龄、体型、身高、全身姿态、手臂动作及面部表情等八类细粒度标注,并融入行人重识别任务。数据呈现自然的长尾分布与类别不平衡,图像包含丰富的遮挡、截断、光照变化及服装背景多样性。尤其表情任务采用多标签标注,且超过60%的图像无身份标签,模拟真实场景的复杂性。
使用方法
数据集可用于多任务学习范式下的人像综合感知研究,评估指标包括各子任务的宏F1分数及统一的肖像感知质量指标(PIQ),该指标均衡加权外观、姿态、情感与重识别性能。建议采用特征空间拆分策略,将骨干网络输出的特征向量按维度分配至不同任务,并结合分类损失与批次排序度量学习损失进行优化。训练时推荐随机采样策略以应对未标注身份样本。
背景与挑战
背景概述
在计算机视觉领域,以人为中心的感知研究一直是热点,行人属性识别与行人重识别等任务虽已取得显著进展,却往往各自为政,缺乏对多种任务间内在关联的挖掘,且难以满足真实场景下统一模型与全面感知的需求。为此,清华大学的研究人员于2022年提出了肖像解析(Portrait Interpretation)这一系统性任务,并构建了名为Portrait250K的大规模基准数据集。该数据集收录了来自51部影视作品的25万张图像,手工标注了身份、性别、年龄、体型、身高、全身姿态、手臂姿态及表情共八类标签,旨在从外观、姿态与情感三个维度对肖像进行综合描述,为多任务学习范式下的统一感知研究提供了重要平台。
当前挑战
Portrait250K所面临的挑战首先体现在领域问题的复杂性上:肖像解析要求模型同时完成身份识别与多属性分类,但真实世界中数据分布天然呈现长尾与不平衡特性,例如部分角色出现频率极低,而表情标签又存在多标签歧义,给模型泛化带来巨大困难。其次,数据集构建过程亦充满挑战:从影视视频中提取肖像框时需应对多变的遮挡、截断与光照条件,同一人物在不同场景下服装、妆容及背景的剧烈变化进一步增加了标注难度。此外,为保障标注质量,研究团队为每位标注者仅分配单一属性任务以降低主观偏差,却仍需处理大量无身份标签的半监督样本,这对评估指标的设计与模型训练策略提出了更高要求。
常用场景
经典使用场景
Portrait250K数据集在肖像理解任务中扮演着基准测试的角色,其核心用途在于评估模型对人物外观、姿态与情感三大维度的综合感知能力。该数据集包含25万张来自51部影视作品的高质量图像,标注了身份、性别、年龄、体格、身高、全身与手臂姿态以及面部表情等八类标签,覆盖了真实世界中广泛存在的遮挡、截断、光照变化及服饰妆容差异等复杂场景。研究者常将其作为多任务学习的标准平台,用以验证模型能否同时完成行人属性识别、行人重识别与表情分类等子任务,从而推动从单一属性分析向系统性肖像理解的跨越。
解决学术问题
该数据集解决了现有行人属性识别与重识别研究中的三个关键学术问题:一是缺乏对多任务间内在关联的挖掘,传统方法往往为每个任务设计独立模型,导致效率低下且无法利用任务间的互补信息;二是难以应对真实场景中对统一模型与全面感知的需求,例如在监控或人机交互中需同时识别人物身份、动作与情绪;三是缺乏大规模、多标签且自然分布的数据集以支撑系统性研究。Portrait250K通过引入肖像理解这一系统性视角,将感知划分为外观、姿态与情感三大方面,并设计了统一评估指标PIQ,为多任务学习与表征学习提供了新的基准,显著推动了该领域的发展。
衍生相关工作
Portrait250K的提出催生了一系列衍生研究,其中最具代表性的是基于多任务学习框架的基线方法,该工作通过特征空间分割策略将外观、姿态与情感信息分别编码至不同子空间,并引入批量排序损失以优化表征判别性。此外,后续研究借鉴其系统性视角,探索了自监督与半监督学习在肖像理解中的应用,如利用未标注数据增强模型泛化能力。还有工作将姿态估计与表情识别等更细粒度任务纳入肖像理解框架,扩展了其任务范畴。这些衍生工作不仅验证了多任务联合训练的有效性,也为通用预训练模型在人物分析领域的迁移学习提供了新思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作