FaceBench
收藏arXiv2025-03-27 更新2025-03-29 收录
下载链接:
https://github.com/CVI-SZU/FaceBench
下载链接
链接失效反馈官方服务:
资源简介:
FaceBench是一个针对面部属性的多视角、多层次视觉问题回答(VQA)数据集,由深圳大学计算机科学与软件工程学院计算机视觉研究所创建。该数据集包含了49,919个用于评估的VQA对和23,841个用于微调的VQA对,旨在全面评估多模态大型语言模型在面部感知方面的能力。FaceBench根据三个层次组织了五个视角(外观、配饰、环境、心理、身份)的面部属性,共定义了211个属性和701个属性值,为面部属性的深入分析提供了一个模块化和可扩展的结构。
FaceBench is a multi-view, multi-level Visual Question Answering (VQA) dataset targeting facial attributes, developed by the Computer Vision Institute, School of Computer Science and Software Engineering, Shenzhen University. This dataset includes 49,919 VQA pairs for model evaluation and 23,841 VQA pairs for model fine-tuning, aiming to comprehensively evaluate the facial perception capabilities of multimodal large language models. FaceBench organizes facial attributes across five perspectives—appearance, accessories, environment, psychology, and identity—under three hierarchical levels, defining a total of 211 distinct attributes and 701 corresponding attribute values, and providing a modular and scalable framework for in-depth analysis of facial attributes.
提供机构:
深圳大学计算机科学与软件工程学院计算机视觉研究所
创建时间:
2025-03-27
搜集汇总
数据集介绍

构建方式
FaceBench数据集的构建基于多视角多层次的面部属性结构,涵盖了外观、配饰、环境、心理和身份五个主要视角,每个视角下又细分为三个层次的属性。数据收集过程包括从多个公开数据集中精选15,842张面部图像,并设计194个问题模板以生成视觉问答对。通过200名标注者的精细标注,确保了数据的多样性和准确性,最终形成了包含73,760个问答对的综合数据集。
特点
FaceBench数据集以其多视角多层次的结构著称,包含211个属性和701个属性值,覆盖了从基础面部特征到细微表情的广泛范围。数据集特别强调对多模态大语言模型(MLLMs)在面部感知能力上的全面评估,提供了丰富的视觉问答对,支持从粗粒度到细粒度的多层次分析。
使用方法
FaceBench数据集主要用于评估和提升多模态大语言模型在面部感知任务上的性能。研究人员可以通过该数据集进行模型训练和测试,特别是在视觉问答(VQA)任务中。数据集提供了详细的评估指标,包括准确率、F1分数和ROUGE-L分数,适用于不同类型的问题(如真假判断、单选、多选和开放式问题)。此外,数据集还可用于微调现有模型,如Face-LLaVA,以增强其在面部属性识别上的表现。
背景与挑战
背景概述
FaceBench是由深圳大学计算机视觉研究所联合多所高校于2025年提出的多视角多层次面部属性视觉问答数据集,旨在填补多模态大语言模型(MLLMs)在面部感知能力评估领域的空白。该数据集构建了包含外观、配饰、环境、心理和身份五大视角的层次化属性体系,涵盖211种属性和701个属性值,通过49,919个测试VQA对和23,841个训练VQA对,为面部细粒度理解建立了新基准。其创新性地将人类面部认知的层次化特性转化为可计算评估框架,推动了人脸分析技术向类人化感知方向发展。
当前挑战
该数据集面临双重核心挑战:在领域问题层面,需解决现有面部数据集(如CelebA-HQ仅含40个二元属性)难以捕捉人类复杂层次化感知的缺陷,要求模型同时处理眼镜形状识别、微表情分析等跨粒度任务;在构建层面,涉及300张图像的多轮人工标注一致性控制(5人标注组采用40%阈值多数投票)、动态问题生成逻辑设计,以及低分辨率图像(如RAF-DB数据集)的语义标注难题。实验表明,最优模型GPT-4o在部分属性识别上仍落后人类7.98%,突显细粒度面部理解的评估复杂性。
常用场景
经典使用场景
FaceBench数据集在计算机视觉和人工智能领域被广泛用于评估多模态大语言模型(MLLMs)在面部感知任务中的表现。其多视角多层次的属性结构为模型提供了丰富的测试场景,特别是在面部属性识别、情感分析和身份验证等任务中。研究人员通过该数据集能够全面测试模型在复杂面部特征理解上的能力,从而推动模型性能的进一步提升。
实际应用
在实际应用中,FaceBench数据集被用于开发和改进面部识别系统、情感分析工具和虚拟助手。例如,在安全领域,该数据集可以用于训练更精准的身份验证系统;在医疗领域,则可用于开发能够识别患者情感状态的辅助工具。其多层次属性结构使得模型能够适应多样化的实际需求,提升应用的准确性和鲁棒性。
衍生相关工作
FaceBench的推出激发了多项相关研究,特别是在多模态大语言模型的优化方面。基于该数据集,研究人员开发了Face-LLaVA模型,显著提升了面部属性识别的性能。此外,该数据集还被用于评估GPT-4o和Gemini等商业模型,推动了面部感知技术的进一步发展。其开源特性也促进了社区内的广泛合作和创新。
以上内容由遇见数据集搜集并总结生成



