Face-Human-Bench

Name: Face-Human-Bench
Creator: 北京邮电大学, 北京师范大学
Published: 2025-01-02 21:05:47
License: 暂无描述

arXiv2025-01-02 更新2025-01-06 收录

下载链接：

https://face-human-bench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

Face-Human-Bench是由北京邮电大学和北京师范大学的研究团队创建的一个综合性基准数据集，旨在评估多模态助手在面部和人类理解方面的能力。该数据集包含2700条问题，分为开发集（900条）和测试集（1800条），支持中英文评估。数据来源于公开的面部和人类理解数据集，通过半自动数据管道生成多模态问答问题。数据集的应用领域包括多模态助手的面部和人类理解能力评估，旨在提升多模态助手在社交互动、媒体分析和人机交互等领域的响应质量和应用范围。

Face-Human-Bench is a comprehensive benchmark dataset created by research teams from Beijing University of Posts and Telecommunications and Beijing Normal University, aiming to evaluate the facial and human understanding capabilities of multimodal assistants. This dataset contains 2700 questions, divided into a development set (900 questions) and a test set (1800 questions), and supports evaluations in both Chinese and English. The data is sourced from public facial and human understanding datasets, and multimodal question-answering pairs are generated through a semi-automatic data pipeline. Its application scenarios include the evaluation of facial and human understanding capabilities of multimodal assistants, with the goal of improving the response quality and application scope of multimodal assistants in fields such as social interaction, media analysis, and human-computer interaction.

提供机构：

北京邮电大学, 北京师范大学

创建时间：

2025-01-02

搜集汇总

数据集介绍

构建方式

Face-Human-Bench数据集的构建基于一个分层次的能力分类体系，该体系包含三个层次的能力。首先，研究团队从公开的人脸和人体数据集中收集图像和标注信息，随后通过半自动化的数据处理流程，将这些原始数据转化为多模态问答形式的问题。最终，数据集包含一个包含900个问题的开发集和一个包含1800个问题的测试集，支持中英文两种语言。数据集的构建过程充分利用了图像和文本处理管道，确保问题的多样性和质量。

特点

Face-Human-Bench数据集的特点在于其全面的能力覆盖和科学的分层次评估体系。数据集涵盖了从基础的人脸属性识别、年龄估计到复杂的社交关系推理等18个细粒度能力维度。每个能力维度都经过精心设计，确保能够全面评估多模态助手在人脸和人体理解方面的表现。此外，数据集支持中英文双语评估，适用于不同语言环境下的模型测试。

使用方法

Face-Human-Bench数据集的使用方法主要包括模型的开发、测试和评估。开发集可用于模型的训练和迭代优化，测试集则用于正式的模型性能评估。评估时，模型需要回答多选问题，并根据问题的权重计算加权准确率。此外，数据集还支持对模型在不同能力维度上的表现进行详细分析，帮助研究者了解模型在特定任务上的优势和不足。通过引入提示和思维链（CoT）指令，还可以进一步提升模型的推理能力。

背景与挑战

背景概述

Face-Human-Bench 是一个专注于评估多模态助手在人脸和人体理解能力方面的综合性基准数据集。该数据集由北京邮电大学和北京师范大学的研究团队于2025年提出，旨在填补多模态助手领域在面部和人体理解能力评估上的空白。Face-Human-Bench 基于一个层次化的能力分类体系，涵盖了从基础感知到复杂推理的多个层次，支持中英文双语评估。该数据集的构建基于公开的人脸和人体数据集，通过半自动化的数据管道生成问题，最终包含900个开发集问题和1800个测试集问题。Face-Human-Bench 的提出为多模态助手在社交互动、媒体取证等领域的应用提供了重要的评估工具。

当前挑战

Face-Human-Bench 面临的挑战主要包括两个方面：首先，该数据集旨在解决多模态助手在面部和人体理解能力上的评估问题，尤其是在复杂场景下的推理能力。现有的多模态模型在这些任务上的表现参差不齐，尤其是在跨姿态、跨年龄、遮挡等复杂场景下的面部识别任务中，模型的表现显著落后于专业模型。其次，在数据集的构建过程中，研究人员面临了数据标注的挑战，尤其是在处理多模态问题时，如何确保问题的多样性和准确性。此外，数据集的构建还需要考虑隐私保护和数据合规性，确保所有数据的使用符合伦理和法律要求。

常用场景

经典使用场景

Face-Human-Bench数据集主要用于评估多模态助手在面部和人类理解方面的能力。该数据集通过构建一个包含900个开发集问题和1800个测试集问题的基准，支持中英文双语评估，涵盖了从基本的面部属性识别到复杂的社会关系推理等多个层次的能力。

衍生相关工作

Face-Human-Bench的推出激发了多模态助手领域的进一步研究，尤其是在面部和人类理解任务中，如何结合专家模型来提升多模态助手的响应质量。该数据集还为未来的研究提供了基础，推动了多模态助手在复杂推理任务中的应用。

数据集最近研究