HumaniBench

Name: HumaniBench
Creator: 多伦多，加拿大的Vector Institute和奥兰多，美国的中央佛罗里达大学
Published: 2025-05-17 01:09:44
License: 暂无描述

arXiv2025-05-17 更新2025-05-20 收录

下载链接：

https://vectorinstitute.github.io/HumaniBench/evaluation

下载链接

链接失效反馈

官方服务：

资源简介：

HumaniBench是一个包含32K真实世界图像-问题对的综合基准，通过可扩展的GPT-4o辅助流程进行注释，并由领域专家进行彻底验证。HumaniBench通过七个不同的任务探索了七个HCAI原则——公平性、道德、理解、推理、语言包容性、同理心和鲁棒性，这些任务包括开放式和封闭式视觉问答（VQA）、多语言QA、视觉定位、同理性标题和鲁棒性测试。对15个最先进的LMMs（开源和闭源）的基准测试表明，专有模型通常领先；然而，在鲁棒性和视觉定位方面仍存在一些差距，而一些开源模型在平衡准确性与遵守人类对齐原则（如道德和包容性）方面存在困难。HumaniBench是第一个围绕HCAI原则构建的基准。它提供了一个严格的测试平台，用于诊断对齐差距，并引导LMMs朝着既准确又负责任的社会行为发展。为了促进透明度和支持未来的研究，我们发布了数据集、注释提示和评估代码。

HumaniBench is a comprehensive benchmark comprising 32K real-world image-question pairs, annotated via a scalable GPT-4o-assisted pipeline and thoroughly validated by domain experts. HumaniBench explores seven Human-Centered AI (HCAI) principles—fairness, ethics, understanding, reasoning, linguistic inclusivity, empathy, and robustness—across seven distinct tasks, including open-ended and closed-ended visual question answering (VQA), multilingual QA, visual grounding, empathetic captioning, and robustness testing. Benchmarking 15 state-of-the-art large multimodal models (LMMs, both open-source and closed-source) shows that proprietary models generally lead; however, notable gaps remain in robustness and visual grounding, while some open-source models struggle to balance accuracy with adherence to human-aligned principles such as ethics and inclusivity. HumaniBench is the first benchmark built around HCAI principles. It provides a rigorous testbed for diagnosing alignment gaps and guiding large language models (LLMs) toward both accurate and responsible social behavior. To promote transparency and support future research, we have publicly released the dataset, annotation prompts, and evaluation code.

提供机构：

多伦多，加拿大的Vector Institute和奥兰多，美国的中央佛罗里达大学

创建时间：

2025-05-17

搜集汇总

数据集介绍

构建方式

HumaniBench数据集的构建采用了半自动化的GPT-4o辅助标注流程，并经过领域专家的严格验证。首先，从2023年7月至2024年7月期间的真实世界新闻文章中收集了30,218张独特图像，这些图像覆盖了多样化的社会相关主题。每张图像都通过GPT-4o生成标题并分配社会属性标签（如年龄、性别、种族/民族、职业、运动等），以创建丰富的元数据。随后，通过CLIP过滤近重复图像，并移除不安全或不适当的内容。最终，数据集包含32,157个图像-问题对，分为七个任务，每个任务的样本都经过半自动化的GPT-4o工作流程标注，并由专家团队验证以确保高质量的标注。

特点

HumaniBench数据集的特点在于其全面性和多样性。它涵盖了七个以人为中心的原则（公平性、伦理、理解、推理、语言包容性、同理心和鲁棒性），并通过七个不同的任务（如开放式和封闭式视觉问答、多语言问答、视觉定位、同理心字幕生成和鲁棒性测试）进行评估。数据集包含32K个真实世界的图像-问题对，覆盖了多种社会属性和语言，确保了评估的广泛性和深度。此外，数据集的标注经过严格的质量控制，确保了标注的准确性和可靠性。

使用方法

HumaniBench数据集的使用方法包括评估大型多模态模型（LMMs）在多个以人为中心的原则上的表现。研究人员可以使用该数据集来测试模型在公平性、伦理、理解、推理、语言包容性、同理心和鲁棒性等方面的性能。数据集提供了详细的评估指标和任务说明，用户可以根据需要选择特定的任务进行评估。此外，数据集还支持多语言评估，适用于跨文化和多语言环境下的模型测试。使用该数据集时，建议结合领域专家的验证，以确保评估结果的准确性和可靠性。

背景与挑战

背景概述

HumaniBench是由Vector Institute和多伦多大学的研究团队于2025年推出的首个以人类中心AI原则为核心的多模态基准测试。该数据集包含32,000个真实世界的图像-问题对，涵盖7项视觉语言任务，旨在评估大型多模态模型在公平性、伦理、同理心等7个HCAI原则上的表现。作为首个全面整合人类价值观评估框架的基准，HumaniBench通过半自动化的GPT-4o标注流程和领域专家验证，填补了传统基准在人文关怀评估上的空白，为开发既智能又符合社会责任的AI系统提供了重要工具。

当前挑战

HumaniBench面临双重挑战：在领域问题上，需解决多模态模型存在的偏见放大（如职业性别刻板印象）、低资源语言表现不佳、情感理解缺失等对齐缺口；在构建过程中，需克服真实图像的社会属性标注一致性、多语言问题对的语义等效性验证，以及平衡自动化标注效率与人工审核质量的难题。特别是如何设计既能检测模型缺陷又不强化社会偏见的测试用例，成为数据集构建的关键挑战。

常用场景

经典使用场景

HumaniBench数据集最经典的使用场景是评估大型多模态模型（LMMs）在人类中心化原则下的表现。该数据集通过32K真实世界图像-问题对，覆盖了七项核心任务，包括公平性、伦理合规性、多语言包容性、感知理解、共情能力和鲁棒性等维度。在计算机视觉与自然语言处理的交叉领域，研究者可利用该基准全面诊断模型在复杂社会语境中的对齐差距，例如检测模型在描述不同种族、性别群体时是否存在隐性偏见，或评估其处理低资源语言的能力。

衍生相关工作

该数据集已催生多项延伸研究：1) 基于其视觉 grounding 任务开发的细粒度定位模型改进方案；2) 受共情标注启发的情绪感知对话系统；3) 针对多语言偏差的对抗训练框架。其任务设计范式还被AdaptiBench等后续基准借鉴，用于评估模型在医疗、金融等垂直领域的价值观对齐表现，推动了负责任AI研究生态的发展。

数据集最近研究