SB-Bench

Name: SB-Bench
Creator: 中央佛罗里达大学
Published: 2025-02-13 04:41:53
License: 暂无描述

arXiv2025-02-13 更新2025-02-26 收录

下载链接：

https://ucf-crcv.github.io/SB-Bench/

下载链接

链接失效反馈

官方服务：

资源简介：

SB-Bench是一个用于评估大型多模态模型中刻板印象偏见的全面基准，由中央佛罗里达大学的研究团队开发。该数据集包含7500个真实图像的三元组，涵盖了年龄、残疾状况、性别认同、国籍、种族/ ethnicity、宗教、性取向、外貌和社会经济地位等九个多样化的领域，及其60个子类别。这些图像与情境信息和多项选择题相结合，为评估多模态模型中的视觉刻板印象提供了精确和细致的手段。

提供机构：

中央佛罗里达大学

创建时间：

2025-02-13

搜集汇总

数据集介绍

构建方式

SB-Bench 数据集旨在评估大型多模态模型 (LMM) 中的刻板印象偏见，采用了真实世界的图像而非合成图像。数据集的构建过程涉及两个主要模块：视觉查询生成器 (VQG) 和视觉信息检索。VQG 模块将 BBQ 数据集中的模糊描述文本转化为更简单、更直观的查询，以便进行图像检索。然后，使用 CLIP 模型过滤检索到的图像，以确保其相关性。视觉信息移除器 (VIR) 模块处理描述性文本上下文，以删除个人身份信息 (PID) 和视觉线索，同时保持上下文的关联性和模糊性。

使用方法

使用 SB-Bench 数据集评估 LMMs 的过程包括以下步骤：首先，选择一个或多个 LMMs 进行评估；其次，使用数据集中的多个选择题 (MCQ) 对模型进行测试；然后，收集并分析模型的答案，以评估其刻板印象偏见的程度。为了确保评估的公正性，数据集在测试过程中随机化了多个选择题的选项顺序。此外，还可以通过提示 LMMs 解释其选择的答案来进一步分析其推理过程，并揭示潜在的社会偏见。

背景与挑战

背景概述

在人工智能领域，大型多模态模型（LMMs）在图像和文本处理方面取得了显著进展，但同时也面临着固有的偏见问题。这些偏见可能会加剧社会不平等和歧视。为了解决这一问题，研究人员Vishal Narnaware、Ashmal Vayani、Rohit Gupta、Swetha Sirnam和Mubarak Shah于2025年在佛罗里达中央大学共同创建了一个名为SB-Bench的数据集。该数据集旨在评估和缓解LMMs中的刻板印象偏见，涵盖了九个不同的社会偏见领域，包括年龄、残疾状况、性别认同、国籍、种族/民族、宗教、性取向、外貌和社会经济状况。SB-Bench通过使用非合成的真实图像和精心策划的视觉场景，为LMMs提供了一个全面的评估框架。该数据集的创建对于促进人工智能系统的公平性和减少有害偏见具有重要意义，为构建更加公平和负责任的多模态模型奠定了基础。

当前挑战

SB-Bench数据集在评估LMMs中的刻板印象偏见方面面临着一些挑战。首先，所解决的领域问题在于如何评估和缓解LMMs中的刻板印象偏见，特别是在现实世界视觉环境中。其次，在构建过程中，SB-Bench团队遇到了图像检索和多样性方面的挑战。对于一些社会偏见类别，如国籍、种族/民族、宗教和社会经济状况，很难找到真实的图像。为了解决这个问题，他们采用了将两个独立主题图像并排放置的方法。此外，SB-Bench还面临着评估稳定性的挑战，例如，在选择不同的答案选项顺序时，LMMs的评价可能受到影响。为了解决这个问题，他们在评估过程中随机打乱了答案选项的顺序。SB-Bench数据集的创建为评估和缓解LMMs中的刻板印象偏见提供了重要的工具，但同时也需要不断改进和扩展，以更好地应对现实世界中的偏见问题。

常用场景

经典使用场景

SB-Bench 数据集主要用于评估大型多模态模型（LMMs）中的刻板印象偏见。该数据集包含了 7,500 个非合成视觉样本，跨越九个类别和 60 个子类别的社会偏见，提供了一个更准确反映现实世界情境的评估框架。SB-Bench 通过精心策划的、基于视觉的场景来严格评估 LMMs，挑战它们在视觉刻板印象方面的推理能力。

解决学术问题

SB-Bench 数据集解决了现有评估 LMMs 中刻板印象偏见的数据集通常缺乏多样性，并依赖于合成图像的问题。它通过使用真实世界的视觉样本、图像变化和多项选择题格式，提供了一个健壮的评估框架。SB-Bench 通过引入基于视觉的查询，将视觉偏见与文本偏见分开，从而能够精确和细致地评估模型在不同难度级别上的推理能力。

实际应用

SB-Bench 数据集的实际应用场景包括但不限于：1）为研究人员提供一个工具，以系统地评估和解决 LMMs 中的刻板印象偏见；2）帮助企业开发更公平和包容的多模态模型，以减少有害偏见并促进社会公平；3）为教育工作者提供材料，以教育公众关于 AI 中的偏见问题，并促进对公平 AI 系统的需求。

数据集最近研究