SB-Bench

github2025-02-21 更新2025-02-23 收录

下载链接：

https://github.com/UCF-CRCV/SB-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SB-Bench是一个用于评估大型多模态模型中刻板印象偏见的最全面框架，它通过使用非合成图像在九个不同类别上严格评估模型。

SB-Bench is the most comprehensive framework for evaluating stereotype bias in large multimodal models, which rigorously assesses models across nine distinct categories using non-synthetic images.

创建时间：

2025-02-06

原始信息汇总

SB-Bench 数据集概述

数据集名称

SB-Bench: Stereotype Bias Benchmark for Large Multimodal Models

数据集简介

SB-Bench是一个用于评估大型多模态模型中的刻板印象偏见的标准数据集。它提供了7500个基于视觉的、非合成的多项选择题QA样本，跨越9个社会偏见类别，用于评估大型多模态模型（LMMs）的性能。

数据集特点

多样性：包含9个不同的社会偏见类别和60个子类别。
视觉基础场景：设计用于分离视觉偏见和文本偏见，专注于评估视觉偏见。
全面评估：对开源和闭源LMMs及其不同规模变种进行基准测试。

数据集构成

数据量：7500个问题-答案（MCQ）对。
类别：9个社会偏见类别，如年龄、种族、性别等。
数据字段：包括文件名、ID、类别、附加元数据、上下文、问题、选项和标签。

数据集结构

使用许可

该数据集遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。

引用信息

@article{narnaware2025sb, title={SB-Bench: Stereotype Bias Benchmark for Large Multimodal Models}, author={Narnaware, Vishal and Vayani, Ashmal and Gupta, Rohit and Sirnam, Swetha and Shah, Mubarak}, journal={arXiv preprint arXiv:2502.08779}, year={2025} }

数据集访问 | 项目网站 | 论文

搜集汇总

数据集介绍

构建方式

SB-Bench 数据集的构建，始于对文本偏见的评估问题，包含对场景的描述性文本背景和偏见探测问题。通过视觉查询生成器将文本背景转化为便于网络搜索的查询，从网络中检索现实世界的图像，并使用CLIP进行相关性过滤。随后，视觉信息移除器对文本中的显式泄露进行匿名化处理。最终，将选定的视觉内容与偏见探测问题配对，形成了多模态偏见评估基准。

特点

SB-Bench 数据集特色在于其涵盖了9个社会偏见类别，包含7500个基于现实图像的非合成多选问答样本。该数据集旨在通过精心设计的视觉场景，将视觉偏见与文本偏见分离，为大型多模态模型提供了一个精确和细微的评估框架，以评估模型在不同难度级别上的推理能力。

使用方法

使用SB-Bench数据集，用户可以从huggingface平台下载。数据集的结构包括多个字段，如文件名、唯一ID、类别、附加元数据、上下文、问题、答案选项和标签。用户可以按照数据集中的目录结构访问不同类别的样本，并根据数据集中的元数据进一步分析模型的偏见表现。

背景与挑战

背景概述

SB-Bench是由美国中央佛罗里达大学的研究团队开发的一个大型多模态模型中的刻板印象偏见评估基准。该数据集创建于2025年，旨在评估大型多模态模型在处理现实世界视觉场景中的刻板印象偏见问题。研究团队由Vishal Narnaware、Ashmal Vayani、Rohit Gupta、Swetha Sirnam和Mubarak Shah组成，他们共同贡献了这项工作。SB-Bench的推出对AI领域产生了重要影响，因为它提供了一个全面的评估框架，用于检测和缓解大型多模态模型中的偏见问题。

当前挑战

SB-Bench在构建过程中遇到了多重挑战。首先，该数据集需要收集大量的非合成视觉样本，这些样本能够涵盖不同的社会偏见类别，同时确保样本的多样性和现实性。其次，构建一个能够准确分离视觉偏见和文本偏见的多模态评估框架也是一个技术上的挑战。此外，评估和比较不同大型多模态模型在刻板印象偏见方面的表现，需要一套严谨的评估方法和指标体系。

常用场景

经典使用场景

SB-Bench 数据集作为评估大型多模态模型中刻板印象偏见的全面框架，其经典使用场景在于为研究者提供了一个包含7500个基于真实图像的多项选择题样本的基准，这些样本跨越了9个社会偏见类别。研究者可以利用该数据集对大型多模态模型进行严格的视觉偏见推理评估，以检测模型在面对视觉上刻板印象的场景时的表现。

解决学术问题

SB-Bench 数据集解决了现有偏见评估数据集在多样性方面的不足，以及依赖合成图像进行评估的问题。它为学术研究提供了评估大型多模态模型在处理现实世界视觉场景中的偏见行为的工具，有助于推动公平AI系统的发展和有害偏见的减少。

衍生相关工作

SB-Bench 数据集的发布促进了相关领域的研究，衍生出了一系列针对多模态模型偏见评估和缓解策略的经典工作。这些工作不仅关注模型在刻板印象偏见方面的表现，还进一步探索了模型在不同社会偏见维度上的公平性和准确性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集