SB-Bench

Hugging Face2025-02-16 更新2025-02-17 收录

下载链接：

https://huggingface.co/datasets/ucf-crcv/SB-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

刻板印象偏见基准（SB-Bench）是一个用于评估大型多模态模型中刻板印象偏见的最全面框架，使用非合成图像跨越九个不同类别。它通过精心策划的、以视觉为基础的场景，挑战模型准确推理视觉刻板印象的能力，并提供了包含现实世界视觉样本、图像变体和多项选择题格式的健壮评估框架。

创建时间：

2025-02-08

搜集汇总

数据集介绍

构建方式

SB-Bench数据集的构建基于真实世界的视觉样本，涵盖了九个多样化的社会偏见类别，每个类别下有多个子领域。数据集通过精心策划的视觉场景来严格评估大型多模态模型（LMMs），这些场景挑战模型准确推理视觉刻板印象的能力。每个样本包含一个图像和相关的多选问题，以及问题的答案和标签。

特点

SB-Bench数据集的特点在于其使用了非合成的真实图像，提供了包含视觉和文本上下文的多选问题格式，能够隔离视觉偏见和文本偏见，从而对模型在不同难度级别上的推理能力进行精确和细微的评估。此外，数据集覆盖了广泛的社会偏见类型，包括年龄、性别、种族等，有助于全面评估LMMs在社会偏见方面的表现。

使用方法

使用SB-Bench数据集时，用户可以通过HuggingFace的库来加载数据，并根据需要选择测试split。数据集的结构允许用户轻松访问图像、问题、答案选项和标签。用户可以利用这些数据来训练、评估和改进多模态模型，以减少刻板印象偏见并提高AI系统的公平性。

背景与挑战

背景概述

SB-Bench数据集是在大型多模态模型（LMMs）中普遍存在的刻板印象偏见背景下创建的。这种偏见加剧了有害的社会偏见，对AI应用的公平性和公正性构成了威胁。为了应对这一挑战，SB-Bench作为迄今为止最全面的评估框架被提出，旨在通过使用非合成图像评估LMMs在九个不同类别中的刻板印象偏见。该数据集由UCF-CRCV团队于2025年开发，通过精心策划的视觉场景对模型进行严格评估，挑战其在不同难度级别上对视觉刻板印象的推理能力。SB-Bench的引入为促进AI系统的公平性和减少有害偏见奠定了基础，推动了更加公平和负责任的社会多模态模型的发展。

当前挑战

SB-Bench数据集在构建过程中面临的挑战包括确保图像的真实性和多样性，以及设计能够精确隔离视觉偏见与文本偏见的多选问题。此外，该数据集在评估大型多模态模型时，需要解决模型在模糊场景中生成无偏见答案的局限性，以及模型内隐偏见对答案的影响。SB-Bench的挑战还在于，如何系统地评估模型在关键社会维度上的刻板印象偏见，并有效地利用简单的提示技术提高模型性能。

常用场景

经典使用场景

SB-Bench数据集作为评估大型多模态模型（LMMs）中刻板印象偏见的全面框架，其经典使用场景在于为模型提供基于真实图像的视觉情境，从而挑战模型在处理视觉刻板印象时的推理准确性。该数据集通过精心设计的多选问题格式，将视觉偏见与文本偏见分离，实现对模型推理能力的精确和细微评估。

实际应用

在实际应用中，SB-Bench可被用于指导AI系统的开发，以减少有害偏见，提高系统公平性。它为评估AI系统在社会偏见方面的表现提供了工具，有助于在模型设计和训练阶段引入偏差缓解策略。

衍生相关工作

基于SB-Bench的研究已经衍生出对现有开源和闭源LMMs的公平性评分和性能比较工作。这些相关研究不仅揭示了不同模型在处理刻板印象偏见方面的表现差异，还促进了简单提示技术等策略的发展，以改善LMMs的性能和公平性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集