GenderBias-VL

Name: GenderBias-VL
Creator: 北京航空航天大学, 上海人工智能实验室, 新加坡国立大学, 南洋理工大学
Published: 2024-06-30 13:55:15
License: 暂无描述

arXiv2024-06-30 更新2024-07-30 收录

下载链接：

https://genderbiasvl.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

GenderBias-VL数据集由北京航空航天大学等机构创建，旨在评估视觉语言模型中的职业性别偏见。该数据集包含34,581对视觉问题反事实对，覆盖177种职业，通过生成职业图像及其性别反事实来构建。创建过程中，利用文本到图像扩散模型生成图像，并通过识别具有高语义相似度的刻板职业对来生成文本选项。该数据集主要用于评估和揭示大型视觉语言模型中的性别偏见问题。

提供机构：

北京航空航天大学, 上海人工智能实验室, 新加坡国立大学, 南洋理工大学

创建时间：

2024-06-30

搜集汇总

数据集介绍

构建方式

GenderBias-VL数据集的构建方式采用了一种创新的策略，旨在通过个体公平性的标准来评估大型视觉语言模型（LVLMs）中的职业相关性别偏见。首先，利用文本到图像的扩散模型生成职业图像及其性别反事实，并通过编辑指令生成性别属性不同的反事实图像。接着，通过识别具有高度语义相似性但现实世界中性别比例相反的刻板印象职业对来生成相应的文本职业选项。这种方法可以创建大规模的视觉问题反事实，以揭示LVLMs中的偏见，并适用于多模态和单模态环境，通过在特定模态中修改性别属性。

特点

GenderBias-VL数据集具有以下特点：1）包含34,581个视觉问题反事实对，覆盖177种职业；2）支持在多模态和单模态上下文中评估性别偏见；3）提供了一个全面的职业相关性别偏见评估数据集；4）提供了一个最新的LVLMs偏见排行榜；5）提供了一个对模型中存在的偏见的细致理解。

使用方法

使用GenderBias-VL数据集的方法包括：1）通过修改图像或文本中的性别属性来评估LVLMs中的性别偏见；2）使用理想化分数（Ipss）来衡量模型在准确性和偏见之间的平衡；3）通过概率差异或结果差异来衡量偏见；4）使用微偏见（Bmicro）来分析特定职业的偏见程度；5）通过选项交换测试来评估模型对选项顺序的敏感性。

背景与挑战

背景概述

随着大型视觉语言模型（LVLMs）在各个领域的广泛应用，其潜在的性别偏见问题逐渐凸显。当前的研究主要集中在群体公平性上，而忽略了个体公平性，即对相似个体的平等对待。这种研究上的缺失限制了歧视行为的检测。为了填补这一空白，GenderBias-VL数据集应运而生，该数据集由北京航空航天大学、上海人工智能实验室、新加坡国立大学和南洋理工大学的研究人员创建，旨在通过个体公平性标准下的反事实视觉问题来评估LVLMs中的职业相关性别偏见。GenderBias-VL数据集的创建涉及使用文本到图像扩散模型生成职业图像及其性别反事实，并通过识别现实世界中具有高度语义相似性但性别比例相反的刻板职业对来生成相应的文本职业选项。该数据集包含34,581个视觉问题反事实对，涵盖177个职业，为评估LVLMs中的性别偏见提供了一个全面的数据集。

当前挑战

GenderBias-VL数据集的创建和评估过程中面临了多个挑战。首先，该数据集解决的领域问题是在LVLMs中评估职业相关性别偏见，这是一个复杂的问题，因为LVLMs的推断涉及到复杂的跨模态交互。其次，在构建过程中，研究人员需要使用文本到图像扩散模型生成职业图像及其反事实，并确保这些图像适合和有效。此外，他们还需要识别现实世界中具有高度语义相似性但性别比例相反的刻板职业对，并生成相应的文本职业选项。最后，在评估过程中，研究人员需要使用各种指标来评估LVLMs的性能和偏见，并分析其偏见特征。

常用场景

经典使用场景

GenderBias-VL 数据集通过构建视觉问题反事实对，旨在评估视觉语言模型（LVLMs）中与职业相关的性别偏见。该数据集为研究人员提供了一个平台，用于检测和量化LVLMs在职业认知和性别偏见方面的表现。通过比较模型在不同性别属性下的职业预测概率，研究者可以识别和评估LVLMs中存在的性别偏见，从而为模型开发和改进提供依据。

衍生相关工作

GenderBias-VL 数据集的衍生相关工作包括但不限于：1. SocialCounterfactuals：该数据集通过生成反事实图像-文本对来评估CLIP模型中的交叉性偏见。2. PAIRS：该数据集通过评估LVLMs在不同视觉场景中的性别和种族偏见来研究社会公平性问题。3. VL-Bias：该数据集通过评估LVLMs中的个体歧视来研究社会公平性问题。

数据集最近研究