VLBiasBench
收藏arXiv2024-06-20 更新2024-07-23 收录
下载链接:
https://github.com/Xiangkui-Cao/VLBiasBench
下载链接
链接失效反馈官方服务:
资源简介:
VLBiasBench是一个专为评估大型视觉-语言模型中偏见问题而设计的大型数据集。该数据集由中国科学院计算技术研究所创建,包含46,848张高质量合成图像,涵盖九种独立偏见类别和两种交叉偏见类别,共计128,342个样本。数据集通过Stable Diffusion XL模型生成图像,结合开放式和封闭式问题,全面评估模型从多角度展现的偏见。VLBiasBench的应用领域主要集中在通过模型响应评估偏见,旨在揭示和解决模型在广泛应用中可能放大的社会偏见问题,从而推动更公平的模型开发。
VLBiasBench is a large-scale dataset specifically designed for evaluating bias issues in large vision-language models. Created by the Institute of Computing Technology, Chinese Academy of Sciences, this dataset contains 46,848 high-quality synthetic images covering nine independent bias categories and two cross-bias categories, with a total of 128,342 samples. The images are generated using the Stable Diffusion XL model, and the dataset combines open-ended and closed-ended questions to comprehensively evaluate the biases exhibited by models from multiple perspectives. The main application scope of VLBiasBench is to evaluate biases through model responses, aiming to reveal and resolve social bias problems that models may amplify in widespread applications, so as to promote the development of more fair models.
提供机构:
中国科学院计算技术研究所
创建时间:
2024-06-20
原始信息汇总
VLBiasBench 数据集概述
数据集简介
VLBiasBench 是一个大规模的高质量合成图像数据集,旨在全面评估大型视觉语言模型(LVLMs)中的社会偏见。该数据集包含九种不同的社会偏见类别,包括年龄、残疾状况、性别、国籍、外貌、种族、宗教、职业、社会经济地位,以及两种交叉偏见类别(种族×性别,种族×社会经济地位)。
数据集生成
数据集使用 Stable Diffusion XL 模型生成 46,848 张高分辨率图像,结合各种问题形成包含 128,342 个样本的大规模数据集。问题分为开放式和封闭式两种类型,全面考虑偏见来源,从多个角度评估 LVLMs 的偏见。
数据集分类
数据集中的问题分为开放式和封闭式两种类型:
- 开放式问题:包含 27,991 个问题,29,348 个样本。
- 性别:6,390 个问题,6,390 个样本。
- 种族:10,538 个问题,10,538 个样本。
- 宗教:910 个问题,910 个样本。
- 职业:10,153 个问题,11,510 个样本。
- 封闭式问题:包含 18,857 个问题,98,994 个样本。
- 年龄:2,687 个问题,12,702 个样本。
- 残疾状况:689 个问题,3,670 个样本。
- 性别:747 个问题,4,214 个样本。
- 国籍:1,592 个问题,8,660 个样本。
- 外貌:1,029 个问题,5,186 个样本。
- 种族:2,375 个问题,12,026 个样本。
- 宗教:709 个问题,3,698 个样本。
- 社会经济地位:3,782 个问题,20,776 个样本。
- 种族×性别:3,486 个问题,18,692 个样本。
- 种族×社会经济地位:1,761 个问题,9,370 个样本。
数据集评估
数据集对 15 个开源模型和一个高级闭源模型进行了广泛评估,揭示这些模型仍存在一定程度的社会偏见。
相关项目
- BLIP-2
- EMU2
- InstructBLIP
- LLaVA-1.5
- miniGPT4
- miniGPT-v2
- Otter
- Qwen-VL
- Shikra
- InternLM-XComposer
引用
coming soon...
链接
- 项目链接:GitHub
- 论文链接:arXiv
- 数据集链接:Google Drive
搜集汇总
数据集介绍

构建方式
VLBiasBench数据集的构建采用了Stable Diffusion XL模型生成高质量图像,并结合不同问题形成样本。数据集涵盖了九个社会偏见的独立类别,包括年龄、残疾状况、性别、国籍、外貌、种族、宗教、职业、社会经济状况,以及两个交叉偏见类别(种族×性别和种族×社会经济状况)。数据集包含128,342个样本,由46,848张高质量图像和不同类型的问题组成,包括开放式和封闭式问题,以从多个角度全面评估大型视觉语言模型(LVLMs)的偏见。
特点
VLBiasBench数据集的特点在于其全面性和多样性。数据集包含了九个独立的社会偏见类别和两个交叉偏见类别,通过使用Stable Diffusion XL模型生成的46,848张高质量图像,以及与这些图像相关联的128,342个问题,形成了一个大规模的评估基准。这些问题分为开放式和封闭式两种类型,全面考虑了偏见的来源,并从多个角度对LVLMs的偏见进行了综合评估。
使用方法
使用VLBiasBench数据集的方法包括对大型视觉语言模型进行评估,以检测和量化模型中存在的偏见。评估方法包括开放式问题和封闭式问题,以评估模型在不同类型问题上的表现。开放式问题要求模型根据图像内容进行故事创作或评价,而封闭式问题则是多项选择题,要求模型根据图像内容选择正确答案。通过分析模型对问题的回答,可以评估模型在不同偏见类别上的表现,并识别模型中存在的偏见问题。
背景与挑战
背景概述
随着大型视觉语言模型(LVLMs)的发展,人们对于模型输出中可能存在的偏见问题日益关注。VLBiasBench数据集的创建旨在全面评估LVLMs中的偏见问题。该数据集由中国科学院计算技术研究所等机构的研究人员于2024年6月提出,涵盖了九个不同的社会偏见类别,包括年龄、残疾状况、性别、国籍、外貌、种族、宗教、职业和社会经济地位,以及两个交叉偏见类别(种族×性别,和种族×社会经济地位)。该数据集使用了Stable Diffusion XL模型生成了46,848张高质量的图像,并结合不同的问题形成了128,342个样本。这些问题被分为开放式和封闭式类型,从多个角度全面评估了LVLMs的偏见。该数据集的创建对于相关领域的研究具有重要的推动作用,有助于促进LVLMs的公平性。
当前挑战
VLBiasBench数据集面临的挑战主要包括:1)所解决的领域问题的挑战:如何全面评估LVLMs中的偏见问题,包括各种社会偏见类别和交叉偏见类别;2)构建过程中的挑战:如何生成高质量的图像,并确保图像内容与问题的一致性,以及如何避免数据泄露问题。此外,VLBiasBench数据集的创建还面临一些局限性,例如数据集的多样性和完整性仍有待提高,以及如何确保生成图像的质量和偏见程度。
常用场景
经典使用场景
VLBiasBench 数据集被广泛用于评估大型视觉语言模型(LVLMs)中的偏见。该数据集包含了九个不同的社会偏见类别,包括年龄、残疾状况、性别、国籍、外貌、种族、宗教、职业和社会经济地位,以及两个交集偏见类别(种族×性别和种族×社会经济地位)。研究人员可以使用这个数据集来测试 LVLMs 在不同偏见类别上的表现,并评估模型在处理各种社会偏见时的公平性和准确性。
实际应用
VLBiasBench 数据集在实际应用中具有广泛的应用前景。例如,在招聘系统中使用 LVLMs 进行简历筛选时,可以使用该数据集来评估模型是否对不同敏感群体保持公平性。此外,VLBiasBench 数据集还可以用于开发具有更公平决策能力的 LVLMs,以避免模型在处理社会偏见问题时产生不公平的结果。通过使用 VLBiasBench 数据集进行评估和训练,可以提高 LVLMs 的公平性和可靠性,从而更好地服务于社会。
衍生相关工作
VLBiasBench 数据集的提出和研究引发了相关领域的一系列相关工作。例如,一些研究利用 VLBiasBench 数据集来开发新的评估方法和指标,以更准确地评估 LVLMs 的公平性。此外,一些研究还利用 VLBiasBench 数据集来开发具有更公平决策能力的 LVLMs,以避免模型在处理社会偏见问题时产生不公平的结果。这些相关工作进一步推动了 LVLMs 公平性的研究和发展,为构建更加公平和可靠的 AI 系统提供了重要的参考和借鉴。
以上内容由遇见数据集搜集并总结生成



