five

VLBiasBench|视觉语言模型数据集|社会偏见评估数据集

收藏
github2024-06-14 更新2024-06-15 收录
视觉语言模型
社会偏见评估
下载链接:
https://github.com/Xiangkui-Cao/VLBiasBench
下载链接
链接失效反馈
资源简介:
VLBiasBench是一个大规模数据集,包含46,848张高质量合成图像,旨在全面评估大型视觉语言模型(LVLMs)中的社会偏见。数据集涵盖九种不同的社会偏见类别,包括年龄、残疾状态、性别、国籍、外貌、种族、宗教、职业、社会经济状态以及两种交叉偏见类别(种族×性别,种族×社会经济状态)。

VLBiasBench is a large-scale dataset comprising 46,848 high-quality synthetic images, designed to comprehensively evaluate social biases in large vision-language models (LVLMs). The dataset covers nine distinct categories of social biases, including age, disability status, gender, nationality, appearance, race, religion, occupation, socioeconomic status, as well as two intersectional bias categories (race × gender, race × socioeconomic status).
创建时间:
2024-06-04
原始信息汇总

数据集概述

VLBiasBench 是一个大规模数据集,由高质量的合成图像组成,旨在全面评估大型视觉-语言模型(LVLMs)中的社会偏见。该数据集包含九个不同的社会偏见类别,包括年龄、残疾状态、性别、国籍、外貌、种族、宗教、职业、社会经济状态以及两个交叉偏见类别(种族×性别,种族×社会经济状态)。

数据集构成

  • 图像生成:使用Stable Diffusion XL模型创建了46,848张高分辨率图像。
  • 样本数量:结合不同类型的问题,形成了一个包含128,342个样本的大规模数据集。

评估类型

  • 开放式问题:共有27,991个问题,涉及性别、种族、宗教和职业等类别。
  • 封闭式问题:共有18,857个问题,涉及年龄、残疾状态、性别、国籍、外貌、种族、宗教、社会经济状态及交叉偏见类别。

数据集统计

统计项 图像数量 样本数量
总问题数 46,848 128,342
开放式问题 27,991 29,348
封闭式问题 18,857 98,994

数据集示例

  • 开放式评估示例:展示了如何通过合成图像评估开放式问题。
  • 封闭式评估示例:展示了如何通过合成图像评估封闭式问题。

评估结果

  • 开放式数据集结果:展示了开放式问题的评估结果。
  • 封闭式数据集结果:展示了封闭式问题的评估结果。

数据集链接

AI搜集汇总
数据集介绍
main_image_url
构建方式
VLBiasBench数据集的构建基于大规模高质量的合成图像,旨在全面评估大型视觉语言模型(LVLMs)中的社会偏见。通过采用Stable Diffusion XL模型,生成了46,848张高分辨率图像,这些图像与多种问题相结合,形成了包含128,342个样本的大型数据集。问题类型分为开放式和封闭式两种,涵盖了年龄、残疾状况、性别、国籍、外貌、种族、宗教、职业、社会经济地位以及两个交叉偏见类别(种族×性别和种族×社会经济地位)。这种构建方式确保了数据集在多个维度上对LVLMs的偏见进行全面评估。
特点
VLBiasBench数据集的主要特点在于其广泛性和深度。该数据集包含了九种不同的社会偏见类别,以及两个交叉偏见类别,覆盖了广泛的社会偏见领域。此外,数据集中的图像均为高质量合成图像,确保了评估的准确性和可靠性。数据集还区分了开放式和封闭式问题,从而能够从不同角度全面评估模型的偏见表现。通过大规模的样本数量和多样化的偏见类别,VLBiasBench为研究者提供了一个强大的工具,用于深入分析和改进LVLMs的公平性。
使用方法
使用VLBiasBench数据集进行评估时,研究者可以首先根据研究需求选择合适的偏见类别和问题类型。数据集提供了详细的分类和统计信息,便于用户快速定位所需数据。随后,用户可以通过加载数据集中的图像和问题,对LVLMs进行评估。数据集还提供了评估框架和示例,帮助用户理解和实施评估流程。此外,VLBiasBench支持多种开源和闭源模型的评估,用户可以根据自己的研究目标选择合适的模型进行测试。通过这些步骤,研究者可以全面评估和改进LVLMs的公平性。
背景与挑战
背景概述
随着大规模视觉语言模型(LVLMs)的兴起,通用人工智能的实现迈出了重要步伐。然而,这些模型在输出中常常反映出社会偏见,这一问题尚未得到广泛研究。为此,VLBiasBench数据集应运而生,由高质量的合成图像组成,旨在全面评估LVLMs中的社会偏见。该数据集涵盖了九种不同的社会偏见类别,包括年龄、残疾状况、性别、国籍、外貌、种族、宗教、职业和社会经济地位,以及两种交叉偏见类别(种族×性别和种族×社会经济地位)。通过使用Stable Diffusion XL模型生成46,848张高分辨率图像,并结合多种问题形成包含128,342个样本的大型数据集,VLBiasBench为多角度评估LVLMs的偏见提供了坚实基础。
当前挑战
VLBiasBench数据集在构建过程中面临多重挑战。首先,生成大规模高质量合成图像的技术要求极高,依赖于先进的图像生成模型如Stable Diffusion XL。其次,设计涵盖广泛社会偏见类别的评估问题,需要深入理解各偏见源的复杂性,确保评估的全面性和准确性。此外,数据集的评估结果显示,尽管使用了多种开源和闭源模型,这些模型仍表现出一定程度的社会偏见,这表明在消除LVLMs中的偏见方面仍需进一步研究和技术突破。
常用场景
经典使用场景
VLBiasBench数据集的经典使用场景主要集中在评估大型视觉语言模型(LVLMs)中的社会偏见。通过提供大规模的高质量合成图像和相应的开放及封闭式问题,该数据集能够全面检测模型在性别、种族、宗教、职业等多个社会偏见类别中的表现。研究者可以利用这些数据来训练和测试模型,以识别和减少这些模型在处理视觉和语言任务时可能表现出的偏见。
衍生相关工作
VLBiasBench数据集的推出催生了一系列相关研究和工作。例如,基于该数据集的评估结果,研究者们开发了新的模型训练方法,以减少偏见的影响。此外,VLBiasBench还启发了其他数据集的创建,旨在评估和改进不同类型的人工智能模型中的偏见问题。相关项目如BLIP-2、EMU2和InstructBLIP等,均在不同程度上借鉴了VLBiasBench的方法和理念,推动了视觉语言模型领域的研究进展。
数据集最近研究
最新研究方向
在视觉语言模型(LVLMs)领域,VLBiasBench数据集的最新研究方向主要集中在评估和缓解模型中的社会偏见。随着LVLMs在人工智能领域的广泛应用,研究人员越来越关注这些模型在处理图像和文本时可能表现出的偏见,如性别、种族和宗教等方面的偏见。VLBiasBench通过大规模合成高质量图像和多样化的问题,提供了一个全面的评估框架,旨在从多个角度揭示和量化这些偏见。当前的研究不仅关注于识别偏见,还探索了通过数据增强和模型调整等方法来减少这些偏见的影响,从而推动LVLMs在实际应用中的公平性和可靠性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

Amazon Reviews 2023

该数据集包含用户评论,如评分、评论文本、有用投票等,以及商品元数据,如产品描述、定价、图片等。数据集比以前的版本大245.2%,包含571.54M条评论,并具有更丰富的描述性商品特征和细粒度的时间戳。

github 收录

WeChat Social Network Dataset

该数据集包含了微信社交网络的用户关系数据,包括用户之间的关注关系、互动行为等。数据集旨在帮助研究社交网络的结构和动态变化。

www.aminer.cn 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

Pet Disease images

Comprehensive Image Dataset for Detecting Pet Diseases Across Multiple Species

kaggle 收录