BIGbench
收藏arXiv2024-07-23 更新2024-07-25 收录
下载链接:
https://github.com/BIGbench2024/BIGbench2024/
下载链接
链接失效反馈官方服务:
资源简介:
BIGbench数据集由浙江大学开发,专注于评估文本到图像生成模型中的社会偏见。该数据集包含47,040个提示,覆盖职业、特征和社会关系等,通过四个维度(偏见的显现、可见性、获得属性和保护属性)进行分类。数据集的创建过程结合了社会学和机器伦理学的研究,旨在通过自动化评估方法,全面检测和分析T2I模型中的偏见问题,特别是在人类图像生成方面。
The BIGbench dataset, developed by Zhejiang University, focuses on evaluating social biases in text-to-image generation models. It contains 47,040 prompts covering occupations, traits and social relationships, and is categorized across four dimensions: the manifestation, visibility, acquired attributes and protected attributes of bias. The development of the dataset integrates research from the fields of sociology and machine ethics, with the goal of comprehensively detecting and analyzing bias issues in text-to-image (T2I) models, particularly in human image generation via automated evaluation methods.
提供机构:
浙江大学
创建时间:
2024-07-22
搜集汇总
数据集介绍

构建方式
BIGbench数据集的构建基于对现有T2I模型中社会偏见的深入理解。研究者们首先从社会学和机器伦理学的角度出发,提出了一个新的偏见定义和分类系统,该系统从四个维度对偏见进行分类:偏见的体现形式、偏见的可见性、获得性属性和保护性属性。基于这一系统,研究者们构建了一个包含47,040个提示的庞大数据集,这些提示涵盖了职业、特征和社会关系等方面。为了确保图像适合评估,每个提示都由身份提示、补充提示和照片现实主义提示三个部分组成。此外,为了提高评估的自动化程度,BIGbench采用了多模态大型语言模型(MLLM)进行图像与属性的自动对齐。
使用方法
使用BIGbench数据集进行评估的过程包括两个主要部分:对齐和评估指标。首先,研究者们使用微调后的多模态大型语言模型(MLLM)对每个图像进行自动对齐,以识别图像中的人物和保护属性。然后,基于对齐结果,BIGbench使用三个评估指标来衡量模型的偏见程度:隐式偏见得分、显式偏见得分和表现因子。隐式和显式偏见得分反映了模型中偏见的严重程度,而表现因子则表示模型的偏见倾向是忽视还是歧视。通过这些评估指标,研究者们可以全面地了解T2I模型的偏见情况,并针对性地进行改进。
背景与挑战
背景概述
随着文本到图像(T2I)生成模型在生成复杂和高质量图像方面的能力日益增强,人们对这些模型输出中是否存在社会偏见,尤其是在人类生成方面,产生了越来越多的担忧。社会学研究已经建立了偏见的系统分类,然而,现有的T2I模型研究往往混淆了不同类型的偏见,阻碍了这些方法的进步。为此,我们引入了BIGbench,这是一个统一的图像生成偏见基准,具有精心设计的评估数据集。与现有基准相比,BIGbench将复杂偏见分类为四个维度:偏见的体现、偏见的可见性、获得的属性和受保护的属性。此外,BIGbench应用了先进的跨模态大型语言模型(MLLM),在保持高准确性的同时实现全自动评估。我们将BIGbench应用于评估八个最新的通用T2I模型和三种去偏方法。我们还进行了人工评估,结果显示BIGbench在图像对齐和识别各种偏见方面是有效的。此外,我们的研究还揭示了关于偏见的新的研究方向,包括无关受保护属性的副作用和蒸馏。我们的基准可以在https://github.com/BIGbench2024/BIGbench2024/免费获取,以确保可重复性。
当前挑战
BIGbench在解决T2I模型的社会偏见问题方面面临着几个挑战。首先,它需要解决现有的基准在评估社会偏见方面存在的局限性,例如在提示的数量和覆盖范围上的限制。其次,BIGbench需要构建一个包含大量提示的评估数据集,以便全面地评估T2I模型的偏见。此外,BIGbench需要采用先进的MLLM技术,以实现高准确性的全自动评估。最后,BIGbench需要解决蒸馏技术可能对模型偏见产生负面影响的问题。
常用场景
经典使用场景
BIGbench数据集旨在为文本到图像生成模型中的社会偏见提供一个统一的基准。该数据集包含了47,040个提示,涵盖了职业、特征和社会关系等方面。通过使用多模态大型语言模型(MLLM)进行自动对齐和评估,BIGbench能够对模型的偏见进行全面的分析和评估。这使得BIGbench成为评估文本到图像生成模型偏见的经典使用场景,有助于研究人员直观地比较不同模型的偏见程度和去偏见方法的性能。
解决学术问题
BIGbench数据集解决了现有研究在文本到图像生成模型中偏见评估方面存在的几个关键问题。首先,BIGbench提供了一个包含广泛提示的统一基准,涵盖了职业、特征和社会关系等方面,从而能够更全面地评估模型的偏见。其次,BIGbench采用多模态大型语言模型(MLLM)进行自动评估,提高了评估的准确性和效率。此外,BIGbench还引入了一个特定的4维偏见定义系统,从偏见的体现、可见性、获得属性和保护属性四个维度对偏见进行分类和评估,有助于研究人员更深入地理解偏见的本质和表现形式。
实际应用
BIGbench数据集的实际应用场景包括但不限于以下几个方面:1. 帮助研究人员评估文本到图像生成模型的偏见程度和去偏见方法的性能,从而推动模型的公平性和公正性。2. 为开发者提供了一套全面的偏见评估工具,帮助他们改进模型的设计和训练过程,降低模型的偏见风险。3. 为政策制定者提供数据支持,帮助他们制定更合理的政策和法规,以促进人工智能技术的公平性和公正性。
数据集最近研究
最新研究方向
BIGbench数据集的引入标志着文本到图像生成模型中社会偏见评估的一个新阶段。该数据集通过多维度分类和评估复杂偏见,为研究者提供了一个全面、自动化的评估工具。BIGbench的独特之处在于其将偏见细分为四个维度:偏见的体现、偏见的可见性、获得的属性和保护属性,并通过先进的多模态大型语言模型(MLLM)实现了高精度的自动评估。在BIGbench的基础上,研究者们能够更直观地比较不同模型的偏见程度和去偏方法的性能。此外,BIGbench还揭示了新的研究方向,包括无关保护属性的副作用和蒸馏过程中的潜在问题。通过对11个模型和人类评估的比较分析,BIGbench的有效性得到了证实。BIGbench的开放性和可重复性为AIGC社区提供了一个公平、透明的偏见评估基准,有望推动文本到图像生成模型的公平性和准确性研究。
相关研究论文
- 1BIGbench: A Unified Benchmark for Social Bias in Text-to-Image Generative Models Based on Multi-modal LLM浙江大学 · 2024年
以上内容由遇见数据集搜集并总结生成



