BIGbench

Name: BIGbench
Creator: 浙江大学
Published: 2024-07-22 02:09:40
License: 暂无描述

arXiv2024-07-22 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.15240v1

下载链接

链接失效反馈

官方服务：

资源简介：

BIGbench是由浙江大学开发的一个用于评估文本到图像生成模型中社会偏见的统一基准。该数据集包含47,040条提示，覆盖职业、特征和社会关系等多个维度。数据集的创建过程基于一个四维偏见定义系统，包括偏见的显现、可见性、获得属性和保护属性。BIGbench旨在通过自动化评估方法，解决现有基准在偏见分类和评估上的不足，适用于任何文本到图像生成模型的偏见评估。

BIGbench is a unified benchmark developed by Zhejiang University for evaluating social biases in text-to-image generation models. This dataset contains 47,040 prompts covering multiple dimensions such as occupations, characteristics, and social relationships. The dataset was constructed based on a four-dimensional bias definition system, which includes bias manifestation, visibility, acquired attributes, and protected attributes. BIGbench aims to address the shortcomings of existing benchmarks in bias classification and evaluation through automated assessment methods, and is suitable for bias evaluation of any text-to-image generation model.

提供机构：

浙江大学

创建时间：

2024-07-22

搜集汇总

数据集介绍

构建方式

BIGbench数据集的构建采用了基于社会学和机器伦理学研究的偏误定义和分类系统，从四个维度对偏误进行了分类和评估：偏误的表现形式、偏误的可见性、获得的属性和受保护的属性。数据集由47,040个提示组成，涵盖了职业、特征和社会关系。每个提示包括三个部分：身份提示、补充提示和照片现实主义提示，以确保生成的图像适合评估。

特点

BIGbench数据集的特点在于其综合性和自动化。它涵盖了广泛的社会偏误，并通过先进的跨模态大型语言模型（MLLM）实现了完全自动化的评估，同时保持了高精度。数据集的构建考虑了不同社会群体的代表性，并通过精心设计的提示和算法，确保了评估结果的准确性和可靠性。

使用方法

使用BIGbench数据集进行偏误评估时，首先需要对图像进行对齐，然后根据对齐结果计算偏误得分和表现形式因子。对齐过程采用微调的Mini-InternVL-4B 1.5模型进行，评估指标包括隐式偏误得分、显式偏误得分和表现形式因子。用户可以根据需要调整评估指标，并对不同模型和去偏方法进行评估和比较。

背景与挑战

背景概述

随着文本到图像（T2I）生成模型在生成复杂和高质量图像方面的能力日益增强，人们对这些模型输出中的社会偏见问题也日益关注，特别是在人类生成图像方面。BIGbench数据集由浙江大学的Hanjun Luo等研究人员创建，旨在提供一个统一的基准，用于评估和分类图像生成中的各种偏见。该数据集的核心研究问题是如何有效地识别和评估T2I模型中的社会偏见，以及如何减少这些偏见。BIGbench数据集对相关领域产生了深远的影响，因为它提供了一个全面的框架，用于研究、评估和减少T2I模型中的社会偏见。

当前挑战

BIGbench数据集面临的挑战包括如何准确地识别和评估T2I模型中的社会偏见，以及如何有效地减少这些偏见。该数据集所解决的领域问题是图像生成中的社会偏见，这是一个复杂的问题，因为偏见可能以多种形式出现，并且难以量化。在构建过程中，研究人员面临的挑战包括如何设计一个全面的数据集，能够覆盖各种偏见类型，以及如何开发一个自动化的评估系统，能够准确地对模型进行评估。此外，BIGbench数据集还面临着如何减少无关保护属性的影响，以及如何处理蒸馏过程中可能出现的偏见问题。

常用场景

经典使用场景

BIGbench 数据集主要用于评估和比较文本到图像生成模型中的社会偏见。该数据集提供了 47,040 个提示，涵盖了职业、特征和社会关系等多个方面。通过使用 BIGbench，研究人员可以自动评估文本到图像生成模型中的隐式生成偏见、显式生成偏见、忽视和歧视等不同类型的偏见。这使得 BIGbench 成为研究文本到图像生成模型中偏见问题的有力工具。

实际应用

BIGbench 数据集在实际应用中具有重要的意义。通过使用 BIGbench，研究人员可以评估和比较不同文本到图像生成模型的偏见程度，从而选择更公平和公正的模型。此外，BIGbench 数据集还可以用于评估和比较不同去偏见方法的性能，从而为去偏见技术的改进提供参考。在实际应用中，BIGbench 数据集可以帮助开发者构建更公平和公正的文本到图像生成模型，从而提高人工智能系统的可信赖度和公平性。

衍生相关工作

BIGbench 数据集的引入促进了文本到图像生成模型中偏见问题的研究。基于 BIGbench 数据集，研究人员可以进行更深入的分析和讨论，例如，研究不同类型的偏见之间的关系，探索去偏见方法的潜在影响等。此外，BIGbench 数据集还可以用于开发新的去偏见技术，例如，基于 BIGbench 数据集进行训练，以改进文本到图像生成模型的偏见评估和去偏见技术。BIGbench 数据集的引入为文本到图像生成模型中偏见问题的研究提供了新的思路和工具，有助于推动相关研究的进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集