Bias Benchmark for Generation (BBG)

Name: Bias Benchmark for Generation (BBG)
Creator: KAIST
Published: 2025-03-10 15:06:47
License: 暂无描述

arXiv2025-03-10 更新2025-03-13 收录

下载链接：

http://arxiv.org/abs/2503.06987v1

下载链接

链接失效反馈

官方服务：

资源简介：

Bias Benchmark for Generation (BBG)是一个用于评估大型语言模型（LLM）在社会偏见方面的基准数据集，由KAIST的研究人员构建。该数据集基于英语和韩语的BBQ（Bias Benchmark for QA）数据集，通过替换故事情境中的人物描述为中性的占位符，来评估LLM在长篇故事生成中的偏见。BBG包含9个类别的232个模板和12个类别的286个模板，分别对应英语和韩语版本，共计120508个故事和问题对。该数据集旨在解决LLM在长篇生成中的社会偏见评估问题，推动公平的自然语言处理系统的发展。

Bias Benchmark for Generation (BBG) is a benchmark dataset for evaluating social biases in Large Language Models (LLMs), constructed by researchers from KAIST. This dataset is built upon the English and Korean versions of the BBQ (Bias Benchmark for QA) dataset, and assesses biases in LLMs' long-form story generation by replacing character descriptions in story contexts with neutral placeholders. BBG contains 232 templates across 9 categories and 286 templates across 12 categories, corresponding to the English and Korean versions respectively, with a total of 120,508 story-question pairs. This dataset aims to address the issue of social bias evaluation in LLMs' long-form generation, and promote the development of fair natural language processing systems.

提供机构：

KAIST

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

BBG数据集的构建方式是在现有QA基准数据集BBQ的基础上，通过替换故事背景中的人物描述为中性占位符，然后要求大型语言模型（LLMs）生成故事情节的延续。数据集首先构建了英文和韩文版本，通过对十个LLMs的生成结果进行评估，来衡量中性和偏见的生成概率。评估过程中，通过对故事中人物顺序的交换，生成两个版本的故事，并使用机器阅读理解来评估生成内容的偏见程度。

特点

BBG数据集的特点在于它能够评估LLMs在长篇生成中的社会偏见，这是现有评估方法所难以做到的。数据集通过比较QA和生成任务中的偏见评估结果，揭示了两种评估方法之间的差异。此外，BBG数据集覆盖了9个社会偏见类别（英文版本）和12个类别（韩文版本），为评估LLMs的偏见提供了丰富的场景。

使用方法

使用BBG数据集的方法包括首先对LLMs进行故事生成的任务，然后通过机器阅读理解来评估生成内容的中性和偏见程度。评估指标包括中性和偏见得分，中性和偏见得分分别衡量LLMs生成内容中性与偏见的比例。用户可以按照数据集中的模板，随机选择一个人物对，并创建两个版本的故事，然后让LLMs生成故事的延续，最后使用机器阅读理解来评估生成内容的偏见程度。

背景与挑战

背景概述

随着自然语言处理技术的飞速发展，大型语言模型（LLMs）在理解和生成自然语言方面取得了显著进展。然而，这些模型往往反映了训练数据集中嵌入的社会偏见，这可能导致边缘化群体面临不公平和歧视性的结果。为了准确量化这些偏见并促进公平的NLP系统开发，KAIST的研究人员提出了Bias Benchmark for Generation (BBG)数据集。BBG是一个基于故事生成的评估基准，旨在评估长文本生成中的社会偏见。该数据集由Jiho Jin、Woosung Kang、Junho Myung和Alice Oh等研究人员构建，它通过让LLMs生成故事续写来评估模型在故事生成中的社会偏见。BBG数据集在英语和韩语两种语言中构建，通过比较十种LLMs的生成结果，揭示了模型在故事生成中的社会偏见程度。BBG的提出为评估和缓解LLMs中的社会偏见提供了新的视角和方法，对于推动公平的NLP系统发展具有重要意义。

当前挑战

尽管BBG数据集为评估LLMs中的社会偏见提供了新的工具，但仍面临一些挑战。首先，现有的大多数评估方法主要依赖于多项选择题格式，这种格式难以全面捕捉自然语言生成的微妙和上下文依赖性。其次，构建长文本生成评估基准需要大量的时间和精力，且需要解决如何有效地衡量模型生成文本中的偏见问题。此外，由于BBG数据集基于故事生成，因此它可能无法涵盖现实世界中存在的所有社会偏见。最后，如何将BBG评估方法应用于其他语言和领域的评估也是一个值得研究的挑战。

常用场景

经典使用场景

BBG数据集被广泛用于评估大型语言模型（LLMs）在长文本生成中的社会偏见。通过要求LLMs根据故事提示生成故事续写，BBG能够捕捉到自然语言生成中复杂且依赖于上下文的性质，从而更准确地量化LLMs的社会偏见。这一过程包括使用机器阅读理解来评估生成的输出，并确定模型是否将中性占位符与特定角色一致地关联起来。BBG在英语和韩语中构建了基准数据集，涵盖了九个和十二个类别，包括年龄、宗教、残疾状况、社会经济状况、性别认同、国籍、性取向、种族/民族和身体外观。

衍生相关工作

BBG数据集的提出衍生了一系列相关工作，包括但不限于对其他语言和文化的偏见评估基准的开发。例如，CBBQ（Huang和Xiong，2024年）是一个基于人类-AI协作的中国偏见基准数据集，而JBBQ（Yanaka等人，2024年）是一个用于分析日本大型语言模型中社会偏见的基准数据集。此外，MBBQ（Neplenbroek等人，2024年）是一个用于跨语言比较生成LLMs中刻板印象的数据集。这些相关工作进一步扩展了BBG数据集的应用范围，并为研究人员提供了更多的工具来评估和减少LLMs中的社会偏见。

数据集最近研究