CBBQ

Name: CBBQ
Creator: 天津大学
Published: 2023-06-28 22:14:44
License: 暂无描述

arXiv2023-06-28 更新2024-06-21 收录

下载链接：

https://github.com/YFHuangxxxx/CBBQ

下载链接

链接失效反馈

官方服务：

资源简介：

CBBQ是由天津大学的研究团队通过人工与AI协作精心构建的中文偏见基准数据集，包含超过10万个问题，覆盖了中国文化和社会价值观相关的14个社会偏见维度。数据集的创建过程包括偏见识别、模糊上下文生成、AI辅助的清晰上下文生成以及人工审查与重组四个关键步骤。CBBQ旨在为大型语言模型提供一个全面且有效的测试平台，以评估和减少模型中的伦理风险，特别是在预部署阶段。此外，数据集还展示了模型在特定类别中表现出的偏见，如教育资格、疾病、残疾和外貌等，同时揭示了模型在一定程度上能够遵循指令进行道德自我修正的可能性。

CBBQ is a meticulously constructed Chinese bias benchmark dataset developed by the research team from Tianjin University through human-AI collaboration. It comprises over 100,000 questions spanning 14 social bias dimensions related to Chinese culture and social values. The dataset's creation process involves four core steps: bias identification, ambiguous context generation, AI-assisted clear context generation, and manual review and reorganization. CBBQ aims to serve as a comprehensive and effective testbed for large language models (LLMs) to evaluate and mitigate ethical risks in such models, particularly during the pre-deployment phase. Additionally, the dataset demonstrates the biases exhibited by models in specific categories such as educational qualifications, diseases, disabilities, and physical appearance, while also revealing the potential that models can follow instructions to conduct moral self-correction to a certain extent.

提供机构：

天津大学

创建时间：

2023-06-28

搜集汇总

数据集介绍

构建方式

CBBQ数据集的构建始于对广泛认可的偏见的识别，这一过程通过对相关文献的广泛回顾来完成。接下来，生成含糊不清的语境，以评估模型在缺乏足够信息时的行为。随后，通过提供与目标偏见相反的背景信息，生成清晰明确的语境。最后，通过人工审查和重组，对生成的输出进行筛选和修改，以确保其符合要求。代码和数据集的详细信息可在其项目网站上找到。

特点

CBBQ数据集具有广泛覆盖性和高多样性的特点。它涵盖了14种社会偏见类型，包括5种BBQ数据集中未包含的类型，例如疾病和户口登记。此外，CBBQ数据集还利用了大型语言模型（LLM）的生成能力，通过人机协作设计清晰明确的语境，从而提高了数据集的多样性和创造力。

使用方法

CBBQ数据集可用于评估大型语言模型中的社会偏见。评估过程涉及计算模型的偏见分数，该分数反映了模型输出中与社会偏见一致的百分比。此外，数据集还支持通过三种不同类型的提示来测试LLM的道德自我纠正能力，即模型是否能够在指令下避免生成有害的输出。

背景与挑战

背景概述

在人工智能技术迅猛发展的背景下，大型语言模型（LLM）在自然语言处理任务中展现出强大的能力。然而，这些模型在处理自然语言生成（NLG）时，可能会表现出对社会偏见的强化，这对边缘化或脆弱的个人和群体造成潜在危害。为了全面评估和减少大型语言模型中的社会偏见，黄宇飞等人于2023年6月提出了一项名为CBBQ的中文偏见基准数据集。该数据集由超过10万条问题组成，由人类专家和生成式语言模型共同构建，涵盖了与中华文化价值观相关的14个社会维度中的刻板印象和社会偏见。CBBQ的创建过程包括四个关键步骤：通过广泛文献回顾进行偏见识别，生成模糊语境，利用人工智能辅助生成清晰语境，以及手动审查和重新组合。该数据集的广泛覆盖和高度多样性使其成为检测模型偏见的有效工具，为中文或多语种大型语言模型的预部署测试提供了有力支持。

当前挑战

尽管CBBQ数据集在评估大型语言模型中的社会偏见方面取得了显著进展，但仍面临一些挑战。首先，尽管CBBQ涵盖了广泛的偏见类别，但它主要关注中国文化背景，可能无法全面反映其他文化中的社会偏见。其次，尽管数据集的生成过程采用了人类和人工智能的协作，但仍需进一步完善审查流程，以确保数据质量。此外，CBBQ目前尚未涵盖交叉性偏见，例如年龄、性别、疾病和种族等维度之间的相互作用，这可能导致对某些偏见的评估不够全面。最后，尽管实验结果表明，经过微调/强化学习的人类反馈（SFT/RLHF）的模型在一定程度上能够进行道德自我修正，但如何更有效地嵌入指令以避免有害输出仍需进一步研究。

常用场景

经典使用场景

CBBQ数据集被设计用于检测和评估大型语言模型（LLM）中存在的偏见。其最经典的使用场景是作为评估工具，用于量化模型在不同社会维度和文化背景下的偏见程度。通过提供包含14个社会维度的超过10万个测试实例，CBBQ能够帮助研究者识别模型在处理与年龄、残疾、疾病、教育程度、民族、性别、国籍、外貌、种族、宗教、社会经济地位、性取向、户口和地区相关问题时可能表现出的偏见。此外，CBBQ还通过设计包含歧义和明确背景的测试实例，来考察模型在不同信息量下的偏见表现，从而更全面地评估模型的偏见问题。

衍生相关工作

CBBQ数据集的发布促进了大型语言模型偏见研究的发展。基于CBBQ的研究成果，研究者可以进一步探索模型偏见的来源、影响和缓解方法。此外，CBBQ还可以作为其他偏见评估数据集的参考，为构建更加全面、多样化的偏见评估工具提供思路。

数据集最近研究