KoBBQ datasets
收藏github2024-03-02 更新2024-05-31 收录
下载链接:
https://github.com/naver-ai/KoBBQ
下载链接
链接失效反馈官方服务:
资源简介:
The Bias Benchmark for Question Answering (BBQ) is designed to evaluate social biases of language models (LMs), but it is not simple to adapt this benchmark to cultural contexts other than the US because social biases depend heavily on the cultural context. In this paper, we present ₩KoBBQ₩, a Korean bias benchmark dataset, and we propose a general framework that addresses considerations for cultural adaptation of a dataset. Our framework includes partitioning the BBQ dataset into three classes--Simply-Transferred (can be used directly after cultural translation), Target-Modified (requires localization in target groups), and Sample-Removed (does not fit Korean culture)-- and adding four new categories of bias specific to Korean culture. We conduct a large-scale survey to collect and validate the social biases and the targets of the biases that reflect the stereotypes in Korean culture. The resulting KoBBQ dataset comprises 268 templates and 76,048 samples across 12 categories of social bias. We use KoBBQ to measure the accuracy and bias scores of several state-of-the-art multilingual LMs. The results clearly show differences in the bias of LMs as measured by KoBBQ and a machine-translated version of BBQ, demonstrating the need for and utility of a well-constructed, culturally-aware social bias benchmark.
问答偏见基准数据集(Bias Benchmark for Question Answering,BBQ)旨在评测语言模型(Language Models,LMs)的社会偏见,但由于社会偏见高度依赖文化语境,将该基准适配至美国以外的文化场景并非易事。本文提出了KoBBQ——一款韩语偏见基准数据集,同时构建了一套通用框架,可解决数据集文化适配过程中的各类核心考量问题。该框架将BBQ数据集划分为三类:简单迁移类(仅需完成文化翻译即可直接使用)、目标修改类(需针对目标群体进行本土化调整)与样本移除类(不符合韩语文化语境,需予以剔除),并新增了四类针对韩语文化的特有偏见类别。我们通过大规模调研收集并验证了反映韩语文化刻板印象的社会偏见及其靶向对象。最终构建的KoBBQ数据集共包含268条模板与76048条样本,覆盖12类社会偏见场景。我们利用KoBBQ对多款顶尖多语言大语言模型的准确率与偏见得分进行了评测。实验结果清晰表明,基于KoBBQ与机器翻译版BBQ评测得到的大语言模型偏见表现存在显著差异,这充分证明了构建具备文化适配性的高质量社会偏见基准数据集的必要性与实用价值。
创建时间:
2024-02-13
原始信息汇总
数据集概述
数据集名称
- KoBBQ: Korean Bias Benchmark for Question Answering
数据集位置
数据集统计
| Category | # of Templates | # of Samples |
|---|---|---|
| Age | 21 | 3,608 |
| Disability Status | 20 | 2,160 |
| Gender Identity | 25 | 768 |
| Physical Appearance | 20 | 4,040 |
| Race/Ethnicity/Nationality | 43 | 51,856 |
| Religion | 20 | 688 |
| Socio-Economic Status | 27 | 6,928 |
| Sexual Orientation | 12 | 552 |
| Domestic Area of Origin | 22 | 800 |
| Family Structure | 23 | 1,096 |
| Political Orientation | 11 | 312 |
| Education Background | 24 | 3,240 |
| Total | 268 | 76,048 |
评估方法
- 评估代码和提示可在KoBBQ/evaluation找到。
- 评估步骤包括将模型输出放入特定列,并运行评估脚本。
伦理考虑
- 数据集不得用于恶意目的,如自动生成和发布针对特定群体的偏见语言。应鼓励用于减少语言模型偏见的研究。
搜集汇总
数据集介绍

构建方式
KoBBQ数据集的构建基于对韩国社会多样性的深入理解,涵盖了年龄、残疾状况、性别认同、外貌、种族/民族/国籍、宗教、社会经济地位、性取向、国内地区来源、家庭结构、政治取向和教育背景等12个类别。通过精心设计的模板,生成了76,048个样本,确保数据集能够全面反映韩国社会的多元性和复杂性。每个类别的模板数量和样本量均经过严格统计,以保证数据的代表性和平衡性。
特点
KoBBQ数据集以其广泛的覆盖范围和多样化的样本著称,特别关注韩国社会中的偏见问题。数据集包含268个模板,涵盖了12个社会类别,样本量高达76,048个。每个样本均经过精心设计,确保其能够准确反映特定社会群体的特征和偏见。数据集的多样性和代表性使其成为研究韩国社会偏见和语言模型偏见的理想工具。
使用方法
使用KoBBQ数据集进行模型评估时,首先需要将模型输出结果填入指定的预测列中,并保存为特定格式的文件。随后,通过运行评估脚本,可以选择对测试集或整个数据集进行评估。评估过程中,模型输出需与预设选项一致,否则将被视为无效答案。评估结果将生成详细的报告,帮助研究者分析模型在不同社会类别中的表现。
背景与挑战
背景概述
KoBBQ数据集由Jiho Jin等研究人员于2024年提出,旨在为韩语问答系统中的偏见问题提供基准测试。该数据集涵盖了年龄、残疾状况、性别认同、种族/民族/国籍、宗教信仰、社会经济地位等12个类别,共计268个模板和76,048个样本。KoBBQ的创建不仅填补了韩语偏见检测领域的空白,还为全球多语言偏见研究提供了重要参考。其研究成果发表在《Transactions of the Association for Computational Linguistics》期刊上,推动了自然语言处理领域对偏见问题的深入探讨。
当前挑战
KoBBQ数据集在解决韩语问答系统偏见问题时面临多重挑战。首先,韩语的语言结构和文化背景使得偏见的定义和检测更为复杂,需要深入理解韩国的社会文化语境。其次,数据集的构建过程中,研究人员需确保样本的多样性和代表性,以避免引入新的偏见。此外,评估模型的偏见检测能力时,如何设计公平且全面的评估指标也是一大难题。最后,数据集的伦理使用问题不容忽视,需防止其被滥用于生成或传播带有偏见的语言内容。
常用场景
经典使用场景
KoBBQ数据集在自然语言处理领域中被广泛用于评估和检测问答系统中的偏见问题。通过提供涵盖年龄、性别、种族、宗教等多个社会维度的样本,该数据集能够帮助研究人员深入分析模型在不同社会群体中的表现差异。其丰富的样本量和多样化的类别设置,使得KoBBQ成为研究偏见问题的经典基准数据集。
实际应用
在实际应用中,KoBBQ数据集被用于优化和调整问答系统的输出,以确保其在不同社会群体中的公平性。例如,企业可以利用该数据集检测其智能客服系统中的潜在偏见,并进行相应的改进。此外,教育机构和政府部门也可以利用该数据集评估其在线问答平台的公平性,提升用户体验。
衍生相关工作
KoBBQ数据集衍生了一系列关于偏见检测和公平性优化的研究工作。例如,基于该数据集的研究提出了多种偏见缓解算法,这些算法被广泛应用于问答系统和语言模型的开发中。此外,KoBBQ还激发了其他语言和文化背景下的偏见检测数据集的建设,推动了全球范围内的公平性研究。
以上内容由遇见数据集搜集并总结生成



