NLI-CoAL Bias Evaluation Dataset
收藏github2024-05-18 更新2024-05-31 收录
下载链接:
https://github.com/panatchakorn-a/bias-eval-nli-considering-all-labels
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为评估预训练语言模型在自然语言推理任务中的性别偏见而创建的。它包括用于模型评估的评估集和用于评估我们提出的偏见评估方法的元评估集。数据集提供了英语、日语和中文版本,包含三种类型的数据集:Pro-stereotypical (PS)、Anti-stereotypical (AS)和Non-stereotypical (NS),用于评估模型在不同性别偏见场景下的表现。
This dataset was created to evaluate gender bias in pre-trained language models for natural language inference tasks. It includes an evaluation set for model assessment and a meta-evaluation set for assessing our proposed bias evaluation method. The dataset is available in English, Japanese, and Chinese, and consists of three types of data: Pro-stereotypical (PS), Anti-stereotypical (AS), and Non-stereotypical (NS), designed to evaluate model performance across different gender bias scenarios.
创建时间:
2023-09-18
原始信息汇总
数据集概述
数据集名称
- NLI-CoAL Bias Evaluation Dataset
数据集目的
- 评估预训练语言模型(PLM)在自然语言推理(NLI)任务中的性别偏见。
数据集特点
- 提出了名为NLI-CoAL的偏见评估测量方法,该方法考虑NLI任务的所有输出标签(蕴含、中立、矛盾)。
- 创建了用于元评估(评估的评估)的偏见测量数据集。
- 数据集支持英语、日语和中文。
数据集结构
- 评估集:包含三种类型的数据集:
- Pro-stereotypical (PS) set:前提句包含性别刻板印象的职业词,假设句包含与刻板印象对应的性别词。
- Anti-stereotypical (AS) set:前提句包含性别刻板印象的职业词,假设句包含与刻板印象相反的性别词。
- Non-stereotypical (NS) set:包含非刻板印象职业词和任何性别词的句子对。
- 元评估集:用于评估提出的偏见评估测量方法的有效性。
数据集大小
| 数据集 | 英语/日语大小 | 中文大小 |
|---|---|---|
| Pro-stereotypical (PS) set | 1000 | 1000 |
| Anti-stereotypical (AS) set | 1000 | 1000 |
| Non-stereotypical (NS) set | 3420 | 3320 |
| 总计 | 5420 | 5320 |
如何使用
- 评估集:用于评估模型的偏见,通过计算偏见分数来衡量。
- 元评估集:通过训练和评估11个不同偏见率的模型,观察偏见分数与偏见率的相关性。
数据集应用
- 用于验证和改进预训练语言模型在处理自然语言推理任务时的性别偏见问题。
搜集汇总
数据集介绍

构建方式
在构建NLI-CoAL Bias Evaluation Dataset时,研究团队针对预训练语言模型(PLM)中的性别偏见问题,设计了自然语言推理(NLI)任务的评估数据集。该数据集包含三种类型的子集:Pro-stereotypical(PS)、Anti-stereotypical(AS)和Non-stereotypical(NS)。PS集包含符合性别刻板印象的句子对,AS集则包含与刻板印象相反的句子对,而NS集则包含非刻板印象的句子对。每个子集均包含中性标签的句子对,旨在检测模型是否因性别偏见而错误预测为蕴含或矛盾。
特点
NLI-CoAL Bias Evaluation Dataset的显著特点在于其多语言覆盖和多标签考虑。该数据集不仅涵盖了英语、日语和中文,还通过NLI-CoAL方法全面考虑了NLI任务中的所有输出标签(蕴含、中性、矛盾)。此外,数据集分为评估集和元评估集,前者用于模型偏见评估,后者用于验证偏见评估方法的有效性。这种设计使得数据集在检测和量化模型偏见方面具有高度的精确性和可靠性。
使用方法
使用NLI-CoAL Bias Evaluation Dataset时,用户首先需获取模型在评估集上的预测结果,包括蕴含、矛盾和中性的比例。随后,通过提供的`calculate_score.py`脚本计算偏见分数,公式为:$$ ext{bias score} = rac{e_p + c_a + (1-n_n)}{3}$$。对于元评估集,用户需训练11个不同偏见比例的NLI模型,并使用评估集进行验证,以观察偏见分数与偏见率之间的相关性。
背景与挑战
背景概述
NLI-CoAL Bias Evaluation Dataset是由Anantaprayoon等人于2024年创建的,旨在评估预训练语言模型(PLM)在自然语言推理(NLI)任务中的性别偏见。该数据集的核心研究问题是如何通过考虑NLI任务的所有输出标签(即蕴含、中性、矛盾)来更准确地评估性别偏见。研究团队提出了名为NLI-CoAL的偏见评估方法,并通过创建多语言数据集(包括英语、日语和中文)来验证其有效性。该数据集的发布不仅为语言模型的偏见评估提供了新的工具,还为跨语言偏见研究奠定了基础,特别是在日语和中文领域的首次尝试。
当前挑战
NLI-CoAL Bias Evaluation Dataset面临的主要挑战包括:首先,构建过程中需要准确识别和分类不同类型的性别偏见,如刻板印象(PS)、反刻板印象(AS)和非刻板印象(NS),这要求对职业词汇的性别倾向进行精细标注。其次,数据集的跨语言扩展带来了语言特性和文化差异的挑战,确保偏见评估方法在不同语言中的通用性和准确性。此外,如何通过元评估方法验证偏见评估测量的有效性,也是一个复杂的技术难题。
常用场景
经典使用场景
NLI-CoAL Bias Evaluation Dataset 主要用于评估预训练语言模型(PLM)在自然语言推理(NLI)任务中的性别偏见。通过提供包含不同性别偏见类型的句子对,如职业与性别之间的刻板印象关系,该数据集能够帮助研究者检测模型在处理这些句子对时的偏见表现。具体而言,数据集分为三类:支持刻板印象(PS)、反对刻板印象(AS)和非刻板印象(NS),每类数据集都旨在揭示模型在不同性别偏见情境下的预测行为。
解决学术问题
该数据集解决了现有性别偏见评估方法中仅关注单一标签(如中性)的局限性问题。通过引入NLI-CoAL方法,考虑NLI任务中的所有输出标签(蕴含、中性、矛盾),研究者能够更全面地评估模型的性别偏见。这不仅提高了偏见评估的准确性,还为跨语言的性别偏见研究提供了新的视角,特别是在英语、日语和中文等语言中验证了其有效性。
衍生相关工作
基于NLI-CoAL Bias Evaluation Dataset,研究者已开展了一系列相关工作,包括跨语言性别偏见评估方法的扩展、偏见检测算法的改进以及多语言环境下的模型公平性研究。这些工作不仅验证了NLI-CoAL方法在不同语言中的适用性,还为未来的偏见评估研究提供了新的方向,特别是在多语言和多文化背景下的偏见检测与消除。
以上内容由遇见数据集搜集并总结生成



