GenderLexicon

Name: GenderLexicon
Creator: 爱沙尼亚塔图大学计算机科学研究所
Published: 2025-07-03 22:42:03
License: 暂无描述

arXiv2025-07-03 更新2025-07-05 收录

下载链接：

https://github.com/ahmedssabir/GenderLex

下载链接

链接失效反馈

官方服务：

资源简介：

GenderLexicon是一个由爱沙尼亚塔图大学计算机科学研究所创建的NLP数据集，旨在研究性别和上下文偏见的关联。数据集包含了2511个模板，其中837个是唯一的，模板涉及职业、动词和名词与代词的直接关联，以避免模型在不同性别群体中产生错误假设。数据集采用ChatGPT-3.5-Turbo生成模板句子，并由人工标注员提取相关上下文。该数据集可用于评估性别偏见，并探索动作动词、名词和职业之间的关系。

GenderLexicon is an NLP dataset created by the Institute of Computer Science, University of Tartu, Estonia, aimed at studying the association between gender and contextual bias. The dataset consists of 2511 templates, 837 of which are unique. These templates involve direct associations between occupations, verbs, nouns and pronouns, to prevent models from generating erroneous assumptions about different gender groups. Template sentences are generated using ChatGPT-3.5-Turbo, and relevant contexts are extracted by human annotators. This dataset can be employed to evaluate gender bias and explore the relationships between action verbs, nouns and occupations.

提供机构：

爱沙尼亚塔图大学计算机科学研究所

创建时间：

2025-07-03

原始信息汇总

GenderLex数据集概述

数据集简介

数据集名称：GenderLex
设计目的：探索超越职业刻板印象的性别偏见，评估动词、名词和职业在性别偏见场景中的关系

数据集组成

包含三个子集：

职业偏见(Occupational Bias)
- 关注与职业相关的性别偏见
- 包含动词和名词
使用"someone"的性别中性(Gender-Neutral with Entity Someone)
- 使用真正性别中性的实体"someone"
- 排除原始职业偏见
- 包含动词和名词
使用"person"的性别中性(Gender-Neutral with Entity Person)
- 使用性别中性术语"person"
- 排除原始职业偏见
- 包含动词和名词

数据结构

格式：CSV文件
每行包含列：
- sent_m：含男性性别的句子
- sent_w：含女性性别的句子
- context：帮助测量与代词偏见的上下文词(动词、名词和职业)
- HB：人类偏见标签(M或W)，表示刻板预期版本

量化LLMs中的偏见

运行要求

Python 3(建议3.10.12)
需安装依赖包：pip install -r requirements.txt

支持模型

Huggingface上的LLMs：
- GPT2-XL
- EleutherAI/gpt-j-6b
- meta-llama/Llama-3.1-8B
- meta-llama/Llama-3.1-70B
- DeepSeek-R1-8B

支持词嵌入

glove(300d 840b)
fasttext(crawl-300d-2M-subword.vec)
word2vec(word2vec-GoogleNews-vectors)
glove-GN(GN-GloVe using 1-billion)
glove_dd(vector_ddglove_gender)
glove-RN(1b-vectors300-RN)

输出文件列

基础列(输入已有)：
- sent_m
- sent_w
- context
- HB
计算列(脚本生成)：
- LM_score_M：sent_m的语言模型概率分数
- LM_score_W：sent_w的语言模型概率分数
- score_M：sent_m的最终计算分数
- score_W：sent_w的最终计算分数
- gender_score：最终偏见(M或W)
- hb_match：人类偏见匹配(1表示匹配HB，否则0)
- bias_towards：模型倾向的性别(M或W)

致谢

欧盟H2020计划SoBigData++项目(资助协议号871042)
CHIST-ERA资助(编号CHIST-ERA-19-XAI-010，ETAg资助号SLTAT21096)
HAMISON项目部分资助

搜集汇总

数据集介绍

构建方式

GenderLexicon数据集的构建采用了多阶段方法，结合了模板生成与人工校验。研究团队首先基于ChatGPT-3.5-Turbo生成模板句子，通过单样本提示控制生成多样性，随后由三名人工标注员对生成内容进行校正和上下文要素（动作动词、宾语名词、职业）的提取。数据集包含2511个模板句子，其中837个为独特模板，覆盖了男性（him/he）、女性（her）及中性（them）代词。为减少职业偏见的主导影响，额外构建了省略职业仅保留动作动词和宾语名词的子集。

特点

该数据集的核心特点在于其多维度的偏见分析框架，突破了传统职业性别偏见的局限。通过解构句子中的动作动词、宾语名词与职业的关联，首次量化了非职业要素对性别偏见的影响。数据集的创新性体现在：1）采用动态上下文权重分配机制，可捕捉不同语言成分对偏见的贡献度差异；2）包含跨语言验证模块（如日语语料），支持文化特异性偏见研究；3）引入中性代词对照组，有效分离职业与其他语言要素的偏见效应。

使用方法

使用该数据集时，研究者可通过ClozeGender Score（CGS）框架实现偏见量化分析。该方法分两阶段运作：首先计算语言模型对代词的初始预测概率，随后通过语义相似度调整因子（1-sim(g,c)）进行偏见放大修正。具体应用中，需将句子成分（如动作动词）作为上下文c输入模型，系统将自动输出性别偏见分数及关联分析。数据集支持WEAT和KL散度等标准评估指标，兼容主流预训练词向量（如GloVe、fasttext），并可扩展至其他社会群体偏见（如种族）的交叉分析。

背景与挑战

背景概述

GenderLexicon数据集由塔图大学计算机科学研究所的Ahmed Sabir和Rajesh Sharma于2025年创建，旨在探索超越职业头衔的性别偏见。该数据集通过分析动作动词、对象名词和职业等多种元素，研究性别与上下文偏见之间的相关性。GenderLexicon不仅扩展了性别偏见研究的范围，还引入了一个能够量化上下文偏见及其相关性别偏见的框架，提高了性别偏见的可解释性。该数据集的推出填补了现有性别偏见评估基准主要围绕职业刻板印象的空白，为自然语言处理领域提供了更为全面的性别偏见分析工具。

当前挑战

GenderLexicon数据集面临的挑战主要包括两个方面：首先，在解决领域问题方面，该数据集旨在揭示语言模型中存在的广泛性别偏见，包括动作动词和对象名词等非职业元素中的偏见，这要求模型能够准确捕捉和量化这些复杂且细微的偏见模式。其次，在构建过程中，研究人员需要克服数据生成的复杂性，例如通过ChatGPT生成多样化的测试句子并依赖人工标注来确保数据的准确性和一致性。此外，数据集的构建还需处理多语言环境下的文化差异问题，例如在日语数据集中如何准确反映文化特定的性别刻板印象。

常用场景

经典使用场景

GenderLexicon数据集在自然语言处理领域中被广泛用于检测和量化语言模型中的性别偏见。通过分析动作动词、对象名词和职业等上下文元素，该数据集能够揭示语言模型在性别关联上的潜在偏见。研究者可以利用该数据集评估模型在不同语境下对性别代词的预测倾向，从而识别和减少模型中的性别偏见。

解决学术问题

GenderLexicon数据集解决了语言模型中性别偏见检测的学术问题，特别是在职业以外的语境中。传统方法主要关注职业与性别之间的刻板印象，而该数据集通过引入动作动词和对象名词等元素，扩展了性别偏见的研究范围。其提出的ClozeGender评分机制为量化性别偏见提供了新的方法，增强了偏见检测的敏感性和可解释性。

衍生相关工作

GenderLexicon数据集衍生了一系列相关研究，包括跨语言性别偏见分析和社会群体偏见检测。例如，基于该数据集的研究探索了日语中的性别刻板印象，并提出了针对非英语语言的偏见评估方法。此外，一些工作还利用该数据集的框架开发了新的去偏见技术，如Race-Neutral GloVe模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集