An Annotated Corpus for Gender Stereotype Detection in French Tweets
收藏github2021-09-09 更新2024-05-31 收录
下载链接:
https://github.com/patriChiril/An-Annotated-Corpus-for-Gender-Stereotype-Detection-in-French-Tweets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含约9,200条法语推文,专门用于性别刻板印象检测。数据集分为三个类别:物理特征、行为特征和活动,旨在识别和分析性别刻板印象。
This dataset comprises approximately 9,200 French tweets specifically curated for the detection of gender stereotypes. It is categorized into three distinct classes: physical attributes, behavioral traits, and activities, designed to identify and analyze gender stereotypes.
创建时间:
2021-09-09
原始信息汇总
数据集概述
数据集名称
An Annotated Corpus for Gender Stereotype Detection in French Tweets
数据集内容
- 主要文件:
corpus_GenderStereotypes.csv,包含约9,200条经过性别刻板印象标注的推文。 - 原始数据:
nonAnnotated.csv,包含所有收集的数据,性别刻板印象数据集为其子集。
数据集分类
- 物理特征: 与身体力量或外观相关。
- 行为特征: 与智力、情感、敏感性或行为相关。
- 活动: 与性别刻板印象相关的活动、职业、爱好。
标注规则
- 推文被标注为非刻板印象,当推文不包含刻板印象时。
- 刻板印象可以明确表达、隐含表达或作为对性别刻板印象的谴责/批评。
伦理考量
- 数据集遵守Twitter开发者协议和政策,允许无限分发每条推文的数字识别号。
- 用户可要求从数据集中移除其数据,无需删除自己的消息。
数据集目的
- 旨在促进刻板印象检测任务的创新和开发,应用于广泛的任务和应用中。
- 不用于收集可能引发伦理问题的用户信息。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对法语推文的系统性收集与标注,旨在检测性别刻板印象。研究人员从Twitter平台上收集了大量推文,并从中筛选出约9,200条推文进行详细标注。标注过程依据性别刻板印象的三个主要类别:身体特征、行为特征和活动。每条推文被标注为是否包含刻板印象,并进一步区分刻板印象的表达方式(显式、隐式或批评)。为确保隐私保护,推文内容仅提供英文翻译,而非原始法语文本。
使用方法
该数据集可用于训练和评估性别刻板印象检测模型,支持自然语言处理领域的研究。研究人员可通过分析标注数据,探索刻板印象在语言中的表现形式及其分布规律。此外,数据集还可用于开发自动化工具,帮助识别和减少社交媒体上的性别刻板印象。使用时应遵循Twitter开发者协议,并尊重用户隐私,避免将数据用于收集用户信息或限制言论自由。
背景与挑战
背景概述
《An Annotated Corpus for Gender Stereotype Detection in French Tweets》数据集由Patricia Chiril等人创建,旨在为法语推文中的性别刻板印象检测提供首个标注语料库。该数据集包含约9200条推文,涵盖了物理特征、行为特征和活动等三类性别刻板印象的标注。该数据集的发布为自然语言处理领域中的性别偏见研究提供了重要资源,尤其是在社交媒体文本分析中具有广泛的应用前景。通过这一数据集,研究人员能够更深入地理解性别刻板印象在语言中的表现形式,并为开发更公平的文本分析模型奠定基础。
当前挑战
该数据集在构建和应用过程中面临多重挑战。首先,性别刻板印象的表达形式多样,既可以是显性的,也可以是隐性的,甚至可能以批评或谴责的形式出现,这为标注工作带来了复杂性。其次,推文文本的简洁性和非正式性增加了语义理解的难度,尤其是在跨语言翻译过程中,可能丢失部分文化背景信息。此外,数据集的构建需严格遵守伦理规范,确保用户隐私得到保护,同时避免对特定用户群体的偏见。这些挑战不仅体现在数据标注的准确性上,也对后续模型的公平性和鲁棒性提出了更高要求。
常用场景
经典使用场景
该数据集主要用于性别刻板印象检测的研究,特别是在法语社交媒体文本中的性别刻板印象识别。研究者可以通过分析推文内容,识别出其中包含的性别刻板印象,并将其分类为物理特征、行为特征或活动相关的刻板印象。这一数据集为自然语言处理领域提供了宝贵的资源,帮助开发更精准的性别刻板印象检测模型。
解决学术问题
该数据集解决了在自然语言处理领域中性别刻板印象检测的难题。通过提供大量标注的法语推文数据,研究者可以训练和验证模型,以识别和分类不同类型的性别刻板印象。这不仅有助于理解性别刻板印象在社交媒体中的表现形式,还为开发更公平、无偏见的语言模型提供了基础。
实际应用
在实际应用中,该数据集可用于社交媒体平台的自动化内容审核系统,帮助识别和过滤含有性别刻板印象的推文。此外,它还可用于教育领域,帮助教师和学生识别和讨论性别刻板印象,促进性别平等意识的提升。
数据集最近研究
最新研究方向
在自然语言处理领域,性别刻板印象检测逐渐成为研究热点,尤其是在社交媒体文本分析中。该数据集作为首个针对法语推文的性别刻板印象标注语料库,为研究者提供了丰富的语言资源,推动了性别偏见识别技术的发展。近年来,基于该数据集的研究主要集中在多模态情感分析、隐式偏见检测以及跨语言性别刻板印象迁移等领域。特别是在社交媒体内容审核和公平性评估中,该数据集的应用显著提升了模型对隐式性别偏见的识别能力。此外,随着生成式人工智能的兴起,如何利用该数据集训练更具公平性和包容性的语言模型也成为前沿研究方向。该数据集的发布不仅为性别刻板印象研究提供了重要工具,也为社交媒体平台的伦理治理和算法公平性提供了科学依据。
以上内容由遇见数据集搜集并总结生成



