BiaSWE
收藏arXiv2025-02-11 更新2025-02-13 收录
下载链接:
https://huggingface.co/datasets/AI-Sweden-Models/BiaSWE
下载链接
链接失效反馈官方服务:
资源简介:
BiaSWE是一个针对瑞典语设计的专家注释数据集,用于检测瑞典在线 discourse中的厌女言论。该数据集由AI Sweden等多个机构合作创建,包含450个数据点,每个数据点都经过两名以上的专家注释。数据集涵盖了厌女言论的多个类型和严重程度,并通过Hugging Face平台公开,供进一步研究使用。
BiaSWE is an expert-annotated dataset tailored for the Swedish language, designed to detect misogynistic content in Swedish online discourse. This dataset was collaboratively created by multiple institutions including AI Sweden, and contains 450 data points, each annotated by at least two experts. The dataset covers multiple categories and severity levels of misogynistic content, and is publicly available via the Hugging Face platform for further research purposes.
提供机构:
AI Sweden, Linköping University, AI Singapore, Stockholm University, Anti-Discrimination Agency West Sweden
创建时间:
2025-02-11
搜集汇总
数据集介绍

构建方式
BiaSWE数据集的构建过程始于对瑞典网站Flashback上的讨论帖子进行关键字搜索,以收集包含潜在性别歧视内容的数据。该团队与社会科学和人文学科的专家合作,发展了一套严格的注释流程,包括对帖子进行性别歧视、仇恨言论的分类,以及对性别歧视类型的分类和严重性评分。数据集的构建融合了领域知识和语言专长,以确保在瑞典文化背景下捕捉到性别歧视的细微差别。
使用方法
使用BiaSWE数据集时,研究者可以依据数据集中的注释对模型进行训练和评估,以检测和缓解性别歧视。数据集的使用需要遵守其提供的使用指南,并在研究和应用中考虑到文化背景和语言特性。此外,数据集的多样性和分类的细致程度也使得它适用于开发更复杂的自然语言处理模型。
背景与挑战
背景概述
BiaSWE数据集,是一个针对瑞典语性别歧视检测的专家标注数据集。该数据集的创建过程始于2025年,由AI Sweden等机构的研究人员与社会科学和人文领域的专家共同合作完成。BiaSWE的构建旨在解决性别歧视在瑞典文化及语言背景下的特异性问题,其包含了对仇恨言论、性别歧视、性别歧视类型类别和严重程度的标注。该数据集的创建是对低资源语言偏误检测的重要贡献,不仅具有文化相关性,而且符合更广泛的偏误检测努力。
当前挑战
BiaSWE数据集在构建过程中遇到了多重挑战。首先,在领域问题上,它需要解决如何准确捕捉并分类瑞典语在线话语中的性别歧视,尤其是微妙形式的性别歧视。其次,在构建过程中,数据集面临关键词选择偏差、去语境化标注以及专家间共识构建等挑战。这些挑战包括确保标注的一致性和可靠性,以及处理标注过程中的分歧。未来工作需要在扩大数据集规模、提高多样性、减少偏差以及增强标注过程的系统性方面进行改进。
常用场景
经典使用场景
BiaSWE数据集是专为瑞典语设计的,针对Misogyny(对女性的偏见)检测任务。其经典使用场景在于,通过专家标注的语料库,训练自然语言处理模型,以识别和量化瑞典网络论坛中的性别偏见言论,从而为模型提供对性别歧视行为的理解和判断能力。
解决学术问题
该数据集解决了学术研究中对低资源语言性别偏见检测的难题,为研究提供了文化相关性强的工具。它有助于识别模型可能持续的有害刻板印象或不期望的态度,进而指导模型输出与人类价值观对齐。BiaSWE让研究者能够在瑞典语环境中,对性别偏见言论进行分类和严重性评估,这对于减少和消除性别歧视具有重要意义。
实际应用
在实际应用中,BiaSWE数据集可以被用来监测和过滤网络平台上的性别歧视言论,保护用户免受网络暴力的侵害,同时也可以作为教育工具,增强公众对于性别平等意识的认识。此外,它还能为政策制定者提供数据支持,以制定更有效的反歧视法规。
数据集最近研究
最新研究方向
BiaSWE数据集的构建旨在应对网络上的性别偏见问题,特别是针对瑞典语中女性贬低的检测。该研究汇聚了跨学科专家团队的知识与语言专长,发展出一套精确的标注流程,以捕捉瑞典语境下性别歧视的细微差异。近期的研究方向聚焦于扩展低资源语言中偏差检测的工具和资源,BiaSWE数据集及其背后的方法论为此提供了重要的起点。研究不仅展示了数据集的创建过程,还强调了跨学科合作在定义和识别性别歧视语言方面的重要性,为未来相关领域的研究奠定了基础。
相关研究论文
- 1BiaSWE: An Expert Annotated Dataset for Misogyny Detection in SwedishAI Sweden, Linköping University, AI Singapore, Stockholm University, Anti-Discrimination Agency West Sweden · 2025年
以上内容由遇见数据集搜集并总结生成



