AI-Sweden-Models/BiaSWE

Name: AI-Sweden-Models/BiaSWE
Creator: AI-Sweden-Models
Published: 2025-01-13 08:25:16
License: 暂无描述

Hugging Face2025-01-13 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/AI-Sweden-Models/BiaSWE

下载链接

链接失效反馈

官方服务：

资源简介：

BiaSWE是一个小型注释数据集，用于检测瑞典语中的厌女症，由社会科学和人文学科的专家团队注释，涉及仇恨言论、厌女症、厌女症类型类别和严重程度。该数据集包含450个数据点，每个数据点至少由两位专家手动注释，分为训练集、验证集和测试集，格式为parquet文件。数据集可用于厌女症与非厌女症文本的分类以及语言模型的去偏。

提供机构：

AI-Sweden-Models

原始信息汇总

数据集概述

数据集名称

BiaSWE

数据集内容

主要特征：
- text：文本内容，数据类型为字符串。
- annotations：注释信息，包含多个注释者对文本的分类、评论、仇恨言论、性别歧视和评分。

数据集结构

注释结构：
- 每个注释者包括以下字段：
  - category：分类，数据类型为字符串。
  - comment：评论，数据类型为字符串。
  - hate_speech：仇恨言论，数据类型为字符串。
  - misogyny：性别歧视，数据类型为字符串。
  - rating：评分，数据类型为字符串。

数据集分割

分割详情：
- train：训练集，包含150个样本，总大小为153663字节。
- val：验证集，包含150个样本，总大小为182637字节。
- test：测试集，包含150个样本，总大小为176851字节。

数据集大小

下载大小：308431字节
数据集总大小：513151字节

数据集配置

配置文件：
- default：默认配置，包含训练、验证和测试数据文件的路径。

数据集存储

存储格式：Parquet文件
文件结构：

BiaSWE/ /data - train-00000-of-00001.parquet - val-00000-of-00001.parquet - test-00000-of-00001.parquet

数据集用途

用于检测瑞典语中的性别歧视，可用于分类性别歧视与非性别歧视文本，以及对语言模型进行去偏处理。

搜集汇总

数据集介绍

构建方式

在瑞典语性别歧视检测领域，BiaSWE数据集的构建体现了严谨的学术流程。其数据源自Flashback论坛，通过基于专家共识关键词列表的网络爬取与匹配技术进行采集。核心构建环节在于由社会科学与人文学科专家团队执行的多维度人工标注，每位数据点至少经过两位专家独立评审。标注任务系统性地划分为仇恨言论检测、性别歧视判定、具体类别识别以及严重程度评级四个子任务，最终对数据进行了人工匿名化处理，确保了数据来源的隐私性。

特点

该数据集的核心特征在于其深度、多维的专家标注体系。每个数据点不仅包含原始文本，更附有来自最多四位独立专家的详细标注记录，涵盖仇恨言论、性别歧视、具体歧视类别（如刻板印象、暴力威胁等）及严重程度评分，并保留了专家的自由评论。这种结构为研究标注者间一致性、偏见的多维度表现以及模型的可解释性提供了丰富资源。数据集规模虽精炼，但其标注质量与跨学科背景的专家参与，使其成为瑞典语环境下研究复杂社会偏见的一个高价值基准。

使用方法

研究者可利用该数据集开展两项主要任务：瑞典语文本的性别歧视分类，以及语言模型的去偏见研究。数据集已预先划分为训练集、验证集和测试集，以标准Parquet格式存储，便于直接加载进行模型训练与评估。使用时应遵循其标注结构，注意处理标注字段中的空值（NaN）情况，这些空值对应于特定判定下的逻辑缺失。鉴于数据内容可能涉及敏感言论，使用者需遵守内容警告，并参考随附的详细标注指南与关键词列表，以确保对标注意图的准确理解与模型的负责任开发。

背景与挑战

背景概述

在数字时代，网络仇恨言论与性别歧视内容的泛滥已成为全球性社会问题，尤其在自然语言处理领域，针对低资源语言的检测研究相对匮乏。BiaSWE数据集由瑞典创新机构Vinnova资助，于2022年由AI Sweden联合跨学科专家团队共同创建，旨在填补瑞典语中厌女症检测的数据空白。该数据集从Flashback论坛中通过关键词匹配采集450条文本，并由社会科学与人文学科专家进行多维度标注，涵盖仇恨言论识别、厌女症分类及严重性评级。其构建不仅推动了瑞典语语境下的偏见消减研究，也为跨学科合作在人工智能伦理治理中的应用提供了典范。

当前挑战

BiaSWE数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域层面，厌女症检测需处理语言表达的隐晦性与文化语境依赖性，例如讽刺、隐喻等复杂语言现象可能降低分类模型的准确性；同时，性别歧视类别的精细划分（如‘刻板印象’与‘反女权主义’）要求模型具备深层的语义理解能力。构建过程中，跨学科标注的一致性协调成为关键难题，不同背景专家对敏感内容的判断可能存在分歧，需通过严谨的指南设计来平衡主观差异；此外，数据匿名化处理与小型样本规模（仅450条）也限制了模型训练的泛化潜力，对后续研究的可扩展性构成制约。

常用场景

经典使用场景

在自然语言处理领域，针对瑞典语文本的仇恨言论与性别歧视检测，BiaSWE数据集提供了一个精心标注的基准资源。该数据集通过专家标注的仇恨言论、厌女症、类别及严重性评级，常用于训练和评估分类模型，以识别瑞典语在线论坛中的厌女症内容。其多维度标注结构支持细粒度的文本分析，为研究语言模型在敏感内容识别方面的性能奠定了数据基础。

衍生相关工作

基于BiaSWE数据集，相关研究已衍生出针对瑞典语的语言模型去偏工作，例如通过微调预训练模型以降低厌女症内容的生成风险。该数据集还启发了跨语言偏见检测方法的比较研究，将瑞典语与其他语言的厌女症数据集进行对比分析。此外，其多专家标注机制为其他低资源语言的类似数据集构建提供了方法论参考，推动了跨学科合作在AI伦理领域的应用。

数据集最近研究