social-bias-frames-splits

Hugging Face2025-04-02 更新2025-04-03 收录

下载链接：

https://huggingface.co/datasets/Ayush-Singh/social-bias-frames-splits

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征字段，如目标对象、意图、性别、性别原因、攻击性、标注者性别、标注者是否少数族裔等。数据集被划分为几个不同的子集，每个子集关注于特定的主题，例如种族、受害者、文化等。每个子集都有相应的大小和示例数量。

This dataset includes multiple feature fields, such as target object, intent, gender, gender attribution reason, offensiveness, annotator gender, and whether the annotator belongs to a minority ethnic group. The dataset is divided into several distinct subsets, each focusing on a specific theme such as race, victims, culture, and more. Each subset has its corresponding size and number of examples.

创建时间：

2025-04-02

原始信息汇总

数据集概述

基本信息

数据集名称: social-bias-frames-splits
下载大小: 4,617,456 字节
数据集大小: 11,223,328.055981921 字节

数据集特征

数据集包含以下特征字段：

whoTarget: string
intentYN: string
sexYN: string
sexReason: string
offensiveYN: string
annotatorGender: string
annotatorMinority: string
sexPhrase: string
speakerMinorityYN: string
WorkerId: string
HITId: string
annotatorPolitics: string
annotatorRace: string
annotatorAge: string
post: string
targetMinority: string
targetCategory: string
targetStereotype: string
dataSource: string

数据分割

数据集包含以下分割：

None: 6,642,096.136011136 字节，23,484 个示例
race: 1,269,802.404617335 字节，3,883 个示例
victim: 693,460.2223880597 字节，2,028 个示例
culture: 812,142.9912925478 字节，2,472 个示例
gender: 1,172,447.5193156733 字节，3,535 个示例
body: 149,694.28779069768 字节，441 个示例
disabled: 259,212.72 字节，753 个示例
social: 224,471.774566474 字节，642 个示例

配置信息

配置名称: default
数据文件路径:
- None: data/None-*
- race: data/race-*
- victim: data/victim-*
- culture: data/culture-*
- gender: data/gender-*
- body: data/body-*
- disabled: data/disabled-*
- social: data/social-*

搜集汇总

数据集介绍

构建方式

在社会科学研究领域，社会偏见分析需要精细标注的数据支持。social-bias-frames-splits数据集通过众包平台收集了23,484条社会互动文本，涵盖种族、性别、文化等8个细分维度。每条数据由人工标注员从目标群体、意图判断、冒犯性等18个特征维度进行标注，并记录标注者的人口统计学信息，确保数据来源的多样性和可追溯性。

特点

该数据集以多维度社会偏见分析为核心特色，不仅包含对话文本本身，还系统标注了发言者意图、目标群体属性及潜在刻板印象。独特的标注体系包含标注者的性别、种族、政治倾向等背景信息，为研究社会偏见的形成机制提供了交叉分析可能。数据按偏见类型划分为8个子集，便于针对特定社会议题开展深入研究。

使用方法

研究者可通过HuggingFace平台直接加载数据集整体或特定子集，如性别偏见或种族偏见数据。该数据集适用于自然语言处理中的偏见检测模型训练，也可作为社会科学研究的实证材料。使用时应结合标注者背景信息进行偏差分析，注意不同子集样本量的差异对统计结果的影响。

背景与挑战

背景概述

social-bias-frames-splits数据集由社会科学与计算语言学领域的研究团队构建，旨在深入探究社会偏见在语言表达中的显性及隐性框架。该数据集通过标注社交媒体文本中的目标群体、意图识别、性别关联等多元维度，为量化分析偏见话语提供了结构化基础。其核心价值在于揭示了不同人口统计学特征（如种族、性别、身体特征）与偏见表达的复杂关联，推动了自然语言处理领域对公平性评估范式的革新。

当前挑战

该数据集面临双重挑战：在领域问题层面，社会偏见的隐蔽性和语境依赖性导致标注边界模糊，例如讽刺或隐喻表达中的隐性偏见识别；在构建过程中，标注者自身的人口统计学特征（如政治倾向、种族背景）可能引入主观偏差，需通过多轮交叉验证控制信噪比。此外，数据稀疏性问题在少数群体类别（如残障人士相关样本）中尤为显著，影响模型的泛化能力。

常用场景

经典使用场景

在自然语言处理和社会计算领域，social-bias-frames-splits数据集被广泛用于研究文本中的社会偏见表达。该数据集通过标注不同社会群体（如种族、性别、文化等）的偏见言论，为研究者提供了丰富的语料库，用于分析偏见言论的语言特征和模式。经典的使用场景包括训练和评估偏见检测模型，以及探索偏见言论的社会心理机制。

解决学术问题

该数据集解决了社会偏见检测和分类中的关键学术问题，尤其是在多维度偏见识别方面。通过提供详细的标注信息（如目标群体、偏见类型、言论意图等），研究者可以深入分析偏见言论的多样性和复杂性。这不仅推动了偏见检测算法的进步，还为理解偏见言论的社会影响提供了数据支持。

衍生相关工作

基于该数据集，研究者们开发了多种偏见检测模型，如基于深度学习的多标签分类器和上下文感知模型。这些工作进一步推动了自然语言处理领域对偏见言论的理解，并衍生出多个相关研究课题，如偏见言论的生成机制和干预策略。

以上内容由遇见数据集搜集并总结生成