five

social-bias-frames-splits

收藏
Hugging Face2025-04-02 更新2025-04-03 收录
下载链接:
https://huggingface.co/datasets/Ayush-Singh/social-bias-frames-splits
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征字段,如目标对象、意图、性别、性别原因、攻击性、标注者性别、标注者是否少数族裔等。数据集被划分为几个不同的子集,每个子集关注于特定的主题,例如种族、受害者、文化等。每个子集都有相应的大小和示例数量。

This dataset includes multiple feature fields, such as target object, intent, gender, gender attribution reason, offensiveness, annotator gender, and whether the annotator belongs to a minority ethnic group. The dataset is divided into several distinct subsets, each focusing on a specific theme such as race, victims, culture, and more. Each subset has its corresponding size and number of examples.
创建时间:
2025-04-02
原始信息汇总

数据集概述

基本信息

  • 数据集名称: social-bias-frames-splits
  • 下载大小: 4,617,456 字节
  • 数据集大小: 11,223,328.055981921 字节

数据集特征

数据集包含以下特征字段:

  • whoTarget: string
  • intentYN: string
  • sexYN: string
  • sexReason: string
  • offensiveYN: string
  • annotatorGender: string
  • annotatorMinority: string
  • sexPhrase: string
  • speakerMinorityYN: string
  • WorkerId: string
  • HITId: string
  • annotatorPolitics: string
  • annotatorRace: string
  • annotatorAge: string
  • post: string
  • targetMinority: string
  • targetCategory: string
  • targetStereotype: string
  • dataSource: string

数据分割

数据集包含以下分割:

  • None: 6,642,096.136011136 字节,23,484 个示例
  • race: 1,269,802.404617335 字节,3,883 个示例
  • victim: 693,460.2223880597 字节,2,028 个示例
  • culture: 812,142.9912925478 字节,2,472 个示例
  • gender: 1,172,447.5193156733 字节,3,535 个示例
  • body: 149,694.28779069768 字节,441 个示例
  • disabled: 259,212.72 字节,753 个示例
  • social: 224,471.774566474 字节,642 个示例

配置信息

  • 配置名称: default
  • 数据文件路径:
    • None: data/None-*
    • race: data/race-*
    • victim: data/victim-*
    • culture: data/culture-*
    • gender: data/gender-*
    • body: data/body-*
    • disabled: data/disabled-*
    • social: data/social-*
搜集汇总
数据集介绍
main_image_url
构建方式
在社会科学研究领域,社会偏见分析需要精细标注的数据支持。social-bias-frames-splits数据集通过众包平台收集了23,484条社会互动文本,涵盖种族、性别、文化等8个细分维度。每条数据由人工标注员从目标群体、意图判断、冒犯性等18个特征维度进行标注,并记录标注者的人口统计学信息,确保数据来源的多样性和可追溯性。
特点
该数据集以多维度社会偏见分析为核心特色,不仅包含对话文本本身,还系统标注了发言者意图、目标群体属性及潜在刻板印象。独特的标注体系包含标注者的性别、种族、政治倾向等背景信息,为研究社会偏见的形成机制提供了交叉分析可能。数据按偏见类型划分为8个子集,便于针对特定社会议题开展深入研究。
使用方法
研究者可通过HuggingFace平台直接加载数据集整体或特定子集,如性别偏见或种族偏见数据。该数据集适用于自然语言处理中的偏见检测模型训练,也可作为社会科学研究的实证材料。使用时应结合标注者背景信息进行偏差分析,注意不同子集样本量的差异对统计结果的影响。
背景与挑战
背景概述
social-bias-frames-splits数据集由社会科学与计算语言学领域的研究团队构建,旨在深入探究社会偏见在语言表达中的显性及隐性框架。该数据集通过标注社交媒体文本中的目标群体、意图识别、性别关联等多元维度,为量化分析偏见话语提供了结构化基础。其核心价值在于揭示了不同人口统计学特征(如种族、性别、身体特征)与偏见表达的复杂关联,推动了自然语言处理领域对公平性评估范式的革新。
当前挑战
该数据集面临双重挑战:在领域问题层面,社会偏见的隐蔽性和语境依赖性导致标注边界模糊,例如讽刺或隐喻表达中的隐性偏见识别;在构建过程中,标注者自身的人口统计学特征(如政治倾向、种族背景)可能引入主观偏差,需通过多轮交叉验证控制信噪比。此外,数据稀疏性问题在少数群体类别(如残障人士相关样本)中尤为显著,影响模型的泛化能力。
常用场景
经典使用场景
在自然语言处理和社会计算领域,social-bias-frames-splits数据集被广泛用于研究文本中的社会偏见表达。该数据集通过标注不同社会群体(如种族、性别、文化等)的偏见言论,为研究者提供了丰富的语料库,用于分析偏见言论的语言特征和模式。经典的使用场景包括训练和评估偏见检测模型,以及探索偏见言论的社会心理机制。
解决学术问题
该数据集解决了社会偏见检测和分类中的关键学术问题,尤其是在多维度偏见识别方面。通过提供详细的标注信息(如目标群体、偏见类型、言论意图等),研究者可以深入分析偏见言论的多样性和复杂性。这不仅推动了偏见检测算法的进步,还为理解偏见言论的社会影响提供了数据支持。
衍生相关工作
基于该数据集,研究者们开发了多种偏见检测模型,如基于深度学习的多标签分类器和上下文感知模型。这些工作进一步推动了自然语言处理领域对偏见言论的理解,并衍生出多个相关研究课题,如偏见言论的生成机制和干预策略。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作