allenai/social_bias_frames

Name: allenai/social_bias_frames
Creator: allenai
Published: 2024-01-18 11:16:03
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/allenai/social_bias_frames

下载链接

链接失效反馈

官方服务：

资源简介：

Social Bias Frames数据集是一种新的表示语言中隐含偏见和冒犯性的方式。例如，这些框架旨在提炼出“我们不应该降低标准来雇佣更多女性”这句话背后的隐含意义，即“女性（候选人）不够资格”。该数据集支持大规模的学习和评估，包含超过15万条社交媒体帖子的结构化注释，涵盖了34,000多条关于一千多个不同人口群体的隐含偏见。数据集支持文本分类和文本生成任务，并提供了详细的字段描述和数据分割信息。

提供机构：

allenai

原始信息汇总

数据集概述

数据集名称

名称: Social Bias Frames

数据集描述

摘要: Social Bias Frames 是一个用于表示语言中隐含的偏见和冒犯性的数据集。该数据集支持大规模学习和评估社会暗示，包含超过150k的社交媒体帖子结构化注释，涵盖超过34k关于千个不同群体的暗示。
语言: 主要为英语（en-US）。
许可证: 遵循Creative Commons 4.0 License。
多语言性: 单语种。
大小: 数据集大小为44.47 MB，下载大小为6.32 MB。
任务类别: 文本生成和文本分类。
任务ID: 包括仇恨言论检测等。

数据集结构

数据实例: 每个实例包含可能包含冒犯性陈述的帖子以及有关冒犯性暗示性质的注释信息，以及注释者和帖子来源的统计信息。
数据字段: 包括whoTarget, intentYN, sexYN, sexReason, offensiveYN, annotatorGender等，共计19个字段，每个字段的数据类型为字符串。
数据分割: 数据集被分为训练集、验证集和测试集，比例为75%/12.5%/12.5%。具体大小分别为：训练集112900个实例，验证集16738个实例，测试集17501个实例。

数据集创建

注释过程: 通过Amazon Mechanical Turk进行注释，每个帖子收集三个注释，注释者来自美国和加拿大。
注释者信息: 注释者平均年龄36岁，女性占55%，男性占42%，82%为白人。
源数据: 数据来源于Reddit, Twitter, Gab, Stormfront等社交媒体平台，时间跨度为2014-2019年。

使用数据集的考虑

社会影响: 数据集用于分析社交媒体内容中的社会偏见，可能用于自动标记或AI辅助写作界面，以帮助识别和减少有害内容。
偏见讨论: 数据集中的偏见主要针对性别/性取向、种族/民族、宗教/文化等群体。
其他限制: 数据集主要使用白人英语，可能存在方言或身份基础的偏见。

附加信息

数据集创建者: Maarten Sap, Saadia Gabriel, Lianhui Qin, Noah A. Smith, Yejin Choi, Dan Jurafsky。
贡献者: 包括@thomwolf, @lewtun等。

搜集汇总

数据集介绍

构建方式

Social Bias Frames数据集的构建过程始于对社交媒体上可能包含社会偏见的文本的搜集。这些文本主要来源于Reddit、Twitter等社交平台，涵盖了多种可能涉及歧视和偏见的语境。为了确保数据集的多样性和代表性，数据收集者采用了严格的筛选标准，例如排除那些过于依赖上下文的帖子，以及自动回复和转发等。在数据标注方面，Amazon Mechanical Turk平台的工人被要求对每个帖子进行评估，包括其是否具有冒犯性、是否有意冒犯、是否包含色情或低俗内容等。此外，标注者还需指出帖子中提及的群体以及相关的刻板印象。这一过程确保了数据集能够捕捉到文本中的微妙偏见和冒犯性。

特点

Social Bias Frames数据集的特点在于其详细的结构化标注，这些标注不仅包括对文本是否具有冒犯性的判断，还涵盖了发帖者、标注者的背景信息，以及文本中可能存在的刻板印象。此外，数据集还提供了不同分片，包括训练集、验证集和测试集，以便于模型训练和评估。数据集的语言主要是美国英语，但也包含少量其他方言。由于其内容可能包含冒犯性或令人不适的内容，使用者在处理数据时应保持谨慎。

使用方法

要使用Social Bias Frames数据集，首先需要下载对应的数据分片。数据集以JSON格式提供，每个实例包含多个字段，如'whoTarget'、'intentYN'、'sexYN'等，这些字段记录了标注者对文本的评估。用户可以通过解析JSON文件来访问这些数据，并使用它们进行文本分类或文本生成等任务。在进行数据分析时，用户应考虑到数据集可能存在的偏见和局限性，并采取适当的措施来减少这些因素的影响。

背景与挑战

背景概述

在自然语言处理领域，理解和识别语言中的社会偏见是一个重要的研究方向。'Social Bias Frames' 数据集由艾伦人工智能研究院（Allen Institute for Artificial Intelligence）的研究人员创建，旨在通过分析社交媒体文本，揭示和量化语言中隐含的社会偏见。该数据集包含了超过15万个带注释的社交媒体帖子，这些帖子涉及对一千多个不同群体的34,000多条关于社会偏见的描述。该数据集的创建时间大约在2014年至2019年之间，由来自华盛顿大学保罗·艾伦计算机科学与工程学院的研究人员主导，包括Maarten Sap、Saadia Gabriel、Lianhui Qin、Noah A Smith、Yejin Choi以及斯坦福大学的Dan Jurafsky。该数据集对于理解和评估社会媒体内容中的潜在有害内容具有重要意义，并为自动标记或AI增强的写作界面提供了支持，以促进对可能有害内容的详细解释和分析。

当前挑战

尽管'Social Bias Frames' 数据集在揭示语言中的社会偏见方面取得了重要进展，但其仍面临一些挑战。首先，该数据集主要包含白人主导的英语文本，这可能导致在处理其他语言或方言时出现偏见。其次，由于数据集中包含可能具有攻击性或令人不安的内容，因此在数据标注过程中需要采取适当的措施来保护标注者的心理健康。此外，数据集的构建过程中也面临着如何平衡包含偏见内容和避免过度泛化的问题。这些挑战要求研究人员在使用数据集时必须谨慎，并采取适当的措施来减轻其可能带来的负面影响。

常用场景

经典使用场景

Social Bias Frames 数据集是用于研究语言中隐含的偏见和冒犯性的新方法。该数据集支持分类和生成任务，包括预测推文是否具有冒犯性、是否有冒犯意图、是否包含色情内容，以及生成针对特定群体的描述等。例如，该数据集可以用于训练模型，以识别和解释社交媒体帖子中的性别、种族、宗教等方面的偏见。

衍生相关工作

Social Bias Frames 数据集衍生了多项相关的研究工作。例如，Sap等人开发了几个基于SBIC的模型，用于预测推文是否具有冒犯性、是否有冒犯意图、是否包含色情内容，以及生成针对特定群体的描述等。这些模型在分类和生成任务中都取得了良好的性能，为后续研究提供了重要的参考和基础。

数据集最近研究