nyu-mll/crows_pairs

Name: nyu-mll/crows_pairs
Creator: nyu-mll
Published: 2024-01-18 09:49:15
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/nyu-mll/crows_pairs

下载链接

链接失效反馈

官方服务：

资源简介：

CrowS-Pairs是一个用于评估掩码语言模型（Masked Language Models）中社会偏见的挑战性数据集。该数据集包含1508个测试样本，每个样本由两个句子组成，分别表示更具偏见和较少偏见的表达。数据集涵盖了多种偏见类型，如种族、性别、宗教等。数据集的创建基于ROCStories和MNLI的虚构部分，并由众包人员进行标注。

提供机构：

nyu-mll

原始信息汇总

数据集概述

名称: CrowS-Pairs

语言: 英语 (en)

许可证: Creative Commons Attribution-ShareAlike 4.0 International License (cc-by-sa-4.0)

多语言性: 单语种

大小: 1K<n<10K

来源: 原始数据

任务类别: 文本分类

任务ID: 文本评分

标签: 偏见评估

数据集结构

特征:

id: 整数 (int32)
sent_more: 字符串
sent_less: 字符串
stereo_antistereo: 分类标签 (stereo, antistereo)
bias_type: 分类标签 (race-color, socioeconomic, gender, disability, nationality, sexual-orientation, physical-appearance, religion, age)
annotations: 分类标签序列 (同bias_type)
anon_writer: 字符串
anon_annotators: 字符串序列

数据分割:

测试集: 1508个样本，419976字节

下载大小: 437764字节

数据集大小: 419976字节

数据集创建

许可证信息: 数据集根据Creative Commons Attribution-ShareAlike 4.0 International License授权。

来源数据: 数据集使用来自ROCStories corpora和MNLI的虚构部分的提示创建。

贡献者: 感谢@patil-suraj添加此数据集。

引用信息:

@inproceedings{nangia-etal-2020-crows, title = "{C}row{S}-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models", author = "Nangia, Nikita and Vania, Clara and Bhalerao, Rasika and Bowman, Samuel R.", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2020.emnlp-main.154", doi = "10.18653/v1/2020.emnlp-main.154", pages = "1953--1967", }

搜集汇总

数据集介绍

构建方式

CrowS-Pairs数据集的构建基于ROCStories语料库和MNLI数据集中的虚构部分，通过众包的方式进行数据采集和标注，旨在创建一个用于衡量社会偏见在遮蔽语言模型中的影响挑战数据集。数据集包含成对的句子，每一对句子在语言风格和内容上相似，但在偏见类型上存在差异，由标注者对每对句子进行偏见类型和偏见程度的标注。

特点

该数据集的特点在于其专注于文本分类任务，特别是社会偏见的评估。它涵盖了多种偏见类型，包括种族、社会经济状况、性别、残疾、国籍、性取向、外貌、宗教和年龄。数据集采用单语设计，包含约1千至10千个实例，并以Creative Commons Attribution-ShareAlike 4.0国际许可证授权，确保了数据的开放性和共享性。

使用方法

使用CrowS-Pairs数据集时，研究者可以将其应用于文本分类模型的训练和评估，尤其是针对社会偏见敏感度的模型。数据集分为测试集，用户可以下载整个数据集或特定部分的字节大小。在使用过程中，需遵守相应的许可协议，并在研究和论文中引用数据集的详细信息，以尊重数据集的贡献者和版权。

背景与挑战

背景概述

CrowS-Pairs数据集，创建于2020年，是由Nikita Nangia、Clara Vania、Rasika Bhalerao和Samuel R. Bowman等研究人员共同开发的文本分类数据集。该数据集旨在评估遮蔽语言模型中的社会偏见，其核心研究问题是如何量化并减少自然语言处理模型中的偏见。数据集的特色在于其众包的注释方式，涵盖了种族、社会经济状况、性别、残疾、国籍、性取向、外貌、宗教和年龄等多种偏见类型。CrowS-Pairs数据集在自然语言处理领域产生了显著影响，为研究者提供了一个重要的工具来评估和改进模型的公平性和无偏见性。

当前挑战

该数据集面临的挑战主要包括两个方面：一是领域问题上的挑战，即如何准确识别和分类文本中的各种社会偏见，这对于提高模型的公平性至关重要；二是构建过程中的挑战，包括如何确保众包注释的质量和一致性，以及如何处理数据中的敏感和个人信息。此外，数据集的多语言性和规模也带来了数据管理和模型泛化能力方面的挑战。

常用场景

经典使用场景

在自然语言处理领域中，CrowS-Pairs数据集被广泛用于评估和测量文本中的社会偏见。该数据集通过提供成对的句子，并标注每对句子是否包含特定类型的偏见，成为了研究者在文本分类任务中的一个经典使用案例。

实际应用

在实际应用中，CrowS-Pairs数据集被用于改进机器学习模型，使其能够识别和减少社会偏见。这对于开发更公正的人工智能系统至关重要，特别是在需要处理敏感话题的领域。

衍生相关工作

CrowS-Pairs数据集衍生出了一系列相关的研究工作，包括对偏见检测模型的评估、偏见缓解技术的开发以及社会偏见在自然语言处理中的影响分析等。这些工作进一步推动了人工智能领域的公平性和伦理性的讨论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集