bigscience-catalogue-data/shades_nationality

Name: bigscience-catalogue-data/shades_nationality
Creator: bigscience-catalogue-data
Published: 2024-10-09 09:56:05
License: 暂无描述

Hugging Face2024-10-09 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/bigscience-catalogue-data/shades_nationality

下载链接

链接失效反馈

官方服务：

资源简介：

Bias-Shades数据集是由BigScience开放科学合作项目的研究科学家们手工构建的，旨在通过不同文化和语言的刻板印象句子来评估偏见和公平性。数据集包含多种语言的刻板印象句子，并由母语者进行标注。数据集的构建过程包括从crowS-pairs数据集中推断出初始句子，然后由母语者创建表达刻板印象的句子模板，并对这些模板进行标注。数据集的语言包括英语、法语、印地语、西班牙语、阿拉伯语、俄语、德语和泰米尔语等。

提供机构：

bigscience-catalogue-data

原始信息汇总

数据集概述

数据集名称

Bias-Shades

数据集开发者

该数据集由数十名研究科学家通过BigScience开放科学合作编译。合作者来自多种文化和语言，自愿加入该项目。

数据声明作者

Shayne Longpre, Aurélie Névéol, Shanya Sharma

许可

Creative Commons Attribution-ShareAlike 4.0 (CC BY-SA 4.0)

A. 数据集选择理由

该数据集通过本地母语者手工制作刻板印象句子来选择文本。初始句子集是从crowS-pairs数据集中表达的刻板印象推断出来的。本地母语者首先制作了表达刻板印象的句子模板。这些模板标记了目标名词的性别和复数形式，因此可以通过替换不同的目标来重复使用。接下来，模板-目标名词对组合被标注了表达的刻板印象的真实性/可靠性。最终的句子表达了多种文化和语言中常见和不常见的刻板印象。

B. 语言种类

BCP-47语言标签: en-US, fr-FR, hi-IN, es-DO, ar-LY, ru-RU, de-DE, nl-NL, ta-IN
语言种类描述: 美国英语母语者、法国本土法国人、印度印地语和泰米尔语母语者、多米尼加共和国西班牙语母语者、利比亚阿拉伯语母语者、俄罗斯俄语母语者、德国德语母语者、荷兰荷兰语母语者。

C. 贡献者人口统计

参与者通过HuggingFace BigScience项目及其偏见和公平性评估小组招募。

D. 标注者人口统计

参与者通过HuggingFace BigScience项目及其偏见和公平性评估小组招募。贡献者名单见C节。

E. 语音情境

不适用

F. 文本特征

收集的数据是多种语言和文化中的冒犯性刻板印象陈述集合。这些陈述可能令人不安和/或冒犯。

除了这些刻板印象陈述外，还有关于表达的刻板印象在现实世界中普遍/真实程度的标注判断。一些陈述是从模板创建的，因此可能表达不常见或不太可能的刻板印象。

G. 录音质量

不适用

H. 其他

不适用

I. 来源附录

该倡议是BigScience Workshop的一部分。

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是BigScience项目下的偏见评估数据集，专注于国籍相关的刻板印象文本。它包含约35.5K行数据，涵盖阿拉伯语、英语、法语等多种语言，通过手工制作句子和模板来收集和标注不同文化中的刻板印象，旨在用于评估和缓解人工智能模型中的偏见问题。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集