five

bigscience-catalogue-data/shades_nationality

收藏
Hugging Face2024-10-09 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/bigscience-catalogue-data/shades_nationality
下载链接
链接失效反馈
官方服务:
资源简介:
Bias-Shades数据集是由BigScience开放科学合作项目的研究科学家们手工构建的,旨在通过不同文化和语言的刻板印象句子来评估偏见和公平性。数据集包含多种语言的刻板印象句子,并由母语者进行标注。数据集的构建过程包括从crowS-pairs数据集中推断出初始句子,然后由母语者创建表达刻板印象的句子模板,并对这些模板进行标注。数据集的语言包括英语、法语、印地语、西班牙语、阿拉伯语、俄语、德语和泰米尔语等。

Bias-Shades数据集是由BigScience开放科学合作项目的研究科学家们手工构建的,旨在通过不同文化和语言的刻板印象句子来评估偏见和公平性。数据集包含多种语言的刻板印象句子,并由母语者进行标注。数据集的构建过程包括从crowS-pairs数据集中推断出初始句子,然后由母语者创建表达刻板印象的句子模板,并对这些模板进行标注。数据集的语言包括英语、法语、印地语、西班牙语、阿拉伯语、俄语、德语和泰米尔语等。
提供机构:
bigscience-catalogue-data
原始信息汇总

数据集概述

数据集名称

Bias-Shades

数据集开发者

该数据集由数十名研究科学家通过BigScience开放科学合作编译。合作者来自多种文化和语言,自愿加入该项目。

数据声明作者

Shayne Longpre, Aurélie Névéol, Shanya Sharma

许可

Creative Commons Attribution-ShareAlike 4.0 (CC BY-SA 4.0)

A. 数据集选择理由

该数据集通过本地母语者手工制作刻板印象句子来选择文本。初始句子集是从crowS-pairs数据集中表达的刻板印象推断出来的。本地母语者首先制作了表达刻板印象的句子模板。这些模板标记了目标名词的性别和复数形式,因此可以通过替换不同的目标来重复使用。接下来,模板-目标名词对组合被标注了表达的刻板印象的真实性/可靠性。最终的句子表达了多种文化和语言中常见和不常见的刻板印象。

B. 语言种类

  • BCP-47语言标签: en-US, fr-FR, hi-IN, es-DO, ar-LY, ru-RU, de-DE, nl-NL, ta-IN
  • 语言种类描述: 美国英语母语者、法国本土法国人、印度印地语和泰米尔语母语者、多米尼加共和国西班牙语母语者、利比亚阿拉伯语母语者、俄罗斯俄语母语者、德国德语母语者、荷兰荷兰语母语者。

C. 贡献者人口统计

参与者通过HuggingFace BigScience项目及其偏见和公平性评估小组招募。

D. 标注者人口统计

参与者通过HuggingFace BigScience项目及其偏见和公平性评估小组招募。贡献者名单见C节。

E. 语音情境

不适用

F. 文本特征

收集的数据是多种语言和文化中的冒犯性刻板印象陈述集合。这些陈述可能令人不安和/或冒犯。

除了这些刻板印象陈述外,还有关于表达的刻板印象在现实世界中普遍/真实程度的标注判断。一些陈述是从模板创建的,因此可能表达不常见或不太可能的刻板印象。

G. 录音质量

不适用

H. 其他

不适用

I. 来源附录

该倡议是BigScience Workshop的一部分。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是BigScience项目下的偏见评估数据集,专注于国籍相关的刻板印象文本。它包含约35.5K行数据,涵盖阿拉伯语、英语、法语等多种语言,通过手工制作句子和模板来收集和标注不同文化中的刻板印象,旨在用于评估和缓解人工智能模型中的偏见问题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作