bigscience-catalogue-data/shades_nationality
收藏Hugging Face2024-10-09 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/bigscience-catalogue-data/shades_nationality
下载链接
链接失效反馈官方服务:
资源简介:
Bias-Shades数据集是由BigScience开放科学合作项目的研究科学家们手工构建的,旨在通过不同文化和语言的刻板印象句子来评估偏见和公平性。数据集包含多种语言的刻板印象句子,并由母语者进行标注。数据集的构建过程包括从crowS-pairs数据集中推断出初始句子,然后由母语者创建表达刻板印象的句子模板,并对这些模板进行标注。数据集的语言包括英语、法语、印地语、西班牙语、阿拉伯语、俄语、德语和泰米尔语等。
Bias-Shades数据集是由BigScience开放科学合作项目的研究科学家们手工构建的,旨在通过不同文化和语言的刻板印象句子来评估偏见和公平性。数据集包含多种语言的刻板印象句子,并由母语者进行标注。数据集的构建过程包括从crowS-pairs数据集中推断出初始句子,然后由母语者创建表达刻板印象的句子模板,并对这些模板进行标注。数据集的语言包括英语、法语、印地语、西班牙语、阿拉伯语、俄语、德语和泰米尔语等。
提供机构:
bigscience-catalogue-data
原始信息汇总
数据集概述
数据集名称
Bias-Shades
数据集开发者
该数据集由数十名研究科学家通过BigScience开放科学合作编译。合作者来自多种文化和语言,自愿加入该项目。
数据声明作者
Shayne Longpre, Aurélie Névéol, Shanya Sharma
许可
Creative Commons Attribution-ShareAlike 4.0 (CC BY-SA 4.0)
A. 数据集选择理由
该数据集通过本地母语者手工制作刻板印象句子来选择文本。初始句子集是从crowS-pairs数据集中表达的刻板印象推断出来的。本地母语者首先制作了表达刻板印象的句子模板。这些模板标记了目标名词的性别和复数形式,因此可以通过替换不同的目标来重复使用。接下来,模板-目标名词对组合被标注了表达的刻板印象的真实性/可靠性。最终的句子表达了多种文化和语言中常见和不常见的刻板印象。
B. 语言种类
- BCP-47语言标签: en-US, fr-FR, hi-IN, es-DO, ar-LY, ru-RU, de-DE, nl-NL, ta-IN
- 语言种类描述: 美国英语母语者、法国本土法国人、印度印地语和泰米尔语母语者、多米尼加共和国西班牙语母语者、利比亚阿拉伯语母语者、俄罗斯俄语母语者、德国德语母语者、荷兰荷兰语母语者。
C. 贡献者人口统计
参与者通过HuggingFace BigScience项目及其偏见和公平性评估小组招募。
D. 标注者人口统计
参与者通过HuggingFace BigScience项目及其偏见和公平性评估小组招募。贡献者名单见C节。
E. 语音情境
不适用
F. 文本特征
收集的数据是多种语言和文化中的冒犯性刻板印象陈述集合。这些陈述可能令人不安和/或冒犯。
除了这些刻板印象陈述外,还有关于表达的刻板印象在现实世界中普遍/真实程度的标注判断。一些陈述是从模板创建的,因此可能表达不常见或不太可能的刻板印象。
G. 录音质量
不适用
H. 其他
不适用
I. 来源附录
该倡议是BigScience Workshop的一部分。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是BigScience项目下的偏见评估数据集,专注于国籍相关的刻板印象文本。它包含约35.5K行数据,涵盖阿拉伯语、英语、法语等多种语言,通过手工制作句子和模板来收集和标注不同文化中的刻板印象,旨在用于评估和缓解人工智能模型中的偏见问题。
以上内容由遇见数据集搜集并总结生成



