LanguageShades/BiasShades

Name: LanguageShades/BiasShades
Creator: LanguageShades
Published: 2024-07-05 19:05:25
License: 暂无描述

Hugging Face2024-07-05 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/LanguageShades/BiasShades

下载链接

链接失效反馈

官方服务：

资源简介：

BiasShades数据集是一个包含多种语言刻板印象的列表，旨在帮助评估和评估大型语言模型（LLMs）中的刻板印象偏见。数据集包含常见说法、隐含偏见陈述和描述性陈述三种类型的刻板印象，涵盖英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文（简体/繁体）、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语。数据集由匿名专家策划，使用CC BY 4.0许可，但禁止用于机器学习模型的训练数据。数据集的结构包括偏见类型、原始语言、语言有效性、区域有效性、刻板印象群体、语言模板、偏见句子等字段。数据集的创建涉及母语者和流利使用者的贡献，主要类别包括年龄、身体特征、残疾、民族、性别等。

提供机构：

LanguageShades

原始信息汇总

数据集概述

数据集名称

BigScience BiasShades

数据集描述

该数据集用于评估语言模型对特定群体的偏见观点，支持多种语言。

语言支持

英语
法语
罗马尼亚语
阿拉伯语
孟加拉语
中文（简体/繁体）
荷兰语
印地语
马拉地语
俄语
德语
意大利语
波兰语
葡萄牙语（巴西）
西班牙语

许可协议

CC-BY-4.0

数据集结构

数据集字段

偏见类型 [分类字符串]: 对应的偏见类型。
原始语言 [语言代码]: 偏见陈述最初使用的语言。
语言有效性 [语言代码列表]: 偏见有效的语言列表。
区域有效性 [国家/地区列表]: 偏见有效的地区列表。
目标群体 [分类字符串]: 偏见针对的个体群体。
语言模板 [文本]: 将目标群体替换为通用集体术语的刻板陈述。
偏见句子 [文本]: 相应语言中的刻板陈述。
是否为俗语 [是/否/可能]: 刻板陈述是否为相应语言的俗语。

使用场景

用于评估语言模型在多种语言中对特定群体的偏见。
不适用于创建损害社会公平的恶意软件。

数据集来源

仓库: https://github.com/bigscience-workshop/ShadesofBias

5,000+

优质数据集

54 个

任务类型

进入经典数据集