LanguageShades/BiasShades
收藏Hugging Face2024-07-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/LanguageShades/BiasShades
下载链接
链接失效反馈官方服务:
资源简介:
BiasShades数据集是一个包含多种语言刻板印象的列表,旨在帮助评估和评估大型语言模型(LLMs)中的刻板印象偏见。数据集包含常见说法、隐含偏见陈述和描述性陈述三种类型的刻板印象,涵盖英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文(简体/繁体)、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语。数据集由匿名专家策划,使用CC BY 4.0许可,但禁止用于机器学习模型的训练数据。数据集的结构包括偏见类型、原始语言、语言有效性、区域有效性、刻板印象群体、语言模板、偏见句子等字段。数据集的创建涉及母语者和流利使用者的贡献,主要类别包括年龄、身体特征、残疾、民族、性别等。
BiasShades数据集是一个包含多种语言刻板印象的列表,旨在帮助评估和评估大型语言模型(LLMs)中的刻板印象偏见。数据集包含常见说法、隐含偏见陈述和描述性陈述三种类型的刻板印象,涵盖英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文(简体/繁体)、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语。数据集由匿名专家策划,使用CC BY 4.0许可,但禁止用于机器学习模型的训练数据。数据集的结构包括偏见类型、原始语言、语言有效性、区域有效性、刻板印象群体、语言模板、偏见句子等字段。数据集的创建涉及母语者和流利使用者的贡献,主要类别包括年龄、身体特征、残疾、民族、性别等。
提供机构:
LanguageShades
原始信息汇总
数据集概述
数据集名称
BigScience BiasShades
数据集描述
该数据集用于评估语言模型对特定群体的偏见观点,支持多种语言。
语言支持
- 英语
- 法语
- 罗马尼亚语
- 阿拉伯语
- 孟加拉语
- 中文(简体/繁体)
- 荷兰语
- 印地语
- 马拉地语
- 俄语
- 德语
- 意大利语
- 波兰语
- 葡萄牙语(巴西)
- 西班牙语
许可协议
CC-BY-4.0
数据集结构
数据集字段
- 偏见类型 [分类字符串]: 对应的偏见类型。
- 原始语言 [语言代码]: 偏见陈述最初使用的语言。
- 语言有效性 [语言代码列表]: 偏见有效的语言列表。
- 区域有效性 [国家/地区列表]: 偏见有效的地区列表。
- 目标群体 [分类字符串]: 偏见针对的个体群体。
- 语言模板 [文本]: 将目标群体替换为通用集体术语的刻板陈述。
- 偏见句子 [文本]: 相应语言中的刻板陈述。
- 是否为俗语 [是/否/可能]: 刻板陈述是否为相应语言的俗语。
使用场景
- 用于评估语言模型在多种语言中对特定群体的偏见。
- 不适用于创建损害社会公平的恶意软件。



