five

LanguageShades/BiasShades

收藏
Hugging Face2024-07-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/LanguageShades/BiasShades
下载链接
链接失效反馈
官方服务:
资源简介:
BiasShades数据集是一个包含多种语言刻板印象的列表,旨在帮助评估和评估大型语言模型(LLMs)中的刻板印象偏见。数据集包含常见说法、隐含偏见陈述和描述性陈述三种类型的刻板印象,涵盖英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文(简体/繁体)、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语。数据集由匿名专家策划,使用CC BY 4.0许可,但禁止用于机器学习模型的训练数据。数据集的结构包括偏见类型、原始语言、语言有效性、区域有效性、刻板印象群体、语言模板、偏见句子等字段。数据集的创建涉及母语者和流利使用者的贡献,主要类别包括年龄、身体特征、残疾、民族、性别等。

BiasShades数据集是一个包含多种语言刻板印象的列表,旨在帮助评估和评估大型语言模型(LLMs)中的刻板印象偏见。数据集包含常见说法、隐含偏见陈述和描述性陈述三种类型的刻板印象,涵盖英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文(简体/繁体)、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语。数据集由匿名专家策划,使用CC BY 4.0许可,但禁止用于机器学习模型的训练数据。数据集的结构包括偏见类型、原始语言、语言有效性、区域有效性、刻板印象群体、语言模板、偏见句子等字段。数据集的创建涉及母语者和流利使用者的贡献,主要类别包括年龄、身体特征、残疾、民族、性别等。
提供机构:
LanguageShades
原始信息汇总

数据集概述

数据集名称

BigScience BiasShades

数据集描述

该数据集用于评估语言模型对特定群体的偏见观点,支持多种语言。

语言支持

  • 英语
  • 法语
  • 罗马尼亚语
  • 阿拉伯语
  • 孟加拉语
  • 中文(简体/繁体)
  • 荷兰语
  • 印地语
  • 马拉地语
  • 俄语
  • 德语
  • 意大利语
  • 波兰语
  • 葡萄牙语(巴西)
  • 西班牙语

许可协议

CC-BY-4.0

数据集结构

数据集字段

  • 偏见类型 [分类字符串]: 对应的偏见类型。
  • 原始语言 [语言代码]: 偏见陈述最初使用的语言。
  • 语言有效性 [语言代码列表]: 偏见有效的语言列表。
  • 区域有效性 [国家/地区列表]: 偏见有效的地区列表。
  • 目标群体 [分类字符串]: 偏见针对的个体群体。
  • 语言模板 [文本]: 将目标群体替换为通用集体术语的刻板陈述。
  • 偏见句子 [文本]: 相应语言中的刻板陈述。
  • 是否为俗语 [是/否/可能]: 刻板陈述是否为相应语言的俗语。

使用场景

  • 用于评估语言模型在多种语言中对特定群体的偏见。
  • 不适用于创建损害社会公平的恶意软件。

数据集来源

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作