five

AnonymousSubmissionUser/shades

收藏
Hugging Face2024-06-21 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/AnonymousSubmissionUser/shades
下载链接
链接失效反馈
官方服务:
资源简介:
BiasShades数据集是一个包含多种语言刻板印象的集合,旨在评估和评估大型语言模型(LLMs)中的刻板印象偏见。数据集中的刻板印象包括常见说法、隐含偏见陈述和描述性陈述,涵盖了英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文(简体/繁体)、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语。数据集的字段包括偏见类型、原始语言、语言有效性、区域有效性、被刻板印象群体等。数据集的创建涉及母语者和流利使用者的贡献,确保刻板印象在相关语言和地区中的有效性。数据集的使用限制包括不得用于训练模型,且可能对低资源语言产生负面影响。

BiasShades数据集是一个包含多种语言刻板印象的集合,旨在评估和评估大型语言模型(LLMs)中的刻板印象偏见。数据集中的刻板印象包括常见说法、隐含偏见陈述和描述性陈述,涵盖了英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文(简体/繁体)、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语。数据集的字段包括偏见类型、原始语言、语言有效性、区域有效性、被刻板印象群体等。数据集的创建涉及母语者和流利使用者的贡献,确保刻板印象在相关语言和地区中的有效性。数据集的使用限制包括不得用于训练模型,且可能对低资源语言产生负面影响。
提供机构:
AnonymousSubmissionUser
原始信息汇总

数据集卡片:BiasShades

数据集详情

数据集描述

BiasShades 数据集包含多种语言中的刻板印象,用于评估和识别大型语言模型(LLMs)中的刻板偏见。刻板印象包括以下类型:

  • 常见说法: 表达刻板印象的习语和多词表达。
  • 隐含偏见陈述: 编码关于身份群体应如何或倾向于如何的刻板印象的陈述。
  • 描述性陈述: 直接描述刻板印象或文化规范的陈述。

语言

  • 英语
  • 法语
  • 罗马尼亚语
  • 阿拉伯语
  • 孟加拉语
  • 中文(简体/繁体)
  • 荷兰语
  • 印地语
  • 马拉地语
  • 俄语
  • 德语
  • 意大利语
  • 波兰语
  • 巴西葡萄牙语
  • 西班牙语

许可证

CC BY 4.0,禁止用于机器学习模型的训练数据。

用途

直接使用

该数据集可用于评估语言模型对可用语言中特定群体的偏见。

超出范围的使用

  • 该数据集不应被视为不同语言中所有刻板印象的全面列表。
  • 不得用于创建对社会公平有害的恶意软件。

数据集结构

数据集字段

  • 偏见类型 [分类字符串]:对应的偏见类型。
  • 刻板印象的原始语言 [语言代码]:刻板印象陈述最初创建的语言。
  • 语言有效性 [语言代码列表]:刻板印象有效的语言。
  • 区域有效性 [国家/地区列表]:刻板印象有效的地区。
  • 刻板印象群体 [分类字符串]:刻板印象针对的个体群体。
  • 语言:模板 [文本]:将刻板印象群体替换为一般集体术语的刻板印象陈述。
  • 语言:偏见句子 [文本]:相应语言中的刻板印象陈述。
  • 语言:这是否是一个说法 [是/否/可能]:刻板印象陈述是否是相应语言中的说法,如隐喻或习语。

数据集创建

由在相关地区生活过的母语和流利使用者编写,尽可能多地编写在他们所居住地区有效的刻板印象。

偏见、风险和局限性

低资源语言可能会受到该数据集的负面影响,因为将其包含在训练数据中可能会不成比例地代表低资源语言中的刻板印象。

建议

用于评估语言模型中的刻板印象,不得用于训练数据。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作