five

LanguageShades/FormattedBiasShades

收藏
Hugging Face2024-06-14 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/LanguageShades/FormattedBiasShades
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言的偏见句子、模板、评论等内容,并提供了对这些句子的语言模型分析结果。数据集涉及的语言包括英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语。每个句子可能包含偏见类型、刻板印象来源语言、刻板印象有效语言和地区、被刻板印象的群体等信息。此外,数据集还包含了对这些句子的语言模型分析结果,如logprob和tokens。

该数据集包含多种语言的偏见句子、模板、评论等内容,并提供了对这些句子的语言模型分析结果。数据集涉及的语言包括英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语。每个句子可能包含偏见类型、刻板印象来源语言、刻板印象有效语言和地区、被刻板印象的群体等信息。此外,数据集还包含了对这些句子的语言模型分析结果,如logprob和tokens。
提供机构:
LanguageShades
原始信息汇总

数据集概述

数据集特征

  • index: 数据类型为 float64
  • Subset: 数据类型为 string
  • bias_type: 数据类型为 string,表示序列。
  • stereotype_origin_langs: 数据类型为 string,表示序列。
  • stereotype_valid_langs: 数据类型为 string,表示序列。
  • stereotype_valid_regions: 数据类型为 string,表示序列。
  • stereotyped_group: 数据类型为 string
  • en_template: 数据类型为 string
  • en_biased_sentence: 数据类型为 string
  • English: Is this a saying?: 数据类型为 null
  • English: Comments: 数据类型为 null
  • fr_template: 数据类型为 string
  • fr_biased_sentence: 数据类型为 string
  • fr_expression: 数据类型为 float64
  • French: Comments: 数据类型为 string
  • ro_template: 数据类型为 string
  • ro_biased_sentence: 数据类型为 string
  • ro_expression: 数据类型为 float64
  • Romanian: Comments: 数据类型为 string
  • ar_template: 数据类型为 float64
  • ar_biased_sentence: 数据类型为 string
  • Arabic: Comments: 数据类型为 string
  • Arabic: Is this a saying?: 数据类型为 null
  • bn_template: 数据类型为 float64
  • bn_biased_sentence: 数据类型为 string
  • Bengali: Comments: 数据类型为 float64
  • Bengali: Is this a saying?: 数据类型为 null
  • zh_template: 数据类型为 float64
  • zh_biased_sentence: 数据类型为 string
  • zh_expression: 数据类型为 string
  • Chinese: Comments: 数据类型为 null
  • Traditional Chinese: Templates: 数据类型为 float64
  • zh_hant_biased_sentence: 数据类型为 string
  • zh_hk_expression: 数据类型为 string
  • Traditional Chinese: Comments: 数据类型为 null
  • nl_template: 数据类型为 string
  • nl_biased_sentence: 数据类型为 string
  • nl_expression: 数据类型为 null
  • Dutch: Comments: 数据类型为 null
  • hi_template: 数据类型为 string
  • hi_biased_sentence: 数据类型为 string
  • Hindi: Is this a saying?: 数据类型为 string
  • Hindi: Comments: 数据类型为 null
  • mr_template: 数据类型为 string
  • mr_biased_sentence: 数据类型为 string
  • Marathi: Is this a saying?: 数据类型为 float64
  • Marathi: Comments: 数据类型为 float64
  • ru_template: 数据类型为 string
  • ru_biased_sentence: 数据类型为 string
  • Russian: Comments: 数据类型为 null
  • ru_expression: 数据类型为 null
  • de_template: 数据类型为 string
  • de_biased_sentence: 数据类型为 string
  • German: Comments: 数据类型为 null
  • de_expression: 数据类型为 null
  • it_template: 数据类型为 string
  • it_biased_sentence: 数据类型为 string
  • Italian: Is this a saying?: 数据类型为 float64
  • Italian: Comments: 数据类型为 float64
  • pl_template: 数据类型为 string
  • pl_biased_sentence: 数据类型为 string
  • Polish: Comments: 数据类型为 null
  • pl_expression: 数据类型为 null
  • pt_br_template: 数据类型为 string
  • pt_br_biased_sentence: 数据类型为 string
  • Brazilian Portuguese: Comments: 数据类型为 string
  • pt_br_expression: 数据类型为 null
  • Spanish: Templates: 数据类型为 string
  • es_biased_sentence: 数据类型为 string
  • Spanish: Comments: 数据类型为 null
  • es_expression: 数据类型为 float64
  • English_logprob_Qwen_Qwen2-7B: 数据类型为 float64,表示序列。
  • English_tokens_Qwen_Qwen2-7B: 数据类型为 string,表示序列。
  • French_logprob_Qwen_Qwen2-7B: 数据类型为 float64,表示序列。
  • French_tokens_Qwen_Qwen2-7B: 数据类型为 string,表示序列。
  • English_logprob_bigscience_bloom-7b1: 数据类型为 float64,表示序列。
  • English_tokens_bigscience_bloom-7b1: 数据类型为 string,表示序列。
  • French_logprob_bigscience_bloom-7b1: 数据类型为 float64,表示序列。
  • French_tokens_bigscience_bloom-7b1: 数据类型为 string,表示序列。

数据集分割

  • test: 包含 6 个样本,占用 10096 字节。

数据集大小

  • 下载大小: 51994 字节。
  • 数据集大小: 10096 字节。

配置

  • config_name: default
    • data_files:
      • split: test
      • path: data/test-*
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
BiasShades是一个多语言刻板印象偏见评估数据集,包含728个刻板印象及对比,覆盖16种语言,每个语句均详细注释偏见类型和语言有效性。数据集由多语言母语者通过共识创建,强调多样性和准确性,适用于评估语言模型偏见,但禁止用于训练数据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作