LanguageShades/FormattedBiasShades
收藏Hugging Face2024-06-14 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/LanguageShades/FormattedBiasShades
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言的偏见句子、模板、评论等内容,并提供了对这些句子的语言模型分析结果。数据集涉及的语言包括英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语。每个句子可能包含偏见类型、刻板印象来源语言、刻板印象有效语言和地区、被刻板印象的群体等信息。此外,数据集还包含了对这些句子的语言模型分析结果,如logprob和tokens。
该数据集包含多种语言的偏见句子、模板、评论等内容,并提供了对这些句子的语言模型分析结果。数据集涉及的语言包括英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语。每个句子可能包含偏见类型、刻板印象来源语言、刻板印象有效语言和地区、被刻板印象的群体等信息。此外,数据集还包含了对这些句子的语言模型分析结果,如logprob和tokens。
提供机构:
LanguageShades
原始信息汇总
数据集概述
数据集特征
- index: 数据类型为
float64。 - Subset: 数据类型为
string。 - bias_type: 数据类型为
string,表示序列。 - stereotype_origin_langs: 数据类型为
string,表示序列。 - stereotype_valid_langs: 数据类型为
string,表示序列。 - stereotype_valid_regions: 数据类型为
string,表示序列。 - stereotyped_group: 数据类型为
string。 - en_template: 数据类型为
string。 - en_biased_sentence: 数据类型为
string。 - English: Is this a saying?: 数据类型为
null。 - English: Comments: 数据类型为
null。 - fr_template: 数据类型为
string。 - fr_biased_sentence: 数据类型为
string。 - fr_expression: 数据类型为
float64。 - French: Comments: 数据类型为
string。 - ro_template: 数据类型为
string。 - ro_biased_sentence: 数据类型为
string。 - ro_expression: 数据类型为
float64。 - Romanian: Comments: 数据类型为
string。 - ar_template: 数据类型为
float64。 - ar_biased_sentence: 数据类型为
string。 - Arabic: Comments: 数据类型为
string。 - Arabic: Is this a saying?: 数据类型为
null。 - bn_template: 数据类型为
float64。 - bn_biased_sentence: 数据类型为
string。 - Bengali: Comments: 数据类型为
float64。 - Bengali: Is this a saying?: 数据类型为
null。 - zh_template: 数据类型为
float64。 - zh_biased_sentence: 数据类型为
string。 - zh_expression: 数据类型为
string。 - Chinese: Comments: 数据类型为
null。 - Traditional Chinese: Templates: 数据类型为
float64。 - zh_hant_biased_sentence: 数据类型为
string。 - zh_hk_expression: 数据类型为
string。 - Traditional Chinese: Comments: 数据类型为
null。 - nl_template: 数据类型为
string。 - nl_biased_sentence: 数据类型为
string。 - nl_expression: 数据类型为
null。 - Dutch: Comments: 数据类型为
null。 - hi_template: 数据类型为
string。 - hi_biased_sentence: 数据类型为
string。 - Hindi: Is this a saying?: 数据类型为
string。 - Hindi: Comments: 数据类型为
null。 - mr_template: 数据类型为
string。 - mr_biased_sentence: 数据类型为
string。 - Marathi: Is this a saying?: 数据类型为
float64。 - Marathi: Comments: 数据类型为
float64。 - ru_template: 数据类型为
string。 - ru_biased_sentence: 数据类型为
string。 - Russian: Comments: 数据类型为
null。 - ru_expression: 数据类型为
null。 - de_template: 数据类型为
string。 - de_biased_sentence: 数据类型为
string。 - German: Comments: 数据类型为
null。 - de_expression: 数据类型为
null。 - it_template: 数据类型为
string。 - it_biased_sentence: 数据类型为
string。 - Italian: Is this a saying?: 数据类型为
float64。 - Italian: Comments: 数据类型为
float64。 - pl_template: 数据类型为
string。 - pl_biased_sentence: 数据类型为
string。 - Polish: Comments: 数据类型为
null。 - pl_expression: 数据类型为
null。 - pt_br_template: 数据类型为
string。 - pt_br_biased_sentence: 数据类型为
string。 - Brazilian Portuguese: Comments: 数据类型为
string。 - pt_br_expression: 数据类型为
null。 - Spanish: Templates: 数据类型为
string。 - es_biased_sentence: 数据类型为
string。 - Spanish: Comments: 数据类型为
null。 - es_expression: 数据类型为
float64。 - English_logprob_Qwen_Qwen2-7B: 数据类型为
float64,表示序列。 - English_tokens_Qwen_Qwen2-7B: 数据类型为
string,表示序列。 - French_logprob_Qwen_Qwen2-7B: 数据类型为
float64,表示序列。 - French_tokens_Qwen_Qwen2-7B: 数据类型为
string,表示序列。 - English_logprob_bigscience_bloom-7b1: 数据类型为
float64,表示序列。 - English_tokens_bigscience_bloom-7b1: 数据类型为
string,表示序列。 - French_logprob_bigscience_bloom-7b1: 数据类型为
float64,表示序列。 - French_tokens_bigscience_bloom-7b1: 数据类型为
string,表示序列。
数据集分割
- test: 包含 6 个样本,占用 10096 字节。
数据集大小
- 下载大小: 51994 字节。
- 数据集大小: 10096 字节。
配置
- config_name: default
- data_files:
- split: test
- path: data/test-*
- data_files:
搜集汇总
数据集介绍

背景与挑战
背景概述
BiasShades是一个多语言刻板印象偏见评估数据集,包含728个刻板印象及对比,覆盖16种语言,每个语句均详细注释偏见类型和语言有效性。数据集由多语言母语者通过共识创建,强调多样性和准确性,适用于评估语言模型偏见,但禁止用于训练数据。
以上内容由遇见数据集搜集并总结生成



