LanguageShades/FormattedBiasShades

Name: LanguageShades/FormattedBiasShades
Creator: LanguageShades
Published: 2024-06-14 10:45:39
License: 暂无描述

Hugging Face2024-06-14 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/LanguageShades/FormattedBiasShades

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言的偏见句子、模板、评论等内容，并提供了对这些句子的语言模型分析结果。数据集涉及的语言包括英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语。每个句子可能包含偏见类型、刻板印象来源语言、刻板印象有效语言和地区、被刻板印象的群体等信息。此外，数据集还包含了对这些句子的语言模型分析结果，如logprob和tokens。

提供机构：

LanguageShades

原始信息汇总

数据集概述

数据集特征

index: 数据类型为 float64。
Subset: 数据类型为 string。
bias_type: 数据类型为 string，表示序列。
stereotype_origin_langs: 数据类型为 string，表示序列。
stereotype_valid_langs: 数据类型为 string，表示序列。
stereotype_valid_regions: 数据类型为 string，表示序列。
stereotyped_group: 数据类型为 string。
en_template: 数据类型为 string。
en_biased_sentence: 数据类型为 string。
English: Is this a saying?: 数据类型为 null。
English: Comments: 数据类型为 null。
fr_template: 数据类型为 string。
fr_biased_sentence: 数据类型为 string。
fr_expression: 数据类型为 float64。
French: Comments: 数据类型为 string。
ro_template: 数据类型为 string。
ro_biased_sentence: 数据类型为 string。
ro_expression: 数据类型为 float64。
Romanian: Comments: 数据类型为 string。
ar_template: 数据类型为 float64。
ar_biased_sentence: 数据类型为 string。
Arabic: Comments: 数据类型为 string。
Arabic: Is this a saying?: 数据类型为 null。
bn_template: 数据类型为 float64。
bn_biased_sentence: 数据类型为 string。
Bengali: Comments: 数据类型为 float64。
Bengali: Is this a saying?: 数据类型为 null。
zh_template: 数据类型为 float64。
zh_biased_sentence: 数据类型为 string。
zh_expression: 数据类型为 string。
Chinese: Comments: 数据类型为 null。
Traditional Chinese: Templates: 数据类型为 float64。
zh_hant_biased_sentence: 数据类型为 string。
zh_hk_expression: 数据类型为 string。
Traditional Chinese: Comments: 数据类型为 null。
nl_template: 数据类型为 string。
nl_biased_sentence: 数据类型为 string。
nl_expression: 数据类型为 null。
Dutch: Comments: 数据类型为 null。
hi_template: 数据类型为 string。
hi_biased_sentence: 数据类型为 string。
Hindi: Is this a saying?: 数据类型为 string。
Hindi: Comments: 数据类型为 null。
mr_template: 数据类型为 string。
mr_biased_sentence: 数据类型为 string。
Marathi: Is this a saying?: 数据类型为 float64。
Marathi: Comments: 数据类型为 float64。
ru_template: 数据类型为 string。
ru_biased_sentence: 数据类型为 string。
Russian: Comments: 数据类型为 null。
ru_expression: 数据类型为 null。
de_template: 数据类型为 string。
de_biased_sentence: 数据类型为 string。
German: Comments: 数据类型为 null。
de_expression: 数据类型为 null。
it_template: 数据类型为 string。
it_biased_sentence: 数据类型为 string。
Italian: Is this a saying?: 数据类型为 float64。
Italian: Comments: 数据类型为 float64。
pl_template: 数据类型为 string。
pl_biased_sentence: 数据类型为 string。
Polish: Comments: 数据类型为 null。
pl_expression: 数据类型为 null。
pt_br_template: 数据类型为 string。
pt_br_biased_sentence: 数据类型为 string。
Brazilian Portuguese: Comments: 数据类型为 string。
pt_br_expression: 数据类型为 null。
Spanish: Templates: 数据类型为 string。
es_biased_sentence: 数据类型为 string。
Spanish: Comments: 数据类型为 null。
es_expression: 数据类型为 float64。
English_logprob_Qwen_Qwen2-7B: 数据类型为 float64，表示序列。
English_tokens_Qwen_Qwen2-7B: 数据类型为 string，表示序列。
French_logprob_Qwen_Qwen2-7B: 数据类型为 float64，表示序列。
French_tokens_Qwen_Qwen2-7B: 数据类型为 string，表示序列。
English_logprob_bigscience_bloom-7b1: 数据类型为 float64，表示序列。
English_tokens_bigscience_bloom-7b1: 数据类型为 string，表示序列。
French_logprob_bigscience_bloom-7b1: 数据类型为 float64，表示序列。
French_tokens_bigscience_bloom-7b1: 数据类型为 string，表示序列。

数据集分割

test: 包含 6 个样本，占用 10096 字节。

数据集大小

下载大小: 51994 字节。
数据集大小: 10096 字节。

配置

config_name: default
- data_files:
  - split: test
  - path: data/test-*

搜集汇总

数据集介绍

背景与挑战

背景概述

BiasShades是一个多语言刻板印象偏见评估数据集，包含728个刻板印象及对比，覆盖16种语言，每个语句均详细注释偏见类型和语言有效性。数据集由多语言母语者通过共识创建，强调多样性和准确性，适用于评估语言模型偏见，但禁止用于训练数据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集