LanguageShades/BiasShadesBaseEval_bigscience_bloom-7b1

Name: LanguageShades/BiasShadesBaseEval_bigscience_bloom-7b1
Creator: LanguageShades
Published: 2024-06-15 02:41:23
License: 暂无描述

Hugging Face2024-06-15 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/LanguageShades/BiasShadesBaseEval_bigscience_bloom-7b1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多语言偏见句子及其相关信息，涵盖了多种语言的偏见类型、偏见来源语言、偏见有效语言、偏见有效地区、被刻板印象的群体、偏见句子、偏见模板、是否为表达、评论、以及使用bigscience_bloom-7b1模型生成的token和logprob等信息。数据集包含阿拉伯语、孟加拉语、葡萄牙语、中文、荷兰语、英语、法语、德语、印地语、意大利语、马拉地语、波兰语、罗马尼亚语、俄语和西班牙语等多种语言。数据集的分割为测试集，包含120个样本，文件大小为500120字节。

提供机构：

LanguageShades

原始信息汇总

数据集概述

数据集特征

index: 数据索引，数据类型为 float64。
subset: 数据子集，数据类型为 string。
bias_type: 偏见类型，数据类型为 string。
stereotype_origin_langs: 刻板印象起源语言，数据类型为 sequence: string。
stereotype_valid_langs: 刻板印象有效语言，数据类型为 sequence: string。
stereotype_valid_regions: 刻板印象有效区域，数据类型为 sequence: string。
stereotyped_group: 刻板印象群体，数据类型为 string。
ar_biased_sentence: 阿拉伯语偏见句子，数据类型为 string。
ar_biased_template: 阿拉伯语偏见模板，数据类型为 null。
ar_is_expression: 阿拉伯语是否表达，数据类型为 null。
ar_comments: 阿拉伯语评论，数据类型为 string。
ar_tokens_bigscience_bloom-7b1: 阿拉伯语标记，数据类型为 sequence: string。
ar_logprob_bigscience_bloom-7b1: 阿拉伯语对数概率，数据类型为 sequence: float64。
bn_biased_sentence: 孟加拉语偏见句子，数据类型为 string。
bn_biased_template: 孟加拉语偏见模板，数据类型为 string。
bn_is_expression: 孟加拉语是否表达，数据类型为 string。
bn_comments: 孟加拉语评论，数据类型为 null。
bn_tokens_bigscience_bloom-7b1: 孟加拉语标记，数据类型为 sequence: string。
bn_logprob_bigscience_bloom-7b1: 孟加拉语对数概率，数据类型为 sequence: float64。
pt_br_biased_sentence: 巴西葡萄牙语偏见句子，数据类型为 string。
pt_br_biased_template: 巴西葡萄牙语偏见模板，数据类型为 string。
pt_br_is_expression: 巴西葡萄牙语是否表达，数据类型为 string。
pt_br_comments: 巴西葡萄牙语评论，数据类型为 string。
pt_br_tokens_bigscience_bloom-7b1: 巴西葡萄牙语标记，数据类型为 sequence: string。
pt_br_logprob_bigscience_bloom-7b1: 巴西葡萄牙语对数概率，数据类型为 sequence: float64。
zh_biased_sentence: 中文偏见句子，数据类型为 string。
zh_biased_template: 中文偏见模板，数据类型为 null。
zh_is_expression: 中文是否表达，数据类型为 string。
zh_comments: 中文评论，数据类型为 string。
zh_tokens_bigscience_bloom-7b1: 中文标记，数据类型为 sequence: string。
zh_logprob_bigscience_bloom-7b1: 中文对数概率，数据类型为 sequence: float64。
zh_hant_biased_sentence: 繁体中文偏见句子，数据类型为 string。
zh_hant_biased_template: 繁体中文偏见模板，数据类型为 null。
zh_hant_is_expression: 繁体中文是否表达，数据类型为 string。
zh_hant_comments: 繁体中文评论，数据类型为 string。
zh_hant_tokens_bigscience_bloom-7b1: 繁体中文标记，数据类型为 sequence: string。
zh_hant_logprob_bigscience_bloom-7b1: 繁体中文对数概率，数据类型为 sequence: float64。
nl_biased_sentence: 荷兰语偏见句子，数据类型为 string。
nl_biased_template: 荷兰语偏见模板，数据类型为 string。
nl_is_expression: 荷兰语是否表达，数据类型为 null。
nl_comments: 荷兰语评论，数据类型为 string。
nl_tokens_bigscience_bloom-7b1: 荷兰语标记，数据类型为 sequence: string。
nl_logprob_bigscience_bloom-7b1: 荷兰语对数概率，数据类型为 sequence: float64。
en_biased_sentence: 英语偏见句子，数据类型为 string。
en_biased_template: 英语偏见模板，数据类型为 string。
en_is_expression: 英语是否表达，数据类型为 null。
en_comments: 英语评论，数据类型为 string。
en_tokens_bigscience_bloom-7b1: 英语标记，数据类型为 sequence: string。
en_logprob_bigscience_bloom-7b1: 英语对数概率，数据类型为 sequence: float64。
fr_biased_sentence: 法语偏见句子，数据类型为 string。
fr_biased_template: 法语偏见模板，数据类型为 string。
fr_is_expression: 法语是否表达，数据类型为 null。
fr_comments: 法语评论，数据类型为 string。
fr_tokens_bigscience_bloom-7b1: 法语标记，数据类型为 sequence: string。
fr_logprob_bigscience_bloom-7b1: 法语对数概率，数据类型为 sequence: float64。
de_biased_sentence: 德语偏见句子，数据类型为 string。
de_biased_template: 德语偏见模板，数据类型为 string。
de_is_expression: 德语是否表达，数据类型为 null。
de_comments: 德语评论，数据类型为 null。
de_tokens_bigscience_bloom-7b1: 德语标记，数据类型为 sequence: string。
de_logprob_bigscience_bloom-7b1: 德语对数概率，数据类型为 sequence: float64。
hi_biased_sentence: 印地语偏见句子，数据类型为 string。
hi_biased_template: 印地语偏见模板，数据类型为 string。
hi_is_expression: 印地语是否表达，数据类型为 string。
hi_comments: 印地语评论，数据类型为 string。
hi_tokens_bigscience_bloom-7b1: 印地语标记，数据类型为 sequence: string。
hi_logprob_bigscience_bloom-7b1: 印地语对数概率，数据类型为 sequence: float64。
it_biased_sentence: 意大利语偏见句子，数据类型为 string。
it_biased_template: 意大利语偏见模板，数据类型为 string。
it_is_expression: 意大利语是否表达，数据类型为 null。
it_comments: 意大利语评论，数据类型为 null。
it_tokens_bigscience_bloom-7b1: 意大利语标记，数据类型为 sequence: string。
it_logprob_bigscience_bloom-7b1: 意大利语对数概率，数据类型为 sequence: float64。
mr_biased_sentence: 马拉地语偏见句子，数据类型为 string。
mr_biased_template: 马拉地语偏见模板，数据类型为 string。
mr_is_expression: 马拉地语是否表达，数据类型为 null。
mr_comments: 马拉地语评论，数据类型为 string。
mr_tokens_bigscience_bloom-7b1: 马拉地语标记，数据类型为 sequence: string。
mr_logprob_bigscience_bloom-7b1: 马拉地语对数概率，数据类型为 sequence: float64。
pl_biased_sentence: 波兰语偏见句子，数据类型为 string。
pl_biased_template: 波兰语偏见模板，数据类型为 string。
pl_is_expression: 波兰语是否表达，数据类型为 null。
pl_comments: 波兰语评论，数据类型为 null。
pl_tokens_bigscience_bloom-7b1: 波兰语标记，数据类型为 sequence: string。
pl_logprob_bigscience_bloom-7b1: 波兰语对数概率，数据类型为 sequence: float64。
ro_biased_sentence: 罗马尼亚语偏见句子，数据类型为 string。
ro_biased_template: 罗马尼亚语偏见模板，数据类型为 string。
ro_is_expression: 罗马尼亚语是否表达，数据类型为 null。
ro_comments: 罗马尼亚语评论，数据类型为 string。
ro_tokens_bigscience_bloom-7b1: 罗马尼亚语标记，数据类型为 sequence: string。
ro_logprob_bigscience_bloom-7b1: 罗马尼亚语对数概率，数据类型为 sequence: float64。
ru_biased_sentence: 俄语偏见句子，数据类型为 string。
ru_biased_template: 俄语偏见模板，数据类型为 string。
ru_is_expression: 俄语是否表达，数据类型为 null。
ru_comments: 俄语评论，数据类型为 string。
ru_tokens_bigscience_bloom-7b1: 俄语标记，数据类型为 sequence: string。
ru_logprob_bigscience_bloom-7b1: 俄语对数概率，数据类型为 sequence: float64。
es_biased_sentence: 西班牙语偏见句子，数据类型为 string。
es_biased_template: 西班牙语偏见模板，数据类型为 string。
es_is_expression: 西班牙语是否表达，数据类型为 null。
es_comments: 西班牙语评论，数据类型为 string。
es_tokens_bigscience_bloom-7b1: 西班牙语标记，数据类型为 sequence: string。
es_logprob_bigscience_bloom-7b1: 西班牙语对数概率，数据类型为 sequence: float64。

数据集分割

test: 测试集，包含 120 个样本，总字节数为 500120。

数据集大小

下载大小: 270855 字节。
数据集大小: 500120 字节。

配置

config_name: default
- data_files:
  - split: test
  - path: data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集