LanguageShades/BiasShadesBaseEvalDebug

Name: LanguageShades/BiasShadesBaseEvalDebug
Creator: LanguageShades
Published: 2024-06-13 20:51:38
License: 暂无描述

Hugging Face2024-06-13 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/LanguageShades/BiasShadesBaseEvalDebug

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: index dtype: float64 - name: subset dtype: string - name: bias_type dtype: string - name: stereotype_origin_langs sequence: string - name: stereotype_valid_langs sequence: string - name: stereotype_valid_regions sequence: string - name: stereotyped_group dtype: string - name: ar_biased_sentence dtype: string - name: ar_biased_template dtype: 'null' - name: ar_is_expression dtype: 'null' - name: ar_comments dtype: string - name: ar_tokens_bigscience_bloom-7b1 sequence: string - name: ar_logprob_bigscience_bloom-7b1 sequence: float64 - name: bn_biased_sentence dtype: string - name: bn_biased_template dtype: 'null' - name: bn_is_expression dtype: string - name: bn_comments dtype: 'null' - name: bn_tokens_bigscience_bloom-7b1 sequence: string - name: bn_logprob_bigscience_bloom-7b1 sequence: float64 - name: pt_br_biased_sentence dtype: string - name: pt_br_biased_template dtype: string - name: pt_br_is_expression dtype: string - name: pt_br_comments dtype: string - name: pt_br_tokens_bigscience_bloom-7b1 sequence: string - name: pt_br_logprob_bigscience_bloom-7b1 sequence: float64 - name: zh_biased_sentence dtype: string - name: zh_biased_template dtype: 'null' - name: zh_is_expression dtype: string - name: zh_comments dtype: string - name: zh_tokens_bigscience_bloom-7b1 sequence: string - name: zh_logprob_bigscience_bloom-7b1 sequence: float64 - name: zh_hant_biased_sentence dtype: string - name: zh_hant_biased_template dtype: 'null' - name: zh_hant_is_expression dtype: string - name: zh_hant_comments dtype: string - name: zh_hant_tokens_bigscience_bloom-7b1 sequence: string - name: zh_hant_logprob_bigscience_bloom-7b1 sequence: float64 - name: nl_biased_sentence dtype: string - name: nl_biased_template dtype: string - name: nl_is_expression dtype: string - name: nl_comments dtype: string - name: nl_tokens_bigscience_bloom-7b1 sequence: string - name: nl_logprob_bigscience_bloom-7b1 sequence: float64 - name: en_biased_sentence dtype: string - name: en_biased_template dtype: string - name: en_is_expression dtype: string - name: en_comments dtype: string - name: en_tokens_bigscience_bloom-7b1 sequence: string - name: en_logprob_bigscience_bloom-7b1 sequence: float64 - name: fr_biased_sentence dtype: string - name: fr_biased_template dtype: string - name: fr_is_expression dtype: 'null' - name: fr_comments dtype: string - name: fr_tokens_bigscience_bloom-7b1 sequence: string - name: fr_logprob_bigscience_bloom-7b1 sequence: float64 - name: de_biased_sentence dtype: string - name: de_biased_template dtype: string - name: de_is_expression dtype: 'null' - name: de_comments dtype: 'null' - name: de_tokens_bigscience_bloom-7b1 sequence: string - name: de_logprob_bigscience_bloom-7b1 sequence: float64 - name: hi_biased_sentence dtype: string - name: hi_biased_template dtype: string - name: hi_is_expression dtype: 'null' - name: hi_comments dtype: string - name: hi_tokens_bigscience_bloom-7b1 sequence: string - name: hi_logprob_bigscience_bloom-7b1 sequence: float64 - name: it_biased_sentence dtype: string - name: it_biased_template dtype: string - name: it_is_expression dtype: 'null' - name: it_comments dtype: 'null' - name: it_tokens_bigscience_bloom-7b1 sequence: string - name: it_logprob_bigscience_bloom-7b1 sequence: float64 - name: mr_biased_sentence dtype: string - name: mr_biased_template dtype: string - name: mr_is_expression dtype: 'null' - name: mr_comments dtype: 'null' - name: mr_tokens_bigscience_bloom-7b1 sequence: string - name: mr_logprob_bigscience_bloom-7b1 sequence: float64 - name: pl_biased_sentence dtype: string - name: pl_biased_template dtype: string - name: pl_is_expression dtype: 'null' - name: pl_comments dtype: 'null' - name: pl_tokens_bigscience_bloom-7b1 sequence: string - name: pl_logprob_bigscience_bloom-7b1 sequence: float64 - name: ro_biased_sentence dtype: string - name: ro_biased_template dtype: string - name: ro_is_expression dtype: 'null' - name: ro_comments dtype: string - name: ro_tokens_bigscience_bloom-7b1 sequence: string - name: ro_logprob_bigscience_bloom-7b1 sequence: float64 - name: ru_biased_sentence dtype: string - name: ru_biased_template dtype: string - name: ru_is_expression dtype: 'null' - name: ru_comments dtype: string - name: ru_tokens_bigscience_bloom-7b1 sequence: string - name: ru_logprob_bigscience_bloom-7b1 sequence: float64 - name: es_biased_sentence dtype: string - name: es_biased_template dtype: string - name: es_is_expression dtype: 'null' - name: es_comments dtype: string - name: es_tokens_bigscience_bloom-7b1 sequence: string - name: es_logprob_bigscience_bloom-7b1 sequence: float64 splits: - name: test num_bytes: 1866233 num_examples: 450 download_size: 745512 dataset_size: 1866233 configs: - config_name: default data_files: - split: test path: data/test-* ---

提供机构：

LanguageShades

原始信息汇总

数据集概述

数据集特征

index: 数据索引，数据类型为 float64。
subset: 子集标识，数据类型为 string。
bias_type: 偏见类型，数据类型为 string。
stereotype_origin_langs: 刻板印象起源语言，数据类型为 sequence: string。
stereotype_valid_langs: 刻板印象有效语言，数据类型为 sequence: string。
stereotype_valid_regions: 刻板印象有效区域，数据类型为 sequence: string。
stereotyped_group: 刻板印象群体，数据类型为 string。
ar_biased_sentence: 阿拉伯语偏见句子，数据类型为 string。
ar_biased_template: 阿拉伯语偏见模板，数据类型为 null。
ar_is_expression: 阿拉伯语是否表达，数据类型为 null。
ar_comments: 阿拉伯语评论，数据类型为 string。
ar_tokens_bigscience_bloom-7b1: 阿拉伯语标记，数据类型为 sequence: string。
ar_logprob_bigscience_bloom-7b1: 阿拉伯语对数概率，数据类型为 sequence: float64。
bn_biased_sentence: 孟加拉语偏见句子，数据类型为 string。
bn_biased_template: 孟加拉语偏见模板，数据类型为 null。
bn_is_expression: 孟加拉语是否表达，数据类型为 string。
bn_comments: 孟加拉语评论，数据类型为 null。
bn_tokens_bigscience_bloom-7b1: 孟加拉语标记，数据类型为 sequence: string。
bn_logprob_bigscience_bloom-7b1: 孟加拉语对数概率，数据类型为 sequence: float64。
pt_br_biased_sentence: 巴西葡萄牙语偏见句子，数据类型为 string。
pt_br_biased_template: 巴西葡萄牙语偏见模板，数据类型为 string。
pt_br_is_expression: 巴西葡萄牙语是否表达，数据类型为 string。
pt_br_comments: 巴西葡萄牙语评论，数据类型为 string。
pt_br_tokens_bigscience_bloom-7b1: 巴西葡萄牙语标记，数据类型为 sequence: string。
pt_br_logprob_bigscience_bloom-7b1: 巴西葡萄牙语对数概率，数据类型为 sequence: float64。
zh_biased_sentence: 中文偏见句子，数据类型为 string。
zh_biased_template: 中文偏见模板，数据类型为 null。
zh_is_expression: 中文是否表达，数据类型为 string。
zh_comments: 中文评论，数据类型为 string。
zh_tokens_bigscience_bloom-7b1: 中文标记，数据类型为 sequence: string。
zh_logprob_bigscience_bloom-7b1: 中文对数概率，数据类型为 sequence: float64。
zh_hant_biased_sentence: 繁体中文偏见句子，数据类型为 string。
zh_hant_biased_template: 繁体中文偏见模板，数据类型为 null。
zh_hant_is_expression: 繁体中文是否表达，数据类型为 string。
zh_hant_comments: 繁体中文评论，数据类型为 string。
zh_hant_tokens_bigscience_bloom-7b1: 繁体中文标记，数据类型为 sequence: string。
zh_hant_logprob_bigscience_bloom-7b1: 繁体中文对数概率，数据类型为 sequence: float64。
nl_biased_sentence: 荷兰语偏见句子，数据类型为 string。
nl_biased_template: 荷兰语偏见模板，数据类型为 string。
nl_is_expression: 荷兰语是否表达，数据类型为 string。
nl_comments: 荷兰语评论，数据类型为 string。
nl_tokens_bigscience_bloom-7b1: 荷兰语标记，数据类型为 sequence: string。
nl_logprob_bigscience_bloom-7b1: 荷兰语对数概率，数据类型为 sequence: float64。
en_biased_sentence: 英语偏见句子，数据类型为 string。
en_biased_template: 英语偏见模板，数据类型为 string。
en_is_expression: 英语是否表达，数据类型为 string。
en_comments: 英语评论，数据类型为 string。
en_tokens_bigscience_bloom-7b1: 英语标记，数据类型为 sequence: string。
en_logprob_bigscience_bloom-7b1: 英语对数概率，数据类型为 sequence: float64。
fr_biased_sentence: 法语偏见句子，数据类型为 string。
fr_biased_template: 法语偏见模板，数据类型为 string。
fr_is_expression: 法语是否表达，数据类型为 null。
fr_comments: 法语评论，数据类型为 string。
fr_tokens_bigscience_bloom-7b1: 法语标记，数据类型为 sequence: string。
fr_logprob_bigscience_bloom-7b1: 法语对数概率，数据类型为 sequence: float64。
de_biased_sentence: 德语偏见句子，数据类型为 string。
de_biased_template: 德语偏见模板，数据类型为 string。
de_is_expression: 德语是否表达，数据类型为 null。
de_comments: 德语评论，数据类型为 null。
de_tokens_bigscience_bloom-7b1: 德语标记，数据类型为 sequence: string。
de_logprob_bigscience_bloom-7b1: 德语对数概率，数据类型为 sequence: float64。
hi_biased_sentence: 印地语偏见句子，数据类型为 string。
hi_biased_template: 印地语偏见模板，数据类型为 string。
hi_is_expression: 印地语是否表达，数据类型为 null。
hi_comments: 印地语评论，数据类型为 string。
hi_tokens_bigscience_bloom-7b1: 印地语标记，数据类型为 sequence: string。
hi_logprob_bigscience_bloom-7b1: 印地语对数概率，数据类型为 sequence: float64。
it_biased_sentence: 意大利语偏见句子，数据类型为 string。
it_biased_template: 意大利语偏见模板，数据类型为 string。
it_is_expression: 意大利语是否表达，数据类型为 null。
it_comments: 意大利语评论，数据类型为 null。
it_tokens_bigscience_bloom-7b1: 意大利语标记，数据类型为 sequence: string。
it_logprob_bigscience_bloom-7b1: 意大利语对数概率，数据类型为 sequence: float64。
mr_biased_sentence: 马拉地语偏见句子，数据类型为 string。
mr_biased_template: 马拉地语偏见模板，数据类型为 string。
mr_is_expression: 马拉地语是否表达，数据类型为 null。
mr_comments: 马拉地语评论，数据类型为 null。
mr_tokens_bigscience_bloom-7b1: 马拉地语标记，数据类型为 sequence: string。
mr_logprob_bigscience_bloom-7b1: 马拉地语对数概率，数据类型为 sequence: float64。
pl_biased_sentence: 波兰语偏见句子，数据类型为 string。
pl_biased_template: 波兰语偏见模板，数据类型为 string。
pl_is_expression: 波兰语是否表达，数据类型为 null。
pl_comments: 波兰语评论，数据类型为 null。
pl_tokens_bigscience_bloom-7b1: 波兰语标记，数据类型为 sequence: string。
pl_logprob_bigscience_bloom-7b1: 波兰语对数概率，数据类型为 sequence: float64。
ro_biased_sentence: 罗马尼亚语偏见句子，数据类型为 string。
ro_biased_template: 罗马尼亚语偏见模板，数据类型为 string。
ro_is_expression: 罗马尼亚语是否表达，数据类型为 null。
ro_comments: 罗马尼亚语评论，数据类型为 string。
ro_tokens_bigscience_bloom-7b1: 罗马尼亚语标记，数据类型为 sequence: string。
ro_logprob_bigscience_bloom-7b1: 罗马尼亚语对数概率，数据类型为 sequence: float64。
ru_biased_sentence: 俄语偏见句子，数据类型为 string。
ru_biased_template: 俄语偏见模板，数据类型为 string。
ru_is_expression: 俄语是否表达，数据类型为 null。
ru_comments: 俄语评论，数据类型为 string。
ru_tokens_bigscience_bloom-7b1: 俄语标记，数据类型为 sequence: string。
ru_logprob_bigscience_bloom-7b1: 俄语对数概率，数据类型为 sequence: float64。
es_biased_sentence: 西班牙语偏见句子，数据类型为 string。
es_biased_template: 西班牙语偏见模板，数据类型为 string。
es_is_expression: 西班牙语是否表达，数据类型为 null。
es_comments: 西班牙语评论，数据类型为 string。
es_tokens_bigscience_bloom-7b1: 西班牙语标记，数据类型为 sequence: string。
es_logprob_bigscience_bloom-7b1: 西班牙语对数概率，数据类型为 sequence: float64。

数据集分割

test: 测试集，包含 450 个样本，总字节数为 1866233。

数据集大小

下载大小: 745512 字节。
数据集大小: 1866233 字节。

配置

config_name: default
- data_files:
  - split: test
  - path: data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集