LanguageShades/BiasShadesBaseEvalDebug
收藏Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/LanguageShades/BiasShadesBaseEvalDebug
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: index
dtype: float64
- name: subset
dtype: string
- name: bias_type
dtype: string
- name: stereotype_origin_langs
sequence: string
- name: stereotype_valid_langs
sequence: string
- name: stereotype_valid_regions
sequence: string
- name: stereotyped_group
dtype: string
- name: ar_biased_sentence
dtype: string
- name: ar_biased_template
dtype: 'null'
- name: ar_is_expression
dtype: 'null'
- name: ar_comments
dtype: string
- name: ar_tokens_bigscience_bloom-7b1
sequence: string
- name: ar_logprob_bigscience_bloom-7b1
sequence: float64
- name: bn_biased_sentence
dtype: string
- name: bn_biased_template
dtype: 'null'
- name: bn_is_expression
dtype: string
- name: bn_comments
dtype: 'null'
- name: bn_tokens_bigscience_bloom-7b1
sequence: string
- name: bn_logprob_bigscience_bloom-7b1
sequence: float64
- name: pt_br_biased_sentence
dtype: string
- name: pt_br_biased_template
dtype: string
- name: pt_br_is_expression
dtype: string
- name: pt_br_comments
dtype: string
- name: pt_br_tokens_bigscience_bloom-7b1
sequence: string
- name: pt_br_logprob_bigscience_bloom-7b1
sequence: float64
- name: zh_biased_sentence
dtype: string
- name: zh_biased_template
dtype: 'null'
- name: zh_is_expression
dtype: string
- name: zh_comments
dtype: string
- name: zh_tokens_bigscience_bloom-7b1
sequence: string
- name: zh_logprob_bigscience_bloom-7b1
sequence: float64
- name: zh_hant_biased_sentence
dtype: string
- name: zh_hant_biased_template
dtype: 'null'
- name: zh_hant_is_expression
dtype: string
- name: zh_hant_comments
dtype: string
- name: zh_hant_tokens_bigscience_bloom-7b1
sequence: string
- name: zh_hant_logprob_bigscience_bloom-7b1
sequence: float64
- name: nl_biased_sentence
dtype: string
- name: nl_biased_template
dtype: string
- name: nl_is_expression
dtype: string
- name: nl_comments
dtype: string
- name: nl_tokens_bigscience_bloom-7b1
sequence: string
- name: nl_logprob_bigscience_bloom-7b1
sequence: float64
- name: en_biased_sentence
dtype: string
- name: en_biased_template
dtype: string
- name: en_is_expression
dtype: string
- name: en_comments
dtype: string
- name: en_tokens_bigscience_bloom-7b1
sequence: string
- name: en_logprob_bigscience_bloom-7b1
sequence: float64
- name: fr_biased_sentence
dtype: string
- name: fr_biased_template
dtype: string
- name: fr_is_expression
dtype: 'null'
- name: fr_comments
dtype: string
- name: fr_tokens_bigscience_bloom-7b1
sequence: string
- name: fr_logprob_bigscience_bloom-7b1
sequence: float64
- name: de_biased_sentence
dtype: string
- name: de_biased_template
dtype: string
- name: de_is_expression
dtype: 'null'
- name: de_comments
dtype: 'null'
- name: de_tokens_bigscience_bloom-7b1
sequence: string
- name: de_logprob_bigscience_bloom-7b1
sequence: float64
- name: hi_biased_sentence
dtype: string
- name: hi_biased_template
dtype: string
- name: hi_is_expression
dtype: 'null'
- name: hi_comments
dtype: string
- name: hi_tokens_bigscience_bloom-7b1
sequence: string
- name: hi_logprob_bigscience_bloom-7b1
sequence: float64
- name: it_biased_sentence
dtype: string
- name: it_biased_template
dtype: string
- name: it_is_expression
dtype: 'null'
- name: it_comments
dtype: 'null'
- name: it_tokens_bigscience_bloom-7b1
sequence: string
- name: it_logprob_bigscience_bloom-7b1
sequence: float64
- name: mr_biased_sentence
dtype: string
- name: mr_biased_template
dtype: string
- name: mr_is_expression
dtype: 'null'
- name: mr_comments
dtype: 'null'
- name: mr_tokens_bigscience_bloom-7b1
sequence: string
- name: mr_logprob_bigscience_bloom-7b1
sequence: float64
- name: pl_biased_sentence
dtype: string
- name: pl_biased_template
dtype: string
- name: pl_is_expression
dtype: 'null'
- name: pl_comments
dtype: 'null'
- name: pl_tokens_bigscience_bloom-7b1
sequence: string
- name: pl_logprob_bigscience_bloom-7b1
sequence: float64
- name: ro_biased_sentence
dtype: string
- name: ro_biased_template
dtype: string
- name: ro_is_expression
dtype: 'null'
- name: ro_comments
dtype: string
- name: ro_tokens_bigscience_bloom-7b1
sequence: string
- name: ro_logprob_bigscience_bloom-7b1
sequence: float64
- name: ru_biased_sentence
dtype: string
- name: ru_biased_template
dtype: string
- name: ru_is_expression
dtype: 'null'
- name: ru_comments
dtype: string
- name: ru_tokens_bigscience_bloom-7b1
sequence: string
- name: ru_logprob_bigscience_bloom-7b1
sequence: float64
- name: es_biased_sentence
dtype: string
- name: es_biased_template
dtype: string
- name: es_is_expression
dtype: 'null'
- name: es_comments
dtype: string
- name: es_tokens_bigscience_bloom-7b1
sequence: string
- name: es_logprob_bigscience_bloom-7b1
sequence: float64
splits:
- name: test
num_bytes: 1866233
num_examples: 450
download_size: 745512
dataset_size: 1866233
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
---
提供机构:
LanguageShades
原始信息汇总
数据集概述
数据集特征
- index: 数据索引,数据类型为
float64。 - subset: 子集标识,数据类型为
string。 - bias_type: 偏见类型,数据类型为
string。 - stereotype_origin_langs: 刻板印象起源语言,数据类型为
sequence: string。 - stereotype_valid_langs: 刻板印象有效语言,数据类型为
sequence: string。 - stereotype_valid_regions: 刻板印象有效区域,数据类型为
sequence: string。 - stereotyped_group: 刻板印象群体,数据类型为
string。 - ar_biased_sentence: 阿拉伯语偏见句子,数据类型为
string。 - ar_biased_template: 阿拉伯语偏见模板,数据类型为
null。 - ar_is_expression: 阿拉伯语是否表达,数据类型为
null。 - ar_comments: 阿拉伯语评论,数据类型为
string。 - ar_tokens_bigscience_bloom-7b1: 阿拉伯语标记,数据类型为
sequence: string。 - ar_logprob_bigscience_bloom-7b1: 阿拉伯语对数概率,数据类型为
sequence: float64。 - bn_biased_sentence: 孟加拉语偏见句子,数据类型为
string。 - bn_biased_template: 孟加拉语偏见模板,数据类型为
null。 - bn_is_expression: 孟加拉语是否表达,数据类型为
string。 - bn_comments: 孟加拉语评论,数据类型为
null。 - bn_tokens_bigscience_bloom-7b1: 孟加拉语标记,数据类型为
sequence: string。 - bn_logprob_bigscience_bloom-7b1: 孟加拉语对数概率,数据类型为
sequence: float64。 - pt_br_biased_sentence: 巴西葡萄牙语偏见句子,数据类型为
string。 - pt_br_biased_template: 巴西葡萄牙语偏见模板,数据类型为
string。 - pt_br_is_expression: 巴西葡萄牙语是否表达,数据类型为
string。 - pt_br_comments: 巴西葡萄牙语评论,数据类型为
string。 - pt_br_tokens_bigscience_bloom-7b1: 巴西葡萄牙语标记,数据类型为
sequence: string。 - pt_br_logprob_bigscience_bloom-7b1: 巴西葡萄牙语对数概率,数据类型为
sequence: float64。 - zh_biased_sentence: 中文偏见句子,数据类型为
string。 - zh_biased_template: 中文偏见模板,数据类型为
null。 - zh_is_expression: 中文是否表达,数据类型为
string。 - zh_comments: 中文评论,数据类型为
string。 - zh_tokens_bigscience_bloom-7b1: 中文标记,数据类型为
sequence: string。 - zh_logprob_bigscience_bloom-7b1: 中文对数概率,数据类型为
sequence: float64。 - zh_hant_biased_sentence: 繁体中文偏见句子,数据类型为
string。 - zh_hant_biased_template: 繁体中文偏见模板,数据类型为
null。 - zh_hant_is_expression: 繁体中文是否表达,数据类型为
string。 - zh_hant_comments: 繁体中文评论,数据类型为
string。 - zh_hant_tokens_bigscience_bloom-7b1: 繁体中文标记,数据类型为
sequence: string。 - zh_hant_logprob_bigscience_bloom-7b1: 繁体中文对数概率,数据类型为
sequence: float64。 - nl_biased_sentence: 荷兰语偏见句子,数据类型为
string。 - nl_biased_template: 荷兰语偏见模板,数据类型为
string。 - nl_is_expression: 荷兰语是否表达,数据类型为
string。 - nl_comments: 荷兰语评论,数据类型为
string。 - nl_tokens_bigscience_bloom-7b1: 荷兰语标记,数据类型为
sequence: string。 - nl_logprob_bigscience_bloom-7b1: 荷兰语对数概率,数据类型为
sequence: float64。 - en_biased_sentence: 英语偏见句子,数据类型为
string。 - en_biased_template: 英语偏见模板,数据类型为
string。 - en_is_expression: 英语是否表达,数据类型为
string。 - en_comments: 英语评论,数据类型为
string。 - en_tokens_bigscience_bloom-7b1: 英语标记,数据类型为
sequence: string。 - en_logprob_bigscience_bloom-7b1: 英语对数概率,数据类型为
sequence: float64。 - fr_biased_sentence: 法语偏见句子,数据类型为
string。 - fr_biased_template: 法语偏见模板,数据类型为
string。 - fr_is_expression: 法语是否表达,数据类型为
null。 - fr_comments: 法语评论,数据类型为
string。 - fr_tokens_bigscience_bloom-7b1: 法语标记,数据类型为
sequence: string。 - fr_logprob_bigscience_bloom-7b1: 法语对数概率,数据类型为
sequence: float64。 - de_biased_sentence: 德语偏见句子,数据类型为
string。 - de_biased_template: 德语偏见模板,数据类型为
string。 - de_is_expression: 德语是否表达,数据类型为
null。 - de_comments: 德语评论,数据类型为
null。 - de_tokens_bigscience_bloom-7b1: 德语标记,数据类型为
sequence: string。 - de_logprob_bigscience_bloom-7b1: 德语对数概率,数据类型为
sequence: float64。 - hi_biased_sentence: 印地语偏见句子,数据类型为
string。 - hi_biased_template: 印地语偏见模板,数据类型为
string。 - hi_is_expression: 印地语是否表达,数据类型为
null。 - hi_comments: 印地语评论,数据类型为
string。 - hi_tokens_bigscience_bloom-7b1: 印地语标记,数据类型为
sequence: string。 - hi_logprob_bigscience_bloom-7b1: 印地语对数概率,数据类型为
sequence: float64。 - it_biased_sentence: 意大利语偏见句子,数据类型为
string。 - it_biased_template: 意大利语偏见模板,数据类型为
string。 - it_is_expression: 意大利语是否表达,数据类型为
null。 - it_comments: 意大利语评论,数据类型为
null。 - it_tokens_bigscience_bloom-7b1: 意大利语标记,数据类型为
sequence: string。 - it_logprob_bigscience_bloom-7b1: 意大利语对数概率,数据类型为
sequence: float64。 - mr_biased_sentence: 马拉地语偏见句子,数据类型为
string。 - mr_biased_template: 马拉地语偏见模板,数据类型为
string。 - mr_is_expression: 马拉地语是否表达,数据类型为
null。 - mr_comments: 马拉地语评论,数据类型为
null。 - mr_tokens_bigscience_bloom-7b1: 马拉地语标记,数据类型为
sequence: string。 - mr_logprob_bigscience_bloom-7b1: 马拉地语对数概率,数据类型为
sequence: float64。 - pl_biased_sentence: 波兰语偏见句子,数据类型为
string。 - pl_biased_template: 波兰语偏见模板,数据类型为
string。 - pl_is_expression: 波兰语是否表达,数据类型为
null。 - pl_comments: 波兰语评论,数据类型为
null。 - pl_tokens_bigscience_bloom-7b1: 波兰语标记,数据类型为
sequence: string。 - pl_logprob_bigscience_bloom-7b1: 波兰语对数概率,数据类型为
sequence: float64。 - ro_biased_sentence: 罗马尼亚语偏见句子,数据类型为
string。 - ro_biased_template: 罗马尼亚语偏见模板,数据类型为
string。 - ro_is_expression: 罗马尼亚语是否表达,数据类型为
null。 - ro_comments: 罗马尼亚语评论,数据类型为
string。 - ro_tokens_bigscience_bloom-7b1: 罗马尼亚语标记,数据类型为
sequence: string。 - ro_logprob_bigscience_bloom-7b1: 罗马尼亚语对数概率,数据类型为
sequence: float64。 - ru_biased_sentence: 俄语偏见句子,数据类型为
string。 - ru_biased_template: 俄语偏见模板,数据类型为
string。 - ru_is_expression: 俄语是否表达,数据类型为
null。 - ru_comments: 俄语评论,数据类型为
string。 - ru_tokens_bigscience_bloom-7b1: 俄语标记,数据类型为
sequence: string。 - ru_logprob_bigscience_bloom-7b1: 俄语对数概率,数据类型为
sequence: float64。 - es_biased_sentence: 西班牙语偏见句子,数据类型为
string。 - es_biased_template: 西班牙语偏见模板,数据类型为
string。 - es_is_expression: 西班牙语是否表达,数据类型为
null。 - es_comments: 西班牙语评论,数据类型为
string。 - es_tokens_bigscience_bloom-7b1: 西班牙语标记,数据类型为
sequence: string。 - es_logprob_bigscience_bloom-7b1: 西班牙语对数概率,数据类型为
sequence: float64。
数据集分割
- test: 测试集,包含 450 个样本,总字节数为 1866233。
数据集大小
- 下载大小: 745512 字节。
- 数据集大小: 1866233 字节。
配置
- config_name: default
- data_files:
- split: test
- path: data/test-*
- data_files:



