LanguageShades/BiasShadesBaseEval_Qwen_Qwen2_7B
收藏Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/LanguageShades/BiasShadesBaseEval_Qwen_Qwen2_7B
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言的偏见句子及其相关信息,涵盖了阿拉伯语、孟加拉语、葡萄牙语、中文、荷兰语、英语、法语、德语、印地语、意大利语、马拉地语、波兰语、罗马尼亚语、俄语、西班牙语等。每个语言的偏见句子都有对应的模板、是否为表达式的标记、评论、以及使用Qwen2-7B模型生成的token序列和对数概率。数据集的特征包括索引、子集、偏见类型、刻板印象的来源语言、有效语言、有效地区、被刻板印象的群体等。数据集仅包含一个测试集,大小为3633161字节,包含651个样本。
The dataset contains biased sentences and related information in multiple languages, including Arabic, Bengali, Portuguese, Chinese, Dutch, English, French, German, Hindi, Italian, Marathi, Polish, Romanian, Russian, Spanish, etc. Each languages biased sentences have corresponding templates, whether they are expressions, comments, and token sequences and log probabilities generated using the Qwen2-7B model. The features of the dataset include index, subset, bias type, stereotype origin languages, valid languages, valid regions, stereotyped group, etc. The dataset contains only one test set, with a size of 3633161 bytes and 651 samples.
提供机构:
LanguageShades
原始信息汇总
数据集概述
数据集特征
- index: 数据类型为
float64 - subset: 数据类型为
string - bias_type: 数据类型为
string - stereotype_origin_langs: 数据类型为
sequence: string - stereotype_valid_langs: 数据类型为
sequence: string - stereotype_valid_regions: 数据类型为
sequence: string - stereotyped_group: 数据类型为
string - ar_biased_sentence: 数据类型为
string - ar_biased_template: 数据类型为
null - ar_is_expression: 数据类型为
string - ar_comments: 数据类型为
string - ar_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - ar_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - bn_biased_sentence: 数据类型为
string - bn_biased_template: 数据类型为
string - bn_is_expression: 数据类型为
string - bn_comments: 数据类型为
null - bn_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - bn_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - pt_br_biased_sentence: 数据类型为
string - pt_br_biased_template: 数据类型为
string - pt_br_is_expression: 数据类型为
string - pt_br_comments: 数据类型为
string - pt_br_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - pt_br_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - zh_biased_sentence: 数据类型为
string - zh_biased_template: 数据类型为
null - zh_is_expression: 数据类型为
string - zh_comments: 数据类型为
string - zh_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - zh_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - zh_hant_biased_sentence: 数据类型为
string - zh_hant_biased_template: 数据类型为
null - zh_hant_is_expression: 数据类型为
string - zh_hant_comments: 数据类型为
string - zh_hant_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - zh_hant_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - nl_biased_sentence: 数据类型为
string - nl_biased_template: 数据类型为
string - nl_is_expression: 数据类型为
string - nl_comments: 数据类型为
string - nl_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - nl_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - en_biased_sentence: 数据类型为
string - en_biased_template: 数据类型为
string - en_is_expression: 数据类型为
string - en_comments: 数据类型为
string - en_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - en_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - fr_biased_sentence: 数据类型为
string - fr_biased_template: 数据类型为
string - fr_is_expression: 数据类型为
null - fr_comments: 数据类型为
string - fr_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - fr_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - de_biased_sentence: 数据类型为
string - de_biased_template: 数据类型为
string - de_is_expression: 数据类型为
string - de_comments: 数据类型为
string - de_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - de_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - hi_biased_sentence: 数据类型为
string - hi_biased_template: 数据类型为
string - hi_is_expression: 数据类型为
string - hi_comments: 数据类型为
string - hi_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - hi_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - it_biased_sentence: 数据类型为
string - it_biased_template: 数据类型为
string - it_is_expression: 数据类型为
null - it_comments: 数据类型为
null - it_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - it_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - mr_biased_sentence: 数据类型为
string - mr_biased_template: 数据类型为
string - mr_is_expression: 数据类型为
null - mr_comments: 数据类型为
string - mr_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - mr_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - pl_biased_sentence: 数据类型为
string - pl_biased_template: 数据类型为
string - pl_is_expression: 数据类型为
string - pl_comments: 数据类型为
null - pl_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - pl_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - ro_biased_sentence: 数据类型为
string - ro_biased_template: 数据类型为
string - ro_is_expression: 数据类型为
null - ro_comments: 数据类型为
string - ro_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - ro_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - ru_biased_sentence: 数据类型为
string - ru_biased_template: 数据类型为
string - ru_is_expression: 数据类型为
string - ru_comments: 数据类型为
string - ru_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - ru_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64 - es_biased_sentence: 数据类型为
string - es_biased_template: 数据类型为
string - es_is_expression: 数据类型为
null - es_comments: 数据类型为
string - es_tokens_Qwen_Qwen2-7B: 数据类型为
sequence: string - es_logprob_Qwen_Qwen2-7B: 数据类型为
sequence: float64
数据集分割
- test: 包含 651 个样本,总字节数为 3633161
数据集大小
- 下载大小: 1367176 字节
- 数据集大小: 3633161 字节
配置
- config_name: default
- data_files:
- split: test
- path: data/test-*
- data_files:



