LanguageShades/BiasShadesBaseEval_Qwen_Qwen2_7B

Name: LanguageShades/BiasShadesBaseEval_Qwen_Qwen2_7B
Creator: LanguageShades
Published: 2024-06-15 09:02:50
License: 暂无描述

Hugging Face2024-06-15 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/LanguageShades/BiasShadesBaseEval_Qwen_Qwen2_7B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言的偏见句子及其相关信息，涵盖了阿拉伯语、孟加拉语、葡萄牙语、中文、荷兰语、英语、法语、德语、印地语、意大利语、马拉地语、波兰语、罗马尼亚语、俄语、西班牙语等。每个语言的偏见句子都有对应的模板、是否为表达式的标记、评论、以及使用Qwen2-7B模型生成的token序列和对数概率。数据集的特征包括索引、子集、偏见类型、刻板印象的来源语言、有效语言、有效地区、被刻板印象的群体等。数据集仅包含一个测试集，大小为3633161字节，包含651个样本。

The dataset contains biased sentences and related information in multiple languages, including Arabic, Bengali, Portuguese, Chinese, Dutch, English, French, German, Hindi, Italian, Marathi, Polish, Romanian, Russian, Spanish, etc. Each languages biased sentences have corresponding templates, whether they are expressions, comments, and token sequences and log probabilities generated using the Qwen2-7B model. The features of the dataset include index, subset, bias type, stereotype origin languages, valid languages, valid regions, stereotyped group, etc. The dataset contains only one test set, with a size of 3633161 bytes and 651 samples.

提供机构：

LanguageShades

原始信息汇总

数据集概述

数据集特征

index: 数据类型为 float64
subset: 数据类型为 string
bias_type: 数据类型为 string
stereotype_origin_langs: 数据类型为 sequence: string
stereotype_valid_langs: 数据类型为 sequence: string
stereotype_valid_regions: 数据类型为 sequence: string
stereotyped_group: 数据类型为 string
ar_biased_sentence: 数据类型为 string
ar_biased_template: 数据类型为 null
ar_is_expression: 数据类型为 string
ar_comments: 数据类型为 string
ar_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
ar_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
bn_biased_sentence: 数据类型为 string
bn_biased_template: 数据类型为 string
bn_is_expression: 数据类型为 string
bn_comments: 数据类型为 null
bn_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
bn_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
pt_br_biased_sentence: 数据类型为 string
pt_br_biased_template: 数据类型为 string
pt_br_is_expression: 数据类型为 string
pt_br_comments: 数据类型为 string
pt_br_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
pt_br_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
zh_biased_sentence: 数据类型为 string
zh_biased_template: 数据类型为 null
zh_is_expression: 数据类型为 string
zh_comments: 数据类型为 string
zh_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
zh_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
zh_hant_biased_sentence: 数据类型为 string
zh_hant_biased_template: 数据类型为 null
zh_hant_is_expression: 数据类型为 string
zh_hant_comments: 数据类型为 string
zh_hant_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
zh_hant_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
nl_biased_sentence: 数据类型为 string
nl_biased_template: 数据类型为 string
nl_is_expression: 数据类型为 string
nl_comments: 数据类型为 string
nl_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
nl_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
en_biased_sentence: 数据类型为 string
en_biased_template: 数据类型为 string
en_is_expression: 数据类型为 string
en_comments: 数据类型为 string
en_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
en_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
fr_biased_sentence: 数据类型为 string
fr_biased_template: 数据类型为 string
fr_is_expression: 数据类型为 null
fr_comments: 数据类型为 string
fr_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
fr_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
de_biased_sentence: 数据类型为 string
de_biased_template: 数据类型为 string
de_is_expression: 数据类型为 string
de_comments: 数据类型为 string
de_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
de_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
hi_biased_sentence: 数据类型为 string
hi_biased_template: 数据类型为 string
hi_is_expression: 数据类型为 string
hi_comments: 数据类型为 string
hi_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
hi_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
it_biased_sentence: 数据类型为 string
it_biased_template: 数据类型为 string
it_is_expression: 数据类型为 null
it_comments: 数据类型为 null
it_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
it_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
mr_biased_sentence: 数据类型为 string
mr_biased_template: 数据类型为 string
mr_is_expression: 数据类型为 null
mr_comments: 数据类型为 string
mr_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
mr_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
pl_biased_sentence: 数据类型为 string
pl_biased_template: 数据类型为 string
pl_is_expression: 数据类型为 string
pl_comments: 数据类型为 null
pl_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
pl_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
ro_biased_sentence: 数据类型为 string
ro_biased_template: 数据类型为 string
ro_is_expression: 数据类型为 null
ro_comments: 数据类型为 string
ro_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
ro_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
ru_biased_sentence: 数据类型为 string
ru_biased_template: 数据类型为 string
ru_is_expression: 数据类型为 string
ru_comments: 数据类型为 string
ru_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
ru_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
es_biased_sentence: 数据类型为 string
es_biased_template: 数据类型为 string
es_is_expression: 数据类型为 null
es_comments: 数据类型为 string
es_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
es_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64

数据集分割

test: 包含 651 个样本，总字节数为 3633161

数据集大小

下载大小: 1367176 字节
数据集大小: 3633161 字节

配置

config_name: default
- data_files:
  - split: test
  - path: data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集