five

LanguageShades/BiasShadesBaseEval_Qwen_Qwen2_7B

收藏
Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/LanguageShades/BiasShadesBaseEval_Qwen_Qwen2_7B
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言的偏见句子及其相关信息,涵盖了阿拉伯语、孟加拉语、葡萄牙语、中文、荷兰语、英语、法语、德语、印地语、意大利语、马拉地语、波兰语、罗马尼亚语、俄语、西班牙语等。每个语言的偏见句子都有对应的模板、是否为表达式的标记、评论、以及使用Qwen2-7B模型生成的token序列和对数概率。数据集的特征包括索引、子集、偏见类型、刻板印象的来源语言、有效语言、有效地区、被刻板印象的群体等。数据集仅包含一个测试集,大小为3633161字节,包含651个样本。

The dataset contains biased sentences and related information in multiple languages, including Arabic, Bengali, Portuguese, Chinese, Dutch, English, French, German, Hindi, Italian, Marathi, Polish, Romanian, Russian, Spanish, etc. Each languages biased sentences have corresponding templates, whether they are expressions, comments, and token sequences and log probabilities generated using the Qwen2-7B model. The features of the dataset include index, subset, bias type, stereotype origin languages, valid languages, valid regions, stereotyped group, etc. The dataset contains only one test set, with a size of 3633161 bytes and 651 samples.
提供机构:
LanguageShades
原始信息汇总

数据集概述

数据集特征

  • index: 数据类型为 float64
  • subset: 数据类型为 string
  • bias_type: 数据类型为 string
  • stereotype_origin_langs: 数据类型为 sequence: string
  • stereotype_valid_langs: 数据类型为 sequence: string
  • stereotype_valid_regions: 数据类型为 sequence: string
  • stereotyped_group: 数据类型为 string
  • ar_biased_sentence: 数据类型为 string
  • ar_biased_template: 数据类型为 null
  • ar_is_expression: 数据类型为 string
  • ar_comments: 数据类型为 string
  • ar_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • ar_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • bn_biased_sentence: 数据类型为 string
  • bn_biased_template: 数据类型为 string
  • bn_is_expression: 数据类型为 string
  • bn_comments: 数据类型为 null
  • bn_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • bn_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • pt_br_biased_sentence: 数据类型为 string
  • pt_br_biased_template: 数据类型为 string
  • pt_br_is_expression: 数据类型为 string
  • pt_br_comments: 数据类型为 string
  • pt_br_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • pt_br_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • zh_biased_sentence: 数据类型为 string
  • zh_biased_template: 数据类型为 null
  • zh_is_expression: 数据类型为 string
  • zh_comments: 数据类型为 string
  • zh_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • zh_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • zh_hant_biased_sentence: 数据类型为 string
  • zh_hant_biased_template: 数据类型为 null
  • zh_hant_is_expression: 数据类型为 string
  • zh_hant_comments: 数据类型为 string
  • zh_hant_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • zh_hant_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • nl_biased_sentence: 数据类型为 string
  • nl_biased_template: 数据类型为 string
  • nl_is_expression: 数据类型为 string
  • nl_comments: 数据类型为 string
  • nl_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • nl_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • en_biased_sentence: 数据类型为 string
  • en_biased_template: 数据类型为 string
  • en_is_expression: 数据类型为 string
  • en_comments: 数据类型为 string
  • en_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • en_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • fr_biased_sentence: 数据类型为 string
  • fr_biased_template: 数据类型为 string
  • fr_is_expression: 数据类型为 null
  • fr_comments: 数据类型为 string
  • fr_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • fr_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • de_biased_sentence: 数据类型为 string
  • de_biased_template: 数据类型为 string
  • de_is_expression: 数据类型为 string
  • de_comments: 数据类型为 string
  • de_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • de_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • hi_biased_sentence: 数据类型为 string
  • hi_biased_template: 数据类型为 string
  • hi_is_expression: 数据类型为 string
  • hi_comments: 数据类型为 string
  • hi_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • hi_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • it_biased_sentence: 数据类型为 string
  • it_biased_template: 数据类型为 string
  • it_is_expression: 数据类型为 null
  • it_comments: 数据类型为 null
  • it_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • it_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • mr_biased_sentence: 数据类型为 string
  • mr_biased_template: 数据类型为 string
  • mr_is_expression: 数据类型为 null
  • mr_comments: 数据类型为 string
  • mr_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • mr_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • pl_biased_sentence: 数据类型为 string
  • pl_biased_template: 数据类型为 string
  • pl_is_expression: 数据类型为 string
  • pl_comments: 数据类型为 null
  • pl_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • pl_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • ro_biased_sentence: 数据类型为 string
  • ro_biased_template: 数据类型为 string
  • ro_is_expression: 数据类型为 null
  • ro_comments: 数据类型为 string
  • ro_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • ro_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • ru_biased_sentence: 数据类型为 string
  • ru_biased_template: 数据类型为 string
  • ru_is_expression: 数据类型为 string
  • ru_comments: 数据类型为 string
  • ru_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • ru_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64
  • es_biased_sentence: 数据类型为 string
  • es_biased_template: 数据类型为 string
  • es_is_expression: 数据类型为 null
  • es_comments: 数据类型为 string
  • es_tokens_Qwen_Qwen2-7B: 数据类型为 sequence: string
  • es_logprob_Qwen_Qwen2-7B: 数据类型为 sequence: float64

数据集分割

  • test: 包含 651 个样本,总字节数为 3633161

数据集大小

  • 下载大小: 1367176 字节
  • 数据集大小: 3633161 字节

配置

  • config_name: default
    • data_files:
      • split: test
      • path: data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作