five

LanguageShades/BiasShadesBaseEvalDebug

收藏
Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/LanguageShades/BiasShadesBaseEvalDebug
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: index dtype: float64 - name: subset dtype: string - name: bias_type dtype: string - name: stereotype_origin_langs sequence: string - name: stereotype_valid_langs sequence: string - name: stereotype_valid_regions sequence: string - name: stereotyped_group dtype: string - name: ar_biased_sentence dtype: string - name: ar_biased_template dtype: 'null' - name: ar_is_expression dtype: 'null' - name: ar_comments dtype: string - name: ar_tokens_bigscience_bloom-7b1 sequence: string - name: ar_logprob_bigscience_bloom-7b1 sequence: float64 - name: bn_biased_sentence dtype: string - name: bn_biased_template dtype: 'null' - name: bn_is_expression dtype: string - name: bn_comments dtype: 'null' - name: bn_tokens_bigscience_bloom-7b1 sequence: string - name: bn_logprob_bigscience_bloom-7b1 sequence: float64 - name: pt_br_biased_sentence dtype: string - name: pt_br_biased_template dtype: string - name: pt_br_is_expression dtype: string - name: pt_br_comments dtype: string - name: pt_br_tokens_bigscience_bloom-7b1 sequence: string - name: pt_br_logprob_bigscience_bloom-7b1 sequence: float64 - name: zh_biased_sentence dtype: string - name: zh_biased_template dtype: 'null' - name: zh_is_expression dtype: string - name: zh_comments dtype: string - name: zh_tokens_bigscience_bloom-7b1 sequence: string - name: zh_logprob_bigscience_bloom-7b1 sequence: float64 - name: zh_hant_biased_sentence dtype: string - name: zh_hant_biased_template dtype: 'null' - name: zh_hant_is_expression dtype: string - name: zh_hant_comments dtype: string - name: zh_hant_tokens_bigscience_bloom-7b1 sequence: string - name: zh_hant_logprob_bigscience_bloom-7b1 sequence: float64 - name: nl_biased_sentence dtype: string - name: nl_biased_template dtype: string - name: nl_is_expression dtype: string - name: nl_comments dtype: string - name: nl_tokens_bigscience_bloom-7b1 sequence: string - name: nl_logprob_bigscience_bloom-7b1 sequence: float64 - name: en_biased_sentence dtype: string - name: en_biased_template dtype: string - name: en_is_expression dtype: string - name: en_comments dtype: string - name: en_tokens_bigscience_bloom-7b1 sequence: string - name: en_logprob_bigscience_bloom-7b1 sequence: float64 - name: fr_biased_sentence dtype: string - name: fr_biased_template dtype: string - name: fr_is_expression dtype: 'null' - name: fr_comments dtype: string - name: fr_tokens_bigscience_bloom-7b1 sequence: string - name: fr_logprob_bigscience_bloom-7b1 sequence: float64 - name: de_biased_sentence dtype: string - name: de_biased_template dtype: string - name: de_is_expression dtype: 'null' - name: de_comments dtype: 'null' - name: de_tokens_bigscience_bloom-7b1 sequence: string - name: de_logprob_bigscience_bloom-7b1 sequence: float64 - name: hi_biased_sentence dtype: string - name: hi_biased_template dtype: string - name: hi_is_expression dtype: 'null' - name: hi_comments dtype: string - name: hi_tokens_bigscience_bloom-7b1 sequence: string - name: hi_logprob_bigscience_bloom-7b1 sequence: float64 - name: it_biased_sentence dtype: string - name: it_biased_template dtype: string - name: it_is_expression dtype: 'null' - name: it_comments dtype: 'null' - name: it_tokens_bigscience_bloom-7b1 sequence: string - name: it_logprob_bigscience_bloom-7b1 sequence: float64 - name: mr_biased_sentence dtype: string - name: mr_biased_template dtype: string - name: mr_is_expression dtype: 'null' - name: mr_comments dtype: 'null' - name: mr_tokens_bigscience_bloom-7b1 sequence: string - name: mr_logprob_bigscience_bloom-7b1 sequence: float64 - name: pl_biased_sentence dtype: string - name: pl_biased_template dtype: string - name: pl_is_expression dtype: 'null' - name: pl_comments dtype: 'null' - name: pl_tokens_bigscience_bloom-7b1 sequence: string - name: pl_logprob_bigscience_bloom-7b1 sequence: float64 - name: ro_biased_sentence dtype: string - name: ro_biased_template dtype: string - name: ro_is_expression dtype: 'null' - name: ro_comments dtype: string - name: ro_tokens_bigscience_bloom-7b1 sequence: string - name: ro_logprob_bigscience_bloom-7b1 sequence: float64 - name: ru_biased_sentence dtype: string - name: ru_biased_template dtype: string - name: ru_is_expression dtype: 'null' - name: ru_comments dtype: string - name: ru_tokens_bigscience_bloom-7b1 sequence: string - name: ru_logprob_bigscience_bloom-7b1 sequence: float64 - name: es_biased_sentence dtype: string - name: es_biased_template dtype: string - name: es_is_expression dtype: 'null' - name: es_comments dtype: string - name: es_tokens_bigscience_bloom-7b1 sequence: string - name: es_logprob_bigscience_bloom-7b1 sequence: float64 splits: - name: test num_bytes: 1866233 num_examples: 450 download_size: 745512 dataset_size: 1866233 configs: - config_name: default data_files: - split: test path: data/test-* ---
提供机构:
LanguageShades
原始信息汇总

数据集概述

数据集特征

  • index: 数据索引,数据类型为 float64
  • subset: 子集标识,数据类型为 string
  • bias_type: 偏见类型,数据类型为 string
  • stereotype_origin_langs: 刻板印象起源语言,数据类型为 sequence: string
  • stereotype_valid_langs: 刻板印象有效语言,数据类型为 sequence: string
  • stereotype_valid_regions: 刻板印象有效区域,数据类型为 sequence: string
  • stereotyped_group: 刻板印象群体,数据类型为 string
  • ar_biased_sentence: 阿拉伯语偏见句子,数据类型为 string
  • ar_biased_template: 阿拉伯语偏见模板,数据类型为 null
  • ar_is_expression: 阿拉伯语是否表达,数据类型为 null
  • ar_comments: 阿拉伯语评论,数据类型为 string
  • ar_tokens_bigscience_bloom-7b1: 阿拉伯语标记,数据类型为 sequence: string
  • ar_logprob_bigscience_bloom-7b1: 阿拉伯语对数概率,数据类型为 sequence: float64
  • bn_biased_sentence: 孟加拉语偏见句子,数据类型为 string
  • bn_biased_template: 孟加拉语偏见模板,数据类型为 null
  • bn_is_expression: 孟加拉语是否表达,数据类型为 string
  • bn_comments: 孟加拉语评论,数据类型为 null
  • bn_tokens_bigscience_bloom-7b1: 孟加拉语标记,数据类型为 sequence: string
  • bn_logprob_bigscience_bloom-7b1: 孟加拉语对数概率,数据类型为 sequence: float64
  • pt_br_biased_sentence: 巴西葡萄牙语偏见句子,数据类型为 string
  • pt_br_biased_template: 巴西葡萄牙语偏见模板,数据类型为 string
  • pt_br_is_expression: 巴西葡萄牙语是否表达,数据类型为 string
  • pt_br_comments: 巴西葡萄牙语评论,数据类型为 string
  • pt_br_tokens_bigscience_bloom-7b1: 巴西葡萄牙语标记,数据类型为 sequence: string
  • pt_br_logprob_bigscience_bloom-7b1: 巴西葡萄牙语对数概率,数据类型为 sequence: float64
  • zh_biased_sentence: 中文偏见句子,数据类型为 string
  • zh_biased_template: 中文偏见模板,数据类型为 null
  • zh_is_expression: 中文是否表达,数据类型为 string
  • zh_comments: 中文评论,数据类型为 string
  • zh_tokens_bigscience_bloom-7b1: 中文标记,数据类型为 sequence: string
  • zh_logprob_bigscience_bloom-7b1: 中文对数概率,数据类型为 sequence: float64
  • zh_hant_biased_sentence: 繁体中文偏见句子,数据类型为 string
  • zh_hant_biased_template: 繁体中文偏见模板,数据类型为 null
  • zh_hant_is_expression: 繁体中文是否表达,数据类型为 string
  • zh_hant_comments: 繁体中文评论,数据类型为 string
  • zh_hant_tokens_bigscience_bloom-7b1: 繁体中文标记,数据类型为 sequence: string
  • zh_hant_logprob_bigscience_bloom-7b1: 繁体中文对数概率,数据类型为 sequence: float64
  • nl_biased_sentence: 荷兰语偏见句子,数据类型为 string
  • nl_biased_template: 荷兰语偏见模板,数据类型为 string
  • nl_is_expression: 荷兰语是否表达,数据类型为 string
  • nl_comments: 荷兰语评论,数据类型为 string
  • nl_tokens_bigscience_bloom-7b1: 荷兰语标记,数据类型为 sequence: string
  • nl_logprob_bigscience_bloom-7b1: 荷兰语对数概率,数据类型为 sequence: float64
  • en_biased_sentence: 英语偏见句子,数据类型为 string
  • en_biased_template: 英语偏见模板,数据类型为 string
  • en_is_expression: 英语是否表达,数据类型为 string
  • en_comments: 英语评论,数据类型为 string
  • en_tokens_bigscience_bloom-7b1: 英语标记,数据类型为 sequence: string
  • en_logprob_bigscience_bloom-7b1: 英语对数概率,数据类型为 sequence: float64
  • fr_biased_sentence: 法语偏见句子,数据类型为 string
  • fr_biased_template: 法语偏见模板,数据类型为 string
  • fr_is_expression: 法语是否表达,数据类型为 null
  • fr_comments: 法语评论,数据类型为 string
  • fr_tokens_bigscience_bloom-7b1: 法语标记,数据类型为 sequence: string
  • fr_logprob_bigscience_bloom-7b1: 法语对数概率,数据类型为 sequence: float64
  • de_biased_sentence: 德语偏见句子,数据类型为 string
  • de_biased_template: 德语偏见模板,数据类型为 string
  • de_is_expression: 德语是否表达,数据类型为 null
  • de_comments: 德语评论,数据类型为 null
  • de_tokens_bigscience_bloom-7b1: 德语标记,数据类型为 sequence: string
  • de_logprob_bigscience_bloom-7b1: 德语对数概率,数据类型为 sequence: float64
  • hi_biased_sentence: 印地语偏见句子,数据类型为 string
  • hi_biased_template: 印地语偏见模板,数据类型为 string
  • hi_is_expression: 印地语是否表达,数据类型为 null
  • hi_comments: 印地语评论,数据类型为 string
  • hi_tokens_bigscience_bloom-7b1: 印地语标记,数据类型为 sequence: string
  • hi_logprob_bigscience_bloom-7b1: 印地语对数概率,数据类型为 sequence: float64
  • it_biased_sentence: 意大利语偏见句子,数据类型为 string
  • it_biased_template: 意大利语偏见模板,数据类型为 string
  • it_is_expression: 意大利语是否表达,数据类型为 null
  • it_comments: 意大利语评论,数据类型为 null
  • it_tokens_bigscience_bloom-7b1: 意大利语标记,数据类型为 sequence: string
  • it_logprob_bigscience_bloom-7b1: 意大利语对数概率,数据类型为 sequence: float64
  • mr_biased_sentence: 马拉地语偏见句子,数据类型为 string
  • mr_biased_template: 马拉地语偏见模板,数据类型为 string
  • mr_is_expression: 马拉地语是否表达,数据类型为 null
  • mr_comments: 马拉地语评论,数据类型为 null
  • mr_tokens_bigscience_bloom-7b1: 马拉地语标记,数据类型为 sequence: string
  • mr_logprob_bigscience_bloom-7b1: 马拉地语对数概率,数据类型为 sequence: float64
  • pl_biased_sentence: 波兰语偏见句子,数据类型为 string
  • pl_biased_template: 波兰语偏见模板,数据类型为 string
  • pl_is_expression: 波兰语是否表达,数据类型为 null
  • pl_comments: 波兰语评论,数据类型为 null
  • pl_tokens_bigscience_bloom-7b1: 波兰语标记,数据类型为 sequence: string
  • pl_logprob_bigscience_bloom-7b1: 波兰语对数概率,数据类型为 sequence: float64
  • ro_biased_sentence: 罗马尼亚语偏见句子,数据类型为 string
  • ro_biased_template: 罗马尼亚语偏见模板,数据类型为 string
  • ro_is_expression: 罗马尼亚语是否表达,数据类型为 null
  • ro_comments: 罗马尼亚语评论,数据类型为 string
  • ro_tokens_bigscience_bloom-7b1: 罗马尼亚语标记,数据类型为 sequence: string
  • ro_logprob_bigscience_bloom-7b1: 罗马尼亚语对数概率,数据类型为 sequence: float64
  • ru_biased_sentence: 俄语偏见句子,数据类型为 string
  • ru_biased_template: 俄语偏见模板,数据类型为 string
  • ru_is_expression: 俄语是否表达,数据类型为 null
  • ru_comments: 俄语评论,数据类型为 string
  • ru_tokens_bigscience_bloom-7b1: 俄语标记,数据类型为 sequence: string
  • ru_logprob_bigscience_bloom-7b1: 俄语对数概率,数据类型为 sequence: float64
  • es_biased_sentence: 西班牙语偏见句子,数据类型为 string
  • es_biased_template: 西班牙语偏见模板,数据类型为 string
  • es_is_expression: 西班牙语是否表达,数据类型为 null
  • es_comments: 西班牙语评论,数据类型为 string
  • es_tokens_bigscience_bloom-7b1: 西班牙语标记,数据类型为 sequence: string
  • es_logprob_bigscience_bloom-7b1: 西班牙语对数概率,数据类型为 sequence: float64

数据集分割

  • test: 测试集,包含 450 个样本,总字节数为 1866233。

数据集大小

  • 下载大小: 745512 字节。
  • 数据集大小: 1866233 字节。

配置

  • config_name: default
    • data_files:
      • split: test
      • path: data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作