five

LanguageShades/BiasShadesBaseEval_bigscience_bloom-7b1

收藏
Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/LanguageShades/BiasShadesBaseEval_bigscience_bloom-7b1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多语言偏见句子及其相关信息,涵盖了多种语言的偏见类型、偏见来源语言、偏见有效语言、偏见有效地区、被刻板印象的群体、偏见句子、偏见模板、是否为表达、评论、以及使用bigscience_bloom-7b1模型生成的token和logprob等信息。数据集包含阿拉伯语、孟加拉语、葡萄牙语、中文、荷兰语、英语、法语、德语、印地语、意大利语、马拉地语、波兰语、罗马尼亚语、俄语和西班牙语等多种语言。数据集的分割为测试集,包含120个样本,文件大小为500120字节。

该数据集包含多语言偏见句子及其相关信息,涵盖了多种语言的偏见类型、偏见来源语言、偏见有效语言、偏见有效地区、被刻板印象的群体、偏见句子、偏见模板、是否为表达、评论、以及使用bigscience_bloom-7b1模型生成的token和logprob等信息。数据集包含阿拉伯语、孟加拉语、葡萄牙语、中文、荷兰语、英语、法语、德语、印地语、意大利语、马拉地语、波兰语、罗马尼亚语、俄语和西班牙语等多种语言。数据集的分割为测试集,包含120个样本,文件大小为500120字节。
提供机构:
LanguageShades
原始信息汇总

数据集概述

数据集特征

  • index: 数据索引,数据类型为 float64
  • subset: 数据子集,数据类型为 string
  • bias_type: 偏见类型,数据类型为 string
  • stereotype_origin_langs: 刻板印象起源语言,数据类型为 sequence: string
  • stereotype_valid_langs: 刻板印象有效语言,数据类型为 sequence: string
  • stereotype_valid_regions: 刻板印象有效区域,数据类型为 sequence: string
  • stereotyped_group: 刻板印象群体,数据类型为 string
  • ar_biased_sentence: 阿拉伯语偏见句子,数据类型为 string
  • ar_biased_template: 阿拉伯语偏见模板,数据类型为 null
  • ar_is_expression: 阿拉伯语是否表达,数据类型为 null
  • ar_comments: 阿拉伯语评论,数据类型为 string
  • ar_tokens_bigscience_bloom-7b1: 阿拉伯语标记,数据类型为 sequence: string
  • ar_logprob_bigscience_bloom-7b1: 阿拉伯语对数概率,数据类型为 sequence: float64
  • bn_biased_sentence: 孟加拉语偏见句子,数据类型为 string
  • bn_biased_template: 孟加拉语偏见模板,数据类型为 string
  • bn_is_expression: 孟加拉语是否表达,数据类型为 string
  • bn_comments: 孟加拉语评论,数据类型为 null
  • bn_tokens_bigscience_bloom-7b1: 孟加拉语标记,数据类型为 sequence: string
  • bn_logprob_bigscience_bloom-7b1: 孟加拉语对数概率,数据类型为 sequence: float64
  • pt_br_biased_sentence: 巴西葡萄牙语偏见句子,数据类型为 string
  • pt_br_biased_template: 巴西葡萄牙语偏见模板,数据类型为 string
  • pt_br_is_expression: 巴西葡萄牙语是否表达,数据类型为 string
  • pt_br_comments: 巴西葡萄牙语评论,数据类型为 string
  • pt_br_tokens_bigscience_bloom-7b1: 巴西葡萄牙语标记,数据类型为 sequence: string
  • pt_br_logprob_bigscience_bloom-7b1: 巴西葡萄牙语对数概率,数据类型为 sequence: float64
  • zh_biased_sentence: 中文偏见句子,数据类型为 string
  • zh_biased_template: 中文偏见模板,数据类型为 null
  • zh_is_expression: 中文是否表达,数据类型为 string
  • zh_comments: 中文评论,数据类型为 string
  • zh_tokens_bigscience_bloom-7b1: 中文标记,数据类型为 sequence: string
  • zh_logprob_bigscience_bloom-7b1: 中文对数概率,数据类型为 sequence: float64
  • zh_hant_biased_sentence: 繁体中文偏见句子,数据类型为 string
  • zh_hant_biased_template: 繁体中文偏见模板,数据类型为 null
  • zh_hant_is_expression: 繁体中文是否表达,数据类型为 string
  • zh_hant_comments: 繁体中文评论,数据类型为 string
  • zh_hant_tokens_bigscience_bloom-7b1: 繁体中文标记,数据类型为 sequence: string
  • zh_hant_logprob_bigscience_bloom-7b1: 繁体中文对数概率,数据类型为 sequence: float64
  • nl_biased_sentence: 荷兰语偏见句子,数据类型为 string
  • nl_biased_template: 荷兰语偏见模板,数据类型为 string
  • nl_is_expression: 荷兰语是否表达,数据类型为 null
  • nl_comments: 荷兰语评论,数据类型为 string
  • nl_tokens_bigscience_bloom-7b1: 荷兰语标记,数据类型为 sequence: string
  • nl_logprob_bigscience_bloom-7b1: 荷兰语对数概率,数据类型为 sequence: float64
  • en_biased_sentence: 英语偏见句子,数据类型为 string
  • en_biased_template: 英语偏见模板,数据类型为 string
  • en_is_expression: 英语是否表达,数据类型为 null
  • en_comments: 英语评论,数据类型为 string
  • en_tokens_bigscience_bloom-7b1: 英语标记,数据类型为 sequence: string
  • en_logprob_bigscience_bloom-7b1: 英语对数概率,数据类型为 sequence: float64
  • fr_biased_sentence: 法语偏见句子,数据类型为 string
  • fr_biased_template: 法语偏见模板,数据类型为 string
  • fr_is_expression: 法语是否表达,数据类型为 null
  • fr_comments: 法语评论,数据类型为 string
  • fr_tokens_bigscience_bloom-7b1: 法语标记,数据类型为 sequence: string
  • fr_logprob_bigscience_bloom-7b1: 法语对数概率,数据类型为 sequence: float64
  • de_biased_sentence: 德语偏见句子,数据类型为 string
  • de_biased_template: 德语偏见模板,数据类型为 string
  • de_is_expression: 德语是否表达,数据类型为 null
  • de_comments: 德语评论,数据类型为 null
  • de_tokens_bigscience_bloom-7b1: 德语标记,数据类型为 sequence: string
  • de_logprob_bigscience_bloom-7b1: 德语对数概率,数据类型为 sequence: float64
  • hi_biased_sentence: 印地语偏见句子,数据类型为 string
  • hi_biased_template: 印地语偏见模板,数据类型为 string
  • hi_is_expression: 印地语是否表达,数据类型为 string
  • hi_comments: 印地语评论,数据类型为 string
  • hi_tokens_bigscience_bloom-7b1: 印地语标记,数据类型为 sequence: string
  • hi_logprob_bigscience_bloom-7b1: 印地语对数概率,数据类型为 sequence: float64
  • it_biased_sentence: 意大利语偏见句子,数据类型为 string
  • it_biased_template: 意大利语偏见模板,数据类型为 string
  • it_is_expression: 意大利语是否表达,数据类型为 null
  • it_comments: 意大利语评论,数据类型为 null
  • it_tokens_bigscience_bloom-7b1: 意大利语标记,数据类型为 sequence: string
  • it_logprob_bigscience_bloom-7b1: 意大利语对数概率,数据类型为 sequence: float64
  • mr_biased_sentence: 马拉地语偏见句子,数据类型为 string
  • mr_biased_template: 马拉地语偏见模板,数据类型为 string
  • mr_is_expression: 马拉地语是否表达,数据类型为 null
  • mr_comments: 马拉地语评论,数据类型为 string
  • mr_tokens_bigscience_bloom-7b1: 马拉地语标记,数据类型为 sequence: string
  • mr_logprob_bigscience_bloom-7b1: 马拉地语对数概率,数据类型为 sequence: float64
  • pl_biased_sentence: 波兰语偏见句子,数据类型为 string
  • pl_biased_template: 波兰语偏见模板,数据类型为 string
  • pl_is_expression: 波兰语是否表达,数据类型为 null
  • pl_comments: 波兰语评论,数据类型为 null
  • pl_tokens_bigscience_bloom-7b1: 波兰语标记,数据类型为 sequence: string
  • pl_logprob_bigscience_bloom-7b1: 波兰语对数概率,数据类型为 sequence: float64
  • ro_biased_sentence: 罗马尼亚语偏见句子,数据类型为 string
  • ro_biased_template: 罗马尼亚语偏见模板,数据类型为 string
  • ro_is_expression: 罗马尼亚语是否表达,数据类型为 null
  • ro_comments: 罗马尼亚语评论,数据类型为 string
  • ro_tokens_bigscience_bloom-7b1: 罗马尼亚语标记,数据类型为 sequence: string
  • ro_logprob_bigscience_bloom-7b1: 罗马尼亚语对数概率,数据类型为 sequence: float64
  • ru_biased_sentence: 俄语偏见句子,数据类型为 string
  • ru_biased_template: 俄语偏见模板,数据类型为 string
  • ru_is_expression: 俄语是否表达,数据类型为 null
  • ru_comments: 俄语评论,数据类型为 string
  • ru_tokens_bigscience_bloom-7b1: 俄语标记,数据类型为 sequence: string
  • ru_logprob_bigscience_bloom-7b1: 俄语对数概率,数据类型为 sequence: float64
  • es_biased_sentence: 西班牙语偏见句子,数据类型为 string
  • es_biased_template: 西班牙语偏见模板,数据类型为 string
  • es_is_expression: 西班牙语是否表达,数据类型为 null
  • es_comments: 西班牙语评论,数据类型为 string
  • es_tokens_bigscience_bloom-7b1: 西班牙语标记,数据类型为 sequence: string
  • es_logprob_bigscience_bloom-7b1: 西班牙语对数概率,数据类型为 sequence: float64

数据集分割

  • test: 测试集,包含 120 个样本,总字节数为 500120。

数据集大小

  • 下载大小: 270855 字节。
  • 数据集大小: 500120 字节。

配置

  • config_name: default
    • data_files:
      • split: test
      • path: data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作