five

jordiclive/test-shades

收藏
Hugging Face2024-06-12 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/jordiclive/test-shades
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言(如英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语)的偏见句子及其相关注释。数据集的特征包括偏见类型、偏见句子的模板、偏见句子、评论、表达方式等。数据集的分割为测试集,包含666个样本,文件大小为637910字节。

该数据集包含多种语言(如英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语)的偏见句子及其相关注释。数据集的特征包括偏见类型、偏见句子的模板、偏见句子、评论、表达方式等。数据集的分割为测试集,包含666个样本,文件大小为637910字节。
提供机构:
jordiclive
原始信息汇总

数据集概述

数据集特征

数据集包含以下特征:

  • index: 类型为字符串。
  • bias_type: 序列类型为字符串。
  • stereotype_origin_langs: 序列类型为字符串。
  • stereotype_valid_langs: 序列类型为字符串。
  • stereotype_valid_regions: 序列类型为字符串。
  • stereotyped_group: 类型为字符串。
  • en_template: 类型为字符串。
  • en_biased_sentence: 类型为字符串。
  • en_comment: 类型为字符串。
  • fr_template: 类型为字符串。
  • fr_biased_sentence: 类型为字符串。
  • fr_expression: 类型为浮点数(float64)。
  • fr_comment: 类型为字符串。
  • ro_template: 类型为字符串。
  • Romanian: Biased Sentences: 类型为字符串。
  • ro_expression: 类型为浮点数(float64)。
  • ro_comment: 类型为字符串。
  • ar_template: 类型为浮点数(float64)。
  • ar_biased_sentence: 类型为字符串。
  • Arabic: Comment: 类型为字符串。
  • ar_perceived_stereotype: 类型为字符串。
  • Arabic: Is this a saying?: 类型为浮点数(float64)。
  • bn_template: 类型为浮点数(float64)。
  • bn_biased_sentence: 类型为字符串。
  • Bengali: Comments: 类型为浮点数(float64)。
  • bn_perceived_stereotype: 类型为字符串。
  • Bengali: Is this a saying?: 类型为浮点数(float64)。
  • zh_template: 类型为浮点数(float64)。
  • zh_biased_sentence: 类型为字符串。
  • zh_expression: 类型为字符串。
  • Chinese: Comment: 类型为字符串。
  • zh_hant_biased_sentence: 类型为字符串。
  • zh_hk_expression: 类型为字符串。
  • Traditional Chinese: Comment: 类型为字符串。
  • nl_template: 类型为字符串。
  • nl_biased_sentence: 类型为字符串。
  • nl_expression: 类型为字符串。
  • Dutch: Comment: 类型为字符串。
  • Is this stereotype perceived in the nederlands?: 类型为字符串。
  • hi_template: 类型为字符串。
  • hi_biased_sentence: 类型为字符串。
  • Hindi: Is this a saying?: 类型为浮点数(float64)。
  • Hindi: Comments: 类型为浮点数(float64)。
  • mr_template: 类型为字符串。
  • mr_biased_sentence: 类型为字符串。
  • Marathi: Is this a saying?: 类型为浮点数(float64)。
  • hi_perceived_stereotype: 类型为字符串。
  • ru_template: 类型为字符串。
  • ru_biased_sentence: 类型为字符串。
  • Russian: Comments: 类型为字符串。
  • ru_expression: 类型为字符串。
  • de_template: 类型为字符串。
  • de_biased_sentence: 类型为字符串。
  • German: Comments: 类型为字符串。
  • de_expression: 类型为字符串。
  • it_template: 类型为字符串。
  • it_biased_sentence: 类型为字符串。
  • Italian: Is this a saying?: 类型为浮点数(float64)。
  • pl_template: 类型为字符串。
  • pl_biased_sentence: 类型为字符串。
  • Polish: Comments: 类型为字符串。
  • pl_expression: 类型为字符串。
  • pt_br_template: 类型为字符串。
  • pt_br_biased_sentence: 类型为字符串。
  • Brazilian Portuguese: Comments: 类型为字符串。
  • pt_br_expression: 类型为字符串。
  • Spanish: Templates: 类型为浮点数(float64)。
  • es_biased_sentence: 类型为字符串。
  • Spanish: Comments: 类型为字符串。
  • es_expression: 类型为浮点数(float64)。

数据集分割

数据集包含一个分割:

  • test: 包含666个样本,占用637910字节。

数据集大小

  • 下载大小: 254088字节
  • 数据集大小: 637910字节

配置

  • config_name: default
    • data_files:
      • split: test
        • path: data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作