jordiclive/test-shades

Name: jordiclive/test-shades
Creator: jordiclive
Published: 2024-06-12 09:35:01
License: 暂无描述

Hugging Face2024-06-12 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/jordiclive/test-shades

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言（如英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语）的偏见句子及其相关注释。数据集的特征包括偏见类型、偏见句子的模板、偏见句子、评论、表达方式等。数据集的分割为测试集，包含666个样本，文件大小为637910字节。

提供机构：

jordiclive

原始信息汇总

数据集概述

数据集特征

数据集包含以下特征：

index: 类型为字符串。
bias_type: 序列类型为字符串。
stereotype_origin_langs: 序列类型为字符串。
stereotype_valid_langs: 序列类型为字符串。
stereotype_valid_regions: 序列类型为字符串。
stereotyped_group: 类型为字符串。
en_template: 类型为字符串。
en_biased_sentence: 类型为字符串。
en_comment: 类型为字符串。
fr_template: 类型为字符串。
fr_biased_sentence: 类型为字符串。
fr_expression: 类型为浮点数（float64）。
fr_comment: 类型为字符串。
ro_template: 类型为字符串。
Romanian: Biased Sentences: 类型为字符串。
ro_expression: 类型为浮点数（float64）。
ro_comment: 类型为字符串。
ar_template: 类型为浮点数（float64）。
ar_biased_sentence: 类型为字符串。
Arabic: Comment: 类型为字符串。
ar_perceived_stereotype: 类型为字符串。
Arabic: Is this a saying?: 类型为浮点数（float64）。
bn_template: 类型为浮点数（float64）。
bn_biased_sentence: 类型为字符串。
Bengali: Comments: 类型为浮点数（float64）。
bn_perceived_stereotype: 类型为字符串。
Bengali: Is this a saying?: 类型为浮点数（float64）。
zh_template: 类型为浮点数（float64）。
zh_biased_sentence: 类型为字符串。
zh_expression: 类型为字符串。
Chinese: Comment: 类型为字符串。
zh_hant_biased_sentence: 类型为字符串。
zh_hk_expression: 类型为字符串。
Traditional Chinese: Comment: 类型为字符串。
nl_template: 类型为字符串。
nl_biased_sentence: 类型为字符串。
nl_expression: 类型为字符串。
Dutch: Comment: 类型为字符串。
Is this stereotype perceived in the nederlands?: 类型为字符串。
hi_template: 类型为字符串。
hi_biased_sentence: 类型为字符串。
Hindi: Is this a saying?: 类型为浮点数（float64）。
Hindi: Comments: 类型为浮点数（float64）。
mr_template: 类型为字符串。
mr_biased_sentence: 类型为字符串。
Marathi: Is this a saying?: 类型为浮点数（float64）。
hi_perceived_stereotype: 类型为字符串。
ru_template: 类型为字符串。
ru_biased_sentence: 类型为字符串。
Russian: Comments: 类型为字符串。
ru_expression: 类型为字符串。
de_template: 类型为字符串。
de_biased_sentence: 类型为字符串。
German: Comments: 类型为字符串。
de_expression: 类型为字符串。
it_template: 类型为字符串。
it_biased_sentence: 类型为字符串。
Italian: Is this a saying?: 类型为浮点数（float64）。
pl_template: 类型为字符串。
pl_biased_sentence: 类型为字符串。
Polish: Comments: 类型为字符串。
pl_expression: 类型为字符串。
pt_br_template: 类型为字符串。
pt_br_biased_sentence: 类型为字符串。
Brazilian Portuguese: Comments: 类型为字符串。
pt_br_expression: 类型为字符串。
Spanish: Templates: 类型为浮点数（float64）。
es_biased_sentence: 类型为字符串。
Spanish: Comments: 类型为字符串。
es_expression: 类型为浮点数（float64）。

数据集分割

数据集包含一个分割：

test: 包含666个样本，占用637910字节。

数据集大小

下载大小: 254088字节
数据集大小: 637910字节

配置

config_name: default
- data_files:
  - split: test
    - path: data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集