jordiclive/test-shades
收藏Hugging Face2024-06-12 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/jordiclive/test-shades
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言(如英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语)的偏见句子及其相关注释。数据集的特征包括偏见类型、偏见句子的模板、偏见句子、评论、表达方式等。数据集的分割为测试集,包含666个样本,文件大小为637910字节。
该数据集包含多种语言(如英语、法语、罗马尼亚语、阿拉伯语、孟加拉语、中文、荷兰语、印地语、马拉地语、俄语、德语、意大利语、波兰语、巴西葡萄牙语和西班牙语)的偏见句子及其相关注释。数据集的特征包括偏见类型、偏见句子的模板、偏见句子、评论、表达方式等。数据集的分割为测试集,包含666个样本,文件大小为637910字节。
提供机构:
jordiclive
原始信息汇总
数据集概述
数据集特征
数据集包含以下特征:
- index: 类型为字符串。
- bias_type: 序列类型为字符串。
- stereotype_origin_langs: 序列类型为字符串。
- stereotype_valid_langs: 序列类型为字符串。
- stereotype_valid_regions: 序列类型为字符串。
- stereotyped_group: 类型为字符串。
- en_template: 类型为字符串。
- en_biased_sentence: 类型为字符串。
- en_comment: 类型为字符串。
- fr_template: 类型为字符串。
- fr_biased_sentence: 类型为字符串。
- fr_expression: 类型为浮点数(float64)。
- fr_comment: 类型为字符串。
- ro_template: 类型为字符串。
- Romanian: Biased Sentences: 类型为字符串。
- ro_expression: 类型为浮点数(float64)。
- ro_comment: 类型为字符串。
- ar_template: 类型为浮点数(float64)。
- ar_biased_sentence: 类型为字符串。
- Arabic: Comment: 类型为字符串。
- ar_perceived_stereotype: 类型为字符串。
- Arabic: Is this a saying?: 类型为浮点数(float64)。
- bn_template: 类型为浮点数(float64)。
- bn_biased_sentence: 类型为字符串。
- Bengali: Comments: 类型为浮点数(float64)。
- bn_perceived_stereotype: 类型为字符串。
- Bengali: Is this a saying?: 类型为浮点数(float64)。
- zh_template: 类型为浮点数(float64)。
- zh_biased_sentence: 类型为字符串。
- zh_expression: 类型为字符串。
- Chinese: Comment: 类型为字符串。
- zh_hant_biased_sentence: 类型为字符串。
- zh_hk_expression: 类型为字符串。
- Traditional Chinese: Comment: 类型为字符串。
- nl_template: 类型为字符串。
- nl_biased_sentence: 类型为字符串。
- nl_expression: 类型为字符串。
- Dutch: Comment: 类型为字符串。
- Is this stereotype perceived in the nederlands?: 类型为字符串。
- hi_template: 类型为字符串。
- hi_biased_sentence: 类型为字符串。
- Hindi: Is this a saying?: 类型为浮点数(float64)。
- Hindi: Comments: 类型为浮点数(float64)。
- mr_template: 类型为字符串。
- mr_biased_sentence: 类型为字符串。
- Marathi: Is this a saying?: 类型为浮点数(float64)。
- hi_perceived_stereotype: 类型为字符串。
- ru_template: 类型为字符串。
- ru_biased_sentence: 类型为字符串。
- Russian: Comments: 类型为字符串。
- ru_expression: 类型为字符串。
- de_template: 类型为字符串。
- de_biased_sentence: 类型为字符串。
- German: Comments: 类型为字符串。
- de_expression: 类型为字符串。
- it_template: 类型为字符串。
- it_biased_sentence: 类型为字符串。
- Italian: Is this a saying?: 类型为浮点数(float64)。
- pl_template: 类型为字符串。
- pl_biased_sentence: 类型为字符串。
- Polish: Comments: 类型为字符串。
- pl_expression: 类型为字符串。
- pt_br_template: 类型为字符串。
- pt_br_biased_sentence: 类型为字符串。
- Brazilian Portuguese: Comments: 类型为字符串。
- pt_br_expression: 类型为字符串。
- Spanish: Templates: 类型为浮点数(float64)。
- es_biased_sentence: 类型为字符串。
- Spanish: Comments: 类型为字符串。
- es_expression: 类型为浮点数(float64)。
数据集分割
数据集包含一个分割:
- test: 包含666个样本,占用637910字节。
数据集大小
- 下载大小: 254088字节
- 数据集大小: 637910字节
配置
- config_name: default
- data_files:
- split: test
- path: data/test-*
- split: test
- data_files:



