diversifix/inclusive_words
收藏Hugging Face2022-09-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/diversifix/inclusive_words
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含德语中的排他性词汇和短语及其对应的包容性替代词汇和短语。数据集主要关注性别包容性,因为性别排他性在德语中非常普遍。数据集结构包括排他性词汇(`exclusive`)、对应的包容性词汇(`inclusive`)、适用性(`applicable`)、包容性词汇的性别属性(`gender_of_inclusive`)以及来源(`source`)。数据集没有训练/测试集划分,仅包含一个训练集。数据集的来源包括Geschickt Gendern、DeReKo和Diversifix,分别具有不同的许可证。数据集存在一定的偏见,例如某些国家的词汇在数据集中更为常见。
提供机构:
diversifix
原始信息汇总
数据集概述
数据集名称
Inclusive words in German
数据集内容
- 描述: 包含德语中排他性语言与包容性语言的词组对。
- 重点: 目前主要关注性别包容性,因为性别排斥在德语中非常普遍。
数据集结构
- 数据类型: 仅包含“训练”数据集。
- 字段:
exclusive: 排他性词组,通常为单数形式,特别是语法上的阳性词组。inclusive: 对应的包容性词组,可替换排他性词组,可能仅适用于特定上下文。applicable: 指定包容性词组应出现的语法数,包括in_singular、in_plural或always。gender_of_inclusive: 包容性词组的性别属性,包括neutral或female。source: 词组来源,包括geschicktgendern、dereko和diversifix。
数据集偏差
- 描述: 从
dereko源提取的词组根据其在语料库中的频率进行选择,可能导致某些国家或群体的代表性不足。
许可证
- 类型: 混合许可证,部分数据仅限非商业使用。



