five

diversifix/inclusive_words

收藏
Hugging Face2022-09-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/diversifix/inclusive_words
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含德语中的排他性词汇和短语及其对应的包容性替代词汇和短语。数据集主要关注性别包容性,因为性别排他性在德语中非常普遍。数据集结构包括排他性词汇(`exclusive`)、对应的包容性词汇(`inclusive`)、适用性(`applicable`)、包容性词汇的性别属性(`gender_of_inclusive`)以及来源(`source`)。数据集没有训练/测试集划分,仅包含一个训练集。数据集的来源包括Geschickt Gendern、DeReKo和Diversifix,分别具有不同的许可证。数据集存在一定的偏见,例如某些国家的词汇在数据集中更为常见。
提供机构:
diversifix
原始信息汇总

数据集概述

数据集名称

Inclusive words in German

数据集内容

  • 描述: 包含德语中排他性语言与包容性语言的词组对。
  • 重点: 目前主要关注性别包容性,因为性别排斥在德语中非常普遍。

数据集结构

  • 数据类型: 仅包含“训练”数据集。
  • 字段:
    • exclusive: 排他性词组,通常为单数形式,特别是语法上的阳性词组。
    • inclusive: 对应的包容性词组,可替换排他性词组,可能仅适用于特定上下文。
    • applicable: 指定包容性词组应出现的语法数,包括in_singularin_pluralalways
    • gender_of_inclusive: 包容性词组的性别属性,包括neutralfemale
    • source: 词组来源,包括geschicktgendernderekodiversifix

数据集偏差

  • 描述: 从dereko源提取的词组根据其在语料库中的频率进行选择,可能导致某些国家或群体的代表性不足。

许可证

  • 类型: 混合许可证,部分数据仅限非商业使用。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作