five

tresiwalde/lou

收藏
Hugging Face2024-07-04 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/tresiwalde/lou
下载链接
链接失效反馈
官方服务:
资源简介:
`Lou` 数据集提供七个德语分类任务实例的性别公平重构版本,包括情感分析、立场检测、事实主张检测、吸引性检测、仇恨言论检测和毒性检测等任务。数据集基于CC BY-NC 4.0许可证,适用于非商业用途。重构策略包括二元性别包容、所有性别包容、性别中性化和Neosystem等六种方法,旨在提供性别包容和性别中性的文本重构。

The `Lou` dataset provides gender-fair reformulations for instances from seven German classification tasks, including sentiment analysis, stance detection, fact-claiming detection, engaging detection, hate speech detection, and toxicity detection. The dataset is intended for non-commercial use and is licensed under the CC BY-NC 4.0 license. The reformulation strategies include binary gender inclusion, all gender inclusion, gender neutralization, and Neosystem, aiming to provide gender-inclusive and gender-neutral text reformulations.
提供机构:
tresiwalde
原始信息汇总

Lou 数据集

概述

  • 许可证: CC BY-NC 4.0
  • 语言: 德语
  • 标签: 性别公平语言
  • 数据规模: n<1K

配置

  • germeval-toxic:
    • 分割: 测试
    • 路径: "germeval-toxic.jsonl"
  • germeval-factclaiming:
    • 分割: 测试
    • 路径: "germeval-factclaiming.jsonl"
  • germeval-engaging:
    • 分割: 测试
    • 路径: "germeval-engaging.jsonl"
  • x-stance-de:
    • 分割: 测试
    • 路径: "x-stance-de.jsonl"

任务和数据

  • 任务: 包括七个任务(情感分析、立场检测、事实声明检测、吸引性检测、仇恨言论检测和毒性检测)。
  • 数据来源: 来自 X-StanceGermEval-2021DeTox 数据集。
  • DeTox 数据: 需要访问完整版本的 DeTox 数据集,未包含在此公共仓库中。

重构策略

  • 二元性别包容 (Doppelnennung): 明确提及女性和男性,忽略其他性别。
  • 全性别包容 (GenderStern, GenderDoppelpunkt, GenderGap): 明确提及所有性别,包括无性别、非二元性别或半性别。
  • 性别中性化 (Neutral): 避免提及特定性别,使用中性术语。
  • 新系统 (De-e): 使用第四性别,包括新的代词、冠词和后缀,避免提及特定性别。

参考文献

@misc{waldis2024-lou, title={The Lou Dataset - Exploring the Impact of Gender-Fair Language in German Text Classification}, author={Andreas Waldis and Joel Birrer and Anne Lauscher and Iryna Gurevych}, year={2024} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作