tresiwalde/lou
收藏Hugging Face2024-07-04 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/tresiwalde/lou
下载链接
链接失效反馈官方服务:
资源简介:
`Lou` 数据集提供七个德语分类任务实例的性别公平重构版本,包括情感分析、立场检测、事实主张检测、吸引性检测、仇恨言论检测和毒性检测等任务。数据集基于CC BY-NC 4.0许可证,适用于非商业用途。重构策略包括二元性别包容、所有性别包容、性别中性化和Neosystem等六种方法,旨在提供性别包容和性别中性的文本重构。
The `Lou` dataset provides gender-fair reformulations for instances from seven German classification tasks, including sentiment analysis, stance detection, fact-claiming detection, engaging detection, hate speech detection, and toxicity detection. The dataset is intended for non-commercial use and is licensed under the CC BY-NC 4.0 license. The reformulation strategies include binary gender inclusion, all gender inclusion, gender neutralization, and Neosystem, aiming to provide gender-inclusive and gender-neutral text reformulations.
提供机构:
tresiwalde
原始信息汇总
Lou 数据集
概述
- 许可证: CC BY-NC 4.0
- 语言: 德语
- 标签: 性别公平语言
- 数据规模: n<1K
配置
- germeval-toxic:
- 分割: 测试
- 路径: "germeval-toxic.jsonl"
- germeval-factclaiming:
- 分割: 测试
- 路径: "germeval-factclaiming.jsonl"
- germeval-engaging:
- 分割: 测试
- 路径: "germeval-engaging.jsonl"
- x-stance-de:
- 分割: 测试
- 路径: "x-stance-de.jsonl"
任务和数据
- 任务: 包括七个任务(情感分析、立场检测、事实声明检测、吸引性检测、仇恨言论检测和毒性检测)。
- 数据来源: 来自 X-Stance、GermEval-2021 和 DeTox 数据集。
- DeTox 数据: 需要访问完整版本的 DeTox 数据集,未包含在此公共仓库中。
重构策略
- 二元性别包容 (
Doppelnennung): 明确提及女性和男性,忽略其他性别。 - 全性别包容 (
GenderStern,GenderDoppelpunkt,GenderGap): 明确提及所有性别,包括无性别、非二元性别或半性别。 - 性别中性化 (
Neutral): 避免提及特定性别,使用中性术语。 - 新系统 (
De-e): 使用第四性别,包括新的代词、冠词和后缀,避免提及特定性别。
参考文献
@misc{waldis2024-lou, title={The Lou Dataset - Exploring the Impact of Gender-Fair Language in German Text Classification}, author={Andreas Waldis and Joel Birrer and Anne Lauscher and Iryna Gurevych}, year={2024} }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



