jagoldz/gahd
收藏Hugging Face2024-04-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/jagoldz/gahd
下载链接
链接失效反馈官方服务:
资源简介:
GAHD是一个**德语对抗性仇恨言论数据集**,包含10,996个例子。该数据集通过四轮动态对抗性数据收集收集,并探索了支持注释者寻找对抗性例子的各种方法。数据集包含两个CSV文件:`gahd.csv`和`gahd_disaggregated.csv`,分别包含不同的列信息,如唯一标识符、文本、标签、收集轮次、数据集划分、对比示例的唯一标识符、来源、模型预测、注释者标识符、注释者标签和专家标签等。
GAHD是一个**德语对抗性仇恨言论数据集**,包含10,996个例子。该数据集通过四轮动态对抗性数据收集收集,并探索了支持注释者寻找对抗性例子的各种方法。数据集包含两个CSV文件:`gahd.csv`和`gahd_disaggregated.csv`,分别包含不同的列信息,如唯一标识符、文本、标签、收集轮次、数据集划分、对比示例的唯一标识符、来源、模型预测、注释者标识符、注释者标签和专家标签等。
提供机构:
jagoldz
原始信息汇总
GAHD数据集概述
数据集描述
- 名称: GAHD(German Adversarial Hate speech Dataset)
- 内容: 包含10,996个示例,通过四轮动态对抗数据收集获得。
- 语言: 德语
- 任务类别: 文本分类
- 标签: 仇恨言论检测, 仇恨言论
- 许可: CC-BY-4.0
数据集结构
- 文件:
gahd.csv和gahd_disaggregated.csv gahd.csv列:gahd_id: 唯一标识符text: 文本内容label:0- 非仇恨言论,1- 仇恨言论round: 创建轮次split: 数据集分割(训练、开发或测试)contrastive_gahd_id: 对比示例的gahd_id
gahd_disaggregated.csv额外列:source: 数据来源(dynabench,translation,news)model_prediction: 目标模型的预测标签annotator_id: 标注者唯一标识符annotator_labels: 标注者提供的标签列表expert_labels: 专家标注者提供的标签
引用信息
- 论文: Improving Adversarial Data Collection by Supporting Annotators: Lessons from GAHD, a German Hate Speech Dataset
- 作者: Janis Goldzycher, Paul Röttger, Gerold Schneider
- 年份: 2024
- 存档前缀: arXiv
- 主要分类: cs.CL



