five

jagoldz/gahd

收藏
Hugging Face2024-04-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/jagoldz/gahd
下载链接
链接失效反馈
官方服务:
资源简介:
GAHD是一个**德语对抗性仇恨言论数据集**,包含10,996个例子。该数据集通过四轮动态对抗性数据收集收集,并探索了支持注释者寻找对抗性例子的各种方法。数据集包含两个CSV文件:`gahd.csv`和`gahd_disaggregated.csv`,分别包含不同的列信息,如唯一标识符、文本、标签、收集轮次、数据集划分、对比示例的唯一标识符、来源、模型预测、注释者标识符、注释者标签和专家标签等。

GAHD是一个**德语对抗性仇恨言论数据集**,包含10,996个例子。该数据集通过四轮动态对抗性数据收集收集,并探索了支持注释者寻找对抗性例子的各种方法。数据集包含两个CSV文件:`gahd.csv`和`gahd_disaggregated.csv`,分别包含不同的列信息,如唯一标识符、文本、标签、收集轮次、数据集划分、对比示例的唯一标识符、来源、模型预测、注释者标识符、注释者标签和专家标签等。
提供机构:
jagoldz
原始信息汇总

GAHD数据集概述

数据集描述

  • 名称: GAHD(German Adversarial Hate speech Dataset)
  • 内容: 包含10,996个示例,通过四轮动态对抗数据收集获得。
  • 语言: 德语
  • 任务类别: 文本分类
  • 标签: 仇恨言论检测, 仇恨言论
  • 许可: CC-BY-4.0

数据集结构

  • 文件: gahd.csvgahd_disaggregated.csv
  • gahd.csv:
    • gahd_id: 唯一标识符
    • text: 文本内容
    • label: 0 - 非仇恨言论, 1 - 仇恨言论
    • round: 创建轮次
    • split: 数据集分割(训练、开发或测试)
    • contrastive_gahd_id: 对比示例的gahd_id
  • gahd_disaggregated.csv 额外列:
    • source: 数据来源(dynabench, translation, news
    • model_prediction: 目标模型的预测标签
    • annotator_id: 标注者唯一标识符
    • annotator_labels: 标注者提供的标签列表
    • expert_labels: 专家标注者提供的标签

引用信息

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作