German Hate Speech Corpus

github2021-12-23 更新2024-05-31 收录

下载链接：

https://github.com/cophi-wue/German_HateSpeech_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个来源（如Facebook评论、推文等）的德语文本实例，这些实例被手动重新标注为仇恨言论、攻击性/问题语言或非仇恨。数据集目前正在建设中，可能会发生变化。

This dataset comprises instances of German text from multiple sources (such as Facebook comments, tweets, etc.), which have been manually re-annotated as hate speech, offensive/problematic language, or non-hate. The dataset is currently under construction and may undergo changes.

创建时间：

2021-03-11

原始信息汇总

数据集概述

数据集名称

German Hate Speech Corpus

数据集内容

HASOC: 包含818条德语推文和Facebook评论，分类为仇恨言论或非仇恨言论。
Hatr: 包含432条从hatr.org网站收集的德语仇恨帖子。
German refugees: 包含469条关于难民危机的攻击性推文。
GermEval 2018: 包含2,871条推文，专门标记为OFFENSE。
POLLY: 包含约4,500条政治相关的德语推文，原数据集约125,000条。
Bretschneider/Peters: 包含3,500条来自两个知名Facebook页面的评论，这些页面吸引仇外情绪。

数据集特点

所有数据集文件均为制表符分隔的CSV格式。
数据集正在建设中，可能会发生变化。
数据集中的文本实例已手动重新标注为仇恨言论、攻击性/问题语言或非仇恨。

数据集来源

HASOC数据集通过关键词方法收集。
Hatr数据集来自hatr.org网站。
German refugees数据集通过关键词方法收集，关键词为推特上的标签。
GermEval 2018数据集来自GermEval 2018任务的推文语料库。
POLLY数据集来自2017年德国联邦选举期间的政治相关推文。
Bretschneider/Peters数据集来自特定的Facebook页面。

搜集汇总

数据集介绍

构建方式

German Hate Speech Corpus 数据集的构建采用了多源数据整合与人工重标注的方法。数据来源包括社交媒体平台如Facebook和Twitter的评论与推文，涵盖了HASOC、Hatr、German refugees、GermEval 2018、POLLY以及Bretschneider/Peters等多个子集。每个子集通过关键词筛选或特定主题（如难民危机、政治选举）收集文本，随后由人工标注为仇恨言论（hs）、冒犯性/问题性语言（p）或非仇恨言论（n）。为确保数据平衡，部分子集进行了二次采样。

特点

该数据集的特点在于其多样性和高质量标注。数据来源广泛，涵盖了不同社交媒体平台和主题场景，能够全面反映德语仇恨言论的多样性。通过人工重标注，确保了标注的一致性和准确性。此外，数据集在构建过程中注重平衡性，通过采样调整了仇恨与非仇恨言论的比例，使其更适合用于机器学习模型的训练与评估。数据集以CSV格式存储，便于研究者直接使用。

使用方法

German Hate Speech Corpus 数据集适用于自然语言处理任务，尤其是仇恨言论检测与分类。研究者可以通过加载CSV文件获取文本及其标注信息，直接用于模型训练或测试。由于数据集包含多个子集，用户可根据研究需求选择特定子集或整合使用。此外，数据集的多样性使其适用于跨领域研究，如社交媒体内容分析、政治言论监测等。使用前需注意数据集仍在建设中，可能存在更新与调整。

背景与挑战

背景概述

German Hate Speech Corpus是由德国维尔茨堡大学的研究团队创建的一个德语仇恨言论数据集，旨在为自然语言处理领域提供高质量的标注数据，以支持仇恨言论检测和分类的研究。该数据集汇集了来自多个来源的文本实例，包括Facebook评论、推文等，涵盖了不同语境下的仇恨言论、攻击性语言以及非仇恨内容。数据集的构建得到了Mapara Stiftung的资助，并参考了多个已有的公开数据集，如HASOC、Hatr、GermEval 2018等。通过手动重新标注，该数据集为研究德语仇恨言论的识别和分类提供了重要的数据支持。

当前挑战

German Hate Speech Corpus的构建面临多方面的挑战。首先，仇恨言论的界定本身具有主观性，不同文化和社会背景下的定义可能存在差异，这为标注工作带来了复杂性。其次，数据集的多样性和平衡性是一个关键问题，尽管研究人员通过采样和重新标注努力实现仇恨与非仇恨内容的平衡，但原始数据中仇恨言论的比例较低，可能导致数据分布不均。此外，数据来源的多样性也带来了文本格式和语言风格的差异，增加了数据清洗和预处理的难度。最后，随着社交媒体内容的动态变化，数据集的时效性和扩展性也是需要持续关注的问题。

常用场景

经典使用场景

German Hate Speech Corpus 数据集在自然语言处理领域中被广泛应用于仇恨言论的检测与分类研究。通过整合来自社交媒体平台（如Twitter和Facebook）的德语文本实例，该数据集为研究者提供了一个多样化的语料库，涵盖了仇恨言论、攻击性语言以及非仇恨言论的标注。研究者可以利用该数据集训练和评估机器学习模型，以识别和分类不同形式的仇恨言论，从而推动自动化内容审核技术的发展。

实际应用

在实际应用中，German Hate Speech Corpus 数据集被广泛用于社交媒体平台的自动化内容审核系统。通过训练基于该数据集的模型，平台能够实时检测并过滤仇恨言论，从而维护健康的在线社区环境。此外，该数据集还被用于开发教育工具，帮助用户识别和抵制仇恨言论。在公共安全领域，该数据集也为执法机构提供了技术支持，用于监测和打击网络仇恨犯罪。

衍生相关工作

基于 German Hate Speech Corpus 数据集，研究者们开展了多项经典工作。例如，一些研究利用该数据集开发了多语言仇恨言论检测模型，显著提升了跨语言环境下的检测精度。此外，该数据集还催生了针对特定社会事件（如难民危机）的仇恨言论分析研究，揭示了仇恨言论在不同社会背景下的传播模式。这些工作不仅推动了自然语言处理技术的发展，还为社会学和传播学领域提供了新的研究视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集