germeval-2025-harmful-content-detection-training-dataset

Hugging Face2025-08-22 更新2025-08-23 收录

下载链接：

https://huggingface.co/datasets/abullard1/germeval-2025-harmful-content-detection-training-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

GermEval 2025有害内容检测数据集（训练集）是针对德语社交媒体（Twitter）的，包含三个子任务：呼吁行动检测、对民主基本秩序的攻击分类、暴力内容检测。数据集由2014-2016年期间右翼极端主义网络中的德语推文组成，并由领域专家进行注释。数据集旨在研究有害内容检测，特别强调处理类别不平衡和短小、嘈杂的推文。

创建时间：

2025-08-16

原始信息汇总

GermEval 2025有害内容检测训练数据集概述

数据集基本信息

数据集名称：GermEval 2025 Harmful Content Detection (Training Splits)
许可证：GPL-3.0
创建者：Samuel Ruairí Bullard - University of Regensburg
语言：德语
语言多样性：单语
标注创建方式：专家生成
来源：原始数据集
模态：文本
数据规模：10K-100K样本

任务与类别

任务类别：文本分类
子任务配置：
- Call to Action (C2A)：二元分类（TRUE/FALSE）
- Attacks on Democratic Basic Order (DBO)：四分类（nothing/criticism/agitation/subversive）
- Violence (VIO)：二元分类（TRUE/FALSE）

数据内容

数据来源：德国右翼极端主义网络的推特数据（2014-2016年）
数据特征：主要包含简短、嘈杂的推文
数据特点：存在严重的类别不平衡问题

文件结构

c2a_train.csv：约9,084行
dbo_train.csv：约9,617行
vio_train.csv：约10,230行

数据格式

所有CSV文件均为逗号分隔，包含以下字段：

id：推文标识符（字符串）
description：推文文本（字符串）
任务特定标签字段（C2A/DBO/VIO）

使用说明

警告：该数据集包含有害、极端主义、暴力和攻击性语言，仅用于有害内容检测研究，在用户界面中显示示例时需谨慎

许可与引用要求

使用时需同时注明GermEval 2025组织者（斯图加特大学、曼海姆大学）和数据收集者（米特韦达应用科学大学）的贡献

相关资源

竞赛页面：https://www.codabench.org/competitions/4963/
模型库：https://huggingface.co/spaces/abullard1/abullardUR_GermEval2025_Submission_ModelZoo
基础模型：https://huggingface.co/LSX-UniWue/ModernGBERT_134M
GitHub仓库：https://github.com/abullard1/abullardUR-GermEval-Shared-Task-2025

搜集汇总

数据集介绍

构建方式

在德语社交媒体有害内容检测领域，该数据集源自德国右翼极端主义网络在2014至2016年间发布的推文，由领域专家进行精细标注。数据构建过程严格遵循学术标准，通过三个独立子任务的结构化设计，分别针对行动号召、民主基本秩序攻击及暴力内容进行多维度标注，确保了数据来源的真实性与标注的专业性。

使用方法

研究人员可通过Hugging Face数据集库直接加载CSV文件，或利用Pandas进行灵活的数据读取与处理。该数据集专为有害内容检测模型训练而设计，适用于自然语言处理中的文本分类任务，尤其适合研究类别不平衡与噪声数据下的模型鲁棒性，使用时需严格遵守伦理规范与引用要求。

背景与挑战

背景概述

在数字时代社交媒体内容治理日益重要的背景下，GermEval 2025有害内容检测训练数据集由雷根斯堡大学Samuel Ruairí Bullard主导构建，作为2025年GermEval共享任务的核心组成部分。该数据集聚焦于德语社交媒体中的有害内容识别，涵盖呼吁行动、攻击民主基本秩序和暴力内容三大子任务，数据源自2014至2016年德国右翼极端主义网络的推文，并由领域专家进行标注。这一资源为自然语言处理领域提供了重要的基准，推动了多类别有害内容检测技术的发展，对德语社交媒体内容安全研究具有深远影响。

当前挑战

该数据集致力于解决德语社交媒体中有害内容多维度分类的复杂问题，面临标注一致性、类别不平衡及语境歧义等挑战。构建过程中，专家需处理极端主义文本的语言噪声和语义隐含性，同时确保敏感内容的伦理标注不受主观偏差影响。数据源自历史社交媒体内容，其时代特定性和网络用语的非规范性进一步增加了标注与模型泛化的难度。

常用场景

经典使用场景

在德语社交媒体内容安全分析领域，该数据集被广泛用于构建多任务有害内容检测系统。研究者通过其三个子任务配置——行动号召识别、民主基本秩序攻击检测和暴力内容分类，训练深度神经网络模型以识别右翼极端主义网络中的危险言论。这些模型需要特别处理短文本噪声和极端类别不平衡的挑战，为德语自然语言处理提供了重要的基准测试平台。

解决学术问题

该数据集有效解决了德语社交媒体中多维度有害内容检测的学术难题，特别是针对极端主义言论的细粒度分类问题。通过专家标注的右翼极端主义推特数据，为学术界提供了研究德语短文本分类、类别不平衡处理和跨任务迁移学习的宝贵资源。其价值在于建立了德语有害内容检测的标准化评估框架，推动了多标签分类和领域自适应方法的发展。

实际应用

在实际应用层面，该数据集支撑了社交媒体平台的内容审核系统开发，帮助自动识别德语社区中的极端主义内容和暴力煽动言论。政府部门和安全机构利用基于该数据集训练的模型监测网络激进主义趋势，预防潜在的社会安全风险。教育机构则借助这些技术工具开展网络媒体素养教育，提升公众对有害内容的辨识能力。

数据集最近研究