austrotox

Hugging Face2025-12-26 更新2025-12-27 收录

下载链接：

https://huggingface.co/datasets/pia-p/austrotox

下载链接

链接失效反馈

官方服务：

资源简介：

AustroTox是一个用于基于目标的奥地利德语冒犯性语言检测的数据集。该数据集包含4,562条用户评论，源自新闻论坛，特别包含了奥地利德语方言。除了二元的冒犯性分类外，还标注了每条评论中构成粗俗语言或冒犯性陈述目标的片段。数据集字段包括索引、文章标题、评论内容、标签（有毒/冒犯性或非有毒/非冒犯性）、标注者ID（标注为非有毒/非冒犯性或有毒/冒犯性的标注者）、是否手动清理、细粒度标签以及片段标签。

创建时间：

2025-12-15

原始信息汇总

AustroTox 数据集概述

基本信息

数据集名称: AustroTox: A Dataset for Target-Based Austrian German Offensive Language Detection
任务类别: 文本分类
语言: 德语
标签: 毒性、冒犯性、仇恨、透视主义、主观性、片段

数据集描述

AustroTox 是一个用于基于目标的奥地利德语冒犯性语言检测的数据集，源自一个新闻论坛，并包含了奥地利德语方言。该数据集包含 4,562 条用户评论。

数据字段说明

Index: 评论的索引。
Article Title: 评论所发布文章的标题。
Comment: 来自 Jigsaw Toxic Comment Classification Challenge 的文本，该文本已被分类。
Label: 表示聚合标签是否为“有毒/冒犯性”（1）或“无毒/非冒犯性”（0）。
Annotators not toxic: 将文本标注为“无毒/非冒犯性”的标注者ID。
Annotators toxic: 将文本标注为“有毒/冒犯性”的标注者ID。
Manually cleaned: 指示标注是否经过手动清理。
Label fine: 帖子的细粒度标签。
Tags: 文本片段及其对应的标签。

引用信息

如果使用此数据集，请引用：

@inproceedings{pachinger-etal-2024-austrotox, title = "{A}ustro{T}ox: A Dataset for Target-Based {A}ustrian {G}erman Offensive Language Detection", author = "Pachinger, Pia and Goldzycher, Janis and Planitzer, Anna and Kusa, Wojciech and Hanbury, Allan and Neidhardt, Julia", editor = "Ku, Lun-Wei and Martins, Andre and Srikumar, Vivek", booktitle = "Findings of the Association for Computational Linguistics: ACL 2024", month = aug, year = "2024", address = "Bangkok, Thailand", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2024.findings-acl.713/", doi = "10.18653/v1/2024.findings-acl.713", pages = "11990--12001", abstract = "Model interpretability in toxicity detection greatly profits from token-level annotations. However, currently, such annotations are only available in English. We introduce a dataset annotated for offensive language detection sourced from a news forum, notable for its incorporation of the Austrian German dialect, comprising 4,562 user comments. In addition to binary offensiveness classification, we identify spans within each comment constituting vulgar language or representing targets of offensive statements. We evaluate fine-tuned Transformer models as well as large language models in a zero- and few-shot fashion. The results indicate that while fine-tuned models excel in detecting linguistic peculiarities such as vulgar dialect, large language models demonstrate superior performance in detecting offensiveness in AustroTox." }

搜集汇总

数据集介绍

构建方式

在数字媒体内容审核领域，针对特定语言变体的有害语言检测需求日益增长。AustroTox数据集的构建源于对奥地利德语方言中冒犯性语言的系统性标注需求，其基础数据取自新闻论坛的用户评论，并借鉴了Jigsaw Toxic Comment Classification Challenge的文本资源。通过众包标注与专家清理相结合的方式，研究团队对4562条评论进行了多层次标注，不仅包含二元毒性分类，还细致标注了粗俗语言片段及冒犯性言论的目标对象，确保了标注的精确性与可解释性。

特点

AustroTox数据集在冒犯性语言检测领域展现出鲜明的语言学特色，其核心在于聚焦奥地利德语方言，填补了非英语语言中细粒度标注资源的空白。该数据集不仅提供整体评论的二元毒性标签，还创新性地引入了片段级标注，明确标识出粗俗表达的具体位置及攻击目标，从而支持模型的可解释性分析。这种多层次标注结构为研究方言变异、目标导向的毒性检测以及模型跨语言迁移能力提供了宝贵的数据基础。

使用方法

该数据集主要应用于自然语言处理中的文本分类任务，尤其适合用于训练和评估针对奥地利德语的有害内容检测模型。研究人员可利用其二元标签进行传统的毒性分类模型微调，或借助片段标签开发序列标注模型以识别冒犯性内容的具体构成。此外，数据集中包含的标注者分歧信息可用于研究主观性标注问题，而精细标签则为探索冒犯性言论的细粒度分类提供了可能。在实践层面，该数据集支持Transformer模型的微调实验，也适用于大语言模型的零样本与少样本学习评估。

背景与挑战

背景概述

在自然语言处理领域，针对德语方言的冒犯性语言检测研究相对稀缺，尤其是奥地利德语这一特定变体。AustroTox数据集由Pia Pachinger、Janis Goldzycher等研究人员于2024年创建，旨在填补这一空白。该数据集源自新闻论坛的用户评论，共包含4562条标注样本，不仅提供二元毒性分类，还标注了粗俗语言片段及冒犯性言论的目标对象。其核心研究问题聚焦于提升模型在奥地利德语语境下的可解释性，通过细粒度标注支持目标导向的冒犯性检测，为德语方言处理及在线内容审核提供了重要的数据基础。

当前挑战

AustroTox数据集所应对的领域挑战在于德语方言中冒犯性语言的精准识别，尤其是奥地利德语在词汇、语法及文化语境上的独特性，使得通用毒性检测模型难以有效捕捉其细微差异。构建过程中的挑战则体现在标注复杂性上：一方面，需要处理主观性标注带来的分歧，通过多标注者机制与人工清洗确保数据一致性；另一方面，细粒度标注要求识别冒犯性目标及具体语言片段，这增加了标注成本与难度，同时需平衡方言特性与模型泛化能力之间的张力。

常用场景

经典使用场景

在德语自然语言处理领域，AustroTox数据集为针对奥地利德语的冒犯性语言检测提供了关键资源。该数据集常用于训练和评估文本分类模型，特别是针对方言和区域语言变体的毒性内容识别。研究者利用其精细的标注信息，包括目标识别和粗俗语言跨度，来开发能够理解文化特定语境和语言细微差别的算法，从而提升模型在真实网络环境中的适用性。

解决学术问题

AustroTox数据集解决了多语言冒犯性语言检测中资源匮乏的问题，尤其填补了奥地利德语方言标注数据的空白。它通过提供细粒度的目标标注和跨度信息，促进了模型可解释性研究，帮助学者深入分析毒性内容的构成要素。这一数据集推动了跨语言迁移学习、方言适应性建模以及主观性文本处理等前沿课题的发展，为计算语言学中的公平性和包容性研究提供了实证基础。

衍生相关工作

围绕AustroTox数据集，已衍生出一系列经典研究工作。例如，基于其细粒度标注的跨度信息，研究者开发了针对德语方言的序列标注模型，提升了目标检测的精确度。同时，该数据集激发了多语言毒性检测模型的比较研究，特别是在零样本和少样本学习场景下评估大语言模型的跨方言泛化能力。这些工作进一步推动了方言计算语言学的发展，并为资源较少语言的伦理人工智能研究树立了范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集