textdetox-multilingual-toxicity-dataset

Hugging Face2025-05-27 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/gravitee-io/textdetox-multilingual-toxicity-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个多语言的有毒言论分类数据集，包含14种语言，基于TextDetox: Multilingual Toxicity Dataset。数据集被分为85%的训练集和15%的测试集，以确保代表性和平衡的抽样。数据集特征包括用户生成的评论文本、是否有毒的标签（有毒为1，非有毒为0）、文本的语言和标签字符串。

创建时间：

2025-05-26

原始信息汇总

TextDetox Multilingual Toxicity Classification Dataset 概述

数据集基本信息

语言: 英语(en)、俄语(ru)、乌克兰语(uk)、德语(de)、西班牙语(es)、阿姆哈拉语(am)、中文(zh)、阿拉伯语(ar)、印地语(hi)、意大利语(it)、法语(fr)、希伯来语(he)、日语(ja)、鞑靼语(tt)
许可证: openrail++
规模: 10K<n<100K
任务类别: 文本分类

数据集结构

特征:
- text: 用户生成的评论 (string)
- toxic: 毒性标签 (1表示有毒，0表示无毒) (int64)
- labels: 毒性标签的字符串形式 (string)
- language: 文本语言 (string)
数据划分:
- 训练集(train): 60,667条样本 (10,733,659字节)
- 测试集(test): 10,707条样本 (1,893,353字节)
划分比例: 85%训练 / 15%测试

数据来源

基于TextDetox: Multilingual Toxicity Dataset
原始数据收集、标注和多语言覆盖归功于原作者

引用信息

bibtex @inproceedings{dementieva2024overview, title={Overview of the Multilingual Text Detoxification Task at PAN 2024}, author={Dementieva, Daryna and Moskovskiy, Daniil and Babakov, Nikolay and Ayele, Abinew Ali and Rizwan, Naquee and Schneider, Frolian and Wang, Xintog and Yimam, Seid Muhie and Ustalov, Dmitry and Stakovskii, Elisei and Smirnova, Alisa and Elnagar, Ashraf and Mukherjee, Animesh and Panchenko, Alexander}, booktitle={Working Notes of CLEF 2024 - Conference and Labs of the Evaluation Forum}, year={2024}, organization={CEUR-WS.org} }

@inproceedings{dementieva-etal-2024-toxicity, title = "Toxicity Classification in {U}krainian", author = "Dementieva, Daryna and Khylenko, Valeriia and Babakov, Nikolay and Groh, Georg", booktitle = "Proceedings of the 8th Workshop on Online Abuse and Harms (WOAH 2024)", year = "2024", publisher = "Association for Computational Linguistics" }

@inproceedings{DBLP:conf/ecir/BevendorffCCDEFFKMMPPRRSSSTUWZ24, author = {Janek Bevendorff and Xavier Bonet Casals and Berta Chulvi and Daryna Dementieva and Ashaf Elnagar and Dayne Freitag and Maik Fr{"{o}}be and Damir Korencic and Maximilian Mayerl and Animesh Mukherjee and Alexander Panchenko and Martin Potthast and Francisco Rangel and Paolo Rosso and Alisa Smirnova and Efstathios Stamatatos and Benno Stein and Mariona Taul{{e}} and Dmitry Ustalov and Matti Wiegmann and Eva Zangerle}, title = {Overview of {PAN} 2024: Multi-author Writing Style Analysis, Multilingual Text Detoxification, Oppositional Thinking Analysis, and Generative {AI} Authorship Verification - Extended Abstract}, booktitle = {Advances in Information Retrieval - 46th European Conference on Information Retrieval, {ECIR} 2024}, year = {2024}, publisher = {Springer} }

搜集汇总

数据集介绍

构建方式

在多语言文本安全分析领域，该数据集源自TextDetox多语言毒性数据集，通过系统化采样策略构建而成。原始数据经过严格标注流程，由专业人员对14种语言的用户评论进行毒性二分类标记，确保标注一致性。采用85%训练集与15%测试集的分割比例，针对每种语言独立划分，维持了语言内部分布的平衡性。数据清洗过程中剔除无效样本，最终形成包含60667条训练数据和10707条测试数据的标准化集合。

特点

该数据集的核心价值体现在其多语言覆盖广度与标注深度上，涵盖英语、俄语、中文等14种语言体系。每条数据包含原始文本、毒性数值标签、字符串标签及语言标识四重特征，支持跨语言对比研究。毒性标注采用二进制分类体系，既符合实际应用场景又便于模型训练。数据规模控制在十万条以内，兼顾了处理效率与表征能力，特别适合作为多语言自然语言处理任务的基准数据集。

使用方法

在实际应用层面，研究者可通过HuggingFace平台直接加载数据集进行模型训练与评估。数据集采用标准文本分类任务格式，用户可基于文本特征与毒性标签构建分类模型，或进行跨语言迁移学习实验。测试集作为独立评估基准，适用于验证模型在未知数据上的泛化能力。该数据集兼容主流机器学习框架，其清晰的数据结构支持快速实现预处理管道，为多语言毒性检测研究提供即用型实验平台。

背景与挑战

背景概述

随着社交媒体和在线平台的全球化普及，多语言内容中的毒性言论检测成为自然语言处理领域的重要研究方向。TextDetox多语言毒性分类数据集应运而生，由Daryna Dementieva等研究人员于2024年主导构建，旨在解决跨语言毒性内容识别的核心问题。该数据集覆盖英语、俄语、乌克兰语等14种语言，提供了超过6万条标注数据，为多语言环境下的内容安全治理提供了关键资源。其研究成果已在CLEF、WOAH等国际会议上发表，显著推动了跨文化语境中自然语言处理技术的公平性与包容性发展。

当前挑战

多语言毒性检测面临语言多样性带来的语义差异挑战，例如某些文化中含蓄的侮辱性表达难以通过统一模型准确识别。数据构建过程中，标注一致性成为关键难题，不同语言背景的标注者可能对毒性界限存在主观判断偏差。此外，低资源语言的样本稀缺性导致模型泛化能力受限，而语言特有的语法结构和俚语表达进一步增加了自动化识别的复杂度。这些因素共同制约了多语言毒性分类模型在实际应用中的准确性与鲁棒性。

常用场景

经典使用场景

在自然语言处理领域，多语言毒性分类数据集为研究者和实践者提供了跨语言文本毒性检测的基准工具。该数据集覆盖英语、俄语、中文等14种语言，广泛应用于构建和评估毒性分类模型，尤其在社交媒体评论、论坛内容审核等场景中，帮助自动化识别有害信息。通过提供平衡的训练和测试分割，它支持多语言环境下的模型泛化能力研究，成为毒性检测任务的核心资源。

衍生相关工作

基于该数据集，衍生出多项经典研究工作，如PAN 2024评测中的多语言文本去毒任务，以及针对乌克兰语等特定语言的毒性分类分析。这些工作扩展了数据集的学术影响力，推动了多语言毒性检测模型的创新，并为后续研究提供了可复现的基准，促进了领域内合作与发展。

数据集最近研究