textdetox/multilingual_paradetox_test

Name: textdetox/multilingual_paradetox_test
Creator: textdetox
Published: 2026-03-01 20:42:41
License: 暂无描述

Hugging Face2026-03-01 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/textdetox/multilingual_paradetox_test

下载链接

链接失效反馈

官方服务：

资源简介：

MultiParaDetox（测试）数据集是为CLEF TextDetox 2024共享任务准备的多语言并行文本去毒数据集。该数据集包含9种语言（乌克兰语、印地语、中文、阿拉伯语、德语、英语、俄语、阿姆哈拉语和西班牙语），每种语言有1000对有毒<->去毒实例，分为开发集（400对）和测试集（600对）。数据集的主要特征为文本字符串，每种语言的测试集包含600个实例。

提供机构：

textdetox

原始信息汇总

数据集概述

数据集名称

MultiParaDetox (Test)

数据集描述

这是一个多语言平行数据集，用于文本解毒，专为CLEF TextDetox 2024共享任务准备。
数据集包含9种语言，每种语言收集了1000对有毒<->解毒文本实例，分为开发集（400对）和测试集（600对）。

数据集配置

默认配置
- 数据文件路径
  - uk: data/uk-*
  - hi: data/hi-*
  - zh: data/zh-*
  - ar: data/ar-*
  - de: data/de-*
  - en: data/en-*
  - ru: data/ru-*
  - am: data/am-*
  - es: data/es-*

数据集特征

文本：数据类型为字符串。

数据集分割

uk
- 字节数：64010
- 示例数：600
hi
- 字节数：84742
- 示例数：600
zh
- 字节数：51159
- 示例数：600
ar
- 字节数：67319
- 示例数：600
de
- 字节数：68242
- 示例数：600
en
- 字节数：37872
- 示例数：600
ru
- 字节数：73326
- 示例数：600
am
- 字节数：110756
- 示例数：600
es
- 字节数：40172
- 示例数：600

数据集大小

下载大小：377419字节
数据集大小：597598字节

数据来源

英语：Jigsaw，Unitary AI Toxicity Dataset
俄语：Russian Language Toxic Comments，Toxic Russian Comments
乌克兰语：Ukrainian Twitter texts
西班牙语：Detecting and Monitoring Hate Speech in Twitter，Detoxis，RoBERTuito: a pre-trained language model for social media text in Spanish
德语：GemEval 2018, 2021
阿姆哈拉语：Amharic Hate Speech
阿拉伯语：OSACT4
印地语：Hostility Detection Dataset in Hindi，Overview of the HASOC track at FIRE 2019: Hate Speech and Offensive Content Identification in Indo-European Languages

引用信息

若需引用此数据集，请参考以下文献：

@inproceedings{dementieva2024overview, title={Overview of the Multilingual Text Detoxification Task at PAN 2024}, author={Dementieva, Daryna and Moskovskiy, Daniil and Babakov, Nikolay and Ayele, Abinew Ali and Rizwan, Naquee and Schneider, Frolian and Wang, Xintog and Yimam, Seid Muhie and Ustalov, Dmitry and Stakovskii, Elisei and Smirnova, Alisa and Elnagar, Ashraf and Mukherjee, Animesh and Panchenko, Alexander}, booktitle={Working Notes of CLEF 2024 - Conference and Labs of the Evaluation Forum}, editor={Guglielmo Faggioli and Nicola Ferro and Petra Galu{v{s}}{v{c}}{a}kov{a} and Alba Garc{i}a Seco de Herrera}, year={2024}, organization={CEUR-WS.org} }

@inproceedings{DBLP:conf/ecir/BevendorffCCDEFFKMMPPRRSSSTUWZ24, author = {Janek Bevendorff and Xavier Bonet Casals and Berta Chulvi and Daryna Dementieva and Ashaf Elnagar and Dayne Freitag and Maik Fr{"{o}}be and Damir Korencic and Maximilian Mayerl and Animesh Mukherjee and Alexander Panchenko and Martin Potthast and Francisco Rangel and Paolo Rosso and Alisa Smirnova and Efstathios Stamatatos and Benno Stein and Mariona Taul{{e}} and Dmitry Ustalov and Matti Wiegmann and Eva Zangerle}, editor = {Nazli Goharian and Nicola Tonellotto and Yulan He and Aldo Lipani and Graham McDonald and Craig Macdonald and Iadh Ounis}, title = {Overview of {PAN} 2024: Multi-author Writing Style Analysis, Multilingual Text Detoxification, Oppositional Thinking Analysis, and Generative {AI} Authorship Verification - Extended Abstract}, booktitle = {Advances in Information Retrieval - 46th European Conference on Information Retrieval, {ECIR} 2024, Glasgow, UK, March 24-28, 2024, Proceedings, Part {VI}}, series = {Lecture Notes in Computer Science}, volume = {14613}, pages = {3--10}, publisher = {Springer}, year = {2024}, url = {https://doi.org/10.1007/978-3-031-56072-9_1}, doi = {10.1007/978-3-031-56072-9_1}, timestamp = {Fri, 29 Mar 2024 23:01:36 +0100}, biburl = {https://dblp.org/rec/conf/ecir/BevendorffCCDEFFKMMPPRRSSSTUWZ24.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，文本去毒任务旨在消除文本中的有害内容，促进健康网络交流。Multilingual Paradetox测试集的构建依托于CLEF TextDetox 2024及2025共享任务，涵盖乌克兰语、印地语、中文、阿拉伯语、德语、英语、俄语、阿姆哈拉语、西班牙语、意大利语、法语、希伯来语、印地英语、鞑靼语和日语共15种语言。该数据集通过整合多源公开语料，如Jigsaw毒性评论数据集、Unitary AI毒性数据集及各语言特定社交媒体文本，精心筛选并标注了每对毒性句子与去毒后句子的平行对应关系。每个语言子集均包含600个测试实例，确保了数据在跨语言评估中的广泛覆盖与代表性。

特点

该数据集的核心特征在于其多语言平行结构，为文本去毒研究提供了跨语言比较的统一基准。每种语言均包含毒性句子与中性句子的精确配对，使得模型能够在多样化的语言环境中评估去毒效果。数据规模均衡，每个语言子集拥有600个测试样本，保障了评估的统计可靠性。此外，数据来源丰富，涵盖了社交媒体、论坛评论及专门标注的毒性语料，反映了真实世界文本的复杂性。这种设计不仅支持多语言去毒模型的性能评测，也为探索语言间毒性表达差异提供了宝贵资源。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集，利用其标准化的数据分割进行模型测试。数据集以JSON格式组织，每个条目包含toxic_sentence与neutral_sentence字段，便于直接用于去毒模型的输入输出对齐。在评估过程中，用户可针对特定语言子集进行计算，或进行跨语言综合分析，以衡量模型在不同语言环境下的泛化能力。该测试集专为CLEF TextDetox共享任务设计，适用于自动化去毒系统的性能比较，同时也可作为基准数据，推动多语言自然语言处理技术的进一步发展。

背景与挑战

背景概述

在数字时代，网络文本中的毒性内容已成为自然语言处理领域亟待解决的关键问题。Multilingual Paradetox测试数据集由PAN（数字文本取证与作者识别）会议于2024年发起，作为CLEF TextDetox共享任务的核心组成部分，旨在推动多语言文本去毒技术的研究。该数据集由Daryna Dementieva、Alexander Panchenko等国际研究团队主导构建，覆盖英语、俄语、中文、阿拉伯语等15种语言，每种语言包含600对毒性-去毒平行句对。其核心研究问题聚焦于如何通过计算模型自动将带有攻击性、偏见或冒犯性的文本转化为中性表达，从而促进在线交流的健康发展，并为跨语言内容审核系统提供重要基准。

当前挑战

该数据集致力于解决多语言文本去毒领域的双重挑战。在领域问题层面，文本去毒任务需在保留原意的前提下消除毒性，这要求模型精准理解不同语言的文化语境、修辞隐晦性及情感细微差异，例如日语网络俚语与阿拉伯语方言中的攻击性表达往往具有高度文化特异性。在构建过程中，研究人员面临数据稀缺性与质量平衡的难题：部分语言如塔塔尔语缺乏现成毒性语料，需从头构建；而英语等资源丰富语言则需从Jigsaw等多源数据中筛选并人工对齐去毒版本，确保平行句对在语义一致性与流畅度上达到高标准，同时避免去毒过程中引入新的偏见或信息损耗。

常用场景

经典使用场景

在自然语言处理领域，文本净化任务旨在将含有攻击性、偏见或冒犯性内容的语句转化为语义一致但表达中立的表述。Multilingual Paradetox测试集作为多语言平行数据，其经典应用场景在于为文本净化模型提供标准化的评估基准。该数据集覆盖十五种语言，每种语言包含六百对有毒-净化句对，研究者可利用这些平行语料，系统评估跨语言文本净化模型的性能，比较不同方法在保持语义完整性与消除毒性之间的平衡能力。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要包括PAN-CLEF 2024与2025连续两届多语言文本净化共享任务的参赛系统与评估框架。这些工作涵盖了基于预训练语言模型的微调方法、多任务学习架构以及跨语言迁移学习策略。相关成果不仅推动了文本净化领域的技术前沿，也为后续研究提供了丰富的基线模型与性能对比依据，形成了持续迭代的研究生态。

数据集最近研究