TEXTDETOXEVAL

Name: TEXTDETOXEVAL
Creator: 斯科尔科沃科技学院
Published: 2025-07-21 20:38:07
License: 暂无描述

arXiv2025-07-21 更新2025-07-23 收录

下载链接：

https://anonymous.4open.science/r/eval-of-detox-eval-5433

下载链接

链接失效反馈

官方服务：

资源简介：

TEXTDETOXEVAL数据集由斯科尔科沃科技学院等研究机构创建，是一个多语言文本去毒化评估数据集，包含九种语言的文本，旨在评估文本去毒化系统的性能。数据集共包含16600条文本对，用于评估文本去毒化系统的风格准确性、内容保留和流畅度。该数据集可用于研究文本去毒化评估方法，旨在提高文本去毒化系统的性能和评估方法的可靠性。

The TEXTDETOXEVAL dataset, created by Skoltech and other research institutions, is a multilingual text detoxification evaluation dataset covering nine languages, aiming to evaluate the performance of text detoxification systems. It contains a total of 16,600 text pairs, which are used to assess the stylistic accuracy, content retention and fluency of text detoxification systems. This dataset can be employed for research on text detoxification evaluation methods, with the objective of improving the performance of text detoxification systems and the reliability of their evaluation methods.

提供机构：

斯科尔科沃科技学院

创建时间：

2025-07-21

搜集汇总

数据集介绍

构建方式

TEXTDETOXEVAL数据集的构建基于CLEF共享任务中发布的文本去毒系统评估数据，涵盖了九种语言（英语、西班牙语、德语、中文、阿拉伯语、印地语、乌克兰语、俄语和阿姆哈拉语）。通过随机选取每种语言的100个原始毒性句子，并生成对应的去毒输出，最终形成16,600对输入-输出数据。标注工作通过Toloka.ai众包平台完成，由母语者根据严格的标注指南进行，确保数据的多样性和可靠性。

特点

TEXTDETOXEVAL数据集的主要特点包括其多语言覆盖性，涵盖了九种不同语言的文本去毒任务，为跨语言研究提供了丰富资源。数据集不仅包含原始毒性文本及其去毒版本，还通过人工标注评估了风格转换准确性、内容相似性和流畅性三个核心维度。此外，数据集结合了多种去毒方法（无监督、微调和基于提示的大语言模型），为评估文本去毒系统的性能提供了全面的基准。

使用方法

TEXTDETOXEVAL数据集的使用方法主要包括三个步骤：首先，利用数据集中的输入-输出对评估文本去毒系统的性能；其次，通过人工标注的分数（风格转换准确性、内容相似性和流畅性）验证自动评估指标的可靠性；最后，结合XCOMET等先进评估模型，设计多语言文本去毒评估流程。数据集还支持大语言模型作为评估者的方法，通过提示工程生成与人类判断高度一致的评分，为未来研究提供了灵活且可扩展的评估框架。

背景与挑战

背景概述

TEXTDETOXEVAL数据集由Vitaly Protasov、Nikolay Babakov、Daryna Dementieva和Alexander Panchenko等研究人员于2024年提出，旨在解决文本风格转换（TST）任务中多语言评估的空白。该数据集覆盖英语、西班牙语、德语、中文、阿拉伯语、印地语、乌克兰语、俄语和阿姆哈拉语等九种语言，专注于文本去毒化（text detoxification）任务。其核心研究问题在于如何有效评估多语言环境下文本去毒化系统的性能，尤其是在自动评估指标与人类判断之间存在显著差距的情况下。该数据集的发布为文本风格转换领域提供了首个全面的多语言评估基准，推动了跨语言文本去毒化技术的发展。

当前挑战

TEXTDETOXEVAL数据集面临的挑战主要包括两方面：领域问题挑战与构建过程挑战。在领域问题方面，文本去毒化任务需同时满足风格转换准确性、内容保留度和语言流畅性三个核心指标，而现有自动评估指标（如ChrF）难以全面捕捉语义和风格的细微差异，导致与人类判断相关性较低。在构建过程中，多语言数据收集与标注的复杂性是一大挑战，尤其是确保九种语言的毒性标注一致性和语义对齐。此外，依赖众包平台（如Toloka.ai）进行人工评估时，需克服位置偏差和跨语言标注者主观性带来的噪声问题。

常用场景

经典使用场景

TEXTDETOXEVAL数据集在文本风格转换领域具有广泛的应用，尤其是在多语言文本去毒任务中。该数据集通过提供九种语言的标注数据，为研究人员提供了一个标准化的评估平台。其经典使用场景包括评估不同去毒系统的性能，比较自动评估指标与人工标注的一致性，以及探索跨语言风格转换的可行性。数据集的设计灵感来源于机器翻译领域，采用了神经评估模型和基于提示的大语言模型作为评判方法，为文本去毒任务提供了全面的评估框架。

实际应用

在实际应用中，TEXTDETOXEVAL数据集为社交媒体平台、在线论坛和内容审核系统提供了重要的技术支持。通过评估和优化文本去毒系统，该数据集帮助减少了网络环境中的有害内容，提升了用户体验。例如，社交媒体平台可以利用该数据集训练和评估去毒模型，自动检测并转换用户生成内容中的毒性语言。此外，数据集的多语言特性使其适用于全球化平台的跨语言内容管理，为多语言社区的安全交流提供了保障。

衍生相关工作

TEXTDETOXEVAL数据集衍生了一系列经典研究工作，主要集中在文本风格转换和自动评估领域。例如，基于该数据集的研究提出了XCOMET系列评估模型，显著提升了多语言文本去毒任务的评估性能。此外，数据集还激发了对大语言模型作为评判工具的深入探索，如GPT-4.1-mini和LLaMA 3.3-70B-Instruct在毒性预测中的应用。这些工作不仅推动了文本去毒技术的发展，还为其他文本风格转换任务（如情感转换和形式化转换）提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集