SynthDetoxM

Name: SynthDetoxM
Creator: 俄罗斯科学院人工智能研究中心
Published: 2025-02-10 20:30:25
License: 暂无描述

arXiv2025-02-10 更新2025-02-26 收录

下载链接：

https://github.com/s-nlp/synthdetoxm

下载链接

链接失效反馈

官方服务：

资源简介：

SynthDetoxM是一个由AIRI和Skoltech合作创建的大型多语言并行文本去毒性数据集，包含德语、法语、西班牙语和俄语四种语言共16000对高质量的去毒性句子对。该数据集通过少量样本提示和九种现代开源大型语言模型生成，旨在解决多语言去毒性任务中平行数据不足的问题。

提供机构：

俄罗斯科学院人工智能研究中心

创建时间：

2025-02-10

原始信息汇总

synthdetoxm 数据集概述

数据集简介

数据集名称：synthdetoxm
相关论文：NAACL 2025 Main Conference Paper "Modern LLMs are Few-Shot Parallel Detoxification Data Annotators"

数据集用途

用于现代大型语言模型（LLM）在小样本情况下进行并行解毒数据标注的研究。

搜集汇总

数据集介绍

构建方式

SynthDetoxM数据集的构建方式主要涉及从公开的毒性识别数据集中选取数千条非并行毒性文本，并利用九种现代开源LLMs进行少量样本生成。这些文本涵盖了德语、法语、西班牙语和俄语四种语言。通过对文本进行长度过滤、毒性分数和相似度评分筛选，以及数据增强技术，最终生成了高质量的合成毒性消除文本对。同时，为了确保数据质量，还采用了手动收集和合成生成的方式，并使用九种现代开源LLMs进行少量样本生成，最终选出了最佳生成结果。

使用方法

SynthDetoxM数据集可以用于多语言毒性消除模型的训练和评估。用户可以使用该数据集对模型进行微调，以提升模型在多语言环境下的性能。此外，用户还可以使用该数据集进行数据增强，以提升模型在低资源环境下的性能。在使用该数据集时，用户需要遵循相关的数据使用协议和伦理规范，确保数据的安全性和合法性。

背景与挑战

背景概述

随着社交媒体和基于文本的互联网媒体的普及，网络毒性和仇恨言论的问题日益凸显。这不仅为用户创造了不愉快的环境，也可能影响广告商的利益，从而对平台的经济发展产生负面影响。因此，迫切需要有效的机制来衡量和缓解在线空间中的毒性。一种有前景的方法是通过改写（paraphrasing）来清除文本中的毒性（text detoxification）。文本毒性清除是文本风格转换（Text Style Transfer, TST）的一个子任务，它涉及在不改变原始意义的情况下改写文本，并改变特定的风格属性，例如正式性、偏见、表现力、情感或毒性。尽管在单语言TST和毒性清除方面取得了显著进展，但多语言文本毒性清除仍然是一个未解决的问题，这主要是因为多语言平行毒性清除数据的稀缺性以及跨语言设置中无监督方法的性能不佳。手动或众包数据收集是一项具有挑战性和成本高昂的任务。为了解决这些挑战并促进多语言文本毒性清除模型和数据集的发展，本研究提出了一种生成平行多语言合成毒性清除数据的方法，并创建了SynthDetoxM数据集，这是一个包含16,000高质量毒性清除句子对的大型多语言合成平行文本毒性清除数据集，涵盖了德语、法语、西班牙语和俄语。该数据集使用少量样本提示和选择五个不同的开源LLM（Large Language Models）的最佳生成结果来创建。该数据集的创建有助于解决毒性清除任务中的数据稀缺性问题，并推动多语言文本毒性清除技术的发展。

当前挑战

SynthDetoxM数据集面临的挑战主要包括：1)多语言平行毒性清除数据的稀缺性；2)跨语言设置中无监督方法的性能不佳；3)手动或众包数据收集的成本高昂且具有挑战性。为了解决这些挑战，本研究提出了一种使用少量样本提示的LLM生成合成平行多语言毒性清除数据的方法，并创建了SynthDetoxM数据集，这是一个包含16,000高质量毒性清除句子对的大型多语言合成平行文本毒性清除数据集，涵盖了德语、法语、西班牙语和俄语。该数据集使用少量样本提示和选择五个不同的开源LLM（Large Language Models）的最佳生成结果来创建。该数据集的创建有助于解决毒性清除任务中的数据稀缺性问题，并推动多语言文本毒性清除技术的发展。

常用场景

经典使用场景

SynthDetoxM 数据集主要用于多语言文本去毒化研究，通过提供多语言平行去毒化数据，帮助研究者训练和评估去毒化模型。该数据集包含 16,000 对高质量的去毒化句子，涵盖了德语、法语、西班牙语和俄语四种语言。这些数据是通过现代开源大型语言模型 (LLM) 在少样本设置下生成的，从而解决了多语言去毒化数据稀缺的问题。研究者可以利用 SynthDetoxM 数据集来训练和评估去毒化模型，并探索不同语言之间的去毒化规律和挑战。

解决学术问题

SynthDetoxM 数据集解决了多语言文本去毒化数据稀缺的问题。多语言去毒化是一个重要的研究领域，但由于缺乏多语言平行去毒化数据，该领域的研究进展缓慢。SynthDetoxM 数据集的引入为多语言文本去毒化研究提供了重要的数据支持，有助于推动该领域的研究进展。此外，SynthDetoxM 数据集还展示了现代 LLM 在少样本设置下生成高质量去毒化数据的潜力，为未来去毒化模型的发展提供了新的思路。

实际应用

SynthDetoxM 数据集在社交媒体平台、网络论坛和聊天机器人等领域具有广泛的应用前景。通过使用 SynthDetoxM 数据集训练的去毒化模型，可以帮助这些平台自动检测和过滤有害、冒犯性或不当的语言，从而提高用户在线互动的质量和安全性。此外，去毒化模型还可以用于生成更积极、更健康的网络语言，促进更友好的在线环境。

数据集最近研究