luizapzbn/from-one-to-many-toxicity-mitigation

Name: luizapzbn/from-one-to-many-toxicity-mitigation
Creator: luizapzbn
Published: 2024-05-24 17:09:53
License: 暂无描述

Hugging Face2024-05-24 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/luizapzbn/from-one-to-many-toxicity-mitigation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集伴随论文《从一到多：扩展语言模型中的毒性缓解范围》发布，旨在解决多语言环境下的毒性缓解问题。数据集包含九种语言的文本数据，包括英语、葡萄牙语、西班牙语、意大利语、法语、俄语、阿拉伯语、印地语和韩语。数据集主要由翻译自现有数据集的样本组成，包括Jigsaw Multilingual Toxicity分类挑战和Jigsaw Unintended Bias数据集的内容。数据集结构包括训练集和评估集，训练集包含原始数据和翻译数据，评估集包含随机选择的样本。数据集的使用目的是帮助减少语言模型中的有害内容，但需要注意的是，由于使用了机器翻译，可能会引入或减少原有的毒性。

提供机构：

luizapzbn

原始信息汇总

数据集概述

数据集名称

From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models

数据集语言

语言种类： 英语、葡萄牙语、西班牙语、意大利语、法语、俄语、阿拉伯语、印地语、韩语

数据集许可证

许可证： Apache-2.0

数据集任务类别

任务类别： 文本生成、文本分类

数据集标签

标签： 有害、有毒

数据集结构

训练数据：
- jigsaw_english: 原始的Jigsaw Unintended Bias英语数据集。
- multilingual:
  - jigsaw_multilingual: Jigsaw Multilingual Toxicity分类挑战中的本地语言示例。
  - translated_jigsaw_english: Jigsaw Unintended Bias挑战的翻译样本。
    - full_sized: 完整的jigsaw数据集翻译。
    - minimal: 主要实验中选用的约3K（或3.5K）有毒和10K非有毒样本，由NLLB 600M模型翻译。
      - nllb1.3b: 所有语言的相同数据子集，由NLLB 1.3B模型翻译（更高翻译质量）。
      - m2m: 所有语言的相同数据子集，由M2M 418M模型翻译（较低翻译质量）。
      - different_subsets: 每种语言的不同子集（无平行内容），由NLLB 600M模型翻译。
      - bleu_subset: 用于计算论文中BLEU分数的样本。
评估数据：
- 随机选取的200个样本，用于整体偏见（英语）翻译到每种目标语言。内容在所有语言中相同。
  - _hi: 高资源语言实验的评估集。
  - _mid: 中等资源语言实验的评估集。
  - individual: 每种语言的单独样本文件夹。
结果数据：
- 论文中所有模型的生成和实验结果，用于生成图表（数据量约15GB）。

数据集来源

源数据：

数据集风险与限制

风险与限制： 使用机器翻译生成数据集可能增加或减少原始句子的现有毒性。数据集包含可能使模型更具毒性的有毒句子，作者强烈反对此种使用。

数据集引用

引用信息：

@article{pozzobon2024one, title={From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models}, author={Pozzobon, Luiza and Lewis, Patrick and Hooker, Sara and Ermis, Beyza}, journal={arXiv preprint arXiv:2403.03893}, year={2024} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，毒性缓解研究长期聚焦于单语环境，而随着多语言模型的兴起，安全措施的扩展需求日益凸显。该数据集通过翻译现有毒性标注数据构建而成，覆盖英语、葡萄牙语、西班牙语等九种语言，涵盖高资源与中资源语言。构建过程中，研究者选取了Jigsaw Unintended Bias数据集及Jigsaw多语言毒性分类挑战数据，并利用NLLB与M2M等机器翻译模型生成多语言版本，同时设计了完整规模与精选子集，以支持不同实验场景。此外，评估部分整合了Holistic Bias数据的翻译样本，确保了跨语言毒性评估的一致性。

特点

该数据集的核心特点在于其广泛的语言覆盖与多层次的结构设计。语言范围横跨印欧、闪含、阿尔泰等多个语系，兼顾了资源丰富与资源有限的语言环境，为多语言毒性研究提供了重要基础。数据组织上，训练集包含原始英语数据、多语言原生样本及多个翻译版本，其中翻译子集进一步区分了不同模型质量与内容选择策略，便于探究翻译质量对毒性迁移的影响。评估集则通过统一内容的多语言翻译，支持跨语言性能的公平比较。这种结构既保留了原始数据的毒性标注，又通过系统化翻译拓展了多语言分析维度。

使用方法

该数据集适用于多语言毒性缓解模型的训练与评估，尤其适合研究跨语言毒性迁移及缓解策略的有效性。使用者可依据实验目标选择相应数据子集：若需探究翻译质量的影响，可对比NLLB 1.3B与M2M 418M模型翻译的样本；若关注内容代表性，则可选用不同子集或完整翻译数据。评估时，可利用统一翻译的Holistic Bias子集进行跨语言性能测试。此外，数据集附带的实验结果文件可与配套代码结合，复现论文中的分析图表。需注意，数据包含毒性内容，应严格用于安全缓解研究，避免用于增强模型有害性。

背景与挑战

背景概述

随着多语言大模型的快速发展，模型安全性与伦理对齐问题日益凸显，尤其在毒性内容缓解领域，传统研究长期局限于单一语言环境。由Luiza Pozzobon、Patrick Lewis等研究人员于2024年构建的‘From One to Many’数据集，旨在填补多语言毒性缓解的研究空白。该数据集覆盖英语、葡萄牙语、西班牙语等九种语言，涵盖高资源至中资源语系，核心研究问题聚焦于跨语言毒性迁移机制与多语言安全对齐策略。通过整合Jigsaw多语言毒性分类挑战赛及Holistic Bias等权威数据源，并引入机器翻译构建平行语料，该工作为ACL Findings 2024提供了关键实验基础，推动了多语言模型安全领域的范式拓展。

当前挑战

该数据集致力于解决多语言环境下毒性内容检测与缓解的系统性挑战，其核心难点在于跨语言毒性表征的差异性以及低资源语言标注数据的稀缺性。构建过程中面临双重挑战：其一，依赖机器翻译生成多语言数据可能导致毒性语义失真或引入翻译偏差，需通过NLLB、M2M等不同规模翻译模型对比以控制质量波动；其二，原始数据源自异构标注体系，需协调Jigsaw英语偏差数据集与多语言毒性分类数据间的标注一致性，同时确保翻译后数据在语法与文化语境中的毒性标签有效性。这些挑战凸显了多语言安全对齐中数据质量与语言多样性的平衡难题。

常用场景

经典使用场景

在自然语言处理领域，多语言毒性缓解研究正成为确保人工智能安全的关键方向。该数据集通过整合英语、葡萄牙语、西班牙语等九种语言的毒性标注数据，为多语言毒性检测与缓解模型的训练与评估提供了标准化基准。其经典使用场景包括训练跨语言毒性分类器，以及评估不同翻译质量对模型去毒效果的影响，尤其适用于对比静态与持续毒性缓解策略在多样语言环境下的表现。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于多语言毒性缓解技术的比较与优化。例如，基于其翻译子集的研究对比了微调与检索增强方法在静态和持续去毒场景下的效能；同时，相关工作也深入分析了不同翻译模型（如NLLB与M2M）对跨语言毒性迁移的影响，推动了更鲁棒的多语言安全框架的发展，并为后续研究提供了可复现的实验基准。

数据集最近研究