Unbabel/Multilingual-Red-Teaming

Name: Unbabel/Multilingual-Red-Teaming
Creator: Unbabel
Published: 2026-05-07 15:02:06
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/Unbabel/Multilingual-Red-Teaming

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于多语言红队测试，包含两个jsonl文件（一个英文，一个欧洲葡萄牙语），共计169个红队测试请求。这些请求来自三个不同的数据集：47个来自专有数据集，72个来自Haize Labs的Redteaming Resistance Leaderboard数据集，50个来自Babelscape的ALERT数据集。其中，149个是单一部分请求，10个是两部分请求的第一部分，另外10个是第二部分。数据集结构包括SOURCE（提示来源）、PROMPT（红队测试提示）和PROMPT TYPE（提示类型，区分单一部分和两部分请求）。

This dataset is for multilingual red teaming, containing two jsonl files (one in English and one in European Portuguese) with a total of 169 red teaming requests. These requests come from three different datasets: 47 from a proprietary dataset, 72 from Haize Labs Redteaming Resistance Leaderboard dataset, and 50 from Babelscapes ALERT dataset. Among these, 149 are single requests, 10 are two-part requests (part 1), and another 10 are two-part requests (part 2). The dataset structure includes SOURCE (the source of the prompt), PROMPT (the red teaming prompt), and PROMPT TYPE (distinguishing between single and two-part requests).

提供机构：

Unbabel

搜集汇总

数据集介绍

构建方式

该数据集为多语言红队攻击（Multilingual Red Teaming）任务而设计，涵盖了英语与欧洲葡萄牙语两种语言。其构建方式融合了三个不同来源的红队攻击提示：47条来自专有数据集，72条来自Haize Labs的Redteaming Resistance Leaderboard数据集，以及50条来自Babelscape的ALERT数据集。总计169条提示中，149条为单一请求，其余20条构成十组两部分的连续请求，旨在模拟更复杂的攻击场景。每条数据均标注了来源、提示文本及类型，便于后续分析与使用。

使用方法

数据集以两个JSON Lines文件形式提供，分别对应英语与欧洲葡萄牙语，每行包括SOURCE、PROMPT和PROMPT TYPE三个字段。用户可基于SOURCE字段追溯提示来源，分析不同数据集之间的差异；利用PROMPT TYPE字段区分单一请求与两部分的连续请求，以检验模型在多轮对话中的安全性。数据可直接用于训练或评估语言模型对红队攻击的抵御能力，加载时可通过标准JSON解析工具读取，并需注意处理数据中可能存在的敏感内容。

背景与挑战

背景概述

在人工智能安全领域，红队测试（Red Teaming）作为一种主动评估大语言模型脆弱性的关键方法，近年来备受关注。Multilingual-Red-Teaming数据集由多语言研究团队构建，旨在填补非英语语言红队测试资源的空白。该数据集整合了来自Haize Labs的Redteaming Resistance Leaderboard、Babelscape的ALERT等权威来源的169条红队测试请求，涵盖英语和欧洲葡萄牙语两种语言，包含单轮与两轮交互场景。其核心研究问题聚焦于跨语言环境下模型对有害提示的拒答能力评估，为多语言模型的安全对齐研究提供了标准化测试基准，推动了红队测试方法从单语言向多语言生态的扩展。

当前挑战

该数据集面临的核心挑战在于多语言红队测试中模型安全对齐的差异性问题：英语模型的安全防线往往难以直接迁移至其他语言，导致跨语言测试场景下模型可能更易生成有害内容。此外，构建过程中面临请求来源异构性的挑战，不同数据集（如商业私有数据与学术公开数据）的提示设计逻辑和难度层次存在显著差异，需通过归一化处理保证测试的公平性。数据集规模有限（169条请求）也限制了其对模型安全边界的全面覆盖，未来需扩展更多语言和多样化攻击类型以提升评估鲁棒性。

常用场景

经典使用场景

在大型语言模型安全性评估的领域中，Multilingual-Red-Teaming数据集为跨语言场景下的红队测试提供了经典基准。该数据集汇集了来自三个权威来源的169条高威胁性提示，涵盖英语和欧洲葡萄牙语两种语言，包括单轮与双轮对话请求。研究者常利用此数据集系统性地检验多语言语言模型在面对恶意指令时的防御能力，尤其是评估模型在对抗性输入下的拒绝率、偏见缓解表现以及生成内容的安全性。通过标准化测试流程，它已成为衡量模型稳健性的关键工具，推动了多语言安全评估的规范化发展。

解决学术问题

该数据集直面多语言语言模型在安全防护评估中的核心难题——缺乏统一、跨语种的高危提示集，使得不同研究间的结果难以横向对比。它有效解决了学术领域对可复现、可量化安全评估基准的迫切需求，让研究者能够客观衡量模型在英语与葡萄牙语环境下应对攻击行为的鲁棒性。其意义在于，通过异构数据源的整合，揭示了语言模型在非英语场景下可能存在的安全防护缺口，推动了多语言安全理论的完善，并为跨文化语境下的模型伦理研究提供了实证基础。

实际应用

在实际产业应用中，Multilingual-Red-Teaming数据集被广泛用于多语言内容审核系统的压力测试，帮助开发人员识别并修复模型在生成有害内容或泄露隐私方面的漏洞。例如，面向全球用户的智能客服、教育辅导和创作辅助工具，可通过该数据集的提示集验证不同语言版本的安全性差异。此外，社交媒体平台利用它训练反滥用过滤算法，强化对跨语言种族歧视、暴力煽动等敏感内容的实时拦截能力，从而提升产品在多元文化市场中的合规性与用户信任度。

数据集最近研究