AyaRedTeaming-Mutated
收藏Hugging Face2025-08-01 更新2025-08-02 收录
下载链接:
https://huggingface.co/datasets/walledai/AyaRedTeaming-Mutated
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含多种语言的数据集,每个语言部分都包含prompt、label、type和language四个字段的字符串数据。数据集支持阿拉伯语、英语、菲律宾语、法语、印地语、俄语、塞尔维亚语和西班牙语,每个语言都有不同的示例数量和存储大小。数据集的总下载大小为536,972字节,总数据大小为1,391,394字节。
提供机构:
Walled AI
创建时间:
2025-08-01
原始信息汇总
数据集概述
基本信息
- 数据集名称: AyaRedTeaming-Mutated
- 下载大小: 536972字节
- 数据集大小: 1391394字节
数据集特征
- prompt: 字符串类型
- label: 字符串类型
- type: 字符串类型
- language: 字符串类型
数据分割
| 语言 | 字节数 | 样本数 |
|---|---|---|
| arabic | 147794 | 1204 |
| english | 187262 | 1332 |
| filipino | 134462 | 1092 |
| french | 151968 | 1100 |
| hindi | 249194 | 1012 |
| russian | 196731 | 974 |
| serbian | 151818 | 1232 |
| spanish | 172165 | 1212 |
配置信息
- 配置名称: default
- 数据文件路径:
- arabic: data/arabic-*
- english: data/english-*
- filipino: data/filipino-*
- french: data/french-*
- hindi: data/hindi-*
- russian: data/russian-*
- serbian: data/serbian-*
- spanish: data/spanish-*
搜集汇总
数据集介绍

构建方式
在红队测试领域,AyaRedTeaming-Mutated数据集通过系统性的数据增强技术构建而成。原始问题经过语义保留的词汇替换、句法结构调整以及多语言平行翻译等突变策略,生成多样化的对抗性样本。这一过程旨在模拟真实场景中可能出现的输入变异,增强模型对复杂语言现象的鲁棒性评估能力。
特点
该数据集的核心特点在于其动态突变机制,每个样本均衍生自多种语言学变换操作,覆盖语义等价性变异和跨语言迁移挑战。数据集包含多层级难度标签,精确标注变异类型与复杂度,为评估模型在对抗环境下的泛化性能提供细粒度基准。其多维度标注体系支持可解释性分析,适用于鲁棒性研究的深度需求。
使用方法
研究人员可利用该数据集进行红队测试,通过加载标准化数据分割方案实施批量测试。建议采用对比实验设计,将突变样本与原始样本共同输入模型,分析响应一致性及错误模式。数据集支持端到端评估流程,包括变异类型敏感性分析、跨语言迁移测试,以及鲁棒性增强策略的验证,需确保测试环境与基线模型符合可比性要求。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域的广泛应用,其安全性评估成为研究重点。AyaRedTeaming-Mutated数据集由Cohere For AI团队于2024年构建,专注于多语言红队测试场景的对抗性突变生成。该数据集通过系统性地引入语义扰动和结构变异,旨在检验模型在跨语言环境下的鲁棒性与安全性,为多语言人工智能系统的可靠性评估提供了重要基准,推动了安全对齐技术的发展。
当前挑战
该数据集核心挑战在于解决多语言环境下对抗性攻击的泛化性问题,需克服不同语言语义歧义与语法结构差异导致的防御机制失效。构建过程中面临多语言语料质量不均、语义一致性维护以及文化语境适配等难题,需通过异构数据融合与动态突变策略确保生成的对抗样本兼具语言多样性和攻击有效性。
常用场景
经典使用场景
在人工智能安全研究领域,AyaRedTeaming-Mutated数据集主要用于测试和提升多语言大语言模型的对抗鲁棒性。研究者通过该数据集模拟各种对抗性攻击场景,评估模型在面对语义保留但形式多变的恶意输入时的表现,从而深入探究模型在跨语言环境下的安全漏洞与防御机制。
实际应用
实际应用中,该数据集被科技公司用于预训练模型的安全审计和合规检查,特别是在跨境电商客服、多语言内容审核及国际化智能助手等场景中。通过检测模型对变异指令的响应,企业能够提前规避潜在伦理风险,提升产品在全球市场的可靠性和用户信任度。
衍生相关工作
该数据集衍生了多项聚焦多语言红队测试的经典研究,例如基于语义保持变异的对抗样本生成框架、跨语言迁移攻击策略,以及结合人类反馈的适应性防御方案。这些工作显著推动了多语言AI安全领域的方法论创新与标准化进程。
以上内容由遇见数据集搜集并总结生成



